Algoritmi comuni pentru partajarea big data (aplicații)

Rezolvă rețeaua excelentă de talente · Postat pe 27.04.2019 09:53:15

Mineritul de big data este procesul de descoperire a unor informații și cunoștințe valoroase și potențial utile, ascunse în baze de date masive, incomplete, zgomotoase, neclare și aleatorii, și este, de asemenea, un proces de suport decizional. Se bazează în principal pe inteligență artificială, învățare automată, învățare de tipare, statistică etc. Mineritul de big data este procesul de descoperire a unor informații și cunoștințe valoroase și potențial utile, ascunse în baze de date masive, incomplete, zgomotoase, neclare și aleatorii, și este, de asemenea, un proces de suport decizional. Se bazează în principal pe inteligență artificială, învățare automată, învățare de tipare, statistică etc.

(1) Clasificare. Clasificarea este de a identifica caracteristicile comune ale unui set de obiecte de date din baza de date și de a le împărți în clase diferite conform modelului de clasificare, scopul căruia este de a mapa elementele de date din baza de date către o anumită categorie prin modelul de clasificare. Poate fi aplicată clasificării aplicațiilor și predicției tendințelor, cum ar fi magazinele Taobao care împart cumpărăturile utilizatorilor în categorii diferite pe o perioadă de timp și recomandă produse conexe utilizatorilor în funcție de situație, crescând astfel volumul vânzărilor magazinului. Pot fi folosiți mulți algoritmi pentru clasificare, cum ar fi arborii decizionali, knn, bayesian etc

(2) Analiza regresiei. Analiza de regresie reflectă caracteristicile valorilor atributelor datelor din baza de date și descoperă dependențele dintre valorile atributelor exprimând relația dintre maparea datelor prin funcții. Poate fi aplicată predicției și corelației seriilor de date. În marketing, analiza regresiei poate fi aplicată în diverse aspecte. De exemplu, prin analiza de regresie a vânzărilor din trimestrul curent, se prezice tendința vânzărilor din trimestrul următor și se fac schimbări țintite în marketing. Algoritmii comuni de regresie includ Ordinary Least Square, Logistic Regression, Backward Regression, Multivariate Adaptive Regression Splines și Local Estimated Netezirea diagramelor de dispersie)

(3) Grupare. Clusterizarea este similară cu clasificarea, dar, spre deosebire de clasificare, ea împarte un set de date în categorii pe baza asemănărilor și diferențelor dintre date. Similaritatea datelor aparținând aceleiași categorii este foarte mare, dar similaritatea dintre datele din diferite categorii este foarte mică, iar corelația dintre datele din diverse categorii este foarte scăzută. Algoritmii comuni de clusterizare includ algoritmul k-Means și maximizarea așteptărilor (EM).

(4) Regulile asociației. Regulile de asociere sunt asocieri sau relații între elemente de date ascunse, adică apariția altor elemente de date poate fi dedusă pe baza apariției unui element de date. Procesul de exploatare al regulilor asociațiilor include în principal două etape: prima etapă este găsirea tuturor grupurilor de proiecte de înaltă frecvență din date brute masive; Al doilea extrem este generarea regulilor de asociere din aceste grupuri de proiecte cu frecvență ridicată. Tehnologia de mining a regulilor asociate a fost folosită pe scară largă în întreprinderile din industria financiară pentru a prezice nevoile clienților, iar băncile își îmbunătățesc marketingul prin pachetarea informațiilor care îi interesează pe clienți, astfel încât utilizatorii să poată înțelege și obține informații corespunzătoare pe bancomatele lor. Algoritmii comuni includ algoritmul Apriori și algoritmul Eclat.

(5) Metoda rețelei neuronale. Fiind o tehnologie avansată de inteligență artificială, rețeaua neuronală este foarte potrivită pentru gestionarea problemelor neliniare și de procesare caracterizate de cunoștințe sau date vagi, incomplete și inexacte, iar caracteristicile sale sunt foarte potrivite pentru rezolvarea problemelor de extragere a datelor. Modelele tipice de rețele neuronale sunt împărțite în principal în trei categorii: prima este modelul de rețea neuronală feedforward pentru clasificare, predicție și recunoaștere a tiparelor, reprezentat în principal de rețele funcționale și perceptroni; A doua categorie este modelul rețelei neuronale cu feedback pentru memoria asociativă și algoritmi de optimizare, reprezentat de modelul discret și modelul continuu al lui Hopfield. A treia categorie este metoda de cartografiere auto-organizată pentru clusterizare, reprezentată de modelul ART. Deși există multe modele și algoritmi pentru rețele neuronale, nu există o regulă uniformă privind modelele și algoritmii de folosit în domenii specifice ale extragerii datelor, iar pentru oameni este dificil să înțeleagă procesul de învățare și luare a deciziilor în rețele.

(6) Mineritul de date web. Web data mining este o tehnologie cuprinzătoare, care se referă la Web pornind de la structura documentului și setul C folosit pentru a descoperi modelul implicit P; dacă C este considerat ca intrare, P este considerat ca ieșire, atunci procesul web mining poate fi privit ca un proces de mapare de la intrare la ieșire. În prezent, tot mai multe date web apar sub formă de fluxuri de date, așa că acestea sunt de mare importanță pentru extragerea fluxurilor de date web. În prezent, algoritmii de web data mining utilizați frecvent sunt: algoritmul PageRank, algoritmul HITS și algoritmul LOGSOM. Utilizatorii menționați în acești trei algoritmi sunt utilizatori generali și nu fac distincție între utilizatori individuali. În prezent, web data mining se confruntă cu unele probleme, inclusiv: clasificarea utilizatorilor, punctualitatea conținutului site-ului, timpul petrecut pe pagină, numărul de linkuri de intrare și ieșire a paginilor etc. În dezvoltarea rapidă a tehnologiei web de astăzi, aceste probleme merită încă studiate și rezolvate.

(7) Învățare profundă
Algoritmii de învățare profundă reprezintă dezvoltarea rețelelor neuronale artificiale. Recent, a atras multă atenție, mai ales după ce Baidu a început să dezvolte și învățarea profundă, care a atras multă atenție în China. În lumea de astăzi, unde puterea de calcul devine tot mai ieftină, învățarea profundă încearcă să construiască rețele neuronale mult mai mari și mai complexe. Mulți algoritmi de învățare profundă sunt algoritmi de învățare semi-supravegheată folosiți pentru a procesa seturi mari de date cu o cantitate mică de date neidentificate. Algoritmii comuni de învățare profundă includ: Mașina Boltzmann restricționată (RBN), Rețelele de credință profundă (DBN), Rețelele convoluționale și Auto-encoderele stivuite.

(8) Algoritm de integrare
Algoritmul de ansamblu folosește unele modele de învățare relativ slabe pentru a se antrena independent pe același eșantion și apoi integrează rezultatele pentru predicția generală. Principala dificultate a algoritmului de ansamblu este care modele independente de învățare mai slabe sunt integrate și cum se integrează rezultatele învățării. Aceasta este o clasă foarte puternică de algoritmi și, în același timp, foarte populară. Algoritmii comuni includ: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) și Random Forest.

În plus, reducerea dimensionalității este foarte importantă și în ingineria analizei datelor; la fel ca algoritmii de clusterizare, algoritmii de reducere a dimensionalității încearcă să analizeze structura internă a datelor, dar algoritmii de reducere a dimensionalității încearcă să folosească mai puține informații pentru a rezuma sau interpreta datele într-un mod nesupravegheat de învățare. Acești algoritmi pot fi folosiți pentru a vizualiza date de înaltă dimensiune sau pentru a simplifica datele pentru învățarea supravegheată. Algoritmii comuni includ: Analiza componentelor principale (PCA), Regresia parțială a celor mai mici pătrate (PLS), Maparea Sammon, Scalarea Multidimensională (MDS), Urmărirea proiecției etc.

Pentru o analiză detaliată a avantajelor și dezavantajelor unor algoritmi și a referințelor de selecție a algoritmilor, puteți consulta scenariile de adaptare ale mai multor algoritmi utilizați frecvent și avantajele și dezavantajele lor în următorul blog (foarte bun)

Următorul text este dintr-un paragraf de pe blogul de mai sus:
Referință pentru selecția algoritmului:

Am tradus câteva articole străine înainte, iar un articol oferă o tehnică simplă de selecție a algoritmilor:

Dacă efectul său nu este bun, atunci rezultatele pot fi folosite ca referință și comparate cu alți algoritmi pe această bază.

Apoi încearcă arborele decizional (pădure aleatorie) să vezi dacă poate îmbunătăți dramatic performanța modelului tău. Chiar dacă nu îl folosești ca model final la final, poți folosi o pădure aleatorie pentru a elimina variabilele de zgomot și a selecta caracteristici;

Dacă numărul de caracteristici și eșantioane observaționale este deosebit de mare, atunci utilizarea SVM este o opțiune atunci când resursele și timpul sunt suficiente (această premisă este importantă).

De obicei: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Altele...], acum învățarea profundă este foarte populară, folosită în multe domenii, se bazează pe rețele neuronale, în prezent învăț singur, dar cunoștințele teoretice nu sunt foarte solide, înțelegerea nu este suficient de profundă, nu o voi introduce aici.

Algoritmii sunt importanți, dar datele bune sunt mai bune decât algoritmii buni, iar proiectarea unor funcționalități bune este de mare beneficiu. Dacă ai un set de date foarte mare, indiferent de algoritmul pe care îl folosești, s-ar putea să nu afecteze prea mult performanța clasificării (poți alege în funcție de viteză și ușurință de utilizare).

Rezolvă rețeaua excelentă de talente · Postat pe 27.05.2019 08:27:15

Bună dimineața tuturor

Rezolvă rețeaua excelentă de talente · Postat pe 16.09.2019 12:10:06

Algoritmii sunt foarte bine plătiți și sunt bineveniți să sune

Algoritmi comuni pentru partajarea big data (aplicații)

Secțiuni vizualizate