Almindelige algoritmer til deling af big data (applikationer)

Løs netværket af fremragende talenter · Opslået på 27/04/2019 09.53.15

Big data-mining er processen med at opdage værdifuld og potentielt nyttig information og viden, der er skjult i massive, ufuldstændige, støjende, uklare og tilfældige store databaser, og det er også en beslutningsstøtteproces. Det er hovedsageligt baseret på kunstig intelligens, maskinlæring, mønsterlæring, statistik osv. Big data-mining er processen med at opdage værdifuld og potentielt nyttig information og viden, der er skjult i massive, ufuldstændige, støjende, uklare og tilfældige store databaser, og det er også en beslutningsstøtteproces. Det er hovedsageligt baseret på kunstig intelligens, maskinlæring, mønsterlæring, statistik osv.

(1) Klassifikation. Klassifikation er at finde de fælles karakteristika ved et sæt dataobjekter i databasen og opdele dem i forskellige klasser efter klassifikationsmønsteret, hvis formål er at kortlægge dataelementerne i databasen til en given kategori gennem klassifikationsmodellen. Det kan anvendes til applikationsklassifikation og trendforudsigelse, såsom at Taobao-butikker opdeler brugernes køb i forskellige kategorier over tid og anbefaler relaterede produkter til brugerne efter situationen, hvilket øger butikkens salgsvolumen. Mange algoritmer kan bruges til klassificering, såsom beslutningstræer, knn, bayesiansk osv

(2) Regressionsanalyse. Regressionsanalyse afspejler karakteristika for attributværdier i data i databasen og opdager afhængighederne mellem attributværdier ved at udtrykke forholdet mellem datakortlægning gennem funktioner. Den kan anvendes til forudsigelse og korrelation af dataserier. Inden for markedsføring kan regressionsanalyse anvendes på forskellige aspekter. For eksempel forudsiges salgstrenden for næste kvartal gennem regressionsanalysen af salget i det nuværende kvartal, og der foretages målrettede markedsføringsændringer. Almindelige regressionsalgoritmer inkluderer Ordinary Least Square, Logistic Regression, Stepwise Regression, Multivariate Adaptive Regression Splines og Lokalt Estimeret Spredningsdiagram-udjævning)

(3) Klyngedannelse. Klyngedannelse ligner klassifikation, men i modsætning til klassifikation opdeler det et datasæt i kategorier baseret på ligheder og forskelle i data. Ligheden mellem data fra samme kategori er meget stor, men ligheden mellem data mellem forskellige kategorier er meget lille, og korrelationen mellem data på tværs af kategorier er meget lav. Almindelige klyngealgoritmer inkluderer k-Means-algoritmen og forventningsmaksimering (EM).

(4) Foreningsregler. Associationsregler er associationer eller relationer mellem skjulte dataelementer, det vil sige, forekomsten af andre dataelementer kan udledes ud fra forekomsten af et enkelt dataelement. Miningprocessen for associationsregler består hovedsageligt af to faser: den første fase er at finde alle højfrekvente projektgrupper ud fra massive rådata; Den anden yderlighed er at generere associationsregler fra disse højfrekvente projektgrupper. Association rule mining-teknologi er blevet bredt anvendt i finansielle virksomheder til at forudsige kundernes behov, og banker forbedrer deres markedsføring ved at samle information, som kunder kan være interesserede i, så brugerne kan forstå og få tilsvarende information på deres hæveautomater. Almindelige algoritmer inkluderer Apriori-algoritmen og Eclat-algoritmen.

(5) Metoden med neurale netværk. Som en avanceret kunstig intelligens-teknologi er neuralt netværk meget velegnet til håndtering af ikke-lineære og behandlingsproblemer kendetegnet ved vag, ufuldstændig og unøjagtig viden eller data, og dets egenskaber er meget velegnede til at løse data mining-problemer. Typiske neurale netværksmodeller opdeles hovedsageligt i tre kategorier: den første er feedforward-neurale netværksmodellen til klassifikationsforudsigelse og mønstergenkendelse, som hovedsageligt repræsenteres af funktionelle netværk og perceptroner; Den anden kategori er feedback-neurale netværksmodellen for associativ hukommelse og optimeringsalgoritmer, repræsenteret ved Hopfields diskrete model og kontinuerlige model. Den tredje kategori er den selvorganiserende kortlægningsmetode for klyngedannelse, repræsenteret ved ART-modellen. Selvom der findes mange modeller og algoritmer for neurale netværk, findes der ingen ensartet regel for, hvilke modeller og algoritmer der skal bruges inden for specifikke områder af data mining, og det er svært for folk at forstå lærings- og beslutningsprocessen i netværk.

(6) Web datamining. Web data mining er en omfattende teknologi, som refererer til webben ud fra dokumentstrukturen og mængden C, der bruges til at opdage det implicitte mønster P; hvis C betragtes som input, P betragtes som output, kan web mining-processen betragtes som en kortlægningsproces fra input til output. I øjeblikket dukker flere og flere webdata op i form af datastrømme, så det er af stor betydning for webdataflow-mining. I øjeblikket er de mest anvendte webdatamining-algoritmer: PageRank-algoritmen, HITS-algoritmen og LOGSOM-algoritmen. De brugere, der nævnes i disse tre algoritmer, er almindelige brugere og skelner ikke mellem individuelle brugere. I øjeblikket står webdatamining over for nogle problemer, herunder: brugerklassifikation, aktualitet med websiteindhold, brugerens opholdstid på siden, antal sidelinks ind og ud osv. I dagens hurtige udvikling af webteknologi er disse problemer stadig værd at studere og løse.

(7) Dyb læring
Deep learning-algoritmer er udviklingen af kunstige neurale netværk. Det har for nylig fået meget opmærksomhed, især efter at Baidu også er begyndt at udvikle deep learning, som har tiltrukket stor opmærksomhed i Kina. I dagens verden, hvor computerkraft bliver billigere, forsøger deep learning at bygge neurale netværk, der er meget større og mere komplekse. Mange deep learning-algoritmer er semi-superviserede læringsalgoritmer, der bruges til at behandle store datasæt med en lille mængde uidentificerede data. Almindelige deep learning-algoritmer inkluderer: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks og Stacked Auto-encoders.

(8) Integrationsalgoritme
Ensemble-algoritmen bruger nogle relativt svage læringsmodeller til uafhængigt at træne på samme prøve og integrerer derefter resultaterne for den samlede forudsigelse. Den største udfordring ved ensemble-algoritmen er, hvilke uafhængige svagere læringsmodeller der integreres, og hvordan læringsresultaterne integreres. Dette er en meget kraftfuld klasse af algoritmer og samtidig meget populær. Almindelige algoritmer inkluderer: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) og Random Forest.

Derudover er dimensionsreduktion også meget vigtig i dataanalyseingeniørarbejde; ligesom klyngealgoritmer, forsøger dimensionsreduktionsalgoritmer at analysere datas interne struktur, men dimensionsreduktionsalgoritmer forsøger at bruge mindre information til at opsummere eller fortolke data på en uovervåget læringsmåde. Disse algoritmer kan bruges til at visualisere højdimensionelle data eller til at forenkle data til superviseret læring. Almindelige algoritmer inkluderer: Principal Component Analysis (PCA), Partial Least Square Regression (PLS), Sammon Mapping, Multi-Dimensional Scaling (MDS), Projection Pursuit osv.

For en detaljeret analyse af fordele og ulemper ved nogle algoritmer og algoritmeudvælgelsesreferencer kan du se på tilpasningsscenarierne for flere almindeligt anvendte algoritmer samt deres fordele og ulemper i den følgende blog (meget god)

Følgende er fra et afsnit fra bloggen ovenfor:
Algoritmeudvælgelsesreference:

Jeg har tidligere oversat nogle udenlandske artikler, og en artikel giver en simpel algoritmeudvælgelsesteknik:

Hvis dens effekt ikke er god, kan dens resultater bruges som reference og sammenlignes med andre algoritmer på basis.

Prøv derefter beslutningstræet (random forest) for at se, om det dramatisk kan forbedre din models ydeevne. Selv hvis du ikke bruger det som den endelige model til sidst, kan du bruge en tilfældig skov til at fjerne støjvariabler og vælge funktioner;

Hvis antallet af funktioner og observationsprøver er særligt stort, er SVM en mulighed, når ressourcer og tid er tilstrækkelige (dette udgangspunkt er vigtigt).

Normalt: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Other...], nu er deep learning meget populært, brugt i mange felter, det er baseret på neurale netværk, jeg er selv ved at lære det lige nu, men den teoretiske viden er ikke særlig omfattende, forståelsen er ikke dyb nok, jeg vil ikke introducere det her.

Algoritmer er vigtige, men gode data er bedre end gode algoritmer, og det er en stor fordel at designe gode funktioner. Hvis du har et meget stort datasæt, så påvirker det måske ikke klassifikationspræstationen meget uanset hvilken algoritme du bruger (du kan vælge ud fra hastighed og brugervenlighed).

Løs netværket af fremragende talenter · Opslået på 27/05/2019 08.27.15

Godmorgen alle sammen

Løs netværket af fremragende talenter · Opslået på 16/09/2019 12.10.06

Algoritmer er højt betalte og er velkomne til at ringe

Almindelige algoritmer til deling af big data (applikationer)

Afsnit set