Pogosti algoritmi za deljenje velikih podatkov (aplikacije)

Rešite mrežo odličnih talentov · Objavljeno na 27. 04. 2019 09:53:15

Rudarjenje velikih podatkov je proces odkrivanja dragocenih in potencialno uporabnih informacij ter znanja, skritih v ogromnih, nepopolnih, hrupnih, zamegljenih in naključnih velikih podatkovnih bazah, hkrati pa je tudi proces podpore odločanju. Temelji predvsem na umetni inteligenci, strojnem učenju, učenju vzorcev, statistiki itd. Rudarjenje velikih podatkov je proces odkrivanja dragocenih in potencialno uporabnih informacij ter znanja, skritih v ogromnih, nepopolnih, hrupnih, zamegljenih in naključnih velikih podatkovnih bazah, hkrati pa je tudi proces podpore odločanju. Temelji predvsem na umetni inteligenci, strojnem učenju, učenju vzorcev, statistiki itd.

(1) Klasifikacija. Klasifikacija pomeni ugotoviti skupne značilnosti nabora podatkovnih objektov v bazi podatkov in jih razdeliti v različne razrede glede na vzorec klasifikacije, katerega namen je preslikati podatkovne elemente v bazi podatkov v določeno kategorijo preko klasifikacijskega modela. Uporablja se lahko pri klasifikaciji aplikacij in napovedovanju trendov, na primer Taobao trgovine razdelijo nakupe uporabnikov v različne kategorije skozi časovno obdobje in uporabnikom priporočajo sorodne izdelke glede na situacijo, s čimer povečajo obseg prodaje trgovine. Za klasifikacijo se lahko uporablja veliko algoritmov, kot so odločitvena drevesa, knn, Bayesian itd

(2) Regresijsko analizo. Regresijska analiza odraža značilnosti vrednosti atributov podatkov v bazi podatkov in odkriva odvisnosti med vrednostmi atributov z izražanjem povezave med preslikavo podatkov skozi funkcije. Uporablja se lahko za napovedovanje in korelacijo podatkovnih vrst. V marketingu se regresijska analiza lahko uporablja na različnih področjih. Na primer, z regresijsko analizo prodaje v tekočem četrtletju se napove prodajni trend za naslednje četrtletje in izvedejo ciljno usmerjene marketinške spremembe. Pogosti regresijski algoritmi vključujejo običajno metodo najmanjšega kvadrata, logistično regresijo, stopničasto regresijo, večspremenljivostne adaptivne regresijske spline in lokalno ocenjene Zglajevanje scatterplota)

(3) Združevanje. Združevanje je podobno klasifikaciji, vendar za razliko od klasifikacije razdeli nabor podatkov v kategorije glede na podobnosti in razlike v podatkih. Podobnost med podatki, ki pripadajo isti kategoriji, je zelo velika, vendar je podobnost med podatki med različnimi kategorijami zelo majhna, korelacija med podatki med kategorijami pa zelo nizka. Pogosti algoritmi za gručenje vključujejo k-Means algoritem in maksimacijo pričakovanj (EM).

(4) Pravila združenja. Pravila asociacij so povezave ali odnosi med skritimi podatkovnimi elementi, torej je mogoče sklepati o pojavu drugih podatkovnih elementov na podlagi pojava enega podatkovnega elementa. Postopek rudarjenja pravil združenj vključuje predvsem dve fazi: prva faza je iskanje vseh visokofrekvenčnih projektnih skupin iz ogromnih surovih podatkov; Druga skrajnost je ustvarjanje pravil asociacij iz teh visokofrekvenčnih projektnih skupin. Tehnologija rudarjenja pravil združenj se pogosto uporablja v finančnih podjetjih za napovedovanje potreb strank, banke pa izboljšujejo svoj marketing z združevanjem informacij, ki bi lahko zanimale stranke, da jih uporabniki razumejo in pridobijo ustrezne podatke na svojih bankomatih. Pogosti algoritmi vključujejo Apriori algoritem in Eclat algoritem.

(5) Metoda nevronske mreže. Kot napredna tehnologija umetne inteligence je nevronska mreža zelo primerna za reševanje nelinearnih in procesnih problemov, ki jih zaznamujejo nejasno, nepopolno in netočno znanje ali podatki, njene značilnosti pa so zelo primerne za reševanje problemov rudarjenja podatkov. Tipični modeli nevronskih mrež so večinoma razdeljeni v tri kategorije: prva je model nevronskih mrež s feedforwardom za napovedovanje klasifikacije in prepoznavanje vzorcev, ki ga večinoma predstavljajo funkcionalne mreže in perceptroni; Druga kategorija je model povratne nevronske mreže za algoritme asociativnega spomina in optimizacije, ki ga predstavlja Hopfieldov diskretni model in zvezni model. Tretja kategorija je samoorganizirajoča se metoda preslikave za gručenje, predstavljena z modelom ART. Čeprav obstaja veliko modelov in algoritmov za nevronske mreže, ni enotnega pravila o tem, katere modele in algoritme uporabiti na določenih področjih rudarjenja podatkov, zato je ljudem težko razumeti proces učenja in odločanja v omrežjih.

(6) Spletno rudarjenje podatkov. Spletno rudarjenje podatkov je celovita tehnologija, ki se nanaša na splet iz strukture dokumenta in množico C, ki se uporablja za odkrivanje implicitnega vzorca P; če je C vhod, P pa izhod, potem lahko proces spletnega rudarjenja obravnavamo kot preslikavo od vhoda do izhoda. Trenutno se vse več spletnih podatkov pojavlja v obliki podatkovnih tokov, zato imajo velik pomen za rudarjenje spletnih podatkovnih tokov. Trenutno so najpogosteje uporabljeni algoritmi za rudarjenje spletnih podatkov: algoritem PageRank, algoritem HITS in algoritem LOGSOM. Uporabniki, omenjeni v teh treh algoritmih, so splošni uporabniki in ne razlikujejo med posameznimi uporabniki. Trenutno se spletno rudarjenje podatkov sooča z nekaterimi težavami, vključno z: klasifikacijo uporabnikov, časovnico vsebine spletne strani, časom bivanja uporabnikov na strani, številom povezav do strani noter in ven itd. V današnjem hitrem razvoju spletne tehnologije so ti problemi še vedno vredni raziskovanja in reševanja.

(7) Globoko učenje
Algoritmi globokega učenja so razvoj umetnih nevronskih mrež. V zadnjem času je pritegnil veliko pozornosti, še posebej potem, ko je Baidu začel razvijati globoko učenje, ki je pritegnilo veliko pozornosti na Kitajskem. V današnjem svetu, ko računalniška moč postaja cenejša, globoko učenje poskuša zgraditi nevronske mreže, ki so veliko večje in bolj kompleksne. Veliko algoritmov globokega učenja so polnadzorovani algoritmi učenja, ki se uporabljajo za obdelavo velikih podatkovnih nizov z majhno količino neidentificiranih podatkov. Pogosti algoritmi globokega učenja vključujejo: omejeni Boltzmannov stroj (RBN), globoka omrežja prepričanj (DBN), konvolucijska omrežja in zložene avtomatske kodirnike.

(8) Algoritem integracije
Ansambelski algoritem uporablja nekatere razmeroma šibke učne modele za neodvisno učenje na istem vzorcu in nato integrira rezultate za splošno napoved. Glavna težava ansambelskega algoritma je, kateri neodvisni šibkejši učni modeli so integrirani in kako integrirati učne rezultate. To je zelo zmogljiv razred algoritmov in hkrati zelo priljubljen. Pogosti algoritmi vključujejo: Boosting, Bootstrapped Aggregation (bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) in Random Forest.

Poleg tega je zmanjševanje dimenzionalnosti zelo pomembno tudi v inženirstvu analize podatkov, kot so algoritmi za združevanje dimenzionalnosti; algoritmi za zmanjšanje dimenzionalnosti poskušajo analizirati notranjo strukturo podatkov, medtem ko algoritmi za zmanjšanje dimenzionalnosti poskušajo uporabiti manj informacij za povzetek ali interpretacijo podatkov na nenadzorovan način učenja. Ti algoritmi se lahko uporabljajo za vizualizacijo visokodimenzionalnih podatkov ali za poenostavitev podatkov za nadzorovano učenje. Pogosti algoritmi vključujejo: analizo glavnih komponent (PCA), parcialno regresijo najmanjših kvadratov (PLS), Sammonovo preslikavo, večdimenzionalno skaliranje (MDS), iskanje projekcije itd.

Za podrobno analizo prednosti in slabosti nekaterih algoritmov ter referenc za izbiro algoritmov si lahko v naslednjem blogu ogledate scenarije prilagajanja več pogosto uporabljenih algoritmov ter njihove prednosti in slabosti (zelo dobro)

Naslednje je iz odstavka z zgornjega bloga:
Referenca izbire algoritma:

Že prej sem prevajal nekaj tujih člankov, eden od njih pa predstavi preprosto tehniko izbire algoritmov:

Če učinek ni dober, se rezultati lahko uporabijo kot referenca in primerjajo z drugimi algoritmi na bazi.

Nato poskusi odločitveno drevo (naključni gozd), da vidiš, ali lahko bistveno izboljša zmogljivost modela. Tudi če ga na koncu ne uporabite kot končni model, lahko uporabite naključni gozd za odstranitev šumnih spremenljivk in izbiro značilnosti;

Če je število značilnosti in opazovalnih vzorcev posebej veliko, je uporaba SVM možnost, kadar so sredstva in čas zadostni (ta predpostavka je pomembna).

Običajno: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Drugo...], globoko učenje je zdaj zelo priljubljeno, uporablja se na mnogih področjih, temelji na nevronskih mrežah, sam se trenutno učim, vendar teoretično znanje ni zelo obsežno, razumevanje ni dovolj globoko, tukaj ga ne bom razlagal.

Algoritmi so pomembni, vendar so dobri podatki boljši od dobrih algoritmov, oblikovanje dobrih funkcij pa je zelo koristno. Če imate zelo velik nabor podatkov, potem ne glede na to, kateri algoritem uporabljate, to morda ne vpliva bistveno na zmogljivost klasifikacije (lahko izberete glede na hitrost in enostavnost uporabe).

Rešite mrežo odličnih talentov · Objavljeno na 27. 05. 2019 08:27:15

Dobro jutro vsem

Rešite mrežo odličnih talentov · Objavljeno na 16. 09. 2019 12:10:06

Algoritmi so dobro plačani in dobrodošli na klic

Pogosti algoritmi za deljenje velikih podatkov (aplikacije)

Ogledi odsekov