|
|
Publicēts 27.04.2019 09:53:15
|
|
|

Lielo datu ieguve ir vērtīgas un potenciāli noderīgas informācijas un zināšanu atklāšanas process, kas paslēpts milzīgās, nepilnīgās, trokšņainās, izplūdušās un nejaušās lielās datu bāzēs, un tas ir arī lēmumu pieņemšanas process. Tas galvenokārt balstās uz mākslīgo intelektu, mašīnmācīšanos, modeļu mācīšanos, statistiku utt. Lielo datu ieguve ir vērtīgas un potenciāli noderīgas informācijas un zināšanu atklāšanas process, kas paslēpts milzīgās, nepilnīgās, trokšņainās, izplūdušās un nejaušās lielās datu bāzēs, un tas ir arī lēmumu pieņemšanas process. Tas galvenokārt balstās uz mākslīgo intelektu, mašīnmācīšanos, modeļu mācīšanos, statistiku utt.
(1) Klasifikācija. Klasifikācija ir noskaidrot datu bāzes datu objektu kopas kopīgās īpašības un sadalīt tās dažādās klasēs atbilstoši klasifikācijas modelim, kura mērķis ir kartēt datu bāzes elementus uz noteiktu kategoriju, izmantojot klasifikācijas modeli. To var piemērot lietojumprogrammu klasifikācijai un tendenču prognozēšanai, piemēram, Taobao veikali sadala lietotāju pirkumus dažādās kategorijās laika periodā un iesaka lietotājiem saistītus produktus atbilstoši situācijai, tādējādi palielinot veikala pārdošanas apjomu. Klasifikācijai var izmantot daudzus algoritmus, piemēram, lēmumu kokus, knn, Bayesian utt
(2) Regresijas analīze. Regresijas analīze atspoguļo datu bāzes datu atribūtu vērtību raksturlielumus un atklāj atkarības starp atribūtu vērtībām, izsakot datu kartēšanas attiecības ar funkcijām. To var piemērot datu sēriju prognozēšanai un korelācijai. Mārketingā regresijas analīzi var piemērot dažādiem aspektiem. Piemēram, veicot pārdošanas regresijas analīzi kārtējā ceturksnī, tiek prognozēta nākamā ceturkšņa pārdošanas tendence un veiktas mērķtiecīgas mārketinga izmaiņas. Izplatītākie regresijas algoritmi ietver parasto mazāko kvadrātu, loģistikas regresiju, pakāpenisku regresiju, multivariatīvo adaptīvo regresijas sprīnu un lokāli aplēsto Izkliedes diagrammas izlīdzināšana)
(3) Klasterizācija. Klasterizācija ir līdzīga klasifikācijai, bet atšķirībā no klasifikācijas tā sadala datu kopu kategorijās, pamatojoties uz datu līdzībām un atšķirībām. Līdzība starp datiem, kas pieder vienai kategorijai, ir ļoti liela, bet līdzība starp datiem starp dažādām kategorijām ir ļoti maza, un korelācija starp datiem dažādās kategorijās ir ļoti zema. Izplatītākie klasterizācijas algoritmi ietver k-Means algoritmu un gaidu maksimizāciju (EM).
(4) Biedrības noteikumi. Asociācijas kārtulas ir asociācijas vai attiecības starp slēptajiem datu vienumiem, tas ir, citu datu vienumu rašanos, pamatojoties uz viena datu vienuma izskatu. Asociācijas noteikumu ieguves process galvenokārt ietver divus posmus: pirmais posms ir atrast visas augstas frekvences projektu grupas no masīviem neapstrādātiem datiem; Otrā galējība ir ģenerēt asociācijas noteikumus no šīm augstas frekvences projektu grupām. Asociācijas noteikumu ieguves tehnoloģija ir plaši izmantota finanšu nozares uzņēmumos, lai prognozētu klientu vajadzības, un bankas uzlabo savu mārketingu, apvienojot informāciju, kas klientiem varētu būt interesanta, lai lietotāji saprastu un iegūtu atbilstošu informāciju savos bankomātos. Izplatītākie algoritmi ir Apriori algoritms un Eclat algoritms.
(5) Neironu tīkla metode. Kā progresīva mākslīgā intelekta tehnoloģija, neironu tīkls ir ļoti piemērots nelineāru un apstrādes problēmu risināšanai, ko raksturo neskaidras, nepilnīgas un neprecīzas zināšanas vai dati, un tā īpašības ir ļoti piemērotas datu ieguves problēmu risināšanai. Tipiski neironu tīklu modeļi galvenokārt ir sadalīti trīs kategorijās: pirmais ir feedforward neironu tīkla modelis klasifikācijas prognozēšanai un modeļu atpazīšanai, ko galvenokārt pārstāv funkcionālie tīkli un perceptroni; Otrā kategorija ir atgriezeniskās saites neironu tīkla modelis asociatīvās atmiņas un optimizācijas algoritmiem, ko pārstāv Hopfīlda diskrētais modelis un nepārtrauktais modelis. Trešā kategorija ir pašorganizējošā kartēšanas metode klasterizācijai, ko pārstāv ART modelis. Lai gan neironu tīkliem ir daudz modeļu un algoritmu, nav vienota noteikuma par to, kādus modeļus un algoritmus izmantot konkrētās datu ieguves jomās, un cilvēkiem ir grūti saprast tīklu mācīšanās un lēmumu pieņemšanas procesu.
(6) Tīmekļa datu ieguve. Tīmekļa datu ieguve ir visaptveroša tehnoloģija, kas attiecas uz tīmekli no dokumenta struktūras un kopas C, ko izmanto, lai atklātu netiešo modeli P, ja C tiek uzskatīts par ievadi, P tiek uzskatīts par izvadi, tad tīmekļa ieguves procesu var uzskatīt par kartēšanas procesu no ievades līdz izvadei. Šobrīd arvien vairāk tīmekļa datu parādās datu plūsmu veidā, tāpēc tiem ir liela nozīme tīmekļa datu plūsmas ieguvē. Šobrīd visbiežāk izmantotie tīmekļa datizraces algoritmi ir: PageRank algoritms, HITS algoritms un LOGSOM algoritms. Šajos trijos algoritmos minētie lietotāji ir vispārēji lietotāji un nenošķir atsevišķus lietotājus. Šobrīd tīmekļa datu ieguve saskaras ar dažām problēmām, tostarp: lietotāju klasifikācija, vietnes satura savlaicīgums, lietotāja uzturēšanās laiks lapā, lapu saites uz un no numuriem utt. Mūsdienu straujā tīmekļa tehnoloģiju attīstībā šīs problēmas joprojām ir vērts izpētīt un atrisināt.
(7) Dziļā mācīšanās Dziļās mācīšanās algoritmi ir mākslīgo neironu tīklu izstrāde. Nesen tas ir ieguvis lielu uzmanību, īpaši pēc tam, kad Baidu ir sācis attīstīt dziļo mācīšanos, kas ir piesaistījusi lielu uzmanību Ķīnā. Mūsdienu pasaulē, kur skaitļošanas jauda kļūst lētāka, dziļā mācīšanās mēģina veidot daudz lielākus un sarežģītākus neironu tīklus. Daudzi dziļās mācīšanās algoritmi ir daļēji uzraudzīti mācīšanās algoritmi, ko izmanto, lai apstrādātu lielas datu kopas ar nelielu neidentificētu datu apjomu. Izplatītākie dziļās mācīšanās algoritmi ietver: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks un Stacked Auto-encoders.
(8) Integrācijas algoritms Ansambļa algoritms izmanto dažus salīdzinoši vājus mācīšanās modeļus, lai patstāvīgi apmācītu to pašu paraugu, un pēc tam integrē rezultātus vispārējai prognozei. Ansambļa algoritma galvenā grūtība ir tā, kādi neatkarīgi vājāki mācīšanās modeļi ir integrēti un kā integrēt mācību rezultātus. Šī ir ļoti spēcīga algoritmu klase un tajā pašā laikā ļoti populāra. Izplatītākie algoritmi ietver: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) un Random Forest.
Turklāt dimensiju samazināšana ir ļoti svarīga arī datu analīzes inženierijā, piemēram, klasteru algoritmi, dimensiju samazināšanas algoritmi mēģina analizēt datu iekšējo struktūru, bet dimensiju samazināšanas algoritmi cenšas izmantot mazāk informācijas, lai apkopotu vai interpretētu datus neuzraudzītā mācīšanās veidā. Šos algoritmus var izmantot, lai vizualizētu augstas dimensijas datus vai vienkāršotu datus uzraudzītai mācībai. Izplatītākie algoritmi ietver: principu komponentu analīzi (PCA), daļēju mazāko kvadrātu regresiju (PLS), sammona kartēšanu, daudzdimensiju mērogošanu (MDS), projekcijas vajāšanu utt.
Lai detalizēti analizētu dažu algoritmu priekšrocības un trūkumus un algoritmu atlases atsauces, varat apskatīt vairāku bieži izmantoto algoritmu adaptācijas scenārijus un to priekšrocības un trūkumus šajā emuārā (ļoti labi)
Tālāk ir no rindkopas no iepriekš minētā emuāra: Algoritma izvēles atsauce:
Es iepriekš esmu tulkojis dažus ārzemju rakstus, un vienā rakstā ir sniegta vienkārša algoritma izvēles tehnika:
Ja tā ietekme nav laba, tad tās rezultātus var izmantot kā atsauci un salīdzināt ar citiem algoritmiem.
Pēc tam izmēģiniet lēmumu koku (nejaušs mežs), lai redzētu, vai tas var ievērojami uzlabot jūsu modeļa veiktspēju. Pat ja jūs to neizmantojat kā galīgo modeli, jūs varat izmantot nejaušu mežu, lai noņemtu trokšņa mainīgos un atlasītu funkcijas;
Ja funkciju un novērojumu paraugu skaits ir īpaši liels, tad SVM izmantošana ir iespēja, ja resursi un laiks ir pietiekami (šis priekšnoteikums ir svarīgs).
Parasti: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Cits...], tagad dziļā mācīšanās ir ļoti populāra, tiek izmantota daudzās jomās, tās pamatā ir neironu tīkli, es šobrīd mācos pats, bet teorētiskās zināšanas nav ļoti biezas, izpratne nav pietiekami dziļa, es to šeit neiepazīstināšu.
Algoritmi ir svarīgi, bet labi dati ir labāki par labiem algoritmiem, un labu funkciju izstrāde ir liels ieguvums. Ja jums ir ļoti liela datu kopa, tad neatkarīgi no tā, kuru algoritmu izmantojat, tas var neietekmēt klasifikācijas veiktspēju (varat izvēlēties, pamatojoties uz ātrumu un lietošanas ērtumu).
|
Iepriekšējo:Vaicājuma rezultātu konvertēšana uz Json formāta skriptu koplietošanuNākamo:C# ir Windows pakalpojums, kas regulāri izpilda uzdevumus
|