|
|
Paskelbta 2019-04-27 09:53:15
|
|
|

Didžiųjų duomenų gavyba – tai vertingos ir potencialiai naudingos informacijos ir žinių, paslėptų didžiulėse, neišsamiose, triukšmingose, neaiškiose ir atsitiktinėse didelėse duomenų bazėse, atradimo procesas, taip pat sprendimų palaikymo procesas. Jis daugiausia pagrįstas dirbtiniu intelektu, mašininiu mokymusi, modelių mokymusi, statistika ir kt. Didžiųjų duomenų gavyba – tai vertingos ir potencialiai naudingos informacijos ir žinių, paslėptų didžiulėse, neišsamiose, triukšmingose, neaiškiose ir atsitiktinėse didelėse duomenų bazėse, atradimo procesas, taip pat sprendimų palaikymo procesas. Jis daugiausia pagrįstas dirbtiniu intelektu, mašininiu mokymusi, modelių mokymusi, statistika ir kt.
(1) Klasifikacija. Klasifikacija yra išsiaiškinti bendras duomenų bazės objektų rinkinio savybes ir suskirstyti jas į skirtingas klases pagal klasifikavimo modelį, kurio tikslas yra susieti duomenų bazės duomenų elementus su tam tikra kategorija naudojant klasifikavimo modelį. Jis gali būti taikomas programų klasifikavimui ir tendencijų prognozavimui, pavyzdžiui, Taobao parduotuvės per tam tikrą laiką suskirsto vartotojų pirkinius į skirtingas kategorijas ir rekomenduoja vartotojams susijusius produktus pagal situaciją, taip padidindamos parduotuvės pardavimo apimtį. Klasifikavimui gali būti naudojama daugybė algoritmų, tokių kaip sprendimų medžiai, knn, Bayesian ir kt
(2) Regresinė analizė. Regresinė analizė atspindi duomenų bazėje esančių duomenų atributų reikšmių charakteristikas ir atranda priklausomybes tarp atributų reikšmių, išreikšdama duomenų susiejimo ryšį per funkcijas. Jis gali būti taikomas prognozuojant ir koreliuojant duomenų serijas. Rinkodaroje regresinė analizė gali būti taikoma įvairiems aspektams. Pavyzdžiui, atliekant dabartinio ketvirčio pardavimų regresinę analizę, prognozuojama kito ketvirčio pardavimų tendencija ir atliekami tiksliniai rinkodaros pokyčiai. Įprasti regresijos algoritmai yra įprastas mažiausias kvadratas, logistinė regresija, laipsniška regresija, daugialypė adaptyvi regresija ir lokaliai įvertinta Sklaidos diagramos išlyginimas)
(3) Grupavimas. Klasterizacija yra panaši į klasifikaciją, tačiau, skirtingai nei klasifikacija, ji suskirsto duomenų rinkinį į kategorijas pagal duomenų panašumus ir skirtumus. Tai pačiai kategorijai priklausančių duomenų panašumas yra labai didelis, tačiau skirtingų kategorijų duomenų panašumas yra labai mažas, o kategorijų duomenų koreliacija yra labai maža. Įprasti klasterizavimo algoritmai yra k-Means algoritmas ir lūkesčių maksimizavimas (EM).
(4) Asociacijos taisyklės. Susiejimo taisyklės yra asociacijos arba ryšiai tarp paslėptų duomenų elementų, tai yra, kitų duomenų elementų atsiradimą galima nustatyti pagal vieno duomenų elemento išvaizdą. Susiejimo taisyklių gavybos procesas iš esmės apima du etapus: pirmasis etapas yra rasti visas aukšto dažnio projektų grupes iš didžiulių neapdorotų duomenų; Antrasis kraštutinumas yra generuoti asociacijos taisykles iš šių didelio dažnio projektų grupių. Asociacijos taisyklių kasybos technologija buvo plačiai naudojama finansų pramonės įmonėse, siekiant numatyti klientų poreikius, o bankai tobulina savo rinkodarą, sujungdami informaciją, kuri gali sudominti klientus, kad vartotojai suprastų ir gautų atitinkamą informaciją savo bankomatuose. Įprasti algoritmai yra Apriori algoritmas ir Eclat algoritmas.
(5) Neuroninio tinklo metodas. Kaip pažangi dirbtinio intelekto technologija, neuroninis tinklas labai tinka spręsti netiesines ir apdorojimo problemas, kurioms būdingos neaiškios, neišsamios ir netikslios žinios ar duomenys, o jo charakteristikos labai tinka sprendžiant duomenų gavybos problemas. Tipiški neuroninių tinklų modeliai daugiausia skirstomi į tris kategorijas: pirmasis yra feedforward neuroninio tinklo modelis, skirtas klasifikavimo prognozavimui ir modelių atpažinimui, kurį daugiausia atstovauja funkciniai tinklai ir perceptronai; Antroji kategorija yra grįžtamojo ryšio neuroninio tinklo modelis, skirtas asociatyviajai atminčiai ir optimizavimo algoritmams, atstovaujamas Hopfieldo diskrečiuoju modeliu ir tęstiniu modeliu. Trečioji kategorija yra savarankiškai organizuojantis klasterizavimo metodas, kurį reprezentuoja ART modelis. Nors yra daug neuroninių tinklų modelių ir algoritmų, nėra vienodos taisyklės, kokius modelius ir algoritmus naudoti konkrečiose duomenų gavybos srityse, ir žmonėms sunku suprasti tinklų mokymosi ir sprendimų priėmimo procesą.
(6) Žiniatinklio duomenų gavyba. Žiniatinklio duomenų gavyba yra išsami technologija, kuri nurodo žiniatinklį iš dokumento struktūros ir rinkinio C, naudojamo numanomam modeliui P atrasti, jei C laikomas įvestimi, P laikomas išvestimi, tada žiniatinklio kasybos procesas gali būti laikomas žemėlapių sudarymo procesu nuo įvesties iki išvesties. Šiuo metu vis daugiau žiniatinklio duomenų atsiranda duomenų srautų pavidalu, todėl jie turi didelę reikšmę žiniatinklio duomenų srautų gavybai. Šiuo metu dažniausiai naudojami žiniatinklio duomenų gavybos algoritmai: PageRank algoritmas, HITS algoritmas ir LOGSOM algoritmas. Šiuose trijuose algoritmuose paminėti vartotojai yra paprasti vartotojai ir neskiria atskirų vartotojų. Šiuo metu žiniatinklio duomenų gavyba susiduria su tam tikromis problemomis, įskaitant: vartotojų klasifikaciją, svetainės turinio savalaikiškumą, vartotojo buvimo puslapyje laiką, puslapių nuorodų skaičių ir kt. Šiandien sparčiai vystantis žiniatinklio technologijoms, šias problemas vis dar verta ištirti ir išspręsti.
(7) Gilus mokymasis Gilaus mokymosi algoritmai yra dirbtinių neuroninių tinklų kūrimas. Pastaruoju metu jis sulaukė daug dėmesio, ypač po to, kai "Baidu" taip pat pradėjo plėtoti gilųjį mokymąsi, kuris sulaukė daug dėmesio Kinijoje. Šiandieniniame pasaulyje, kuriame skaičiavimo galia tampa pigesnė, gilusis mokymasis bando sukurti daug didesnius ir sudėtingesnius neuroninius tinklus. Daugelis gilaus mokymosi algoritmų yra pusiau prižiūrimi mokymosi algoritmai, naudojami dideliems duomenų rinkiniams apdoroti su nedideliu kiekiu nenustatytų duomenų. Įprasti gilaus mokymosi algoritmai apima: ribotą Boltzmanno mašiną (RBN), gilaus įsitikinimo tinklus (DBN), konvoliucinius tinklus ir sukrautus automatinius kodavimo įrenginius.
(8) Integracijos algoritmas Ansamblio algoritmas naudoja kai kuriuos santykinai silpnus mokymosi modelius, kad savarankiškai treniruotųsi su ta pačia imtimi, o tada integruoja rezultatus bendrai prognozei. Pagrindinis ansamblio algoritmo sunkumas yra tai, kokie nepriklausomi silpnesni mokymosi modeliai yra integruoti ir kaip integruoti mokymosi rezultatus. Tai labai galinga algoritmų klasė ir tuo pačiu labai populiari. Įprasti algoritmai apima: padidinimą, įkrovos agregavimą (maišelį), "AdaBoost", sukrautą apibendrinimą (maišymą), gradiento didinimo mašiną (GBM) ir atsitiktinį mišką.
Be to, matmenų mažinimas taip pat yra labai svarbus duomenų analizės inžinerijoje, pavyzdžiui, klasterizavimo algoritmai, matmenų mažinimo algoritmai bando analizuoti vidinę duomenų struktūrą, tačiau matmenų mažinimo algoritmai bando naudoti mažiau informacijos duomenims apibendrinti ar interpretuoti neprižiūrimu mokymosi būdu. Šie algoritmai gali būti naudojami didelių matmenų duomenims vizualizuoti arba prižiūrimo mokymosi duomenims supaprastinti. Įprasti algoritmai apima: principo komponentų analizę (PCA), dalinę mažiausio kvadrato regresiją (PLS), sammonų žemėlapius, daugiamatį mastelio keitimą (MDS), projekcijos persekiojimą ir kt.
Norėdami išsamiai išanalizuoti kai kurių algoritmų privalumus ir trūkumus bei algoritmų pasirinkimo nuorodas, galite pažvelgti į kelių dažniausiai naudojamų algoritmų pritaikymo scenarijus ir jų privalumus bei trūkumus šiame tinklaraštyje (labai gerai)
Toliau pateikiama pastraipa iš aukščiau esančio tinklaraščio: Algoritmo pasirinkimo nuoroda:
Esu išvertęs keletą užsienio straipsnių, o viename straipsnyje pateikiama paprasta algoritmo parinkimo technika:
Jei jo poveikis nėra geras, jo rezultatus galima naudoti kaip atskaitos tašką ir palyginti su kitais algoritmais.
Tada išbandykite sprendimų medį (atsitiktinį mišką), kad sužinotumėte, ar jis gali žymiai pagerinti jūsų modelio našumą. Net jei galų gale nenaudosite jo kaip galutinio modelio, galite naudoti atsitiktinį mišką, kad pašalintumėte triukšmo kintamuosius ir pasirinktumėte funkcijas;
Jei savybių ir stebėjimo pavyzdžių skaičius yra ypač didelis, SVM naudojimas yra galimybė, kai pakanka išteklių ir laiko (ši prielaida yra svarbi).
Paprastai: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Kita...], dabar gilusis mokymasis yra labai populiarus, naudojamas daugelyje sričių, jis remiasi neuroniniais tinklais, šiuo metu mokausi pats, bet teorinės žinios nėra labai storos, supratimas nėra pakankamai gilus, čia jo nepristatysiu.
Algoritmai yra svarbūs, tačiau geri duomenys yra geriau nei geri algoritmai, o gerų funkcijų kūrimas yra labai naudingas. Jei turite labai didelį duomenų rinkinį, nesvarbu, kokį algoritmą naudojate, tai gali neturėti didelės įtakos klasifikavimo našumui (galite pasirinkti pagal greitį ir naudojimo paprastumą).
|
Ankstesnis:Konvertuoti užklausos rezultatus į Json formato scenarijaus bendrinimąKitą:C# yra "Windows" paslauga, kuri reguliariai vykdo užduotis
|