Levinud algoritmid suurandmete jagamiseks (rakendused)

Lahenda suurepärane talentide võrgustik · Postitatud 27.04.2019 09:53:15

Suurandmete kaevandamine on protsess, mille käigus avastatakse väärtuslikku ja potentsiaalselt kasulikku teavet ja teadmisi, mis on peidetud massiivsetesse, puudulikke, mürarikkatesse, hägustesse ja juhuslikesse suurtesse andmebaasidesse, ning see on ka otsuste toetamise protsess. See põhineb peamiselt tehisintellektil, masinõppel, mustriõppel, statistikal jne. Suurandmete kaevandamine on protsess, mille käigus avastatakse väärtuslikku ja potentsiaalselt kasulikku teavet ja teadmisi, mis on peidetud massiivsetesse, puudulikke, mürarikkatesse, hägustesse ja juhuslikesse suurtesse andmebaasidesse, ning see on ka otsuste toetamise protsess. See põhineb peamiselt tehisintellektil, masinõppel, mustriõppel, statistikal jne.

(1) Klassifikatsioon. Klassifitseerimine tähendab andmebaasis olevate andmeobjektide ühiste omaduste leidmist ja nende jagamist erinevateks klassifikatsioonimustri järgi, mille eesmärk on kaardistada andmebaasis olevad andmeelemendid antud kategooriasse klassifitseerimismudeli kaudu. Seda saab rakendada rakenduste klassifitseerimisel ja trendide prognoosimisel, näiteks Taobao poed jagavad kasutajate ostud erinevatesse kategooriatesse aja jooksul ning soovitavad kasutajatele seotud tooteid vastavalt olukorrale, suurendades seeläbi poe müügimahtu. Klassifitseerimiseks saab kasutada mitmeid algoritme, näiteks otsustuspuud, knn, Bayesi keel jne

(2) Regressioonianalüüs. Regressioonianalüüs peegeldab andmebaasis olevate andmete atribuudi väärtuste omadusi ning avastab atribuudi väärtuste vahelised sõltuvused, väljendades andmete kaardistamise seost funktsioonide kaudu. Seda saab rakendada andmeseeriate ennustamiseks ja korrelatsiooniks. Turunduses saab regressioonianalüüsi rakendada mitmetes aspektides. Näiteks praeguse kvartali müügi regressioonianalüüsi kaudu ennustatakse järgmise kvartali müügitrendi ja tehakse sihipäraseid turundusmuudatusi. Levinumad regressioonialgoritmid on tavaline väikseim ruut, logistiline regressioon, samm-sammuline regressioon, mitmemõõtmeline adaptiivne regressioonispliinid ja lokaalselt hinnatud Hajutusploti silumine)

(3) Klasterdamine. Klasterdamine on sarnane klassifitseerimisele, kuid erinevalt klassifitseerimisest jagab see andmekogumi kategooriatesse sarnasuste ja erinevuste alusel. Sama kategooria andmete sarnasus on väga suur, kuid erinevate kategooriate andmete sarnasus on väga väike ning korrelatsioon erinevate kategooriate vahel on väga madal. Levinumad klasterdamisalgoritmid on k-Means algoritm ja ootuste maksimeerimine (EM).

(4) Ühingu reeglid. Seosereeglid on seosed või seosed peidetud andmeelementide vahel, st teiste andmeelementide esinemist saab tuletada ühe andmeelemendi välimuse põhjal. Assotsiatsiooni reeglite kaevandamisprotsess koosneb peamiselt kahest etapist: esimene etapp on kõigi kõrgsageduslike projektigruppide leidmine massiivsete toorandmete põhjal; Teine äärmus on luua assotsiatsioonireeglid nende sageduslike projektigruppide kaudu. Assotsiatsioonireeglite kaevandamise tehnoloogiat on laialdaselt kasutatud finantssektori ettevõtetes klientide vajaduste ennustamiseks ning pangad parandavad oma turundust, koondades klientidele huvipakkuvat infot, et kasutajad saaksid aru ja saaksid vastavat teavet oma sularahaautomaatide kohta. Levinumad algoritmid on Apriori algoritm ja Eclat algoritm.

(5) Närvivõrgu meetod. Arenenud tehisintellekti tehnoloogiana sobib närvivõrk väga hästi mittelineaarsete ja töötlemisprobleemide lahendamiseks, mida iseloomustavad ebamäärased, puudulikud ja ebatäpsed teadmised või andmed, ning selle omadused sobivad hästi andmekaevandamise probleemide lahendamiseks. Tüüpilised närvivõrgu mudelid jagunevad peamiselt kolmeks kategooriaks: esimene on edasisuunaline närvivõrgu mudel klassifikatsiooni ennustamiseks ja mustrituvastuseks, mida esindavad peamiselt funktsionaalsed võrgud ja perceptronid; Teine kategooria on tagasisidega närvivõrgu mudel assotsiatiivse mälu ja optimeerimisalgoritmide jaoks, mida esindavad Hopfieldi diskreetne mudel ja pidev mudel. Kolmas kategooria on iseorganiseeruv kaardistusmeetod klasterdamiseks, mida esindab ART mudel. Kuigi närvivõrkude jaoks on palju mudeleid ja algoritme, puudub ühtne reegel, milliseid mudeleid ja algoritme konkreetsetes andmekaevandamise valdkondades kasutada, ning inimestel on raske mõista võrkude õppimis- ja otsustusprotsessi.

(6) Veebiandmete kaevandamine. Veebiandmete kaevandamine on terviklik tehnoloogia, mis viitab veebile dokumendistruktuuri ja hulga C kaudu, mida kasutatakse implitsiitse mustri P avastamiseks; kui C on sisend, P väljundiks, siis veebikaevandamise protsessi võib käsitleda kui kaardistamisprotsessi sisendist väljundisse. Tänapäeval ilmub üha rohkem veebiandmeid andmevoogude kujul, mistõttu on see veebiandmevoogude kaevandamisel väga oluline. Praegu on levinumad veebiandmete kaevandamise algoritmid: PageRank algoritm, HITS algoritm ja LOGSOM algoritm. Nendes kolmes algoritmis mainitud kasutajad on tavalised kasutajad ega tee vahet üksikute kasutajate vahel. Praegu seisab veebiandmete kaevandamine silmitsi mitmete probleemidega, sealhulgas: kasutajate klassifikatsioon, veebisaidi sisu ajakohanemine, kasutajate viibimisaeg lehel, lehe linkide sisse- ja väljaminekunumbrid jne. Tänapäeva veebitehnoloogia kiires arengus on need probleemid endiselt uurimist ja lahendamist väärt.

(7) Süvaõpe
Süvaõppe algoritmid on tehisnärvivõrkude arendamine. Viimasel ajal on see pälvinud palju tähelepanu, eriti pärast seda, kui Baidu on hakanud arendama süvaõpet, mis on pälvinud palju tähelepanu Hiinas. Tänapäeva maailmas, kus arvutusvõimsus muutub odavamaks, püüab süvaõpe ehitada palju suuremaid ja keerukamaid närvivõrke. Paljud süvaõppe algoritmid on pooljuhitud õppealgoritmid, mida kasutatakse suurte andmekogumite töötlemiseks väikese hulga tuvastamata andmetega. Levinumad süvaõppe algoritmid on: piiratud Boltzmanni masin (RBN), sügavad uskumused (DBN), konvolutsioonivõrgud ja virnastatud automaatsed kodeerijad.

(8) Integratsioonialgoritm
Ansambli algoritm kasutab suhteliselt nõrku õppimismudeleid, et iseseisvalt sama valimi peal treenida, ning integreerib tulemused üldiseks ennustuseks. Ansambli algoritmi peamine raskus seisneb selles, millised sõltumatud nõrgemad õppemudelid integreeritakse ja kuidas integreerida õpitulemusi. See on väga võimas algoritmide klass ja samal ajal väga populaarne. Levinumad algoritmid on: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) ja Random Forest.

Lisaks on dimensioonide vähendamine andmeanalüüsi inseneriteaduses väga oluline, näiteks klasterdamisalgoritmid, dimensioonide vähendamise algoritmid püüavad analüüsida andmete sisemist struktuuri, kuid dimensioonide vähendamise algoritmid kasutavad andmete kokkuvõtmiseks või tõlgendamiseks vähem infot juhendamata õppimise viisil. Neid algoritme saab kasutada kõrge dimensiooniga andmete visualiseerimiseks või andmete lihtsustamiseks juhendatud õppeks. Levinumad algoritmid on: põhikomponentide analüüs (PCA), osaline vähimruutregressioon (PLS), Sammoni kaardistamine, mitmemõõtmeline skaleerimine (MDS), projektsiooni jälitamine jne.

Mõnede algoritmide eeliste ja puuduste üksikasjaliku analüüsi ning algoritmide valiku viidete kohta saate vaadata mitmete levinud algoritmide adaptatsioonistsenaariume ning nende eeliseid ja puudusi järgmises blogis (väga hea).

Järgmine on blogi lõigust:
Algoritmi valiku viide:

Olen varem tõlkinud mõningaid välismaiseid artikleid ning ühes artiklis on toodud lihtne algoritmi valiku tehnika:

Kui selle efekt ei ole hea, saab selle tulemusi kasutada viitena ja võrrelda teiste algoritmidega baasil.

Seejärel proovi otsustuspuud (juhuslik mets), et näha, kas see suudab mudeli jõudlust oluliselt parandada. Isegi kui sa seda lõpliku mudelina ei kasuta, saad juhusliku metsaga müramuutujate eemaldamiseks ja omaduste valimiseks;

Kui tunnuste ja vaatlusproovide arv on eriti suur, siis on SVM-i kasutamine võimalik, kui ressursse ja aega on piisav (see eeldus on oluline).

Tavaliselt: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Muu...], nüüd on süvaõpe väga populaarne, seda kasutatakse paljudes valdkondades, see põhineb närvivõrkudel, õpin praegu ise, kuid teoreetilised teadmised pole väga tihedad, arusaam pole piisavalt sügav, ma ei hakka seda siin tutvustama.

Algoritmid on olulised, kuid head andmed on paremad kui head algoritmid ning heade funktsioonide kujundamine on suur kasu. Kui sul on väga suur andmekogum, siis sõltumata algoritmist ei pruugi see klassifitseerimise jõudlust oluliselt mõjutada (valikut saab teha kiiruse ja kasutusmugavuse põhjal).

Lahenda suurepärane talentide võrgustik · Postitatud 27.05.2019 08:27:15

Tere hommikust kõigile

Lahenda suurepärane talentide võrgustik · Postitatud 16.09.2019 12:10:06

Algoritmid on kõrgelt tasustatud ja teretulnud helistama

Levinud algoritmid suurandmete jagamiseks (rakendused)

Vaadatud sektsioonid