|
|
Közzétéve 2019. 04. 27. 9:53:15
|
|
|

A nagy adat bányászatot az a folyamat, amely értékes és potenciálisan hasznos információkat és tudást fedez fel hatalmas, hiányos, zajos, homályos és véletlenszerű nagy adatbázisokban, és egyben döntéstámogató folyamat is. Főként mesterséges intelligencián, gépi tanuláson, mintázattanuláson, statisztikán stb. alapul. A nagy adat bányászatot az a folyamat, amely értékes és potenciálisan hasznos információkat és tudást fedez fel hatalmas, hiányos, zajos, homályos és véletlenszerű nagy adatbázisokban, és egyben döntéstámogató folyamat is. Főként mesterséges intelligencián, gépi tanuláson, mintázattanuláson, statisztikán stb. alapul.
(1) Osztályozás. A besorolás az, hogy meghatározza az adatbázisban található adatobjektumok halmazának közös jellemzőit, és azokat a osztályozási minta szerint különböző osztályokra osztja, amelynek célja, hogy az adatbázisban lévő adatelemeket egy adott kategóriához képezze a besorolási modellen keresztül. Alkalmazható az alkalmazások osztályozására és trendelőrejelzésére, például a Taobao üzletek időn belül különböző kategóriákra osztják a vásárlók vásárlásait, és a helyzet szerint ajánlják a kapcsolódó termékeket, így növelve az üzlet eladási volumenét. Számos algoritmus használható osztályozáshoz, például döntési fák, knn, bayesiánus és más
(2) Regressziós elemzés. A regressziós elemzés tükrözi az adatbázisban lévő attribútumértékek jellemzőit, és az attribútumértékek közötti függőségeket a függvényeken keresztül történő adatleképezés kapcsolatának kifejezésével fedezi fel. Alkalmazható az adatsorozatok előrejelzésére és korrelációjára. A marketingben a regressziós elemzés különböző szempontokra alkalmazható. Például a jelenlegi negyedév eladásainak regressziós elemzése révén előrejelzés a következő negyedév eladási trendje, és célzott marketingváltoztatásokat hajt végre. Gyakori regressziós algoritmusok közé tartozik a Ordinary Least Square, Logicikus Regression, Lépcsőzetes Regresszió, Multivariate Adaptive Regression Spline-ok és Locally Estimated Scatterplot simítás)
(3) Csoportosulás. A klaszterezés hasonló a besoroláshoz, de a besorolással ellentétben az adathalmazt osztja kategóriákra az adatok hasonlóságai és különbségei alapján. Az azonos kategóriába tartozó adatok közötti hasonlóság nagyon nagy, de a különböző kategóriák közötti adatok közötti hasonlóság nagyon kicsi, és az adatok közötti korreláció nagyon alacsony. Gyakori klaszterező algoritmusok közé tartozik a k-Means algoritmus és az elvárásmaximalizálás (EM).
(4) Egyesületi szabályok. Az assosiációs szabályok a rejtett adatelemek közötti asszociációk vagy kapcsolatok, vagyis más adatelemek megjelenése alapján következtethetők le. Az assosiációs szabályok bányászati folyamata főként két szakaszból áll: az első szakasz az összes nagy frekvenciájú projektcsoport megtalálása hatalmas nyers adat alapján; A második végletek az, hogy ezekből a magas frekvenciájú projektcsoportokból assosiációs szabályokat generálunk. A szövetségi szabálybányászati technológiát széles körben alkalmazzák a pénzügyi szektorban az ügyfelek igényeinek előrejelzésére, és a bankok javítják marketingjüket azzal, hogy olyan információkat csomagolnak össze, amelyek az ügyfeleket érdekelhetik, hogy a felhasználók megértsék és megszerezhessék a megfelelő információkat ATM-jükről. Gyakori algoritmusok közé tartozik az Apriori és az Eclat algoritmus.
(5) Neurális hálózati módszer. Fejlett mesterséges intelligencia technológiaként a neurális hálózat nagyon alkalmas nem lineáris és feldolgozási problémák kezelésére, amelyeket homályos, hiányos és pontatlan tudás vagy adat jellemez, és jellemzői nagyon alkalmasak adatbányászati problémák megoldására. A tipikus neurális hálózati modellek főként három kategóriába sorolhatók: az első a benyújtott neurális hálózati modell az osztályozás előrejelzésére és mintázatfelismerésére, amelyet főként funkcionális hálózatok és perceptronok képviselnek; A második kategória a visszacsatoló neurális hálózati modell asszociatív memória és optimalizálási algoritmusokhoz, amelyet Hopfield diszkrét modellje és folytonos modellje képvisel. A harmadik kategória a klaszterezés önszervező leképezési módszere, amelyet az ART modell képvisel. Bár számos modell és algoritmus létezik az ideghálózatokhoz, nincs egységes szabály arra, hogy mely modelleket és algoritmusokat használják az adatbányászat egyes területein, és nehéz megérteni a hálózatok tanulási és döntéshozatali folyamatát.
(6) Webes adatbányászat. Webes adatbányászat egy átfogó technológia, amely a webet a dokumentumszerkezetből és a C halmazból mutatja be, amelyet a P implicit mintázat felfedezésére használnak; ha C-t bemenetként tekintik, P-t a kimenetnek, akkor a webbányászati folyamatot is tekinthető a bemenet és a kimenet közötti leképezési folyamatnak. Jelenleg egyre több webes adatfolyam formájában jelenik meg, ezért ez nagy jelentőséggel bír a webes adatfolyam-bányászatban. Jelenleg a leggyakrabban használt webes adatbányászati algoritmusok: PageRank algoritmus, HITS algoritmus és LOGSOM algoritmus. A három algoritmusban említett felhasználók általános felhasználók, és nem tesznek különbséget az egyes felhasználók között. Jelenleg a webes adatbányászat néhány problémával szembesül, többek között: felhasználói osztályozás, weboldal tartalmának időszerűsége, a felhasználók oldalon töltött idő, az oldal linkek be- és kilépési számai stb. A webtechnológia mai gyors fejlődésében ezek a problémák még mindig érdemes tanulmányozni és megoldani.
(7) Mélytanulás A mélytanulási algoritmusok mesterséges neurális hálózatok fejlesztését jelentik. Mostanában sok figyelmet kapott, különösen miután a Baidu elkezdte fejleszteni a mélytanulást, ami nagy figyelmet kelt Kínában. A mai világban, ahol a számítási teljesítmény egyre olcsóbb, a mélytanulás sokkal nagyobb és összetettebb neurális hálózatokat próbál kiépíteni. Sok mélytanulási algoritmus félig felügyelt tanulási algoritmus, amelyet nagy adathalmazok feldolgozására használnak, amelyekkel kis mennyiségű azonosítatlan adat található. Gyakori mélytanulási algoritmusok: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Konvolúciós hálózatok és Stacked Auto-encoderek.
(8) Integrációs algoritmus Az ensemble algoritmus viszonylag gyenge tanulási modelleket használ, hogy ugyanazon a mintán önállóan gyakoroljon, majd integrálja az eredményeket az általános előrejelzéshez. Az együttes algoritmus fő nehézsége, hogy mely független, gyengébb tanulási modellek integrálhatók, és hogyan integrálják a tanulási eredményeket. Ez egy nagyon erős algoritmusosztály, ugyanakkor nagyon népszerű. Gyakori algoritmusok: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) és Random Forest.
Ezen túlmenően a dimenziócsökkentés nagyon fontos az adatelemzési mérnökségben is, mint a klaszterezési algoritmusok, a dimenziócsökkentési algoritmusok az adatok belső szerkezetét próbálják elemezni, míg a dimenziócsökkentési algoritmusok kevesebb információt használnak az adatok összefoglalásához vagy értelmezéséhez, felügyelet nélküli tanulási módon. Ezek az algoritmusok használhatók a nagy dimenziós adatok vizualizálására vagy az adatok egyszerűsítésére a felügyelt tanuláshoz. Gyakori algoritmusok: Principle Components Analysis (PCA), Partial Least Square Regression (PLS), Sammon-leképezés, Multi-Dimensional Scaling (MDS), Projection Pursuit stb.
Néhány algoritmus előnyei és hátrányai részletes elemzéséhez és algoritmusválasztási hivatkozásai közül a következő blogon megtekintheted több gyakran használt algoritmus adaptációs forgatókönyveit, valamint azok előnyeit és hátrányait (nagyon jó)
Az alábbiakban a fenti blog egyik bekezdéséből származik: Algoritmusválasztási hivatkozás:
Korábban már fordítottam néhány külföldi cikket, és egy cikk egy egyszerű algoritmusválasztási technikát mutat:
Ha hatása nem jó, akkor az eredményeit referenciaként lehet használni, és összehasonlítani más algoritmusokkal alapon.
Ezután próbáld ki a döntésfát (véletlen erdő), hogy lásd, javíthat-e jelentősen a modell teljesítményét. Még ha végül nem is használod végső modellként, véletlenszerű erdővel eltávolíthatod a zajváltozókat és kiválaszthatod a jellemzőket;
Ha a jellemzők és megfigyelési minták száma különösen nagy, akkor az SVM használata akkor opció, ha elegendő erőforrás és idő (ez az alapfelvetés fontos).
Normál körülmények között: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Egyéb...], most a mélytanulás nagyon népszerű, sok területen használják, idegi hálózatokon alapul, én magam tanulom, de az elméleti tudás nem túl sűrű, a megértés nem elég mély, itt nem fogom bemutatni.
Az algoritmusok fontosak, de a jó adatok jobbak, mint a jó algoritmusok, és a jó funkciók tervezése nagy előnyt jelent. Ha nagyon nagy adathalmazod van, akkor bármelyik algoritmust is használod, az nem feltétlenül befolyásolja a besorolási teljesítményt (a sebesség és a használat egyszerűsége alapján is választhatsz).
|
Előző:Lekérdezési eredmények konvertálása Json formátumú szkriptmegosztásraKövetkező:A C# egy Windows szolgáltatás, amely rendszeresen hajt végre feladatokat
|