|
|
Publicerad på 2019-04-27 09:53:15
|
|
|

Big data-utvinning är processen att upptäcka värdefull och potentiellt användbar information och kunskap som är gömd i massiva, ofullständiga, brusiga, suddiga och slumpmässiga stora databaser, och det är också en beslutsstödsprocess. Den bygger främst på artificiell intelligens, maskininlärning, mönsterinlärning, statistik, etc. Big data-utvinning är processen att upptäcka värdefull och potentiellt användbar information och kunskap som är gömd i massiva, ofullständiga, brusiga, suddiga och slumpmässiga stora databaser, och det är också en beslutsstödsprocess. Den bygger främst på artificiell intelligens, maskininlärning, mönsterinlärning, statistik, etc.
(1) Klassificering. Klassificering är att ta reda på de gemensamma egenskaperna hos en uppsättning dataobjekt i databasen och dela in dem i olika klasser enligt klassificeringsmönstret, vars syfte är att mappa dataobjekten i databasen till en given kategori genom klassificeringsmodellen. Det kan tillämpas på applikationsklassificering och trendprognoser, till exempel delar Taobao-butiker in användarnas köp i olika kategorier över en tidsperiod och rekommenderar relaterade produkter till användare beroende på situationen, vilket ökar butikens försäljningsvolym. Många algoritmer kan användas för klassificering, såsom beslutsträd, knn, bayesiansk, etc
(2) Regressionsanalys. Regressionsanalys speglar egenskaperna hos attributvärden i data i databasen och upptäcker beroenden mellan attributvärden genom att uttrycka sambandet mellan datamappningar via funktioner. Den kan tillämpas på prediktion och korrelation av dataserier. Inom marknadsföring kan regressionsanalys tillämpas på olika aspekter. Till exempel förutsägs försäljningstrenden för nästa kvartal genom regressionsanalysen av försäljningen under det aktuella kvartalet och riktade marknadsföringsförändringar görs. Vanliga regressionsalgoritmer inkluderar Ordinary Least Square, Logistic Regression, Stepwise Regression, Multivariata adaptiva regressionssplines och Lokalt Estimerad Spridningsdiagramsutjämning)
(3) Klustering. Klustring liknar klassificering, men till skillnad från klassificering delar det in en datamängd i kategorier baserat på likheter och skillnader i data. Likheten mellan data som tillhör samma kategori är mycket stor, men likheten mellan data mellan olika kategorier är mycket liten, och korrelationen mellan data över kategorier är mycket låg. Vanliga klustringsalgoritmer inkluderar k-Means-algoritmen och förväntansmaximering (EM).
(4) Föreningsregler. Associationsregler är associationer eller relationer mellan dolda dataobjekt, det vill säga förekomsten av andra dataobjekt kan härledas utifrån förekomsten av ett dataobjekt. Utvinningsprocessen för associationsregler består huvudsakligen av två steg: det första steget är att hitta alla högfrekventa projektgrupper från massiv rådata; Det andra extremet är att generera associationsregler från dessa högfrekventa projektgrupper. Teknologi för utvinning av associationsregler har använts i stor utsträckning inom finansbranschen för att förutsäga kundernas behov, och banker förbättrar sin marknadsföring genom att paketera information som kunder kan vara intresserade av så att användare kan förstå och få motsvarande information på sina bankomater. Vanliga algoritmer inkluderar Apriori-algoritmen och Eclat-algoritmen.
(5) Neural nätverksmetod. Som en avancerad artificiell intelligens-teknologi är neuralt nätverk mycket lämpligt för att hantera icke-linjära och bearbetningsproblem kännetecknade av vag, ofullständig och felaktig kunskap eller data, och dess egenskaper är mycket lämpliga för att lösa datautvinningsproblem. Typiska neurala nätverksmodeller delas huvudsakligen in i tre kategorier: den första är feedforward-modellen för klassificeringsprediktion och mönsterigenkänning, som huvudsakligen representeras av funktionella nätverk och perceptroner; Den andra kategorin är den återkopplingsneurala nätverksmodellen för associativt minne och optimeringsalgoritmer, representerad av Hopfields diskreta modell och kontinuerliga modell. Den tredje kategorin är den självorganiserande kartläggningsmetoden för klustring, representerad av ART-modellen. Även om det finns många modeller och algoritmer för neurala nätverk finns det ingen enhetlig regel för vilka modeller och algoritmer som ska användas inom specifika områden av datautvinning, och det är svårt för människor att förstå nätverks inlärnings- och beslutsprocess.
(6) Webbdatautvinning. Web data mining är en omfattande teknik som syftar på webben från dokumentstrukturen och mängden C som används för att upptäcka det implicita mönstret P; om C betraktas som indata, P som utdata, kan webbminingprocessen betraktas som en mappningsprocess från indata till utdata. För närvarande dyker allt mer webbdata upp i form av dataströmmar, vilket är av stor betydelse för webbdataflödesutvinning. För närvarande är de vanligaste webbdatautvinningsalgoritmerna: PageRank-algoritmen, HITS-algoritmen och LOGSOM-algoritmen. Användarna som nämns i dessa tre algoritmer är allmänna användare och gör ingen åtskillnad mellan enskilda användare. För närvarande står webbdatautvinning inför vissa problem, inklusive: användarklassificering, webbplatsinnehållets aktualitet, användarens vistelsetid på sidan, antal sidlänkar in och ut, etc. I dagens snabba utveckling av webbteknologi är dessa problem fortfarande värda att studera och lösa.
(7) Djupinlärning Djupinlärningsalgoritmer är utvecklingen av artificiella neurala nätverk. Det har nyligen fått mycket uppmärksamhet, särskilt efter att Baidu också har börjat utveckla deep learning, vilket har väckt stor uppmärksamhet i Kina. I dagens värld där datorkraft blir billigare försöker djupinlärning bygga neurala nätverk som är mycket större och mer komplexa. Många djupinlärningsalgoritmer är semi-övervakade inlärningsalgoritmer som används för att bearbeta stora datamängder med en liten mängd oidentifierad data. Vanliga djupinlärningsalgoritmer inkluderar: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks och Stacked Auto-encoders.
(8) Integrationsalgoritm Ensemblealgoritmen använder några relativt svaga inlärningsmodeller för att oberoende träna på samma urval och integrerar sedan resultaten för övergripande förutsägelse. Den största svårigheten med ensemblealgoritmen är vilka oberoende svagare inlärningsmodeller som integreras och hur inlärningsresultaten integreras. Detta är en mycket kraftfull klass av algoritmer och samtidigt mycket populär. Vanliga algoritmer inkluderar: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) och Random Forest.
Dessutom är dimensionsreduktion också mycket viktig inom dataanalysteknik, likt klustringsalgoritmer, där dimensionsreduktionsalgoritmer försöker analysera datans interna struktur, men dimensionsreduktionsalgoritmer försöker använda mindre information för att sammanfatta eller tolka data på ett oövervakat inlärningssätt. Dessa algoritmer kan användas för att visualisera högdimensionell data eller för att förenkla data för övervakat lärande. Vanliga algoritmer inkluderar: Principle Component Analysis (PCA), Partial Least Square Regression (PLS), Sammon Mapping, Multi-Dimensional Scaling (MDS), Projection Pursuit, etc.
För en detaljerad analys av för- och nackdelar med vissa algoritmer och algoritmvalsreferenser kan du titta på anpassningsscenarier för flera vanligt använda algoritmer och deras för- och nackdelar i följande blogg (mycket bra)
Följande är från ett stycke från bloggen ovan: Algoritmvalsreferens:
Jag har översatt några utländska artiklar tidigare, och en artikel ger en enkel algoritmvalsteknik:
Om dess effekt inte är bra kan dess resultat användas som referens och jämföras med andra algoritmer på grunden.
Prova sedan beslutsträdet (random forest) för att se om det kan förbättra din modellprestanda dramatiskt. Även om du inte använder den som slutgiltig modell i slutändan kan du använda en slumpskog för att ta bort brusvariabler och välja funktioner;
Om antalet funktioner och observationsprover är särskilt stort, är SVM ett alternativ när resurser och tid är tillräckliga (denna premiss är viktig).
Normalt: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Övrig...], nu är djupinlärning mycket populärt, används inom många områden, det baseras på neurala nätverk, jag lär mig själv just nu, men den teoretiska kunskapen är inte särskilt tjock, förståelsen är inte tillräckligt djup, jag kommer inte att introducera det här.
Algoritmer är viktiga, men bra data är bättre än bra algoritmer, och att designa bra funktioner är till stor nytta. Om du har en mycket stor datamängd kan det hända att oavsett vilken algoritm du använder inte påverkar klassificeringsprestandan särskilt mycket (du kan välja baserat på hastighet och användarvänlighet).
|
Föregående:Konvertera frågeresultat till Json-formatets skriptdelningNästa:C# är en Windows-tjänst som regelbundet utför uppgifter
|