|
|
Publisert på 27.04.2019 09:53:15
|
|
|

Big data-mining er prosessen med å oppdage verdifull og potensielt nyttig informasjon og kunnskap skjult i massive, ufullstendige, støyende, uklare og tilfeldige store databaser, og det er også en beslutningsstøtteprosess. Den er hovedsakelig basert på kunstig intelligens, maskinlæring, mønsterlæring, statistikk osv. Big data-mining er prosessen med å oppdage verdifull og potensielt nyttig informasjon og kunnskap skjult i massive, ufullstendige, støyende, uklare og tilfeldige store databaser, og det er også en beslutningsstøtteprosess. Den er hovedsakelig basert på kunstig intelligens, maskinlæring, mønsterlæring, statistikk osv.
(1) Klassifisering. Klassifisering er å finne ut de felles egenskapene til et sett med dataobjekter i databasen og dele dem inn i ulike klasser etter klassifiseringsmønsteret, hvor formålet er å kartlegge dataelementene i databasen til en gitt kategori gjennom klassifiseringsmodellen. Det kan brukes til applikasjonsklassifisering og trendprediksjon, slik som at Taobao-butikker deler brukernes kjøp inn i ulike kategorier over tid, og anbefaler relaterte produkter til brukerne etter situasjonen, noe som øker butikkens salgsvolum. Mange algoritmer kan brukes til klassifisering, som beslutningstrær, knn, bayesiansk osv
(2) Regresjonsanalyse. Regresjonsanalyse reflekterer egenskapene til attributtverdiene til data i databasen, og oppdager avhengighetene mellom attributtverdiene ved å uttrykke forholdet mellom datamapping gjennom funksjoner. Den kan anvendes på prediksjon og korrelasjon av dataserier. Innen markedsføring kan regresjonsanalyse anvendes på ulike områder. For eksempel, gjennom regresjonsanalyse av salget i inneværende kvartal, forutsies salgstrenden for neste kvartal og målrettede markedsføringsendringer gjøres. Vanlige regresjonsalgoritmer inkluderer Ordinary Least Square, Logistic Regression, Stepwise Regression, Multivariate Adaptive Regression Splines og Lokalt estimert Spredningsdiagram-utjevning)
(3) Klyngedannelse. Klynging ligner på klassifisering, men i motsetning til klassifisering deler det et datasett inn i kategorier basert på likheter og forskjeller i dataene. Likheten mellom data som tilhører samme kategori er svært stor, men likheten mellom data mellom ulike kategorier er svært liten, og korrelasjonen mellom data på tvers av kategorier er svært lav. Vanlige klyngealgoritmer inkluderer k-Means-algoritmen og forventningsmaksimering (EM).
(4) Foreningsregler. Assosiasjonsregler er assosiasjoner eller relasjoner mellom skjulte dataelementer, det vil si at forekomsten av andre dataelementer kan utledes ut fra forekomsten av ett dataelement. Utvinningsprosessen for assosiasjonsregler består hovedsakelig av to trinn: det første trinnet er å finne alle høyfrekvente prosjektgrupper fra massive rådata; Det andre ytterpunktet er å generere assosiasjonsregler fra disse høyfrekvente prosjektgruppene. Association rule mining-teknologi har vært mye brukt i finansbransjen for å forutsi kundens behov, og banker forbedrer markedsføringen ved å pakke sammen informasjon som kundene kan være interessert i, slik at brukerne kan forstå og få tilsvarende informasjon på sine minibanker. Vanlige algoritmer inkluderer Apriori-algoritmen og Eclat-algoritmen.
(5) Nevralt nettverksmetode. Som en avansert kunstig intelligens-teknologi er nevrale nettverk svært egnet for å håndtere ikke-lineære og prosesseringsproblemer preget av vag, ufullstendig og unøyaktig kunnskap eller data, og dets egenskaper er svært egnet for å løse datautvinningsproblemer. Typiske nevrale nettverksmodeller deles hovedsakelig inn i tre kategorier: den første er feedforward nevrale nettverksmodellen for klassifiseringsprediksjon og mønstergjenkjenning, som hovedsakelig representeres av funksjonelle nettverk og perceptroner; Den andre kategorien er tilbakemeldingsmodellen for nevralt nettverk for assosiativt minne og optimaliseringsalgoritmer, representert ved Hopfields diskrete modell og kontinuerlige modell. Den tredje kategorien er den selvorganiserende kartleggingsmetoden for klynging, representert ved ART-modellen. Selv om det finnes mange modeller og algoritmer for nevrale nettverk, finnes det ingen enhetlig regel for hvilke modeller og algoritmer som skal brukes innen spesifikke felt innen datautvinning, og det er vanskelig for folk å forstå lærings- og beslutningsprosessen i nettverk.
(6) Webdatautvinning. Web-datamining er en omfattende teknologi som refererer til nettet fra dokumentstrukturen og settet C brukt for å oppdage det implisitte mønsteret P; hvis C betraktes som input, P som output, kan webmining-prosessen betraktes som en kartleggingsprosess fra input til output. For øyeblikket dukker mer og mer webdata opp i form av datastrømmer, så det er av stor betydning for webdataflytutvinning. For øyeblikket er de mest brukte webdatamining-algoritmene: PageRank-algoritmen, HITS-algoritmen og LOGSOM-algoritmen. Brukerne som nevnes i disse tre algoritmene er vanlige brukere og skiller ikke mellom individuelle brukere. For øyeblikket står webdatamining overfor noen problemer, inkludert: brukerklassifisering, aktualitet for nettstedets innhold, brukerens oppholdstid på siden, antall inn- og ut-sidelenker, osv. I dagens raske utvikling av webteknologi er disse problemene fortsatt verdt å studere og løse.
(7) Dyp læring Dyp læringsalgoritmer er utviklingen av kunstige nevrale nettverk. Det har nylig fått mye oppmerksomhet, spesielt etter at Baidu også har begynt å utvikle dyp læring, som har tiltrukket seg mye oppmerksomhet i Kina. I dagens verden, hvor datakraft blir billigere, forsøker dyp læring å bygge nevrale nettverk som er mye større og mer komplekse. Mange dype læringsalgoritmer er semi-superviserte læringsalgoritmer som brukes til å behandle store datasett med en liten mengde uidentifiserte data. Vanlige dype læringsalgoritmer inkluderer: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks og Stacked Auto-encoders.
(8) Integrasjonsalgoritme Ensemble-algoritmen bruker noen relativt svake læringsmodeller for å trene uavhengig på samme utvalg, og integrerer deretter resultatene for den overordnede prediksjonen. Hovedutfordringen med ensemble-algoritmen er hvilke uavhengige svakere læringsmodeller som integreres og hvordan læringsresultatene integreres. Dette er en svært kraftig klasse algoritmer og samtidig svært populær. Vanlige algoritmer inkluderer: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) og Random Forest.
I tillegg er dimensjonsreduksjon også svært viktig i dataanalyseingeniørkunst, som klyngingsalgoritmer; dimensjonsreduksjonsalgoritmer prøver å analysere den interne strukturen til data, men algoritmer for dimensjonsreduksjon prøver å bruke mindre informasjon for å oppsummere eller tolke data på en usupervisert læringsmåte. Disse algoritmene kan brukes til å visualisere høydimensjonale data eller til å forenkle data for veiledet læring. Vanlige algoritmer inkluderer: Principle Component Analysis (PCA), Partial Least Square Regression (PLS), Sammon Mapping, Multi-Dimensional Scaling (MDS), Projection Pursuit, osv.
For en detaljert analyse av fordeler og ulemper ved noen algoritmer og algoritmevalgreferanser, kan du se på tilpasningsscenariene til flere ofte brukte algoritmer og deres fordeler og ulemper i følgende blogg (veldig bra)
Følgende er fra et avsnitt fra bloggen ovenfor: Referanse for algoritmevalg:
Jeg har oversatt noen utenlandske artikler før, og en artikkel gir en enkel algoritmevalgteknikk:
Hvis effekten ikke er god, kan resultatene brukes som referanse og sammenlignes med andre algoritmer på grunnlaget.
Prøv deretter beslutningstreet (random forest) for å se om det kan forbedre modellens ytelse dramatisk. Selv om du ikke bruker den som den endelige modellen til slutt, kan du bruke en tilfeldig skog for å fjerne støyvariabler og velge funksjoner;
Hvis antallet funksjoner og observasjonsutvalg er spesielt stort, er bruk av SVM et alternativ når ressurser og tid er tilstrekkelige (dette premisset er viktig).
Normalt: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Andre...], nå er dyp læring veldig populært, brukt i mange felt, det er basert på nevrale nettverk, jeg lærer selv for øyeblikket, men den teoretiske kunnskapen er ikke særlig dyp, forståelsen er ikke dyp nok, jeg vil ikke introdusere det her.
Algoritmer er viktige, men gode data er bedre enn gode algoritmer, og å designe gode funksjoner er til stor fordel. Hvis du har et veldig stort datasett, kan det uansett hvilken algoritme du bruker, ikke påvirke klassifiseringsytelsen så mye (du kan velge basert på hastighet og brukervennlighet).
|
Foregående:Konverter spørringsresultater til Json-format skriptdelingNeste:C# er en Windows-tjeneste som utfører oppgaver regelmessig
|