Veelvoorkomende algoritmen voor het delen van big data (applicaties)

Los het netwerk van uitstekende talenten op · Geplaatst op 27-04-2019 09:53:15

Big data mining is het proces waarbij waardevolle en potentieel nuttige informatie en kennis wordt ontdekt die verborgen zit in enorme, onvolledige, ruiserige, vage en willekeurige grote databases, en het is ook een besluitvormingsondersteuningsproces. Het is voornamelijk gebaseerd op kunstmatige intelligentie, machine learning, patroonleren, statistiek, enzovoort. Big data mining is het proces waarbij waardevolle en potentieel nuttige informatie en kennis wordt ontdekt die verborgen zit in enorme, onvolledige, ruiserige, vage en willekeurige grote databases, en het is ook een besluitvormingsondersteuningsproces. Het is voornamelijk gebaseerd op kunstmatige intelligentie, machine learning, patroonleren, statistiek, enzovoort.

(1) Classificatie. Classificatie is het vinden van de gemeenschappelijke kenmerken van een set dataobjecten in de database en deze verdelen in verschillende klassen volgens het classificatiepatroon, met als doel de data-items in de database via het classificatiemodel aan een bepaalde categorie te koppelen. Het kan worden toegepast op applicatieclassificatie en trendvoorspelling, zoals Taobao-winkels die de aankopen van gebruikers over een bepaalde periode in verschillende categorieën verdelen en gerelateerde producten aanbevelen aan gebruikers afhankelijk van de situatie, waardoor het verkoopvolume van de winkel toeneemt. Veel algoritmen kunnen worden gebruikt voor classificatie, zoals beslissingsbomen, knn, Bayesiaans, enzovoort

(2) Regressieanalyse. Regressieanalyse weerspiegelt de kenmerken van attribuutwaarden van data in de database en ontdekt de afhankelijkheden tussen attribuutwaarden door de relatie van datamapping via functies uit te drukken. Het kan worden toegepast op de voorspelling en correlatie van datareeksen. In de marketing kan regressieanalyse op verschillende aspecten worden toegepast. Zo wordt bijvoorbeeld via de regressieanalyse van de omzet in het huidige kwartaal de verkooptrend van het volgende kwartaal voorspeld en worden gerichte marketingwijzigingen doorgevoerd. Veelvoorkomende regressie-algoritmen zijn onder andere Ordinary Least Square, Logistic Regression, Stepwise Regression, Multivariate Adaptive Regression Splines en Locally Estimate Spreidingsgrafiek gladstrijken)

(3) Clustering. Clustering lijkt op classificatie, maar in tegenstelling tot classificatie verdeelt het een set data in categorieën op basis van overeenkomsten en verschillen in data. De gelijkenis tussen gegevens die tot dezelfde categorie behoren is zeer groot, maar de gelijkenis tussen gegevens tussen verschillende categorieën is zeer klein, en de correlatie tussen gegevens tussen categorieën is zeer laag. Veelvoorkomende clustering-algoritmen zijn onder andere het k-Means-algoritme en verwachtingsmaximatie (EM).

(4) Verenigingsregels. Associatieregels zijn associaties of relaties tussen verborgen data-items, dat wil zeggen, het voorkomen van andere data-items kan worden afgeleid op basis van het verschijnen van één data-item. Het miningproces van associatieregels bestaat voornamelijk uit twee fasen: de eerste fase is het vinden van alle hoogfrequente projectgroepen uit enorme ruwe data; Het tweede uiterste is het genereren van associatieregels uit deze hoogfrequente projectgroepen. Association rule mining-technologie wordt veel gebruikt in financiële ondernemingen om klantbehoeften te voorspellen, en banken verbeteren hun marketing door informatie te bundelen waarin klanten mogelijk geïnteresseerd zijn, zodat gebruikers deze kunnen begrijpen en bijbehorende informatie op hun geldautomaten kunnen verkrijgen. Veelvoorkomende algoritmen zijn onder andere het Apriori-algoritme en het Eclat-algoritme.

(5) Neuraal netwerkmethode. Als geavanceerde kunstmatige intelligentietechnologie is neuraal netwerk zeer geschikt voor het omgaan met niet-lineaire en verwerkingsproblemen die worden gekenmerkt door vage, onvolledige en onnauwkeurige kennis of data, en zijn kenmerken zeer geschikt voor het oplossen van data mining-problemen. Typische neurale netwerkmodellen worden voornamelijk onderverdeeld in drie categorieën: de eerste is het feedforward neurale netwerkmodel voor classificatievoorspelling en patroonherkenning, dat voornamelijk wordt vertegenwoordigd door functionele netwerken en perceptrons; De tweede categorie is het feedbackneurale netwerkmodel voor associatief geheugen en optimalisatie-algoritmen, vertegenwoordigd door Hopfields discrete model en continue model. De derde categorie is de zelforganiserende mappingmethode voor clustering, weergegeven door het ART-model. Hoewel er veel modellen en algoritmen zijn voor neurale netwerken, is er geen uniforme regel over welke modellen en algoritmen gebruikt moeten worden in specifieke datamininggebieden, en het is moeilijk voor mensen om het leer- en besluitvormingsproces van netwerken te begrijpen.

(6) Web data mining. Web data mining is een uitgebreide technologie die verwijst naar het web vanuit de documentstructuur en de verzameling C die wordt gebruikt om het impliciete patroon P te ontdekken; als C als input wordt beschouwd, P als output, dan kan het web mining-proces worden gezien als een mapping process van input naar output. Tegenwoordig verschijnt steeds meer webdata in de vorm van datastromen, waardoor het van groot belang is voor web data flow mining. Op dit moment zijn de meest gebruikte web data mining-algoritmen: PageRank-algoritme, HITS-algoritme en LOGSOM-algoritme. De gebruikers die in deze drie algoritmes worden genoemd, zijn algemene gebruikers en maken geen onderscheid tussen individuele gebruikers. Op dit moment kampt webdatamining met enkele problemen, waaronder: gebruikersclassificatie, tijdigheid van websitecontent, verblijfstijd van gebruikers op de pagina, aantal paginalinks in en uit, enzovoort. In de snelle ontwikkeling van webtechnologie van vandaag zijn deze problemen nog steeds de moeite waard om te bestuderen en op te lossen.

(7) Deep learning
Deep learning-algoritmen zijn de ontwikkeling van kunstmatige neurale netwerken. Het heeft de laatste tijd veel aandacht gekregen, vooral nadat Baidu ook deep learning is gaan ontwikkelen, wat veel aandacht heeft getrokken in China. In de wereld van vandaag, waarin rekenkracht goedkoper wordt, probeert deep learning neurale netwerken te bouwen die veel groter en complexer zijn. Veel deep learning-algoritmen zijn semi-supervised learning-algoritmen die worden gebruikt om grote datasets met een kleine hoeveelheid niet-geïdentificeerde data te verwerken. Veelvoorkomende deep learning-algoritmen zijn: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutionele Netwerken en Stacked Auto-encoders.

(8) Integratie-algoritme
Het ensemble-algoritme gebruikt enkele relatief zwakke leermodellen om onafhankelijk op dezelfde steekproef te trainen en integreert vervolgens de resultaten voor de algehele voorspelling. De grootste moeilijkheid van het ensemble-algoritme is welke onafhankelijke zwakkere leermodellen worden geïntegreerd en hoe de leerresultaten worden geïntegreerd. Dit is een zeer krachtige klasse algoritmen en tegelijkertijd erg populair. Veelvoorkomende algoritmen zijn: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) en Random Forest.

Daarnaast is dimensionaliteitsreductie ook erg belangrijk in data-analysetechniek; zoals clustering-algoritmen; dimensionaliteitsreductie-algoritmen proberen de interne structuur van data te analyseren, maar dimensionaliteitsreductie-algoritmen proberen minder informatie te gebruiken om data op een ongecontroleerde leerwijze samen te vatten of te interpreteren. Deze algoritmen kunnen worden gebruikt om hoogdimensionale data te visualiseren of om data te vereenvoudigen voor supervised learning. Veelvoorkomende algoritmen zijn onder andere: Principle Component Analysis (PCA), Partial Least Square Regression (PLS), Sammon Mapping, Multi-Dimensional Scaling (MDS), Projection Pursuit, enzovoort.

Voor een gedetailleerde analyse van de voor- en nadelen van sommige algoritmen en algoritmeselectiereferenties kun je in de volgende blog de adaptatiescenario's van verschillende veelgebruikte algoritmen en hun voor- en nadelen bekijken (zeer goed).

Het volgende komt uit een alinea van de bovenstaande blog:
Referentie voor algoritmeselectie:

Ik heb eerder enkele buitenlandse artikelen vertaald, en één artikel geeft een eenvoudige algoritmeselectietechniek:

Als het effect niet goed is, kunnen de resultaten als referentie worden gebruikt en op basis worden vergeleken met andere algoritmen.

Probeer dan de beslissingsboom (random forest) om te zien of het de prestaties van je model aanzienlijk kan verbeteren. Zelfs als je het uiteindelijk niet als uiteindelijk model gebruikt, kun je een willekeurig bos gebruiken om ruisvariabelen te verwijderen en kenmerken te selecteren;

Als het aantal features en observationele steekproeven bijzonder groot is, is het gebruik van SVM een optie wanneer de middelen en tijd voldoende zijn (dit uitgangspunt is belangrijk).

Normaal gesproken: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Overig...], deep learning is erg populair, gebruikt in veel sectoren, het is gebaseerd op neurale netwerken, ik ben zelf bezig met het leren, maar de theoretische kennis is niet erg dik, het begrip is niet diep genoeg, ik zal het hier niet introduceren.

Algoritmes zijn belangrijk, maar goede data is beter dan goede algoritmen, en het ontwerpen van goede features is van groot nut. Als je een zeer grote dataset hebt, dan kan het ongeacht welk algoritme je gebruikt, het misschien weinig invloed hebben op de classificatieprestaties (je kunt kiezen op basis van snelheid en gebruiksgemak).

Los het netwerk van uitstekende talenten op · Geplaatst op 27-05-2019 08:27:15

Goedemorgen allemaal

Los het netwerk van uitstekende talenten op · Geplaatst op 16-09-2019 12:10:06

Algoritmes zijn goed betaald en welkom om te bellen

Veelvoorkomende algoritmen voor het delen van big data (applicaties)

Secties bekeken