Gemeinsame Algorithmen zum Teilen von Big Data (Anwendungen)

Lösen Sie das Netzwerk für exzellente Talente · Veröffentlicht am 27.04.2019 09:53:15

Big Data Mining ist der Prozess, wertvolle und potenziell nützliche Informationen und Wissen zu entdecken, die in riesigen, unvollständigen, rauschenden, unscharfen und zufällig großen Datenbanken verborgen sind, und es ist auch ein Entscheidungsunterstützungsprozess. Sie basiert hauptsächlich auf künstlicher Intelligenz, maschinellem Lernen, Musterlernen, Statistik usw. Big Data Mining ist der Prozess, wertvolle und potenziell nützliche Informationen und Wissen zu entdecken, die in riesigen, unvollständigen, rauschenden, unscharfen und zufällig großen Datenbanken verborgen sind, und es ist auch ein Entscheidungsunterstützungsprozess. Sie basiert hauptsächlich auf künstlicher Intelligenz, maschinellem Lernen, Musterlernen, Statistik usw.

(1) Klassifikation. Die Klassifikation besteht darin, die gemeinsamen Eigenschaften einer Datenmenge in der Datenbank zu ermitteln und sie entsprechend dem Klassifikationsmuster in verschiedene Klassen zu unterteilen, deren Zweck es ist, die Datenelemente in der Datenbank über das Klassifikationsmodell auf eine bestimmte Kategorie abzubilden. Sie kann auf Anwendungsklassifizierung und Trendvorhersage angewendet werden, zum Beispiel indem Taobao-Filialen die Käufe der Nutzer über einen bestimmten Zeitraum in verschiedene Kategorien unterteilen und verwandte Produkte entsprechend der Situation empfehlen, wodurch das Verkaufsvolumen des Geschäfts gesteigert wird. Viele Algorithmen können zur Klassifikation verwendet werden, wie Entscheidungsbäume, knn, bayessche Algorithmen usw

(2) Regressionsanalyse. Die Regressionsanalyse spiegelt die Eigenschaften der Attributwerte von Daten in der Datenbank wider und entdeckt die Abhängigkeiten zwischen Attributwerten, indem sie die Beziehung der Datenabbildung über Funktionen darstellt. Sie kann auf die Vorhersage und Korrelation von Datenreihen angewendet werden. Im Marketing kann die Regressionsanalyse auf verschiedene Aspekte angewendet werden. Zum Beispiel wird durch die Regressionsanalyse des aktuellen Quartals der Verkaufstrend des nächsten Quartals vorhergesagt und gezielte Marketingänderungen vorgenommen. Gängige Regressionsalgorithmen sind Ordinary Least Square, Logistic Regression, Stepwise Regression, Multivariate Adaptive Regression Splines und Local Estimated Streudiagramm-Glättung)

(3) Clustering. Clustering ähnelt der Klassifikation, teilt jedoch im Gegensatz zur Klassifikation einen Datensatz in Kategorien auf, basierend auf Ähnlichkeiten und Unterschieden in den Daten. Die Ähnlichkeit zwischen Daten, die derselben Kategorie angehören, ist sehr groß, aber die Ähnlichkeit zwischen den Daten zwischen verschiedenen Kategorien ist sehr gering, und die Korrelation zwischen den Daten zwischen den Kategorien ist sehr gering. Gängige Clustering-Algorithmen sind der k-Means-Algorithmus und die Erwartungsmaximierung (EM).

(4) Vereinsregeln. Assoziationsregeln sind Assoziationen oder Beziehungen zwischen versteckten Datenelementen, das heißt, das Vorkommen anderer Datenelemente kann anhand des Auftretens eines Datenelements abgeleitet werden. Der Mining-Prozess der Assoziationsregeln besteht hauptsächlich aus zwei Stufen: Die erste Stufe besteht darin, alle Hochfrequenzprojektgruppen aus massiven Rohdaten zu finden; Das zweite Extrem besteht darin, Assoziationsregeln aus diesen Hochfrequenzprojektgruppen zu generieren. Association Rule Mining-Technologie wird in Finanzunternehmen weit verbreitet eingesetzt, um Kundenbedürfnisse vorherzusagen, und Banken verbessern ihr Marketing, indem sie Informationen, die Kunden interessieren könnten, bündeln, damit Nutzer sie verstehen und entsprechende Informationen an ihren Geldautomaten erhalten. Gängige Algorithmen sind der Apriori-Algorithmus und der Eclat-Algorithmus.

(5) Neuronale Netzwerkmethode. Als fortschrittliche Technologie der künstlichen Intelligenz eignet sich neuronale Netze sehr gut zur Behandlung nichtlinearer und Verarbeitungsprobleme, die durch vage, unvollständige und ungenaue Daten gekennzeichnet sind, und ihre Eigenschaften eignen sich hervorragend zur Lösung von Data-Mining-Problemen. Typische neuronale Netzwerkmodelle werden hauptsächlich in drei Kategorien unterteilt: Die erste ist das Feedforward-Neuralnetzmodell zur Klassifikationsvorhersage und Mustererkennung, das hauptsächlich durch funktionale Netzwerke und Perzeptrons repräsentiert wird; Die zweite Kategorie ist das Rückkopplungsneurale Netzwerkmodell für assoziatives Gedächtnis und Optimierungsalgorithmen, repräsentiert durch Hopfields diskretes Modell und kontinuierliches Modell. Die dritte Kategorie ist die selbstorganisierende Mapping-Methode für Clustering, dargestellt durch das ART-Modell. Obwohl es viele Modelle und Algorithmen für neuronale Netze gibt, gibt es keine einheitliche Regel dafür, welche Modelle und Algorithmen in bestimmten Bereichen des Data Mining verwendet werden sollen, und es ist für Menschen schwierig, den Lern- und Entscheidungsprozess von Netzwerken zu verstehen.

(6) Web-Datenmining. Web Data Mining ist eine umfassende Technologie, die sich auf das Web aus der Dokumentstruktur und der Menge C bezieht, die zur Entdeckung des impliziten Musters P verwendet wird; wenn C als Eingabe betrachtet wird, P als Ausgabe, dann kann der Webmining-Prozess als Mapping-Prozess von Eingabe zu Ausgabe betrachtet werden. Derzeit erscheinen immer mehr Webdaten in Form von Datenströmen, weshalb sie für Web-Datenfluss-Mining von großer Bedeutung sind. Derzeit sind die häufig verwendeten Web-Data-Mining-Algorithmen: PageRank-Algorithmus, HITS-Algorithmus und LOGSOM-Algorithmus. Die in diesen drei Algorithmen genannten Nutzer sind allgemeine Nutzer und unterscheiden nicht zwischen einzelnen Nutzern. Derzeit steht Web Data Mining vor einigen Problemen, darunter: Benutzerklassifizierung, Aktualität der Website-Inhalte, Verweilzeit der Nutzer auf der Seite, Anzahl von Seitenlinks in und aus usw. In der heutigen rasanten Entwicklung der Webtechnologie lohnen sich diese Probleme immer noch zu untersuchen und zu lösen.

(7) Deep Learning
Deep-Learning-Algorithmen sind die Entwicklung künstlicher neuronaler Netzwerke. In letzter Zeit hat es viel Aufmerksamkeit erregt, besonders nachdem Baidu auch begonnen hat, Deep Learning zu entwickeln, das in China viel Aufmerksamkeit erregt hat. In der heutigen Welt, in der Rechenleistung immer günstiger wird, versucht Deep Learning, neuronale Netzwerke zu bauen, die viel größer und komplexer sind. Viele Deep-Learning-Algorithmen sind halbüberwachte Lernalgorithmen, die große Datensätze mit einer kleinen Menge unidentifizierter Daten verarbeiten. Gängige Deep-Learning-Algorithmen sind: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks und Stacked Auto-encoder.

(8) Integrationsalgorithmus
Der Ensemble-Algorithmus verwendet einige relativ schwache Lernmodelle, um unabhängig auf derselben Stichprobe zu trainieren, und integriert dann die Ergebnisse zur Gesamtprognose. Die Hauptschwierigkeit des Ensemble-Algorithmus besteht darin, welche unabhängigen, schwächeren Lernmodelle integriert werden und wie die Lernergebnisse integriert werden. Dies ist eine sehr leistungsstarke Klasse von Algorithmen und gleichzeitig sehr beliebt. Gängige Algorithmen sind: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) und Random Forest.

Darüber hinaus ist die Dimensionsreduktion auch in der Datenanalysetechnik sehr wichtig, ähnlich wie Clustering-Algorithmen; Dimensionsreduktionsalgorithmen versuchen, die interne Struktur von Daten zu analysieren, aber Dimensionsreduktionsalgorithmen versuchen, weniger Informationen zu verwenden, um Daten auf unüberwachte Weise zusammenzufassen oder zu interpretieren. Diese Algorithmen können verwendet werden, um hochdimensionale Daten zu visualisieren oder Daten für überwachtes Lernen zu vereinfachen. Gängige Algorithmen sind: Principle Component Analysis (PCA), Partial Least Square Regression (PLS), Sammon Mapping, Multi-Dimensional Scaling (MDS), Projection Pursuit usw.

Für eine detaillierte Analyse der Vor- und Nachteile einiger Algorithmen und Algorithmusauswahl-Referenzen können Sie sich im folgenden Blog die Anpassungsszenarien mehrerer häufig verwendeter Algorithmen sowie deren Vor- und Nachteile ansehen (sehr gut).

Das Folgende stammt aus einem Absatz aus dem obigen Blog:
Algorithmusauswahl-Referenz:

Ich habe schon einige ausländische Artikel übersetzt, und ein Artikel bietet eine einfache Algorithmusauswahltechnik:

Wenn seine Wirkung nicht gut ist, können ihre Ergebnisse als Referenz verwendet und mit anderen Algorithmen auf der Basis verglichen werden.

Dann probiere den Entscheidungsbaum (Random Forest) aus, um zu sehen, ob er die Leistung deines Modells deutlich verbessern kann. Selbst wenn du es am Ende nicht als endgültiges Modell verwendest, kannst du einen Zufallsforest verwenden, um Rauschvariablen zu entfernen und Features auszuwählen;

Wenn die Anzahl der Merkmale und Beobachtungsproben besonders groß ist, ist die Verwendung von SVM eine Option, wenn Ressourcen und Zeit ausreichen (diese Prämisse ist wichtig).

Normalerweise: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Andere...], ist Deep Learning sehr beliebt, wird in vielen Bereichen eingesetzt, basiert auf neuronalen Netzen, ich lerne gerade selbst, aber das theoretische Wissen ist nicht sehr umfangreich, das Verständnis ist nicht tief genug, ich werde es hier nicht vorstellen.

Algorithmen sind wichtig, aber gute Daten sind besser als gute Algorithmen, und das Design guter Features ist von großem Vorteil. Wenn du einen sehr großen Datensatz hast, kann es egal sein, welchen Algorithmus du verwendest, der die Klassifikationsleistung kaum beeinflusst (du kannst nach Geschwindigkeit und Benutzerfreundlichkeit wählen).

Lösen Sie das Netzwerk für exzellente Talente · Veröffentlicht am 27.05.2019 08:27:15

Morgenz

Lösen Sie das Netzwerk für exzellente Talente · Veröffentlicht am 16.09.2019 12:10:06

Algorithmen sind hochbezahlt und willkommen zum Anrufen

Gemeinsame Algorithmen zum Teilen von Big Data (Anwendungen)

Betrachtete Abschnitte