|
|
Publié sur 27/04/2019 09:53:15
|
|
|

Le big data mining est le processus de découverte d’informations et de connaissances précieuses et potentiellement utiles cachées dans d’immenses bases de données massives, incomplètes, bruyantes, floues et aléatoires, et c’est aussi un processus d’aide à la décision. Elle repose principalement sur l’intelligence artificielle, l’apprentissage automatique, l’apprentissage des motifs, les statistiques, etc. Le big data mining est le processus de découverte d’informations et de connaissances précieuses et potentiellement utiles cachées dans d’immenses bases de données massives, incomplètes, bruyantes, floues et aléatoires, et c’est aussi un processus d’aide à la décision. Elle repose principalement sur l’intelligence artificielle, l’apprentissage automatique, l’apprentissage des motifs, les statistiques, etc.
(1) Classification. La classification consiste à identifier les caractéristiques communes d’un ensemble d’objets de données dans la base de données et à les diviser en différentes classes selon le schéma de classification, dont le but est de mapper les éléments de données de la base de données à une catégorie donnée via le modèle de classification. Elle peut être appliquée à la classification des applications et à la prédiction des tendances, par exemple les magasins Taobao qui divisent les achats des utilisateurs en différentes catégories sur une période donnée, et recommandent des produits associés selon la situation, augmentant ainsi le volume de ventes du magasin. De nombreux algorithmes peuvent être utilisés pour la classification, tels que les arbres de décision, knn, bayésien, etc
(2) Analyse de régression. L’analyse de régression reflète les caractéristiques des valeurs d’attributs des données dans la base de données, et découvre les dépendances entre les valeurs des attributs en exprimant la relation entre le mappage des données à travers les fonctions. Elle peut s’appliquer à la prédiction et à la corrélation des séries de données. En marketing, l’analyse de régression peut être appliquée à divers aspects. Par exemple, grâce à l’analyse de régression des ventes au trimestre en cours, la tendance des ventes du trimestre suivant est prédite et des changements marketing ciblés sont effectués. Les algorithmes de régression courants incluent le moindre carré ordinaire, la régression logistique, la régression par étapes, les splines de régression adaptative multivariée et les estimations locales Lissage des diagrammes de balais)
(3) Regroupement. Le regroupement est similaire à la classification, mais contrairement à la classification, il divise un ensemble de données en catégories selon les similarités et différences de données. La similarité entre les données appartenant à la même catégorie est très importante, mais la similarité entre les données entre différentes catégories est très faible, et la corrélation entre les données entre catégories est très faible. Les algorithmes de regroupement courants incluent l’algorithme k-Means et la maximisation d’espérance (EM).
(4) Règles de l’association. Les règles d’association sont des associations ou des relations entre des éléments de données cachés, c’est-à-dire que la présence d’autres éléments de données peut être déduite à partir de l’apparence d’un seul élément de données. Le processus de minage des règles d’association comprend principalement deux étapes : la première étape consiste à trouver tous les groupes de projets à haute fréquence à partir de données brutes massives ; Le second extrême est de générer des règles d’association à partir de ces groupes de projets à haute fréquence. La technologie d’extraction par règles d’association a été largement utilisée dans les entreprises financières pour prédire les besoins des clients, et les banques améliorent leur marketing en regroupant des informations susceptibles d’intéresser les clients afin que les utilisateurs puissent comprendre et obtenir les informations correspondantes sur leurs distributeurs automatiques. Les algorithmes courants incluent l’algorithme Apriori et l’algorithme Eclat.
(5) Méthode du réseau de neurones. En tant que technologie d’intelligence artificielle avancée, le réseau neuronal est très adapté à la gestion de problèmes non linéaires et de traitement caractérisés par des connaissances ou données vagues, incomplètes et inexactes, et ses caractéristiques sont très adaptées à la résolution de problèmes d’exploration de données. Les modèles typiques de réseaux de neurones sont principalement divisés en trois catégories : la première est le modèle de réseau de neurones feedforward pour la prédiction de classification et la reconnaissance de motifs, qui est principalement représenté par des réseaux fonctionnels et des perceptrons ; La deuxième catégorie est le modèle de réseau de neurones à rétroaction pour la mémoire associative et les algorithmes d’optimisation, représenté par le modèle discret et le modèle continu de Hopfield. La troisième catégorie est la méthode de cartographie auto-organisée pour le clustering, représentée par le modèle ART. Bien qu’il existe de nombreux modèles et algorithmes pour les réseaux de neurones, il n’existe pas de règle uniforme sur les modèles et algorithmes à utiliser dans des domaines spécifiques de l’exploration de données, et il est difficile pour les gens de comprendre le processus d’apprentissage et de prise de décision des réseaux.
(6) Exploration de données web. L’exploration de données web est une technologie complète qui désigne le Web à partir de la structure du document et de l’ensemble C utilisé pour découvrir le motif implicite P ; si C est considéré comme l’entrée, P comme la sortie, alors le processus de web mining peut être considéré comme un processus de mappage de l’entrée à la sortie. Aujourd’hui, de plus en plus de données web apparaissent sous forme de flux de données, ce qui les rend d’une grande importance pour l’exploration de flux de données web. Actuellement, les algorithmes de recherche de données web couramment utilisés sont : l’algorithme PageRank, l’algorithme HITS et l’algorithme LOGSOM. Les utilisateurs mentionnés dans ces trois algorithmes sont des utilisateurs généraux et ne font pas de distinction entre les utilisateurs individuels. Actuellement, l’exploration de données web rencontre certains problèmes, notamment : la classification des utilisateurs, la rapidité du contenu du site, le temps de séjour des utilisateurs sur la page, le nombre de liens vers et vers les pages, etc. Dans le développement rapide de la technologie web d’aujourd’hui, ces problèmes méritent encore d’être étudiés et résolus.
(7) Apprentissage profond Les algorithmes d’apprentissage profond sont le développement de réseaux de neurones artificiels. Il a récemment attiré beaucoup d’attention, surtout après que Baidu a également commencé à développer l’apprentissage profond, qui a attiré beaucoup d’attention en Chine. Dans le monde d’aujourd’hui où la puissance de calcul devient moins coûteuse, l’apprentissage profond tente de construire des réseaux de neurones beaucoup plus vastes et complexes. De nombreux algorithmes d’apprentissage profond sont des algorithmes semi-supervisés utilisés pour traiter de grands ensembles de données contenant une petite quantité de données non identifiées. Les algorithmes d’apprentissage profond courants incluent : la machine de Boltzmann restreinte (RBN), les réseaux de croyances profondes (DBN), les réseaux convolutionnels et les encodeurs automatiques empilés.
(8) Algorithme d’intégration L’algorithme d’ensemble utilise certains modèles d’apprentissage relativement faibles pour s’entraîner indépendamment sur le même échantillon, puis intègre les résultats pour une prédiction globale. La principale difficulté de l’algorithme d’ensemble est de savoir quels modèles d’apprentissage indépendants et faibles sont intégrés et comment intégrer les résultats d’apprentissage. C’est une classe d’algorithmes très puissante et en même temps très populaire. Les algorithmes courants incluent : Boosting, agrégation bootstrappée (Bagage), AdaBoost, généralisation empilée (Blending), Gradient Boosting Machine (GBM) et Random Forest.
De plus, la réduction de la dimensionnalité est également très importante en ingénierie de l’analyse des données, comme les algorithmes de clustering, les algorithmes de réduction de dimensionnalité tentent d’analyser la structure interne des données, mais les algorithmes de réduction de dimensionnalité essaient d’utiliser moins d’informations pour résumer ou interpréter les données de manière non supervisée. Ces algorithmes peuvent être utilisés pour visualiser des données en haute dimension ou pour simplifier les données en vue d’un apprentissage supervisé. Les algorithmes courants incluent : l’analyse des composantes principales (PCA), la régression partielle des moindres carrés (PLS), la cartographie de Sammon, la mise à l’échelle multidimensionnelle (MDS), la poursuite de projections, etc.
Pour une analyse détaillée des avantages et inconvénients de certains algorithmes ainsi que des références de sélection d’algorithmes, vous pouvez jeter un œil aux scénarios d’adaptation de plusieurs algorithmes couramment utilisés ainsi qu’à leurs avantages et inconvénients dans le blog suivant (très bon)
Ce qui suit est extrait d’un paragraphe du blog ci-dessus : Référence de sélection de l’algorithme :
J’ai déjà traduit certains articles étrangers, et un article propose une technique simple de sélection d’algorithmes :
Si son effet n’est pas bon, ses résultats peuvent être utilisés comme référence et comparés à d’autres algorithmes sur cette base.
Ensuite, essayez l’arbre de décision (forêt aléatoire) pour voir s’il peut améliorer considérablement les performances de votre modèle. Même si vous ne l’utilisez pas comme modèle final à la fin, vous pouvez utiliser une forêt aléatoire pour supprimer les variables de bruit et sélectionner des fonctionnalités ;
Si le nombre de caractéristiques et d’échantillons d’observation est particulièrement important, alors utiliser la SVM est une option lorsque les ressources et le temps sont suffisants (ce postulat est important).
Normalement : [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Autre...], l’apprentissage profond est très populaire, utilisé dans de nombreux domaines, il est basé sur les réseaux de neurones, j’apprends moi-même, mais les connaissances théoriques ne sont pas très solides, la compréhension n’est pas assez approfondie, je ne vais pas l’introduire ici.
Les algorithmes sont importants, mais de bonnes données valent mieux que de bons algorithmes, et concevoir de bonnes fonctionnalités est très bénéfique. Si vous disposez d’un jeu de données très vaste, peu importe l’algorithme utilisé, cela peut ne pas vraiment affecter la performance de la classification (vous pouvez choisir en fonction de la rapidité et de la facilité d’utilisation).
|
Précédent:Convertir les résultats des requêtes en partage de scripts au format JsonProchain:C# est un service Windows qui exécute régulièrement des tâches
|