Algoritmos comunes para compartir big data (aplicaciones)

Resuelve la excelente red de talento · Publicado en 27/4/2019 9:53:15

La minería de big data es el proceso de descubrir información y conocimiento valiosos y potencialmente útiles ocultos en bases de datos enormes, incompletas, ruidosas, borrosas y aleatorias, y también es un proceso de apoyo a la decisión. Se basa principalmente en inteligencia artificial, aprendizaje automático, aprendizaje de patrones, estadística, etc. La minería de big data es el proceso de descubrir información y conocimiento valiosos y potencialmente útiles ocultos en bases de datos enormes, incompletas, ruidosas, borrosas y aleatorias, y también es un proceso de apoyo a la decisión. Se basa principalmente en inteligencia artificial, aprendizaje automático, aprendizaje de patrones, estadística, etc.

(1) Clasificación. La clasificación consiste en identificar las características comunes de un conjunto de objetos de datos en la base de datos y dividirlos en diferentes clases según el patrón de clasificación, cuyo propósito es mapear los elementos de datos de la base de datos a una categoría dada mediante el modelo de clasificación. Puede aplicarse a la clasificación de aplicaciones y a la predicción de tendencias, como que las tiendas Taobao dividan las compras de los usuarios en diferentes categorías a lo largo del tiempo y recomienden productos relacionados según la situación, aumentando así el volumen de ventas de la tienda. Se pueden usar muchos algoritmos para la clasificación, como árboles de decisión, knn, bayesiano, etc

(2) Análisis de regresión. El análisis de regresión refleja las características de los valores de atributos de los datos en la base de datos y descubre las dependencias entre los valores de los atributos expresando la relación de la correspondencia de datos a través de funciones. Puede aplicarse a la predicción y correlación de series de datos. En marketing, el análisis de regresión puede aplicarse a varios aspectos. Por ejemplo, mediante el análisis de regresión de las ventas en el trimestre actual, se predice la tendencia de ventas del siguiente trimestre y se realizan cambios de marketing dirigidos. Los algoritmos de regresión más comunes incluyen Mínimos Cuadrados Ordinarios, Regresión Logística, Regresión Escalonada, Splines de Regresión Adaptativa Multivariante y Estimación Localmente Suavizado de diagramas de dispersión)

(3) Agrupamiento. El agrupamiento es similar a la clasificación, pero a diferencia de la clasificación, divide un conjunto de datos en categorías basadas en similitudes y diferencias entre los datos. La similitud entre datos que pertenecen a la misma categoría es muy grande, pero la similitud entre datos entre distintas categorías es muy pequeña y la correlación entre datos entre categorías es muy baja. Los algoritmos de agrupamiento más comunes incluyen el algoritmo k-Means y la maximización de expectativas (EM).

(4) Normas de la asociación. Las reglas de asociación son asociaciones o relaciones entre elementos de datos ocultos, es decir, la ocurrencia de otros elementos de datos puede deducirse a partir de la aparición de un elemento de datos. El proceso de minería de las reglas de asociación incluye principalmente dos etapas: la primera es encontrar todos los grupos de proyectos de alta frecuencia a partir de grandes datos en bruto; El segundo extremo es generar reglas de asociación a partir de estos grupos de proyectos de alta frecuencia. La tecnología de minería por reglas de asociación se ha utilizado ampliamente en empresas del sector financiero para predecir las necesidades de los clientes, y los bancos mejoran su marketing agrupando información que los clientes puedan interesar para que los usuarios la comprendan y obtengan la información correspondiente en sus cajeros automáticos. Los algoritmos comunes incluyen el algoritmo Apriori y el algoritmo Eclat.

(5) Método de redes neuronales. Como tecnología avanzada de inteligencia artificial, la red neuronal es muy adecuada para tratar problemas no lineales y de procesamiento caracterizados por conocimientos o datos vagos, incompletos e inexactos, y sus características son muy adecuadas para resolver problemas de minería de datos. Los modelos típicos de redes neuronales se dividen principalmente en tres categorías: la primera es el modelo de redes neuronales feedforward para la predicción de clasificación y el reconocimiento de patrones, que se representa principalmente por redes funcionales y perceptrones; La segunda categoría es el modelo de red neuronal de realimentación para memoria asociativa y algoritmos de optimización, representado por el modelo discreto y el modelo continuo de Hopfield. La tercera categoría es el método de mapeo autoorganizado para agrupamiento, representado por el modelo ART. Aunque existen muchos modelos y algoritmos para redes neuronales, no existe una regla uniforme sobre qué modelos y algoritmos usar en campos específicos de la minería de datos, y es difícil para las personas entender el proceso de aprendizaje y toma de decisiones de las redes.

(6) Minería de datos web. La minería de datos web es una tecnología completa que se refiere a la Web a partir de la estructura del documento y el conjunto C utilizado para descubrir el patrón implícito P; si C se considera la entrada, P se considera la salida, entonces el proceso de minería web puede considerarse un proceso de mapeo de entrada a salida. Actualmente, cada vez aparecen más datos web en forma de flujos de datos, por lo que es de gran importancia para la minería de flujos de datos web. Actualmente, los algoritmos de minería de datos web más utilizados son: algoritmo PageRank, algoritmo HITS y algoritmo LOGSOM. Los usuarios mencionados en estos tres algoritmos son usuarios generales y no distinguen entre usuarios individuales. Actualmente, la minería de datos web se enfrenta a algunos problemas, incluyendo: clasificación de usuarios, puntualidad del contenido web, tiempo de estancia en la página, número de enlaces de página que entran y salen, etc. En el rápido desarrollo actual de la tecnología web, estos problemas siguen mereciendo ser estudiados y solucionados.

(7) Aprendizaje profundo
Los algoritmos de aprendizaje profundo son el desarrollo de redes neuronales artificiales. Recientemente ha ganado mucha atención, especialmente después de que Baidu también haya empezado a desarrollar el deep learning, que ha atraído mucha atención en China. En el mundo actual, donde la potencia de cálculo es cada vez más barata, el aprendizaje profundo intenta construir redes neuronales mucho más grandes y complejas. Muchos algoritmos de aprendizaje profundo son algoritmos de aprendizaje semi-supervisado utilizados para procesar grandes conjuntos de datos con una pequeña cantidad de datos no identificados. Los algoritmos comunes de aprendizaje profundo incluyen: Máquina Boltzmann Restringida (RBN), Redes Profundas de Creencias (DBN), Redes Convolucionales y Autocodificadores Apilados.

(8) Algoritmo de integración
El algoritmo de conjunto utiliza algunos modelos de aprendizaje relativamente débiles para entrenar de forma independiente en la misma muestra, y luego integra los resultados para la predicción global. La principal dificultad del algoritmo de conjunto es qué modelos de aprendizaje independientes y débiles se integran y cómo integrar los resultados del aprendizaje. Esta es una clase de algoritmos muy potente y, al mismo tiempo, muy popular. Los algoritmos comunes incluyen: Boosting, Agregación Bootstrapp (Bagging), AdaBoost, Generalización Apilada (Blending), Máquina de Aumento de Gradientes (GBM) y Bosque Aleatorio.

Además, la reducción de dimensionalidad también es muy importante en la ingeniería de análisis de datos; al igual que los algoritmos de agrupamiento, los algoritmos de reducción de dimensionalidad intentan analizar la estructura interna de los datos, pero los algoritmos de reducción de dimensionalidad intentan usar menos información para resumir o interpretar los datos de forma no supervisada. Estos algoritmos pueden usarse para visualizar datos de alta dimensión o para simplificar datos para el aprendizaje supervisado. Los algoritmos comunes incluyen: Análisis de Componentes Principales (PCA), Regresión Parcial de Mínimos Cuadrados (PLS), Mapeo de Sammon, Escalado Multidimensional (MDS), Persecución de Proyección, etc.

Para un análisis detallado de las ventajas y desventajas de algunos algoritmos y referencias de selección de algoritmos, puedes echar un vistazo a los escenarios de adaptación de varios algoritmos comúnmente usados y sus ventajas y desventajas en el siguiente blog (muy bien)

Lo siguiente es de un párrafo del blog anterior:
Referencia de selección de algoritmo:

He traducido algunos artículos extranjeros antes, y uno de ellos ofrece una técnica sencilla de selección de algoritmos:

Si su efecto no es bueno, sus resultados pueden usarse como referencia y compararse con otros algoritmos sobre la base.

Luego prueba con el árbol de decisiones (bosque aleatorio) para ver si puede mejorar drásticamente el rendimiento de tu modelo. Aunque al final no lo uses como modelo final, puedes usar un bosque aleatorio para eliminar variables de ruido y seleccionar características;

Si el número de características y muestras observacionales es particularmente grande, entonces usar SVM es una opción cuando los recursos y el tiempo son suficientes (esta premisa es importante).

Normalmente: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Otros...], ahora el aprendizaje profundo es muy popular, se usa en muchos campos, se basa en redes neuronales, actualmente estoy aprendiendo por mi cuenta, pero el conocimiento teórico no es muy profundo, el conocimiento no es lo suficientemente profundo, no lo introduciré aquí.

Los algoritmos son importantes, pero los buenos datos son mejores que los buenos algoritmos, y diseñar buenas características es de gran beneficio. Si tienes un conjunto de datos muy grande, no importa qué algoritmo uses, puede que no afecte mucho al rendimiento de la clasificación (puedes elegir en función de la velocidad y facilidad de uso).

Resuelve la excelente red de talento · Publicado en 27/5/2019 8:27:15

Buenos días a todos

Resuelve la excelente red de talento · Publicado en 16/9/2019 12:10:06

Los algoritmos están muy bien pagados y son bienvenidos a llamar

Algoritmos comunes para compartir big data (aplicaciones)

Secciones vistas