|
|
Publicado em 27/04/2019 09:53:15
|
|
|

A mineração de big data é o processo de descobrir informações e conhecimentos valiosos e potencialmente úteis escondidos em bancos de dados grandes, massivos, incompletos, barulhentos, nebulosos e aleatórios, e também é um processo de suporte à decisão. É principalmente baseado em inteligência artificial, aprendizado de máquina, aprendizado de padrões, estatística, etc. A mineração de big data é o processo de descobrir informações e conhecimentos valiosos e potencialmente úteis escondidos em bancos de dados grandes, massivos, incompletos, barulhentos, nebulosos e aleatórios, e também é um processo de suporte à decisão. É principalmente baseado em inteligência artificial, aprendizado de máquina, aprendizado de padrões, estatística, etc.
(1) Classificação. A classificação consiste em identificar as características comuns de um conjunto de objetos de dados no banco de dados e dividi-los em diferentes classes de acordo com o padrão de classificação, cujo objetivo é mapear os itens de dados do banco de dados para uma determinada categoria por meio do modelo de classificação. Pode ser aplicado à classificação de aplicações e previsão de tendências, como lojas Taobao que dividem as compras dos usuários em diferentes categorias ao longo do tempo e recomendam produtos relacionados aos usuários de acordo com a situação, aumentando assim o volume de vendas da loja. Muitos algoritmos podem ser usados para classificação, como árvores de decisão, knn, bayesiana, etc
(2) Análise de regressão. A análise de regressão reflete as características dos valores de atributos dos dados no banco de dados e descobre as dependências entre os valores dos atributos ao expressar a relação do mapeamento de dados através de funções. Pode ser aplicado à previsão e correlação de séries de dados. No marketing, a análise de regressão pode ser aplicada a vários aspectos. Por exemplo, por meio da análise de regressão das vendas no trimestre atual, a tendência de vendas do próximo trimestre é prevista e mudanças direcionadas ao marketing são feitas. Algoritmos comuns de regressão incluem Mínimos Quadrados Ordinários, Regressão Logística, Regressão Escalonada, Splines de Regressão Multivariada Adaptativa e Estimada Localmente Suavização de Diagrama de Scatter)
(3) Agrupamento. Agrupamento é semelhante à classificação, mas, ao contrário da classificação, ele divide um conjunto de dados em categorias com base em semelhanças e diferenças nos dados. A semelhança entre dados pertencentes à mesma categoria é muito grande, mas a semelhança entre dados de diferentes categorias é muito pequena, e a correlação entre dados entre categorias é muito baixa. Algoritmos comuns de agrupamento incluem o algoritmo k-Means e a maximização da expectativa (EM).
(4) Regras da associação. Regras de associação são associações ou relações entre itens de dados ocultos, ou seja, a ocorrência de outros itens de dados pode ser deduzida com base na aparência de um único item de dados. O processo de mineração das regras de associação inclui principalmente duas etapas: a primeira etapa é encontrar todos os grupos de projetos de alta frequência a partir de dados brutos massivos; O segundo extremo é gerar regras de associação a partir desses grupos de projetos de alta frequência. A tecnologia de mineração por regras de associação tem sido amplamente utilizada em empresas da indústria financeira para prever as necessidades dos clientes, e os bancos melhoram seu marketing ao agrupar informações que os clientes possam ter interesse para que os usuários possam entender e obter informações correspondentes em seus caixas eletrônicos. Algoritmos comuns incluem o algoritmo Apriori e o algoritmo Eclat.
(5) Método de rede neural. Como uma tecnologia avançada de inteligência artificial, a rede neural é muito adequada para lidar com problemas não lineares e de processamento caracterizados por conhecimento ou dados vagos, incompletos e imprecisos, e suas características são muito adequadas para resolver problemas de mineração de dados. Modelos típicos de redes neurais são principalmente divididos em três categorias: a primeira é o modelo de rede neural feedforward para previsão de classificação e reconhecimento de padrões, que é representado principalmente por redes funcionais e perceptrons; A segunda categoria é o modelo de rede neural de realimentação para memória associativa e algoritmos de otimização, representado pelo modelo discreto e modelo contínuo de Hopfield. A terceira categoria é o método de mapeamento auto-organizado para clustering, representado pelo modelo ART. Embora existam muitos modelos e algoritmos para redes neurais, não existe uma regra uniforme sobre quais modelos e algoritmos usar em campos específicos da mineração de dados, e é difícil para as pessoas entenderem o processo de aprendizado e tomada de decisão das redes.
(6) Mineração de dados na web. A mineração de dados web é uma tecnologia abrangente, que se refere à Web a partir da estrutura do documento e do conjunto C usado para descobrir o padrão implícito P; se C é considerado como entrada, P é considerado como saída, então o processo de mineração web pode ser considerado um processo de mapeamento da entrada para a saída. Atualmente, cada vez mais dados da web surgem na forma de fluxos de dados, o que é de grande importância para a mineração de fluxo de dados na web. Atualmente, os algoritmos de mineração de dados web mais usados são: algoritmo PageRank, algoritmo HITS e algoritmo LOGSOM. Os usuários mencionados nesses três algoritmos são usuários gerais e não distinguem entre usuários individuais. Atualmente, a mineração de dados web enfrenta alguns problemas, incluindo: classificação de usuários, pontualidade do conteúdo do site, tempo de permanência do usuário na página, números de links de entrada e saída de páginas, etc. No rápido desenvolvimento da tecnologia web de hoje, esses problemas ainda valem a pena ser estudados e resolvidos.
(7) Aprendizado profundo Algoritmos de aprendizado profundo são o desenvolvimento de redes neurais artificiais. Recentemente, ele ganhou muita atenção, especialmente depois que Baidu também começou a desenvolver deep learning, que tem atraído muita atenção na China. No mundo atual, onde o poder computacional está se tornando mais barato, o deep learning tenta construir redes neurais muito maiores e complexas. Muitos algoritmos de aprendizado profundo são algoritmos de aprendizado semi-supervisionados usados para processar grandes conjuntos de dados com uma pequena quantidade de dados não identificados. Algoritmos comuns de aprendizado profundo incluem: Máquina Boltzmann Restrita (RBN), Redes de Crença Profunda (DBN), Redes Convolucionais e Auto-encoders Empilhados.
(8) Algoritmo de integração O algoritmo de conjunto utiliza alguns modelos de aprendizado relativamente fracos para treinar independentemente na mesma amostra e então integra os resultados para a previsão geral. A principal dificuldade do algoritmo de conjunto é quais modelos de aprendizagem independentes e fracos são integrados e como integrar os resultados de aprendizagem. Essa é uma classe de algoritmos muito poderosa e, ao mesmo tempo, muito popular. Algoritmos comuns incluem: Boosting, Agregação Bootstrapped (Bagging), AdaBoost, Generalização Empilhada (Blending), Máquina de Aumento de Gradiente (GBM) e Floresta Aleatória.
Além disso, a redução de dimensionalidade também é muito importante em engenharia de análise de dados; assim como algoritmos de agrupamento, algoritmos de redução de dimensionalidade tentam analisar a estrutura interna dos dados, mas algoritmos de redução de dimensionalidade tentam usar menos informações para resumir ou interpretar dados de forma não supervisionada. Esses algoritmos podem ser usados para visualizar dados de alta dimensão ou para simplificar dados para aprendizado supervisionado. Algoritmos comuns incluem: Análise de Componentes Principais (PCA), Regressão Parcial de Mínimos Quadrados (PLS), Mapeamento de Sammon, Escalonamento Multidimensional (MDS), Busca por Projeção, etc.
Para uma análise detalhada das vantagens e desvantagens de alguns algoritmos e referências de seleção de algoritmos, você pode conferir os cenários de adaptação de vários algoritmos comumente usados e suas vantagens e desvantagens no blog a seguir (muito bom)
O que segue é de um parágrafo do blog acima: Referência de seleção de algoritmo:
Já traduzi alguns artigos estrangeiros antes, e um artigo apresenta uma técnica simples de seleção de algoritmos:
Se seu efeito não for bom, seus resultados podem ser usados como referência e comparados com outros algoritmos com base nisso.
Depois tente a árvore de decisão (random forest) para ver se ela pode melhorar drasticamente o desempenho do seu modelo. Mesmo que você não use como modelo final no final, pode usar uma floresta aleatória para remover variáveis de ruído e selecionar características;
Se o número de características e amostras observacionais for particularmente grande, então usar SVM é uma opção quando recursos e tempo são suficientes (essa premissa é importante).
Normalmente: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Outros...], agora o deep learning é muito popular, usado em muitas áreas, é baseado em redes neurais, atualmente estou aprendendo por conta própria, mas o conhecimento teórico não é muito profundo, o entendimento não é profundo o suficiente, não vou apresentá-lo aqui.
Algoritmos são importantes, mas bons dados são melhores do que bons algoritmos, e projetar bons recursos traz grande benefício. Se você tem um conjunto de dados muito grande, não importa qual algoritmo use, ele pode não afetar muito o desempenho da classificação (você pode escolher com base na velocidade e facilidade de uso).
|
Anterior:Converter resultados de consulta para compartilhamento de scripts no formato JsonPróximo:C# é um serviço do Windows que executa tarefas regularmente
|