Algoritmi comuni per la condivisione di big data (applicazioni)

Risolvere l'eccellente rete di talenti · Pubblicato su 27/04/2019 09:53:15

Il big data mining è il processo di scoprire informazioni e conoscenze preziose e potenzialmente utili nascoste in database enormi, incompleti, rumorosi, sfocati e casuali, ed è anche un processo di supporto alle decisioni. Si basa principalmente su intelligenza artificiale, machine learning, pattern learning, statistica, ecc. Il big data mining è il processo di scoprire informazioni e conoscenze preziose e potenzialmente utili nascoste in database enormi, incompleti, rumorosi, sfocati e casuali, ed è anche un processo di supporto alle decisioni. Si basa principalmente su intelligenza artificiale, machine learning, pattern learning, statistica, ecc.

(1) Classificazione. La classificazione consiste nel trovare le caratteristiche comuni di un insieme di oggetti dati nel database e suddividerli in diverse classi secondo il modello di classificazione, il cui scopo è mappare gli elementi dati nel database a una data categoria tramite il modello di classificazione. Può essere applicato alla classificazione delle applicazioni e alla previsione delle tendenze, ad esempio i negozi Taobao che suddividono gli acquisti degli utenti in diverse categorie nel corso del tempo e raccomandano prodotti correlati agli utenti in base alla situazione, aumentando così il volume delle vendite del negozio. Molti algoritmi possono essere utilizzati per la classificazione, come alberi decisionali, knn, bayesiano, ecc

(2) Analisi di regressione. L'analisi di regressione riflette le caratteristiche dei valori degli attributi dei dati nel database e scopre le dipendenze tra i valori degli attributi esprimendo la relazione tra la mappatura dei dati attraverso le funzioni. Può essere applicato alla previsione e correlazione delle serie di dati. Nel marketing, l'analisi di regressione può essere applicata a vari aspetti. Ad esempio, attraverso l'analisi di regressione delle vendite nel trimestre corrente, viene prevista la tendenza delle vendite del trimestre successivo e vengono apportati cambiamenti di marketing mirati. Gli algoritmi di regressione comuni includono Ordinary Minimum Square, Logistic Regression, Stepwise Regression, Multivariate Adaptive Regression Spline e Locally Estimated Smussamento a scatterplot)

(3) Raggruppamento. Il clustering è simile alla classificazione, ma a differenza della classificazione, divide un insieme di dati in categorie basate su somiglianze e differenze nei dati. La somiglianza tra dati appartenenti alla stessa categoria è molto grande, ma la somiglianza tra dati tra diverse categorie è molto piccola e la correlazione tra dati tra categorie è molto bassa. Gli algoritmi di clustering comuni includono l'algoritmo k-Means e la massimizzazione dell'aspettativa (EM).

(4) Regole dell'associazione. Le regole di associazione sono associazioni o relazioni tra elementi di dati nascosti, cioè la presenza di altri elementi di dati può essere dedotta in base all'apparenza di un singolo elemento di dati. Il processo di mining delle regole associative comprende principalmente due fasi: la prima fase consiste nel trovare tutti i gruppi di progetto ad alta frequenza da dati grezzi massicci; Il secondo estremo è generare regole di associazione da questi gruppi di progetto ad alta frequenza. La tecnologia di estrazione a regole associative è stata ampiamente utilizzata nelle imprese del settore finanziario per prevedere le esigenze dei clienti, e le banche migliorano il loro marketing raggruppando informazioni che i clienti potrebbero interessare affinché gli utenti possano comprendere e ottenere le corrispondenti informazioni sui loro bancomat. Gli algoritmi comuni includono l'algoritmo Apriori e l'algoritmo Eclat.

(5) Metodo della rete neurale. In quanto tecnologia avanzata di intelligenza artificiale, la rete neurale è molto adatta per affrontare problemi non lineari e di elaborazione caratterizzati da conoscenze o dati vaghi, incompleti e inaccurati, e le sue caratteristiche sono molto adatte alla risoluzione di problemi di data mining. I modelli tipici di reti neurali sono principalmente suddivisi in tre categorie: la prima è il modello di reti neurali feedforward per la previsione della classificazione e il riconoscimento di pattern, rappresentato principalmente da reti funzionali e perceptroni; La seconda categoria è il modello di rete neurale a retroazione per la memoria associativa e gli algoritmi di ottimizzazione, rappresentato dal modello discreto di Hopfield e dal modello continuo. La terza categoria è il metodo di mappatura auto-organizzante per il clustering, rappresentato dal modello ART. Sebbene esistano molti modelli e algoritmi per le reti neurali, non esiste una regola uniforme su quali modelli e algoritmi utilizzare in specifici campi del data mining, ed è difficile per le persone comprendere il processo di apprendimento e decisione delle reti.

(6) Web data mining. Il web data mining è una tecnologia completa che si riferisce al Web dalla struttura del documento e dall'insieme C utilizzato per scoprire il pattern implicito P; se C è considerato come input, P è considerato come output, allora il processo web mining può essere considerato come un processo di mappatura dall'input all'output. Attualmente, sempre più dati web appaiono sotto forma di flussi di dati, quindi sono di grande importanza per il web data flow mining. Attualmente, gli algoritmi di web data mining comunemente utilizzati sono: algoritmo PageRank, algoritmo HITS e algoritmo LOGSOM. Gli utenti menzionati in questi tre algoritmi sono utenti generali e non distinguono tra i singoli utenti. Attualmente, il web data mining sta affrontando alcuni problemi, tra cui: classificazione degli utenti, tempestività dei contenuti del sito web, tempo di permanenza degli utenti sulla pagina, numero di link in entrata e uscita delle pagine, ecc. Nell'attuale rapido sviluppo della tecnologia web, questi problemi meritano ancora di essere studiati e risolti.

(7) Apprendimento profondo
Gli algoritmi di deep learning sono lo sviluppo di reti neurali artificiali. Recentemente ha attirato molta attenzione, soprattutto dopo che Baidu ha iniziato a sviluppare anche il deep learning, che ha attirato molta attenzione in Cina. Nel mondo odierno, dove la potenza di calcolo sta diventando più economica, il deep learning tenta di costruire reti neurali molto più grandi e complesse. Molti algoritmi di deep learning sono algoritmi di apprendimento semi-supervisionato utilizzati per elaborare grandi dataset con una piccola quantità di dati non identificati. Gli algoritmi comuni di deep learning includono: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks e Auto-encoder impilati.

(8) Algoritmo di integrazione
L'algoritmo di ensemble utilizza alcuni modelli di apprendimento relativamente deboli per allenarsi indipendentemente sullo stesso campione, e poi integra i risultati per la previsione complessiva. La principale difficoltà dell'algoritmo di ensemble è quali modelli di apprendimento indipendenti e deboli vengono integrati e come integrare i risultati dell'apprendimento. Questa è una classe di algoritmi molto potente e allo stesso tempo molto popolare. Gli algoritmi comuni includono: Boosting, Aggregazione Bootstrapata (Bagging), AdaBoost, Generalizzazione Impilata (Blending), Gradient Boosting Machine (GBM) e Foresta Random.

Inoltre, la riduzione della dimensionalità è molto importante anche nell'ingegneria dell'analisi dei dati; come gli algoritmi di clustering, gli algoritmi di riduzione della dimensionalità cercano di analizzare la struttura interna dei dati, ma gli algoritmi di riduzione della dimensionalità cercano di utilizzare meno informazioni per riassumere o interpretare i dati in modo di apprendimento non supervisionato. Questi algoritmi possono essere utilizzati per visualizzare dati ad alta dimensione o per semplificare i dati per l'apprendimento supervisionato. Gli algoritmi comuni includono: Analisi dei Componenti Principali (PCA), Regressione Parziale dei Minimi Quadrati (PLS), Mappatura di Sammon, Scalatura Multidimensionale (MDS), Ricerca di Proizioni, ecc.

Per un'analisi dettagliata dei vantaggi e svantaggi di alcuni algoritmi e dei riferimenti alla selezione degli algoritmi, puoi dare un'occhiata agli scenari di adattamento di diversi algoritmi comunemente usati e ai loro vantaggi e svantaggi nel seguente blog (molto bene)

Quanto segue è tratto da un paragrafo del blog sopra:
Riferimento per la selezione dell'algoritmo:

Ho tradotto alcuni articoli stranieri in passato, e uno di loro offre una semplice tecnica di selezione degli algoritmi:

Se il suo effetto non è positivo, i suoi risultati possono essere usati come riferimento e confrontati con altri algoritmi sulla base.

Poi prova l'albero decisionale (foresta casuale) per vedere se può migliorare drasticamente le prestazioni del tuo modello. Anche se alla fine non lo usi come modello finale, puoi usare una foresta casuale per rimuovere variabili di rumore e selezionare le caratteristiche;

Se il numero di caratteristiche e campioni osservazionali è particolarmente elevato, allora l'uso della SVM è un'opzione quando risorse e tempo sono sufficienti (questa premessa è importante).

Normalmente: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Altro...], ora il deep learning è molto popolare, usato in molti campi, si basa su reti neurali, sto imparando da solo, ma la conoscenza teorica non è molto profonda, la comprensione non è abbastanza profonda, non la introducerò qui.

Gli algoritmi sono importanti, ma dati buoni sono migliori di buoni algoritmi, e progettare buone funzionalità è di grande vantaggio. Se hai un dataset molto ampio, qualunque algoritmo tu usi, potrebbe non influenzare molto le prestazioni di classificazione (puoi scegliere in base alla velocità e alla facilità d'uso).

Risolvere l'eccellente rete di talenti · Pubblicato su 27/05/2019 08:27:15

Buongiorno a tutti

Risolvere l'eccellente rete di talenti · Pubblicato su 16/09/2019 12:10:06

Gli algoritmi sono ben pagati e sono benvenuti a chiamare

Algoritmi comuni per la condivisione di big data (applicazioni)

Sezioni visualizzate