Algoritma Umum untuk Berbagi Big Data (Aplikasi)

Memecahkan jaringan bakat yang sangat baik · Diposting pada 27/04/2019 09.53.15

Big data mining adalah proses menemukan informasi dan pengetahuan yang berharga dan berpotensi berguna yang tersembunyi dalam database besar yang besar, tidak lengkap, berisik, kabur, dan acak, dan juga merupakan proses pendukung keputusan. Ini terutama didasarkan pada kecerdasan buatan, pembelajaran mesin, pembelajaran pola, statistik, dll. Big data mining adalah proses menemukan informasi dan pengetahuan yang berharga dan berpotensi berguna yang tersembunyi dalam database besar yang besar, tidak lengkap, berisik, kabur, dan acak, dan juga merupakan proses pendukung keputusan. Ini terutama didasarkan pada kecerdasan buatan, pembelajaran mesin, pembelajaran pola, statistik, dll.

(1) Klasifikasi. Klasifikasi adalah untuk mengetahui karakteristik umum dari sekumpulan objek data dalam database dan membaginya menjadi kelas yang berbeda sesuai dengan pola klasifikasi, yang tujuannya adalah untuk memetakan item data dalam database ke kategori tertentu melalui model klasifikasi. Ini dapat diterapkan pada klasifikasi aplikasi dan prediksi tren, seperti toko Taobao membagi pembelian pengguna ke dalam kategori yang berbeda selama periode waktu tertentu, dan merekomendasikan produk terkait kepada pengguna sesuai dengan situasi, sehingga meningkatkan volume penjualan toko. Banyak algoritma dapat digunakan untuk klasifikasi, seperti pohon keputusan, knn, Bayesian, dll

(2) Analisis regresi. Analisis regresi mencerminkan karakteristik nilai atribut data dalam database, dan menemukan dependensi antara nilai atribut dengan mengekspresikan hubungan pemetaan data melalui fungsi. Ini dapat diterapkan pada prediksi dan korelasi seri data. Dalam pemasaran, analisis regresi dapat diterapkan pada berbagai aspek. Misalnya, melalui analisis regresi penjualan pada kuartal berjalan, tren penjualan kuartal berikutnya diprediksi dan perubahan pemasaran yang ditargetkan dilakukan. Algoritma regresi umum termasuk Kuadrat Terkecil Biasa, Regresi Logistik, Regresi Bertahap, Spline Regresi Adaptif Multivariat, dan Estimasi Lokal Penghalusan Scatterplot)

(3) Penglompokan. Pengelompokan mirip dengan klasifikasi, tetapi tidak seperti klasifikasi, klasifikasi membagi sekumpulan data ke dalam kategori berdasarkan persamaan dan perbedaan data. Kesamaan antara data yang termasuk dalam kategori yang sama sangat besar, tetapi kesamaan antara data antara kategori yang berbeda sangat kecil, dan korelasi antara data lintas kategori sangat rendah. Algoritma pengelompokan umum termasuk algoritma k-Means dan maksimalisasi ekspektasi (EM).

(4) Aturan asosiasi. Aturan asosiasi adalah asosiasi atau hubungan antara item data tersembunyi, yaitu terjadinya item data lain dapat disimpulkan berdasarkan tampilan satu item data. Proses penambangan aturan asosiasi terutama mencakup dua tahap: tahap pertama adalah menemukan semua kelompok proyek frekuensi tinggi dari data mentah besar; Ekstrem kedua adalah menghasilkan aturan asosiasi dari kelompok proyek frekuensi tinggi ini. Teknologi penambangan aturan asosiasi telah banyak digunakan di perusahaan industri keuangan untuk memprediksi kebutuhan pelanggan, dan bank meningkatkan pemasaran mereka dengan menggabungkan informasi yang mungkin diminati pelanggan agar pengguna dapat memahami dan mendapatkan informasi yang sesuai di ATM mereka. Algoritma umum termasuk algoritma Apriori dan algoritma Eclat.

(5) Metode jaringan saraf. Sebagai teknologi kecerdasan buatan yang canggih, jaringan saraf sangat cocok untuk menangani masalah nonlinier dan pemrosesan yang ditandai dengan pengetahuan atau data yang tidak jelas, tidak lengkap, dan tidak akurat, dan karakteristiknya sangat cocok untuk memecahkan masalah penambangan data. Model jaringan saraf khas terutama dibagi menjadi tiga kategori: yang pertama adalah model jaringan saraf feedforward untuk prediksi klasifikasi dan pengenalan pola, yang terutama diwakili oleh jaringan fungsional dan persepsi; Kategori kedua adalah model jaringan saraf umpan balik untuk memori asosiatif dan algoritma pengoptimalan, yang diwakili oleh model diskrit dan model berkelanjutan Hopfield. Kategori ketiga adalah metode pemetaan yang mengatur sendiri untuk pengelompokan, yang diwakili oleh model ART. Meskipun ada banyak model dan algoritme untuk jaringan saraf, tidak ada aturan seragam tentang model dan algoritme mana yang akan digunakan di bidang penambangan data tertentu, dan sulit bagi orang untuk memahami proses pembelajaran dan pengambilan keputusan jaringan.

(6) Penambangan data web. Web data mining adalah teknologi komprehensif, yang mengacu pada Web dari struktur dokumen dan himpunan C yang digunakan untuk menemukan pola implisit P, jika C dianggap sebagai input, P dianggap sebagai output, maka proses web mining dapat dianggap sebagai proses pemetaan dari input ke output. Saat ini, semakin banyak data web yang muncul dalam bentuk aliran data, sehingga sangat penting bagi penambangan aliran data web. Saat ini, algoritma penambangan data web yang umum digunakan adalah: Algoritma PageRank, algoritma HITS, dan algoritma LOGSOM. Pengguna yang disebutkan dalam ketiga algoritma ini adalah pengguna umum dan tidak membedakan antara pengguna individu. Saat ini, penambangan data web menghadapi beberapa masalah, termasuk: klasifikasi pengguna, ketepatan waktu konten situs web, waktu tinggal pengguna di halaman, nomor masuk dan keluar tautan halaman, dll. Dalam perkembangan teknologi web yang pesat saat ini, permasalahan ini masih layak untuk dipelajari dan dipecahkan.

(7) Pembelajaran mendalam
Algoritma pembelajaran mendalam adalah pengembangan jaringan saraf buatan. Baru-baru ini mendapat banyak perhatian, terutama setelah Baidu juga mulai mengembangkan pembelajaran mendalam, yang telah menarik banyak perhatian di China. Di dunia saat ini di mana daya komputasi menjadi lebih murah, pembelajaran mendalam mencoba membangun jaringan saraf yang jauh lebih besar dan lebih kompleks. Banyak algoritme pembelajaran mendalam adalah algoritme pembelajaran semi-diawasi yang digunakan untuk memproses kumpulan data besar dengan sejumlah kecil data yang tidak diidentifikasi. Algoritme pembelajaran mendalam yang umum meliputi: Mesin Boltzmann Terbatas (RBN), Jaringan Keyakinan Dalam (DBN), Jaringan Konvolusional, dan Encoder Otomatis Bertumpuk.

(8) Algoritma integrasi
Algoritma ansambel menggunakan beberapa model pembelajaran yang relatif lemah untuk melatih sampel yang sama secara mandiri, dan kemudian mengintegrasikan hasil untuk prediksi keseluruhan. Kesulitan utama dari algoritma ansambel adalah model pembelajaran independen mana yang lebih lemah yang terintegrasi dan bagaimana mengintegrasikan hasil pembelajaran. Ini adalah kelas algoritma yang sangat kuat dan pada saat yang sama sangat populer. Algoritme umum meliputi: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM), dan Random Forest.

Selain itu, pengurangan dimensi juga sangat penting dalam rekayasa analisis data, seperti algoritma pengelompokan, algoritma pengurangan dimensi mencoba menganalisis struktur internal data, tetapi algoritma pengurangan dimensi mencoba menggunakan lebih sedikit informasi untuk meringkas atau menafsirkan data dengan cara pembelajaran tanpa pengawasan. Algoritme ini dapat digunakan untuk memvisualisasikan data dimensi tinggi atau untuk menyederhanakan data untuk pembelajaran yang diawasi. Algoritma umum meliputi: Analisis Komponen Prinsip (PCA), Regresi Kuadrat Terkecil Parsial (PLS), Pemetaan Sammon, Penskalaan Multi-Dimensi (MDS), Pengejaran Proyeksi, dll.

Untuk analisis terperinci tentang kelebihan dan kekurangan beberapa algoritma dan referensi pemilihan algoritma, Anda dapat melihat skenario adaptasi dari beberapa algoritma yang umum digunakan dan kelebihan dan kekurangannya di blog berikut (sangat bagus)

Berikut ini dari paragraf dari blog di atas:
Referensi pemilihan algoritma:

Saya telah menerjemahkan beberapa artikel asing sebelumnya, dan satu artikel memberikan teknik pemilihan algoritma sederhana:

Jika efeknya tidak baik, maka hasilnya dapat digunakan sebagai referensi dan dibandingkan dengan algoritma lain atas dasarnya.

Kemudian coba pohon keputusan (hutan acak) untuk melihat apakah itu dapat meningkatkan kinerja model Anda secara dramatis. Bahkan jika Anda tidak menggunakannya sebagai model akhir pada akhirnya, Anda dapat menggunakan hutan acak untuk menghapus variabel noise dan memilih fitur;

Jika jumlah fitur dan sampel observasional sangat besar, maka menggunakan SVM adalah pilihan ketika sumber daya dan waktu cukup (premis ini penting).

Biasanya: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Lainnya...], sekarang deep learning sangat populer, digunakan di banyak bidang, didasarkan pada jaringan saraf, saat ini saya sedang belajar sendiri, tetapi pengetahuan teoritisnya tidak terlalu kental, pemahamannya tidak cukup dalam, saya tidak akan memperkenalkannya di sini.

Algoritma itu penting, tetapi data yang baik lebih baik daripada algoritme yang baik, dan merancang fitur yang baik sangat bermanfaat. Jika Anda memiliki kumpulan data yang sangat besar, maka apa pun algoritme yang Anda gunakan, itu mungkin tidak banyak memengaruhi kinerja klasifikasi (Anda dapat memilih berdasarkan kecepatan dan kemudahan penggunaan).

Memecahkan jaringan bakat yang sangat baik · Diposting pada 27/05/2019 08.27.15

Selamat pagi semuanya

Memecahkan jaringan bakat yang sangat baik · Diposting pada 16/09/2019 12.10.06

Algoritme dibayar tinggi dan dipersilakan untuk menelepon

Algoritma Umum untuk Berbagi Big Data (Aplikasi)

Bagian yang dilihat