Büyük Veri Paylaşımı için Yaygın Algoritmalar (Uygulamalar)

Mükemmel yetenek ağını çöz · Yayınlandı 27.04.2019 09:53:15

Büyük veri madenciliği, devasa ve eksik, gürültülü, bulanık ve rastgele büyük veritabanlarında gizlenmiş değerli ve potansiyel olarak faydalı bilgi ve bilginin keşfedilmesi sürecidir ve aynı zamanda bir karar destek sürecidir. Esas olarak yapay zeka, makine öğrenimi, desen öğrenme, istatistik gibi temalara dayanır. Büyük veri madenciliği, devasa ve eksik, gürültülü, bulanık ve rastgele büyük veritabanlarında gizlenmiş değerli ve potansiyel olarak faydalı bilgi ve bilginin keşfedilmesi sürecidir ve aynı zamanda bir karar destek sürecidir. Esas olarak yapay zeka, makine öğrenimi, desen öğrenme, istatistik gibi temalara dayanır.

(1) Sınıflandırma. Sınıflandırma, veritabanındaki bir veri nesnesi kümesinin ortak özelliklerini bulmak ve bunları sınıflandırma desenine göre farklı sınıflara ayırmaktır; bu sınıflandırmanın amacı, veritabanındaki veri öğelerini sınıflandırma modeli aracılığıyla belirli bir kategoriye eşlemektir. Uygulama sınıflandırması ve trend tahminine uygulanabilir; örneğin Taobao mağazaları kullanıcıların satın alımlarını belirli bir süre içinde farklı kategorilere ayırır ve duruma göre ilgili ürünleri önerir, böylece mağazanın satış hacmini artırır. Sınıflandırma için karar ağaçları, knn, Bayes gibi birçok algoritma kullanılabilir

(2) Regresyon analizi. Regresyon analizi, veritabanındaki verilerin öznitelik değerlerinin özelliklerini yansıtır ve öznitelik değerleri arasındaki bağımlılıkları, fonksiyonlar aracılığıyla veri eşleme ilişkisini ifade ederek keşfeder. Veri serilerinin tahmini ve korelasyonuna uygulanabilir. Pazarlamada, regresyon analizi çeşitli açılara uygulanabilir. Örneğin, mevcut çeyrekteki satışların regresyon analizi sayesinde, bir sonraki çeyreğin satış trendi tahmin edilir ve hedefli pazarlama değişiklikleri yapılır. Yaygın regresyon algoritmaları arasında Sıradan En Küçük Kare, Lojistik Regresyon, Adım Aşamalı Regresyon, Çok Değişkenli Adaptif Regresyon Şırakları ve Yerel Tahminli Algoritmalar bulunur Scatterplot Smoothing)

(3) Kümelenme. Kümeleme sınıflandırmaya benzer, ancak sınıflandırmanın aksine, verilerdeki benzerlikler ve farklılıklara göre bir dizi veri kategorilerine ayırır. Aynı kategoriye ait veriler arasındaki benzerlik çok büyüktür, ancak farklı kategoriler arasındaki veriler arasındaki benzerlik çok küçüktür ve kategoriler arasındaki veri arasındaki korelasyon çok düşüktür. Yaygın kümeleme algoritmaları arasında k-Means algoritması ve beklenti maksimizasyonu (EM) bulunur.

(4) Dernek kuralları. Bağlantı kuralları, gizli veri öğeleri arasındaki ilişkiler veya ilişkilerdir; yani, diğer veri öğelerinin ortaya çıkışı, bir veri öğesinin görünümüne göre çıkarılabilir. Bağlantı kurallarının madencilik süreci esas olarak iki aşamadan oluşur: birinci aşama, büyük ham verilerden tüm yüksek frekanslı proje gruplarını bulmaktır; İkinci uç nokta, bu yüksek frekanslı proje gruplarından ilişkilendirme kuralları oluşturmaktır. Federasyon kuralı madenciliği teknolojisi, finansal sektör işletmelerinde müşteri ihtiyaçlarını tahmin etmek için yaygın olarak kullanılmıştır ve bankalar, müşterilerin ilgilenebileceği bilgileri paketleyerek kullanıcıların ATM'lerinde ilgili bilgileri anlamaları ve elde etmeleri için pazarlamalarını geliştirirler. Yaygın algoritmalar arasında Apriori algoritması ve Eclat algoritması bulunur.

(5) Sinir ağı yöntemi. Gelişmiş bir yapay zeka teknolojisi olarak, sinir ağı, belirsiz, eksik ve yanlış bilgi veya verilerle karakterize edilen doğrusal olmayan ve işleme problemleriyle başa çıkmak için çok uygundur ve özellikleri veri madenciliği sorunlarını çözmek için oldukça uygundur. Tipik sinir ağı modelleri esas olarak üç kategoriye ayrılır: birincisi, sınıflandırma tahmini ve desen tanıma için ileriye doğru besleme sinir ağı modelidir; bu model esas olarak fonksiyonel ağlar ve perceptronlarla temsil edilir; İkinci kategori, ilişkilendirilebilir bellek ve optimizasyon algoritmaları için geri besleme sinir ağı modelidir ve Hopfield'ın ayrık modeli ve sürekli modeli ile temsil edilir. Üçüncü kategori, kümeleme için kendi kendini organize eden eşleme yöntemidir ve ART modeliyle temsil edilir. Sinir ağları için birçok model ve algoritma olmasına rağmen, veri madenciliğinin belirli alanlarında hangi modeller ve algoritmaların kullanılacağına dair tek bir kural yoktur ve insanların ağların öğrenme ve karar alma süreçlerini anlaması zordur.

(6) Web veri madenciliği. Web veri madenciliği kapsamlı bir teknolojidir ve belge yapısından ve örtük desen P'yi keşfetmek için kullanılan C kümesinden Web'i ifade eder; eğer C girdi olarak kabul edilirse, P çıktı olarak kabul edilir, web madenciliği süreci ise girdiden çıktıya eşleme süreci olarak değerlendirilebilir. Şu anda, giderek daha fazla web veri veri akışı şeklinde ortaya çıkmaktadır, bu nedenle web veri akışı madenciliği için büyük öneme sahiptir. Şu anda yaygın kullanılan web veri madenciliği algoritmaları şunlardır: PageRank algoritması, HITS algoritması ve LOGSOM algoritması. Bu üç algoritmada adı geçen kullanıcılar genel kullanıcılardır ve bireysel kullanıcılar arasında ayrım yapmazlar. Şu anda web veri madenciliği bazı sorunlarla karşı karşıyadır; bunlar arasında: kullanıcı sınıflandırması, web sitesi içeriğinin zamanında olması, kullanıcıların sayfada kalma süresi, sayfa bağlantıları giriş ve çıkış sayıları vb. Günümüzde web teknolojisinin hızlı gelişiminde, bu sorunlar hâlâ incelenmeye ve çözülmeye değerdir.

(7) Derin öğrenme
Derin öğrenme algoritmaları, yapay sinir ağlarının geliştirilmesidir. Son zamanlarda özellikle Baidu'nun Çin'de büyük ilgi çeken derin öğrenme geliştirmeye başlamasıyla büyük ilgi gördü. Günümüzde hesaplama gücünün ucuzlaştığı bir ortamda, derin öğrenme çok daha büyük ve karmaşık sinir ağları inşa etmeye çalışıyor. Birçok derin öğrenme algoritması, küçük miktarda tanımlanamayan veriyle büyük veri setlerini işlemek için kullanılan yarı denetimli öğrenme algoritmalarıdır. Yaygın derin öğrenme algoritmaları şunlardır: Kısıtlı Boltzmann Makinesi (RBN), Derin İnanç Ağları (DBN), Konvolüsyon Ağlar ve Yığılmış Otomatik Kodlayıcılar.

(8) Entegrasyon algoritması
Topluluk algoritması, aynı örneklem üzerinde bağımsız olarak eğitim vermek için nispeten zayıf öğrenme modelleri kullanır ve ardından sonuçları genel tahmin için entegre eder. Topluluk algoritmasının temel zorluğu, bağımsız ve zayıf öğrenme modellerinin hangi şekilde entegre edileceği ve öğrenme sonuçlarının nasıl entegre edileceğidir. Bu çok güçlü bir algoritma sınıfı ve aynı zamanda çok popülerdir. Yaygın algoritmalar şunlardır: Boosting, Bootstrapped Aggregation (Baggging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) ve Random Forest.

Ayrıca, boyutluluk azaltma da veri analiz mühendisliğinde çok önemlidir; kümeleme algoritmaları gibi, boyut azaltma algoritmaları verinin iç yapısını analiz etmeye çalışırken, boyut azaltma algoritmaları veriyi denetimsiz öğrenme yoluyla özetlemek veya yorumlamak için daha az bilgi kullanmaya çalışır. Bu algoritmalar, yüksek boyutlu verileri görselleştirmek veya denetimli öğrenme için veriyi basitleştirmek için kullanılabilir. Yaygın algoritmalar arasında: Temel Bileşen Analizi (PCA), Kısmi En Küçük Kare Regresyon (PLS), Sammon Eşleme, Çok Boyutlu Ölçekleme (MDS), Projeksiyon Takibi vb. bulunur.

Bazı algoritmaların avantaj ve dezavantajlarının ve algoritma seçimi referanslarının ayrıntılı analizi için, yaygın olarak kullanılan birkaç algoritmanın uyarlama senaryolarına ve avantaj ile dezavantajlarına aşağıdaki blogda göz atabilirsiniz (çok iyi).

Aşağıdaki, yukarıdaki blogdan bir paragraf almıştır:
Algoritma seçimi referansı:

Daha önce bazı yabancı makaleleri çevirdim ve bir makale basit bir algoritma seçim tekniği sunuyor:

Etkisi iyi değilse, sonuçları referans olarak kullanılabilir ve temelde diğer algoritmalarla karşılaştırılabilir.

Sonra karar ağacını (rastgele orman) deneyerek model performansınızı dramatik şekilde iyileştirip geliştiremeyeceğini görebilirsiniz. Sonunda son model olarak kullanmasanız bile, gürültü değişkenlerini çıkarmak ve özellikleri seçmek için rastgele bir orman kullanabilirsiniz;

Özellik sayısı ve gözlem örnekleri özellikle büyükse, kaynaklar ve zaman yeterli olduğunda SVM kullanmak bir seçenektir (bu varsayım önemlidir).

Normalde: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Other...], şimdi derin öğrenme çok popüler, birçok alanda kullanılıyor, sinir ağlarına dayanıyor, şu anda kendim öğreniyorum, ama teorik bilgi çok yoğun değil, anlayış yeterince derin değil, burada tanıtmayacağım.

Algoritmalar önemlidir, ancak iyi veri iyi algoritmalardan iyidir ve iyi özellikler tasarlamak büyük fayda sağlar. Çok büyük bir veri setiniz varsa, hangi algoritmayı kullanırsanız kullanın, sınıflandırma performansını çok etkilemeyebilir (hız ve kullanım kolaylığına göre seçim yapabilirsiniz).

Mükemmel yetenek ağını çöz · Yayınlandı 27.05.2019 08:27:15

Herkese günaydın

Mükemmel yetenek ağını çöz · Yayınlandı 16.09.2019 12:10:06

Algoritmalar yüksek ücretli ve aramak için hoş karşılanır

Büyük Veri Paylaşımı için Yaygın Algoritmalar (Uygulamalar)

Görüntülenen bölümler