Typowe algorytmy udostępniania big data (Zastosowania)

Rozwiąż doskonałą sieć talentów · Opublikowano 27.04.2019 09:53:15

Big data mining to proces odkrywania cennych i potencjalnie użytecznych informacji oraz wiedzy ukrytej w ogromnych, niepełnych, szumiących, rozmytych i losowo dużych bazach danych, a także proces wspierający decyzje. Opiera się głównie na sztucznej inteligencji, uczeniu maszynowym, uczeniu wzorców, statystyce itd. Big data mining to proces odkrywania cennych i potencjalnie użytecznych informacji oraz wiedzy ukrytej w ogromnych, niepełnych, szumiących, rozmytych i losowo dużych bazach danych, a także proces wspierający decyzje. Opiera się głównie na sztucznej inteligencji, uczeniu maszynowym, uczeniu wzorców, statystyce itd.

(1) Klasyfikacja. Klasyfikacja polega na odkryciu wspólnych cech zestawu obiektów danych w bazie danych i podziale ich na różne klasy zgodnie z wzorcem klasyfikacji, którego celem jest odwzorowanie elementów danych w bazie danych do danej kategorii za pomocą modelu klasyfikacji. Może być stosowana do klasyfikacji aplikacji i prognozowania trendów, na przykład sklepy Taobao dzielą zakupy użytkowników na różne kategorie w określonym czasie i polecają powiązane produkty użytkownikom w zależności od sytuacji, zwiększając tym samym wolumen sprzedaży sklepu. Do klasyfikacji można używać wielu algorytmów, takich jak drzewa decyzyjne, knn, bayesowski itd

(2) Analiza regresji. Analiza regresji odzwierciedla cechy wartości atrybutów danych w bazie danych i odkrywa zależności między wartościami atrybutów poprzez wyrażenie zależności mapowania danych przez funkcje. Można ją zastosować do przewidywania i korelacji szeregów danych. W marketingu analiza regresji może być stosowana do różnych aspektów. Na przykład, poprzez analizę regresji sprzedaży w bieżącym kwartale, przewiduje się trend sprzedaży na kolejny kwartał i wprowadza ukierunkowane zmiany marketingowe. Do popularnych algorytmów regresji należą zwykła metoda najmniejszego kwadratu, regresja logistyczna, regresja krokowa, wielowymiarowe adaptacyjne regresyjne spline oraz lokalnie oszacowane Wygładzanie wykresów rozrzutowych)

(3) Skupianie się. Klasteryzacja jest podobna do klasyfikacji, ale w przeciwieństwie do klasyfikacji, dzieli zestaw danych na kategorie na podstawie podobieństw i różnic w danych. Podobieństwo między danymi należącymi do tej samej kategorii jest bardzo duże, ale bardzo niewielkie, a korelacja między danymi w różnych kategoriach bardzo niska. Do popularnych algorytmów klastrowania należą algorytm k-Means oraz maksymalizacja oczekiwania (EM).

(4) Zasady stowarzyszenia. Reguły asocjacji to powiązania lub powiązania między ukrytymi elementami danych, czyli występowanie innych elementów danych można wywnioskować na podstawie pojawienia się jednego elementu danych. Proces wyszukiwania reguł stowarzyszeń obejmuje głównie dwa etapy: pierwszy polega na znalezieniu wszystkich grup projektów o wysokiej częstotliwości na podstawie ogromnych surowych danych; Drugim ekstremem jest generowanie reguł skojarzeń z tych grup projektów o wysokiej częstotliwości. Technologia ad rule mining jest szeroko wykorzystywana w przedsiębiorstwach finansowych do przewidywania potrzeb klientów, a banki poprawiają swój marketing, pakując informacje, które mogą być interesujące klientów, aby użytkownicy mogli zrozumieć i uzyskać odpowiednie informacje o swoich bankomatach. Do popularnych algorytmów należą algorytm Apriori oraz algorytm Eclat.

(5) Metoda sieci neuronowej. Jako zaawansowana technologia sztucznej inteligencji, sieć neuronowa jest bardzo odpowiednia do rozwiązywania problemów nieliniowych i przetwarzających charakteryzujących się niejasną, niepełną i niedokładną wiedzą lub danymi, a jej cechy doskonale nadają się do rozwiązywania problemów eksploracji danych. Typowe modele sieci neuronowych dzielą się głównie na trzy kategorie: pierwszą jest model sieci neuronowej w przyszłości do przewidywania klasyfikacji i rozpoznawania wzorców, reprezentowany głównie przez sieci funkcyjne i perceptrony; Drugą kategorią jest model sieci neuronowej ze sprzężeniem zwrotnym dla algorytmów pamięci asocjacyjnej i optymalizacji, reprezentowany przez dyskretny model Hopfielda oraz model ciągły. Trzecią kategorią jest samoorganizująca się metoda odwzorowania klastrowania, reprezentowana przez model ART. Chociaż istnieje wiele modeli i algorytmów dla sieci neuronowych, nie ma jednolitej reguły dotyczącej tego, które modele i algorytmy stosować w konkretnych dziedzinach eksploracji danych, a zrozumienie procesu uczenia się i podejmowania decyzji w sieciach jest trudne.

(6) Eksploracja danych w sieci. Eksploracja danych internetowych to kompleksowa technologia, która odnosi się do sieci Web od struktury dokumentu oraz zbioru C używanego do odkrycia ukrytego wzorca P; jeśli C jest traktowane jako wejście, P jako wyjście, to proces eksploracji stron można traktować jako proces mapowania od wejścia do wyjścia. Obecnie coraz więcej danych internetowych pojawia się w formie strumieni danych, co ma ogromne znaczenie dla eksploracji przepływów danych internetowych. Obecnie najczęściej stosowane algorytmy eksploracji danych internetowych to: algorytm PageRank, algorytm HITS oraz algorytm LOGSOM. Użytkownicy wymienieni w tych trzech algorytmach są użytkownikami ogólnymi i nie rozróżniają pojedynczych użytkowników. Obecnie eksploracja danych w sieci napotyka pewne problemy, w tym: klasyfikację użytkowników, terminowość zawartości strony, czas pobytu użytkowników na stronie, liczbę linków do strony i wyjścia itd. W dzisiejszym szybkim rozwoju technologii internetowej te problemy wciąż warto badać i rozwiązywać.

(7) Uczenie głębokie
Algorytmy uczenia głębokiego to rozwój sztucznych sieci neuronowych. Ostatnio zyskał dużą uwagę, zwłaszcza po tym, jak Baidu rozpoczął rozwój uczenia głębokiego, co przyciągnęło wiele uwagi w Chinach. W dzisiejszym świecie, gdy moc obliczeniowa staje się tańsza, głębokie uczenie próbuje budować sieci neuronowe znacznie większe i bardziej złożone. Wiele algorytmów uczenia głębokiego to półnadzorowane algorytmy uczenia służące do przetwarzania dużych zbiorów danych z niewielką ilością niezidentyfikowanych danych. Do popularnych algorytmów głębokiego uczenia należą: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolucional Networks oraz Stacked Auto-enced.

(8) Algorytm całkowania
Algorytm zespołowy wykorzystuje stosunkowo słabe modele uczenia się do samodzielnego trenowania na tej samej próbie, a następnie integruje wyniki w celu ogólnej predykcji. Główną trudnością algorytmu zespołowego jest to, które niezależne słabsze modele uczenia się są zintegrowane oraz jak integrować wyniki uczenia się. To bardzo potężna klasa algorytmów, a jednocześnie bardzo popularna. Do popularnych algorytmów należą: Boosting, Bootstrapped Aggregation (bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) oraz Random Forest.

Ponadto redukcja wymiarowości jest również bardzo istotna w inżynierii analizy danych, podobnie jak algorytmy klasteryzacji; algorytmy redukcji wymiarowości próbują analizować wewnętrzną strukturę danych, ale algorytmy redukcji wymiarowości starają się używać mniej informacji do podsumowania lub interpretacji danych w sposób uczenia się bez nadzoru. Algorytmy te mogą być wykorzystywane do wizualizacji danych o wysokich wymiarach lub do upraszczania danych do nauki nadzorowanej. Do popularnych algorytmów należą: analiza składowych głównych (PCA), regresja najmniejszych kwadratów cząstkowych (PLS), mapowanie Sammona, skalowanie wielowymiarowe (MDS), projekcja i inne.

Aby szczegółowo analizować zalety i wady niektórych algorytmów oraz odniesienia do wyboru algorytmów, możesz przyjrzeć się scenariuszom adaptacji kilku powszechnie stosowanych algorytmów oraz ich zaletom i wadom w następnym wpisie na blogu (bardzo dobrze)

Poniżej pochodzi z akapitu z powyższego bloga:
Odniesienie do wyboru algorytmu:

Tłumaczyłem już wcześniej kilka artykułów zagranicznych, a jeden z nich przedstawia prostą technikę wyboru algorytmu:

Jeśli jego efekt nie jest dobry, wyniki można wykorzystać jako odniesienie i porównać je z innymi algorytmami na tej bazie.

Następnie spróbuj drzewa decyzyjnego (losowy las), żeby zobaczyć, czy może znacząco poprawić wydajność modelu. Nawet jeśli ostatecznie nie użyjesz go jako modelu końcowego, możesz użyć losowego lasu do usunięcia zmiennych szumów i wyboru cech;

Jeśli liczba cech i próbek obserwacyjnych jest szczególnie duża, to użycie SVM jest opcją, gdy zasoby i czas są wystarczające (to założenie jest ważne).

Normalnie: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Inne...], teraz bardzo popularne jest głębokie uczenie, wykorzystywane w wielu dziedzinach, opiera się na sieciach neuronowych, sam się uczę, ale wiedza teoretyczna jest niezbyt rozbudowana, zrozumienie nie jest wystarczająco głębokie, nie będę jej tu wprowadzać.

Algorytmy są ważne, ale dobre dane są lepsze niż dobre algorytmy, a projektowanie dobrych cech przynosi ogromną korzyść. Jeśli masz bardzo duży zbiór danych, to niezależnie od algorytmu, którego używasz, może to nie wpływać znacząco na wydajność klasyfikacji (możesz wybierać na podstawie szybkości i łatwości obsługi).

Rozwiąż doskonałą sieć talentów · Opublikowano 27.05.2019 08:27:15

Dzień dobry wszystkim

Rozwiąż doskonałą sieć talentów · Opublikowano 16.09.2019 12:10:06

Algorytmy są wysoko płatne i zapraszamy do kontaktu

Typowe algorytmy udostępniania big data (Zastosowania)

Oglądane sekcje