|
|
Zveřejněno 27.04.2019 9:53:15
|
|
|

Těžba velkých dat je proces objevování cenných a potenciálně užitečných informací a znalostí skrytých v obrovských, neúplných, šumových, nejasných a náhodných velkých databázích, a zároveň je to proces podpory rozhodování. Je založena především na umělé inteligenci, strojovém učení, učení vzorů, statistice atd. Těžba velkých dat je proces objevování cenných a potenciálně užitečných informací a znalostí skrytých v obrovských, neúplných, šumových, nejasných a náhodných velkých databázích, a zároveň je to proces podpory rozhodování. Je založena především na umělé inteligenci, strojovém učení, učení vzorů, statistice atd.
(1) Klasifikace. Klasifikace znamená zjistit společné charakteristiky souboru datových objektů v databázi a rozdělit je do různých tříd podle klasifikačního vzoru, jehož účelem je mapovat datové položky v databázi do dané kategorie prostřednictvím klasifikačního modelu. Lze jej aplikovat na klasifikaci aplikací a predikci trendů, například obchody Taobao rozdělují nákupy uživatelů do různých kategorií v průběhu času a doporučují související produkty uživatelům podle situace, čímž zvyšují objem prodeje obchodu. Pro klasifikaci lze použít mnoho algoritmů, například rozhodovací stromy, knn, bayesovské a další
(2) Regresní analýza. Regresní analýza odráží charakteristiky hodnot atributů dat v databázi a odhaluje závislosti mezi hodnotami atributů vyjádřením vztahu mapování dat prostřednictvím funkcí. Lze jej aplikovat na predikci a korelaci datových řad. V marketingu lze regresní analýzu aplikovat na různé aspekty. Například prostřednictvím regresní analýzy prodejů v aktuálním čtvrtletí je předpovězen prodejní trend pro příští čtvrtletí a jsou provedeny cílené marketingové změny. Běžné regresní algoritmy zahrnují obyčejný nejmenší čtverec, logistickou regresi, krokovou regresi, vícerozměrné adaptivní regresní spline a lokálně odhadované Vyhlazování scatterplotu)
(3) Shlukování. Shlukování je podobné klasifikaci, ale na rozdíl od klasifikace rozděluje množinu dat do kategorií na základě podobností a rozdílů v datech. Podobnost dat patřících do stejné kategorie je velmi velká, ale podobnost mezi daty mezi různými kategoriemi je velmi malá a korelace mezi daty napříč kategoriemi je velmi nízká. Běžné algoritmy shlukování zahrnují algoritmus k-Means a maximalizaci očekávání (EM).
(4) Pravidla asociace. Asociační pravidla jsou asociace nebo vztahy mezi skrytými datovými položkami, tedy výskyt dalších datových položek lze odvodit na základě vzhledu jednoho datového prvku. Proces těžby pravidel asociace zahrnuje především dvě fáze: první fáze je nalezení všech skupin projektů s vysokou frekvencí z masivních surových dat; Druhým extrémem je generování asociačních pravidel z těchto vysokofrekvenčních projektových skupin. Technologie dolování asociačních pravidel byla široce využívána ve finančních sektorech k předpovídání potřeb zákazníků a banky zlepšují svůj marketing tím, že balíčkují informace, které by mohly zákazníky zajímat, aby uživatelé mohli rozumět a získat odpovídající informace na svých bankomatech. Mezi běžné algoritmy patří Apriori algoritmus a Eclat algoritmus.
(5) Metoda neuronových sítí. Jako pokročilá technologie umělé inteligence je neuronová síť velmi vhodná pro řešení nelineárních a výpočetních problémů charakterizovaných vágními, neúplnými a nepřesnými znalostmi nebo daty a její charakteristiky jsou velmi vhodné pro řešení problémů dolování dat. Typické modely neuronových sítí se dělí převážně do tří kategorií: první je model feedforward neuronové sítě pro predikci klasifikace a rozpoznávání vzorů, který je převážně reprezentován funkčními sítěmi a perceptrony; Druhou kategorií je model neuronové sítě zpětné vazby pro asociativní paměť a optimalizační algoritmy, reprezentovaný Hopfieldovým diskrétním modelem a spojitým modelem. Třetí kategorií je samoorganizující se metoda mapování pro shlukování, reprezentovaná modelem ART. Ačkoli existuje mnoho modelů a algoritmů pro neuronové sítě, neexistuje jednotné pravidlo, které modely a algoritmy používat v konkrétních oblastech dolování dat, a je obtížné pochopit proces učení a rozhodování sítí.
(6) Těžba webových dat. Web data mining je komplexní technologie, která označuje web ze struktury dokumentu a množinu C používanou k objevení implicitního vzoru P; pokud je C považován za vstup, P za výstup, pak lze proces webového těžení považovat za mapovací proces od vstupu k výstupu. V současnosti se stále více webových dat objevuje ve formě datových toků, což má velký význam pro dolování toku webových dat. V současnosti jsou běžně používané algoritmy pro dolování webových dat: algoritmus PageRank, algoritmus HITS a algoritmus LOGSOM. Uživatelé zmínění v těchto třech algoritmech jsou obecní uživatelé a nerozlišují mezi jednotlivými uživateli. V současnosti čelí webová data těžbě určitým problémům, včetně: klasifikace uživatelů, časové doby obsahu webu, délky pobytu uživatelů na stránce, počtu odkazů na stránku a podobně. V dnešním rychlém rozvoji webových technologií jsou tyto problémy stále hodné studia a řešení.
(7) Hluboké učení Algoritmy hlubokého učení jsou vývojem umělých neuronových sítí. V poslední době si získala velkou pozornost, zejména poté, co Baidu začal rozvíjet hluboké učení, které přitáhlo velkou pozornost v Číně. V dnešním světě, kdy výpočetní výkon zlevňuje, se hluboké učení snaží budovat neuronové sítě, které jsou mnohem větší a složitější. Mnoho algoritmů hlubokého učení jsou polořízené algoritmy učení používané ke zpracování velkých datových sad s malým množstvím neidentifikovaných dat. Mezi běžné algoritmy hlubokého učení patří: omezený Boltzmannův stroj (RBN), hluboké sítě přesvědčení (DBN), konvoluční sítě a stohované autoenkodéry.
(8) Integrační algoritmus Ensemble algoritmus používá některé relativně slabé modely učení k nezávislému trénování na stejném vzorku a poté integruje výsledky pro celkovou predikci. Hlavní obtíží algoritmu souboru je, které nezávislé slabší modely učení jsou integrovány a jak integrovat výsledky učení. Jedná se o velmi silnou třídu algoritmů a zároveň velmi populární. Mezi běžné algoritmy patří: Boosting, Bootstrapped Aggregation (bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) a Random Forest.
Kromě toho je redukce dimenzionality také velmi důležitá v datovém analytickém inženýrství, například algoritmy pro shlukování dimenzionality, algoritmy pro redukci dimenzionality se snaží analyzovat vnitřní strukturu dat, ale algoritmy pro redukci dimenzionality se snaží použít méně informací k shrnutí nebo interpretaci dat bez dozorovaného učení. Tyto algoritmy lze použít k vizualizaci vysokorozměrných dat nebo k jejich zjednodušení pro učení s mentorem. Mezi běžné algoritmy patří: analýza principálních komponent (PCA), částečná regrese metodou nejmenších čtverců (PLS), Sammonovo mapování, vícerozměrné škálování (MDS), projekční sledování atd.
Pro podrobnou analýzu výhod a nevýhod některých algoritmů a referencí pro výběr algoritmů se můžete podívat na adaptační scénáře několika běžně používaných algoritmů a jejich výhody a nevýhody v následujícím blogu (velmi dobré)
Následující text pochází z odstavce z blogu výše: Reference výběru algoritmu:
Dříve jsem překládal některé zahraniční články a jeden článek uvádí jednoduchou techniku výběru algoritmu:
Pokud jeho efekt není dobrý, lze výsledky použít jako referenci a porovnat je s jinými algoritmy na bázi.
Pak zkuste rozhodovací strom (náhodný les), abyste zjistili, jestli může výrazně zlepšit výkon modelu. I když ho nakonec nepoužijete jako finální model, můžete použít náhodný les k odstranění šumových proměnných a výběru funkcí;
Pokud je počet funkcí a observačních vzorků obzvlášť velký, pak je použití SVM možností, pokud jsou zdroje a čas dostatečné (tento předpoklad je důležitý).
Normálně: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Ostatní...], nyní je hluboké učení velmi populární, používá se v mnoha oborech, je založené na neuronových sítích, momentálně se sám učím, ale teoretické znalosti nejsou příliš rozsáhlé, porozumění není dostatečně hluboké, nebudu je zde představovat.
Algoritmy jsou důležité, ale dobrá data jsou lepší než dobré algoritmy a navrhování kvalitních funkcí je velkým přínosem. Pokud máte velmi rozsáhlou datovou sadu, pak bez ohledu na algoritmus nemusí mít velký vliv na výkon klasifikace (můžete si vybrat podle rychlosti a snadnosti použití).
|
Předchozí:Převést výsledky dotazů do sdílení skriptů ve formátu JsonDalší:C# je služba pro Windows, která pravidelně vykonává úlohy
|