Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 6887|Odpoveď: 2

Bežné algoritmy na zdieľanie veľkých dát (aplikácie)

[Kopírovať odkaz]
Zverejnené 27. 4. 2019 9:53:15 | | |
Big data mining je proces objavovania cenných a potenciálne užitočných informácií a poznatkov ukrytých v obrovských, neúplných, šumových, nejasných a náhodných veľkých databázach, a zároveň je to proces podpory rozhodovania. Je založený najmä na umelej inteligencii, strojovom učení, vzorovom učení, štatistike a podobne. Big data mining je proces objavovania cenných a potenciálne užitočných informácií a poznatkov ukrytých v obrovských, neúplných, šumových, nejasných a náhodných veľkých databázach, a zároveň je to proces podpory rozhodovania. Je založený najmä na umelej inteligencii, strojovom učení, vzorovom učení, štatistike a podobne.

(1) Klasifikácia. Klasifikácia spočíva v zistení spoločných charakteristík súboru dátových objektov v databáze a ich rozdelení do rôznych tried podľa klasifikačného vzoru, ktorého účelom je mapovať dátové položky v databáze do danej kategórie prostredníctvom klasifikačného modelu. Môže sa aplikovať na klasifikáciu aplikácií a predikciu trendov, napríklad obchody Taobao rozdeľujú nákupy používateľov do rôznych kategórií v priebehu času a odporúčajú príbuzné produkty používateľom podľa situácie, čím zvyšujú objem predaja obchodu. Na klasifikáciu sa dá použiť mnoho algoritmov, ako napríklad rozhodovacie stromy, knn, bayesovské a podobne

(2) Regresná analýza. Regresná analýza odráža charakteristiky hodnôt atribútov dát v databáze a odhaľuje závislosti medzi hodnotami atribútov vyjadrením vzťahu mapovania dát cez funkcie. Môže sa aplikovať na predikciu a koreláciu dátových radov. V marketingu možno regresnú analýzu aplikovať na rôzne aspekty. Napríklad prostredníctvom regresnej analýzy predaja v aktuálnom štvrťroku sa predpovedá predajný trend na ďalší štvrťrok a vykonávajú sa cielené marketingové zmeny. Bežné regresné algoritmy zahŕňajú obyčajnú metódu najmenšieho štvorca, logistickú regresiu, krokovú regresiu, viacrozmerné adaptívne regresné spline a lokálne odhadované metódy Vyhladzovanie scatterplotu)

(3) Zhlukovanie. Zhlukovanie je podobné klasifikácii, ale na rozdiel od klasifikácie rozdeľuje súbor údajov do kategórií na základe podobností a rozdielov v údajoch. Podobnosť medzi údajmi patriacimi do tej istej kategórie je veľmi veľká, ale podobnosť medzi údajmi medzi rôznymi kategóriami je veľmi malá a korelácia medzi údajmi naprieč kategóriami je veľmi nízka. Bežné algoritmy zhlukovania zahŕňajú algoritmus k-Means a maximalizáciu očakávania (EM).

(4) Pravidlá asociácie. Asociačné pravidlá sú asociácie alebo vzťahy medzi skrytými dátovými položkami, teda výskyt iných dátových položiek možno odvodiť na základe vzhľadu jedného dátového prvku. Proces ťažby pravidiel asociácií zahŕňa najmä dve fázy: prvá fáza je nájsť všetky vysokofrekvenčné projektové skupiny z masívnych surových dát; Druhým extrémom je generovanie asociačných pravidiel z týchto vysokofrekvenčných projektových skupín. Technológia ťažby pravidiel asociácií sa široko využíva vo finančných podnikoch na predpovedanie potrieb zákazníkov a banky zlepšujú svoj marketing tým, že zhromažďujú informácie, o ktoré by zákazníci mohli mať záujem, aby používatelia mohli rozumieť a získavať zodpovedajúce informácie o svojich bankomatoch. Bežné algoritmy zahŕňajú Apriori algoritmus a Eclat algoritmus.

(5) Metóda neurónovej siete. Ako pokročilá technológia umelej inteligencie je neurónová sieť veľmi vhodná na riešenie nelineárnych a spracovateľských problémov charakterizovaných nejasnými, neúplnými a nepresnými znalosťami alebo údajmi a jej charakteristiky sú veľmi vhodné na riešenie problémov ťažby dát. Typické modely neurónových sietí sa delia hlavne do troch kategórií: prvou je model feedforward neurónovej siete na predikciu klasifikácie a rozpoznávanie vzorov, ktorý je prevažne reprezentovaný funkčnými sieťami a perceptrónami; Druhou kategóriou je model neurónovej siete spätnej väzby pre asociatívnu pamäť a optimalizačné algoritmy, reprezentovaný Hopfieldovým diskrétnym modelom a kontinuálnym modelom. Tretia kategória je samoorganizujúca sa metóda mapovania pre zhlukovanie, reprezentovaná modelom ART. Hoci existuje mnoho modelov a algoritmov pre neurónové siete, neexistuje jednotné pravidlo, ktoré modely a algoritmy použiť v konkrétnych oblastiach dolovania dát, a je pre ľudí ťažké pochopiť proces učenia a rozhodovania v sieťach.

(6) Web data mining. Web data mining je komplexná technológia, ktorá sa vzťahuje na web zo štruktúry dokumentu a množinu C používanú na objavenie implicitného vzoru P; ak je C považované za vstup, P za výstup, potom proces webového ťaženia možno považovať za mapovací proces od vstupu k výstupu. V súčasnosti sa čoraz viac webových dát objavuje vo forme dátových tokov, čo má veľký význam pre ťažbu toku webových dát. V súčasnosti sú bežne používané algoritmy na dolovanie webových dát: PageRank algoritmus, HITS algoritmus a LOGSOM algoritmus. Používatelia spomenutí v týchto troch algoritmoch sú bežní používatelia a nerozlišujú medzi jednotlivými používateľmi. V súčasnosti čelí dolovanie dát na webe niektorým problémom, vrátane: klasifikácie používateľov, aktuálneho času obsahu webu, dĺžky pobytu používateľa na stránke, počtu odkazov na stránku a podobne. V dnešnom rýchlom rozvoji webových technológií sú tieto problémy stále hodné štúdia a riešenia.

(7) Hlboké učenie
Algoritmy hlbokého učenia sú vývoj umelých neurónových sietí. V poslednej dobe si získal veľkú pozornosť, najmä po tom, čo Baidu začal rozvíjať aj hlboké učenie, ktoré pritiahlo veľkú pozornosť v Číne. V dnešnom svete, keď výpočtový výkon je lacnejší, sa hlboké učenie snaží vytvárať neurónové siete, ktoré sú oveľa väčšie a zložitejšie. Mnohé algoritmy hlbokého učenia sú čiastočne riadené učenie používané na spracovanie veľkých dátových súborov s malým množstvom neidentifikovaných údajov. Bežné algoritmy hlbokého učenia zahŕňajú: obmedzený Boltzmannov stroj (RBN), siete hlbokých presvedčení (DBN), konvolučné siete a stohované automatické enkodéry.

(8) Integračný algoritmus
Algoritmus súboru používa niektoré relatívne slabé modely učenia na nezávislé trénovanie na tej istej vzorke a následne integruje výsledky pre celkovú predikciu. Hlavnou ťažkosťou algoritmu súboru je, ktoré nezávislé slabšie modely učenia sú integrované a ako integrovať výsledky učenia. Toto je veľmi silná trieda algoritmov a zároveň veľmi populárna. Bežné algoritmy zahŕňajú: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) a Random Forest.

Okrem toho je redukcia dimenzionality veľmi dôležitá aj v inžinierstve analýzy dát, podobne ako algoritmy na zhlukovanie, algoritmy na redukciu dimenzionality sa snažia analyzovať vnútornú štruktúru dát, ale algoritmy na redukciu dimenzionality sa snažia použiť menej informácií na zhrnutie alebo interpretáciu dát spôsobom bez mentorovaného učenia. Tieto algoritmy môžu byť použité na vizualizáciu vysokorozmerných dát alebo na zjednodušenie dát pre učenie pod dohľadom. Bežné algoritmy zahŕňajú: analýzu princípových komponentov (PCA), čiastočnú regresiu najmenších štvorcov (PLS), Sammonovo mapovanie, viacrozmerné škálovanie (MDS), sledovanie projekcie a ďalšie.

Pre podrobnú analýzu výhod a nevýhod niektorých algoritmov a referencií na výber algoritmov sa môžete pozrieť na adaptačné scenáre niekoľkých bežne používaných algoritmov a ich výhody a nevýhody v nasledujúcom blogu (veľmi dobré)

Nasleduje odsek z vyššie uvedeného blogu:
Referencia výberu algoritmu:

Prekladal som už niektoré zahraničné články a jeden článok uvádza jednoduchú techniku výberu algoritmu:

Ak jeho účinok nie je dobrý, výsledky možno použiť ako referenciu a porovnať ich s inými algoritmami na báze.

Potom skúste rozhodovací strom (náhodný les), aby ste zistili, či môže výrazne zlepšiť výkon vášho modelu. Aj keď ho nakoniec nepoužijete ako finálny model, môžete použiť náhodný les na odstránenie šumových premenných a výber funkcií;

Ak je počet funkcií a observačných vzoriek obzvlášť veľký, potom je použitie SVM možnosťou, keď sú zdroje a čas dostatočné (tento predpoklad je dôležitý).

Normálne: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Ostatné...], teraz je hlboké učenie veľmi populárne, používa sa v mnohých oblastiach, je založené na neurónových sieťach, momentálne sa sám učím, ale teoretické vedomosti nie sú veľmi rozsiahle, porozumenie nie je dostatočne hlboké, nebudem ich tu rozoberať.

Algoritmy sú dôležité, ale dobré dáta sú lepšie ako dobré algoritmy a navrhovanie dobrých vlastností je veľkým prínosom. Ak máte veľmi veľký dataset, nech použijete akýkoľvek algoritmus, nemusí to výrazne ovplyvniť výkon klasifikácie (môžete si vybrať podľa rýchlosti a jednoduchosti použitia).




Predchádzajúci:Konverzia výsledkov dopytov do zdieľania skriptov vo formáte Json
Budúci:C# je Windows služba, ktorá pravidelne vykonáva úlohy
 Prenajímateľ| Zverejnené 27. 5. 2019 8:27:15 |
Dobré ráno všetkým
 Prenajímateľ| Zverejnené 16. 9. 2019 12:10:06 |
Algoritmy sú dobre platené a vítané, aby ste zavolali
Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com