|
|
Julkaistu 27.4.2019 9.53.15
|
|
|

Big data -louhinta on prosessi, jossa löydetään arvokasta ja potentiaalisesti hyödyllistä tietoa ja tietoa, joka on piilotettu valtaviin, epätäydellisiin, meluisoihin, epätarkkoihin ja satunnaisiin suuriin tietokantoihin, ja se on myös päätöksenteon tukemisprosessi. Se perustuu pääasiassa tekoälyyn, koneoppimiseen, kuvioiden oppimiseen, tilastoihin jne. Big data -louhinta on prosessi, jossa löydetään arvokasta ja potentiaalisesti hyödyllistä tietoa ja tietoa, joka on piilotettu valtaviin, epätäydellisiin, meluisoihin, epätarkkoihin ja satunnaisiin suuriin tietokantoihin, ja se on myös päätöksenteon tukemisprosessi. Se perustuu pääasiassa tekoälyyn, koneoppimiseen, kuvioiden oppimiseen, tilastoihin jne.
(1) Luokittelu. Luokittelun tarkoituksena on selvittää tietokannan joukon yhteiset ominaisuudet ja jakaa ne eri luokkiin luokittelumallin mukaan, jonka tarkoituksena on kartoittaa tietokannan tietokohteet tiettyyn kategoriaan luokittelumallin avulla. Sitä voidaan soveltaa sovellusten luokitteluun ja trendien ennustamiseen, kuten Taobao-myymälät jakavat käyttäjien ostokset eri kategorioihin ajan kuluessa ja suosittelevat käyttäjille niihin liittyviä tuotteita tilanteen mukaan, mikä kasvattaa myymälän myyntimäärää. Luokitteluun voidaan käyttää monia algoritmeja, kuten päätöspuut, knn, bayesilainen jne
(2) Regressioanalyysi. Regressioanalyysi heijastaa tietokannan attribuuttiarvojen ominaisuuksia ja tunnistaa attribuuttiarvojen väliset riippuvuudet ilmaisemalla datan kartoituksen suhteen funktioiden kautta. Sitä voidaan soveltaa tietosarjojen ennustamiseen ja korrelaatioon. Markkinoinnissa regressioanalyysiä voidaan soveltaa moniin osa-alueisiin. Esimerkiksi nykyisen neljänneksen myynnin regressioanalyysin avulla ennustetaan seuraavan neljänneksen myyntitrendi ja tehdään kohdennettuja markkinointimuutoksia. Yleisiä regressioalgoritmeja ovat tavallinen pienimmän neliömäärä, logistinen regressio, vaiheittainen regressio, monimuuttujaiset adaptiiviset regressiospliinit ja paikallisesti arvioidut Scatterplotin tasoitus)
(3) Klusterointi. Klusterointi on samankaltaista kuin luokittelu, mutta toisin kuin luokittelu, se jakaa aineiston kategorioihin datan samankaltaisuuksien ja erojen perusteella. Samankaltaisuus samaan kategoriaan kuuluvien tietojen välillä on hyvin suuri, mutta eri kategorioiden välinen samankaltaisuus on hyvin pieni, ja kategorioiden välisen datan korrelaatio on hyvin pieni. Yleisiä klusterointialgoritmeja ovat k-Means-algoritmi ja odotusmaksimointi (EM).
(4) Yhdistyksen säännöt. Assosiaatiosäännöt ovat piilotettujen tietokohteiden välisiä assosiaatioita tai suhteita, eli muiden tietokohteiden esiintyminen voidaan päätellä yhden datakohteen ulkonäön perusteella. Assosiaatiosääntöjen louhintaprosessi koostuu pääasiassa kahdesta vaiheesta: ensimmäinen vaihe on löytää kaikki korkean taajuuden projektiryhmät massiivisesta raakadatasta; Toinen ääripää on luoda assosiaatiosäännöt näistä korkean taajuuden projektiryhmistä. Assosiaatiosääntöjen louhintateknologiaa on laajasti käytetty rahoitusalan yrityksissä asiakkaiden tarpeiden ennustamiseen, ja pankit parantavat markkinointiaan niputtamalla asiakkaille kiinnostavia tietoja, jotta käyttäjät voivat ymmärtää ja saada vastaavaa tietoa pankkiautomaateistaan. Yleisiä algoritmeja ovat Apriori-algoritmi ja Eclat-algoritmi.
(5) Neuroverkkomenetelmä. Kehittyneenä tekoälyteknologiana neuroverkko soveltuu erinomaisesti epälineaaristen ja prosessointiongelmien käsittelyyn, joille on ominaista epämääräinen, puutteellinen ja epätarkka tieto tai data, ja sen ominaisuudet soveltuvat erinomaisesti datan louhintaongelmien ratkaisemiseen. Tyypilliset neuroverkkomallit jaetaan pääasiassa kolmeen kategoriaan: ensimmäinen on eteenpäin suuntautuva neuroverkkomalli luokittelun ennustamiseen ja kuvioiden tunnistamiseen, jota edustavat pääasiassa funktionaaliset verkot ja perceptronit; Toinen kategoria on assosiatiivisen muistin ja optimointialgoritmien takaisinkytkentäneuroverkkomalli, jota edustavat Hopfieldin diskreetti ja jatkuva malli. Kolmas kategoria on itseorganisoituva kartoitusmenetelmä klusterointiin, jota edustaa ART-malli. Vaikka neuroverkoille on monia malleja ja algoritmeja, ei ole yhtenäistä sääntöä siitä, mitä malleja ja algoritmeja käytetään tietyillä datan louhinnan aloilla, ja verkkojen oppimisen ja päätöksenteon ymmärtäminen on vaikeaa.
(6) Verkkodatan louhinta. Verkkodatan louhinta on kattava teknologia, joka viittaa webiin dokumenttirakenteen ja joukon C perusteella, jota käytetään implisiittisen kuvion P löytämiseen. Jos C nähdään syötteenä, P on tulos, niin web-louhintaprosessia voidaan pitää kartoitusprosessina syötteestä tuotteeseen. Nykyään yhä enemmän verkkodataa esiintyy datavirtojen muodossa, joten sillä on suuri merkitys verkkodatavirran louhinnalle. Tällä hetkellä yleisimmin käytetyt verkkodatan louhintaalgoritmit ovat: PageRank-algoritmi, HITS-algoritmi ja LOGSOM-algoritmi. Näissä kolmessa algoritmissa mainitut käyttäjät ovat tavallisia käyttäjiä eivätkä erota yksittäisiä käyttäjiä. Tällä hetkellä verkkodatan louhinnalla on joitakin ongelmia, kuten: käyttäjäluokittelu, verkkosivuston sisällön ajantasaisuus, käyttäjien oleskeluaika sivulla, sivulinkkien sisään- ja ulostulomäärät jne. Nykyisessä verkkoteknologian nopeassa kehityksessä nämä ongelmat ovat yhä tutkimisen ja ratkaisemisen arvoisia.
(7) Syväoppiminen Syväoppimisalgoritmit ovat keinotekoisten neuroverkkojen kehitystä. Se on viime aikoina saanut paljon huomiota, erityisesti sen jälkeen kun Baidu on alkanut kehittää syväoppimista, mikä on herättänyt paljon huomiota Kiinassa. Nykymaailmassa, jossa laskentateho halpenee, syväoppiminen pyrkii rakentamaan neuroverkkoja, jotka ovat paljon suurempia ja monimutkaisempia. Monet syväoppimisalgoritmit ovat puolivalvottuja oppimisalgoritmeja, joita käytetään suurten tietoaineistojen käsittelyyn, joissa on pieni määrä tunnistamatonta dataa. Yleisiä syväoppimisalgoritmeja ovat: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks ja Stacked Auto-encodderit.
(8) Integraatioalgoritmi Ensemble-algoritmi käyttää suhteellisen heikkoja oppimismalleja itsenäiseen harjoitteluun samalla otoksella ja integroi tulokset kokonaisennustamista varten. Ensemble-algoritmin suurin vaikeus on, mitkä riippumattomat heikommat oppimismallit integroidaan ja miten oppimistulokset integroidaan. Tämä on erittäin tehokas algoritmiluokka ja samalla hyvin suosittu. Yleisiä algoritmeja ovat: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) ja Random Forest.
Lisäksi ulottuvuuden vähentäminen on erittäin tärkeää data-analyysitekniikassa, kuten klusterointialgoritmit, dimensioiden vähentämisalgoritmit pyrkivät analysoimaan datan sisäistä rakennetta, mutta dimensioiden vähentämisalgoritmit pyrkivät käyttämään vähemmän tietoa datan tiivistämiseen tai tulkintaan ohjaamattomalla oppimistavalla. Näitä algoritmeja voidaan käyttää korkean ulottuvuuden datan visualisointiin tai ohjatun oppimisen yksinkertaistamiseen. Yleisiä algoritmeja ovat: Principle Component Analysis (PCA), Partial Little Square Regressio (PLS), Sammon-Mapping, Multi-Dimensional Scaling (MDS), Projection Pursuit jne.
Jos haluat yksityiskohtaisen analyysin joidenkin algoritmien eduista ja haittoista sekä algoritmivalintaviitteistä, voit tarkastella useiden yleisesti käytettyjen algoritmien sopeutumisskenaarioita sekä niiden etuja ja haittoja seuraavassa blogissa (erittäin hyvä).
Seuraava on yllä olevan blogin kappaleesta: Algoritmin valintaviite:
Olen kääntänyt joitakin ulkomaisia artikkeleita aiemmin, ja yhdessä artikkelissa annetaan yksinkertainen algoritmivalintatekniikka:
Jos sen vaikutus ei ole hyvä, sen tuloksia voidaan käyttää viitteenä ja verrata niitä muihin algoritmeihin perustuen.
Kokeile sitten päätöspuuta (satunnaismetsä) nähdäksesi, voiko se parantaa mallin suorituskykyä merkittävästi. Vaikka et lopulta käyttäisi sitä lopullisena mallina, voit käyttää satunnaista metsää poistaaksesi kohinamuuttujat ja valitsemaan ominaisuuksia;
Jos kohteiden ja havaintonäytteiden määrä on erityisen suuri, SVM:n käyttö on vaihtoehto, kun resursseja ja aikaa riittää (tämä oletus on tärkeä).
Normaalisti: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Muut...], nyt syväoppiminen on hyvin suosittua, sitä käytetään monilla aloilla, se perustuu neuroverkkoihin, opiskelen itse, mutta teoreettinen tieto ei ole kovin paksua, ymmärrys ei ole tarpeeksi syvällistä, en aio esitellä sitä täällä.
Algoritmit ovat tärkeitä, mutta hyvä data on parempi kuin hyvät algoritmit, ja hyvien ominaisuuksien suunnittelu on suuri etu. Jos aineistosi on hyvin suuri, riippumatta siitä, mitä algoritmia käytät, se ei välttämättä vaikuta luokittelun suorituskykyyn merkittävästi (voit valita nopeuden ja helppokäyttöisyyden perusteella).
|
Edellinen:Muunna kyselytulokset Json-formaatin skriptien jakamiseenSeuraava:C# on Windows-palvelu, joka suorittaa tehtäviä säännöllisesti
|