|
|
Δημοσιεύτηκε στις 27/4/2019 9:53:15 π.μ.
|
|
|

Η εξόρυξη μεγάλων δεδομένων είναι η διαδικασία ανακάλυψης πολύτιμων και δυνητικά χρήσιμων πληροφοριών και γνώσεων που κρύβονται σε τεράστιες, ελλιπείς, θορυβώδεις, ασαφείς και τυχαίες μεγάλες βάσεις δεδομένων και είναι επίσης μια διαδικασία υποστήριξης αποφάσεων. Βασίζεται κυρίως στην τεχνητή νοημοσύνη, τη μηχανική μάθηση, την εκμάθηση προτύπων, τη στατιστική κ.λπ. Η εξόρυξη μεγάλων δεδομένων είναι η διαδικασία ανακάλυψης πολύτιμων και δυνητικά χρήσιμων πληροφοριών και γνώσεων που κρύβονται σε τεράστιες, ελλιπείς, θορυβώδεις, ασαφείς και τυχαίες μεγάλες βάσεις δεδομένων και είναι επίσης μια διαδικασία υποστήριξης αποφάσεων. Βασίζεται κυρίως στην τεχνητή νοημοσύνη, τη μηχανική μάθηση, την εκμάθηση προτύπων, τη στατιστική κ.λπ.
(1) Ταξινόμηση. Η ταξινόμηση είναι να ανακαλύψει τα κοινά χαρακτηριστικά ενός συνόλου αντικειμένων δεδομένων στη βάση δεδομένων και να τα χωρίσει σε διαφορετικές κατηγορίες σύμφωνα με το μοτίβο ταξινόμησης, σκοπός του οποίου είναι η αντιστοίχιση των στοιχείων δεδομένων στη βάση δεδομένων σε μια δεδομένη κατηγορία μέσω του μοντέλου ταξινόμησης. Μπορεί να εφαρμοστεί στην ταξινόμηση εφαρμογών και στην πρόβλεψη τάσεων, όπως τα καταστήματα Taobao χωρίζουν τις αγορές των χρηστών σε διαφορετικές κατηγορίες για μια χρονική περίοδο και προτείνουν σχετικά προϊόντα στους χρήστες ανάλογα με την κατάσταση, αυξάνοντας έτσι τον όγκο πωλήσεων του καταστήματος. Πολλοί αλγόριθμοι μπορούν να χρησιμοποιηθούν για ταξινόμηση, όπως δέντρα αποφάσεων, knn, Bayesian κ.λπ
(2) Ανάλυση παλινδρόμησης. Η ανάλυση παλινδρόμησης αντικατοπτρίζει τα χαρακτηριστικά των τιμών χαρακτηριστικών των δεδομένων στη βάση δεδομένων και ανακαλύπτει τις εξαρτήσεις μεταξύ των τιμών χαρακτηριστικών εκφράζοντας τη σχέση αντιστοίχισης δεδομένων μέσω συναρτήσεων. Μπορεί να εφαρμοστεί στην πρόβλεψη και τη συσχέτιση σειρών δεδομένων. Στο μάρκετινγκ, η ανάλυση παλινδρόμησης μπορεί να εφαρμοστεί σε διάφορες πτυχές. Για παράδειγμα, μέσω της ανάλυσης παλινδρόμησης των πωλήσεων στο τρέχον τρίμηνο, προβλέπεται η τάση πωλήσεων του επόμενου τριμήνου και γίνονται στοχευμένες αλλαγές μάρκετινγκ. Οι συνήθεις αλγόριθμοι παλινδρόμησης περιλαμβάνουν το συνηθισμένο ελάχιστο τετράγωνο, τη λογιστική παλινδρόμηση, τη σταδιακή παλινδρόμηση, τις πολυμεταβλητές προσαρμοστικές καμπύλες παλινδρόμησης και την τοπική εκτίμηση Εξομάλυνση διαγράμματος διασποράς)
(3) Ομαδοποίηση. Η ομαδοποίηση είναι παρόμοια με την ταξινόμηση, αλλά σε αντίθεση με την ταξινόμηση, χωρίζει ένα σύνολο δεδομένων σε κατηγορίες με βάση τις ομοιότητες και τις διαφορές στα δεδομένα. Η ομοιότητα μεταξύ δεδομένων που ανήκουν στην ίδια κατηγορία είναι πολύ μεγάλη, αλλά η ομοιότητα μεταξύ δεδομένων μεταξύ διαφορετικών κατηγοριών είναι πολύ μικρή και η συσχέτιση μεταξύ δεδομένων μεταξύ κατηγοριών είναι πολύ χαμηλή. Οι συνήθεις αλγόριθμοι ομαδοποίησης περιλαμβάνουν τον αλγόριθμο k-Means και τη μεγιστοποίηση προσδοκιών (EM).
(4) Κανόνες σύνδεσης. Οι κανόνες συσχέτισης είναι συσχετίσεις ή σχέσεις μεταξύ κρυφών στοιχείων δεδομένων, δηλαδή, η εμφάνιση άλλων στοιχείων δεδομένων μπορεί να συναχθεί με βάση την εμφάνιση ενός στοιχείου δεδομένων. Η διαδικασία εξόρυξης των κανόνων συσχέτισης περιλαμβάνει κυρίως δύο στάδια: το πρώτο στάδιο είναι η εύρεση όλων των ομάδων έργων υψηλής συχνότητας από μαζικά ακατέργαστα δεδομένα. Το δεύτερο άκρο είναι η δημιουργία κανόνων συσχέτισης από αυτές τις ομάδες έργων υψηλής συχνότητας. Η τεχνολογία εξόρυξης κανόνων συσχέτισης έχει χρησιμοποιηθεί ευρέως σε επιχειρήσεις του χρηματοπιστωτικού κλάδου για την πρόβλεψη των αναγκών των πελατών και οι τράπεζες βελτιώνουν το μάρκετινγκ τους ομαδοποιώντας πληροφορίες που μπορεί να ενδιαφέρουν τους πελάτες για να κατανοήσουν οι χρήστες και να λάβουν αντίστοιχες πληροφορίες στα ΑΤΜ τους. Οι κοινοί αλγόριθμοι περιλαμβάνουν τον αλγόριθμο Apriori και τον αλγόριθμο Eclat.
(5) Μέθοδος νευρωνικού δικτύου. Ως προηγμένη τεχνολογία τεχνητής νοημοσύνης, το νευρωνικό δίκτυο είναι πολύ κατάλληλο για την αντιμετώπιση μη γραμμικών προβλημάτων και προβλημάτων επεξεργασίας που χαρακτηρίζονται από ασαφείς, ελλιπείς και ανακριβείς γνώσεις ή δεδομένα και τα χαρακτηριστικά του είναι πολύ κατάλληλα για την επίλυση προβλημάτων εξόρυξης δεδομένων. Τα τυπικά μοντέλα νευρωνικών δικτύων χωρίζονται κυρίως σε τρεις κατηγορίες: η πρώτη είναι το μοντέλο νευρωνικών δικτύων τροφοδοσίας για πρόβλεψη ταξινόμησης και αναγνώριση προτύπων, το οποίο αντιπροσωπεύεται κυρίως από λειτουργικά δίκτυα και perceptrons. Η δεύτερη κατηγορία είναι το μοντέλο νευρωνικού δικτύου ανάδρασης για αλγόριθμους συνειρμικής μνήμης και βελτιστοποίησης, που αντιπροσωπεύεται από το διακριτό μοντέλο και το συνεχές μοντέλο του Hopfield. Η τρίτη κατηγορία είναι η αυτο-οργανωμένη μέθοδος χαρτογράφησης για ομαδοποίηση, που αντιπροσωπεύεται από το μοντέλο ART. Αν και υπάρχουν πολλά μοντέλα και αλγόριθμοι για νευρωνικά δίκτυα, δεν υπάρχει ενιαίος κανόνας σχετικά με τα μοντέλα και τους αλγόριθμους που πρέπει να χρησιμοποιηθούν σε συγκεκριμένους τομείς της εξόρυξης δεδομένων και είναι δύσκολο για τους ανθρώπους να κατανοήσουν τη διαδικασία μάθησης και λήψης αποφάσεων των δικτύων.
(6) Εξόρυξη δεδομένων Ιστού. Η εξόρυξη δεδομένων Ιστού είναι μια ολοκληρωμένη τεχνολογία, η οποία αναφέρεται στον Ιστό από τη δομή του εγγράφου και το σύνολο C που χρησιμοποιείται για την ανακάλυψη του σιωπηρού μοτίβου P, εάν το C θεωρείται ως είσοδος, το P θεωρείται ως έξοδος, τότε η διαδικασία εξόρυξης ιστού μπορεί να θεωρηθεί ως διαδικασία χαρτογράφησης από την είσοδο στην έξοδο. Επί του παρόντος, όλο και περισσότερα δεδομένα ιστού εμφανίζονται με τη μορφή ροών δεδομένων, επομένως έχουν μεγάλη σημασία για την εξόρυξη ροής δεδομένων ιστού. Επί του παρόντος, οι αλγόριθμοι εξόρυξης δεδομένων ιστού που χρησιμοποιούνται συνήθως είναι: αλγόριθμος PageRank, αλγόριθμος HITS και αλγόριθμος LOGSOM. Οι χρήστες που αναφέρονται σε αυτούς τους τρεις αλγόριθμους είναι γενικοί χρήστες και δεν κάνουν διάκριση μεταξύ μεμονωμένων χρηστών. Προς το παρόν, η εξόρυξη δεδομένων ιστού αντιμετωπίζει ορισμένα προβλήματα, όπως: ταξινόμηση χρηστών, επικαιρότητα περιεχομένου ιστότοπου, χρόνος παραμονής χρήστη στη σελίδα, αριθμοί εισόδου και εξόδου συνδέσμων σελίδων κ.λπ. Στη σημερινή ταχεία ανάπτυξη της τεχνολογίας ιστού, αυτά τα προβλήματα εξακολουθούν να αξίζει να μελετηθούν και να λυθούν.
(7) Βαθιά μάθηση Οι αλγόριθμοι βαθιάς μάθησης είναι η ανάπτυξη τεχνητών νευρωνικών δικτύων. Πρόσφατα έχει κερδίσει μεγάλη προσοχή, ειδικά αφού η Baidu άρχισε επίσης να αναπτύσσει βαθιά μάθηση, η οποία έχει προσελκύσει μεγάλη προσοχή στην Κίνα. Στον σημερινό κόσμο όπου η υπολογιστική ισχύς γίνεται φθηνότερη, η βαθιά μάθηση επιχειρεί να δημιουργήσει νευρωνικά δίκτυα που είναι πολύ μεγαλύτερα και πιο περίπλοκα. Πολλοί αλγόριθμοι βαθιάς μάθησης είναι ημι-εποπτευόμενοι αλγόριθμοι μάθησης που χρησιμοποιούνται για την επεξεργασία μεγάλων συνόλων δεδομένων με μικρή ποσότητα μη αναγνωρισμένων δεδομένων. Οι συνήθεις αλγόριθμοι βαθιάς μάθησης περιλαμβάνουν: Restricted Boltzmann Machine (RBN), Deep Belief Networks (DBN), Convolutional Networks και Stacked Auto-encoders.
(8) Αλγόριθμος ολοκλήρωσης Ο αλγόριθμος συνόλου χρησιμοποιεί ορισμένα σχετικά αδύναμα μοντέλα μάθησης για να εκπαιδεύσει ανεξάρτητα στο ίδιο δείγμα και στη συνέχεια ενσωματώνει τα αποτελέσματα για συνολική πρόβλεψη. Η κύρια δυσκολία του αλγορίθμου συνόλου είναι ποια ανεξάρτητα ασθενέστερα μοντέλα μάθησης ενσωματώνονται και πώς να ενσωματωθούν τα μαθησιακά αποτελέσματα. Αυτή είναι μια πολύ ισχυρή κατηγορία αλγορίθμων και ταυτόχρονα πολύ δημοφιλής. Οι συνήθεις αλγόριθμοι περιλαμβάνουν: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) και Random Forest.
Επιπλέον, η μείωση διαστάσεων είναι επίσης πολύ σημαντική στη μηχανική ανάλυσης δεδομένων, όπως οι αλγόριθμοι ομαδοποίησης, οι αλγόριθμοι μείωσης διαστάσεων προσπαθούν να αναλύσουν την εσωτερική δομή των δεδομένων, αλλά οι αλγόριθμοι μείωσης διαστάσεων προσπαθούν να χρησιμοποιήσουν λιγότερες πληροφορίες για να συνοψίσουν ή να ερμηνεύσουν δεδομένα με τρόπο μάθησης χωρίς επίβλεψη. Αυτοί οι αλγόριθμοι μπορούν να χρησιμοποιηθούν για την οπτικοποίηση δεδομένων υψηλών διαστάσεων ή για την απλοποίηση δεδομένων για εποπτευόμενη μάθηση. Οι συνήθεις αλγόριθμοι περιλαμβάνουν: Ανάλυση Συνιστωσών Αρχών (PCA), Μερική Παλινδρόμηση Ελαχίστων Τετραγώνων (PLS), Χαρτογράφηση Sammon, Πολυδιάστατη Κλιμάκωση (MDS), Επιδίωξη Προβολής κ.λπ.
Για λεπτομερή ανάλυση των πλεονεκτημάτων και των μειονεκτημάτων ορισμένων αλγορίθμων και αναφορών επιλογής αλγορίθμων, μπορείτε να ρίξετε μια ματιά στα σενάρια προσαρμογής αρκετών αλγορίθμων που χρησιμοποιούνται συνήθως και στα πλεονεκτήματα και μειονεκτήματά τους στο παρακάτω ιστολόγιο (πολύ καλό)
Το παρακάτω είναι από μια παράγραφο από το παραπάνω ιστολόγιο: Αναφορά επιλογής αλγορίθμου:
Έχω μεταφράσει μερικά ξένα άρθρα στο παρελθόν και ένα άρθρο δίνει μια απλή τεχνική επιλογής αλγορίθμων:
Εάν η επίδρασή του δεν είναι καλή, τότε τα αποτελέσματά του μπορούν να χρησιμοποιηθούν ως αναφορά και να συγκριθούν με άλλους αλγόριθμους στη βάση.
Στη συνέχεια, δοκιμάστε το δέντρο αποφάσεων (τυχαίο δάσος) για να δείτε εάν μπορεί να βελτιώσει δραματικά την απόδοση του μοντέλου σας. Ακόμα κι αν δεν το χρησιμοποιήσετε ως τελικό μοντέλο στο τέλος, μπορείτε να χρησιμοποιήσετε ένα τυχαίο δάσος για να αφαιρέσετε μεταβλητές θορύβου και να επιλέξετε χαρακτηριστικά.
Εάν ο αριθμός των χαρακτηριστικών και των δειγμάτων παρατήρησης είναι ιδιαίτερα μεγάλος, τότε η χρήση SVM είναι μια επιλογή όταν οι πόροι και ο χρόνος είναι επαρκείς (αυτή η προϋπόθεση είναι σημαντική).
Κανονικά: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Άλλο...], τώρα η βαθιά μάθηση είναι πολύ δημοφιλής, χρησιμοποιείται σε πολλούς τομείς, βασίζεται σε νευρωνικά δίκτυα, αυτή τη στιγμή μαθαίνω ο ίδιος, αλλά η θεωρητική γνώση δεν είναι πολύ πυκνή, η κατανόηση δεν είναι αρκετά βαθιά, δεν θα την παρουσιάσω εδώ.
Οι αλγόριθμοι είναι σημαντικοί, αλλά τα καλά δεδομένα είναι καλύτερα από τους καλούς αλγόριθμους και ο σχεδιασμός καλών χαρακτηριστικών έχει μεγάλο όφελος. Εάν έχετε ένα πολύ μεγάλο σύνολο δεδομένων, τότε ανεξάρτητα από τον αλγόριθμο που χρησιμοποιείτε, μπορεί να μην επηρεάσει πολύ την απόδοση ταξινόμησης (μπορείτε να επιλέξετε με βάση την ταχύτητα και την ευκολία χρήσης).
|
Προηγούμενος:Μετατροπή αποτελεσμάτων ερωτήματος σε κοινή χρήση δέσμης ενεργειών μορφής JsonΕπόμενος:Η C# είναι μια υπηρεσία των Windows που εκτελεί εργασίες τακτικά
|