|
Για τη μηχανή αναζήτησης Baidu, η μαύρη τρύπα αράχνη αναφέρεται στον ιστότοπο που δημιουργεί μεγάλο αριθμό παραμέτρων με πολύ χαμηλό κόστος και δυναμικές διευθύνσεις URL με παρόμοιο περιεχόμενο αλλά διαφορετικές συγκεκριμένες παραμέτρους, ακριβώς όπως ένας άπειρος βρόχος «μαύρης τρύπας» που παγιδεύει αράχνες, η Baiduspider σπαταλά πολλούς πόρους για την ανίχνευση μη έγκυρων ιστοσελίδων. Για παράδειγμα, πολλοί ιστότοποι έχουν λειτουργία φιλτραρίσματος και οι ιστοσελίδες που δημιουργούνται από τη λειτουργία φιλτραρίσματος συχνά ανιχνεύονται από μηχανές αναζήτησης και ένα μεγάλο μέρος τους έχει χαμηλή αξία αναζήτησης, όπως "ενοικίαση σπιτιού με τιμή μεταξύ 500-1000", πρώτα απ 'όλα, βασικά δεν υπάρχουν σχετικοί πόροι στον ιστότοπο (συμπεριλαμβανομένης της πραγματικότητας) και, δεύτερον, δεν υπάρχει τέτοια συνήθεια αναζήτησης για τους επιτόπιους χρήστες και τους χρήστες μηχανών αναζήτησης. Αυτό το είδος ιστοσελίδας ανιχνεύεται από μηχανές αναζήτησης σε μεγάλους αριθμούς, οι οποίες μπορούν να καταλάβουν μόνο πολύτιμο όριο ανίχνευσης στον ιστότοπο. Πώς μπορεί λοιπόν να αποφευχθεί αυτό; Ας πάρουμε ως παράδειγμα έναν ιστότοπο ομαδικών αγορών στο Πεκίνο για να δούμε πώς ο ιστότοπος χρησιμοποιεί ρομπότ για να αποφύγει έξυπνα αυτή τη μαύρη τρύπα αράχνης: Για τις σελίδες αποτελεσμάτων κανονικού φίλτρου, ο ιστότοπος επιλέγει να χρησιμοποιεί στατικούς συνδέσμους, όπως http://bj.XXXXX.com/category/zizhucan/weigongcun Στην ίδια σελίδα αποτελεσμάτων φίλτρου υπό όρους, όταν οι χρήστες επιλέγουν διαφορετικές συνθήκες ταξινόμησης, θα δημιουργηθούν δυναμικοί σύνδεσμοι με διαφορετικές παραμέτρους και, ακόμη και αν τα ίδια κριτήρια ταξινόμησης (π.χ. όλα με φθίνουσα σειρά πωλήσεων), οι παράμετροι που δημιουργούνται είναι διαφορετικές. Για παράδειγμα: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c Για το δίκτυο ομαδικών αγορών, μόνο η μηχανή αναζήτησης μπορεί να ανιχνεύσει τη σελίδα αποτελεσμάτων φίλτρου, ενώ η σελίδα ταξινόμησης αποτελεσμάτων με διάφορες παραμέτρους απορρίπτεται από τη μηχανή αναζήτησης μέσω κανόνων ρομπότ. robots.txt έχει έναν κανόνα στη χρήση αρχείων: Disallow: /*?*, ο οποίος απαγορεύει στις μηχανές αναζήτησης να έχουν πρόσβαση σε όλες τις δυναμικές σελίδες του ιστότοπου. Με αυτόν τον τρόπο, ο ιστότοπος δίνει προτεραιότητα σε σελίδες υψηλής ποιότητας και αποκλείει σελίδες χαμηλής ποιότητας για το Baiduspider, παρέχοντας στο Baiduspider μια πιο φιλική δομή ιστότοπου και αποφεύγοντας το σχηματισμό μαύρων τρυπών.
|