Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 13134|Risposta: 0

[Conoscenza sulla costruzione di siti web] Robot intelligenti per evitare i buchi neri dei ragni

[Copiato link]
Pubblicato su 23/10/2014 22:44:58 | | |

Per il motore di ricerca Baidu, il buco nero del ragno si riferisce al sito web che crea un gran numero di parametri a costi molto bassi, e URL dinamici con contenuti simili ma parametri specifici diversi, proprio come un ciclo infinito di ragni "buchi neri" che intrappolano, Baiduspider spreca molte risorse per scansionare pagine web non valide.
       Ad esempio, molti siti web hanno una funzione di filtraggio, e le pagine web generate dalla funzione di filtraggio vengono spesso rastrelate dai motori di ricerca, e gran parte di esse ha un basso valore di ricerca, come ad esempio "affittare una casa con un prezzo compreso tra 500 e 1000"; innanzitutto, praticamente non ci sono risorse rilevanti sul sito (anche nella realtà), e in secondo luogo, non esiste tale abitudine di ricerca per gli utenti sul sito e per quelli dei motori di ricerca. Questo tipo di pagina web viene rastrelato dai motori di ricerca in gran numero, che possono occupare solo una quota di scansione preziosa sul sito. Quindi, come si può evitare tutto ciò?
       Prendiamo come esempio un sito di acquisti di gruppo a Pechino per vedere come il sito utilizza robot per evitare abilmente questo buco nero di ragno:

Per le pagine dei risultati con filtro normale, il sito sceglie di utilizzare link statici, come http://bj.XXXXX.com/category/zizhucan/weigongcun
       Nella stessa pagina di risultati del filtro condizionato, quando gli utenti selezionano condizioni di ordinamento diverse, verranno generati collegamenti dinamici con parametri diversi e, anche se i criteri di ordinamento sono gli stessi (ad esempio, tutti in ordine decrescente di vendita), i parametri generati sono diversi. Per esempio: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Per la rete di acquisti di gruppo, solo il motore di ricerca può scansionare la pagina dei risultati del filtro, mentre la pagina di ordinamento dei risultati con vari parametri viene rifiutata dal motore di ricerca tramite regole robot.
       robots.txt ha una regola sull'uso dei file: Dispermetti: /*?*, che vieta ai motori di ricerca di accedere a tutte le pagine dinamiche del sito. In questo modo, il sito dà priorità alle pagine di alta qualità e blocca quelle di bassa qualità per Baiduspider, offrendo a Baiduspider una struttura più amichevole ed evitando la formazione di buchi neri.






Precedente:Le macchine virtuali VMware sono installate su MAC OSX Mountain Lion
Prossimo:Installa Mac OS X10.9 sotto il tutorial Black Apple del sistema Windows
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com