架构师_程序员_码农网

N Recupera la password
Registrazione

QQ登录

Un solo passo per iniziare

Ricerca
Vista:8779|Risposta: 0
打印 上一主题 下一主题

[ Evitare i buchi neri dei ragni con i robot

[copy link]
A 跳转到指定楼层
al proprietario dell'edificio
发表于 2014-10-23 22:44:58|只看该作者回帖奖励 | Scorrimento all'indietro| Modalità di lettura

Per il motore di ricerca Baidu, il buco nero dello spider si riferisce al sito web attraverso il costo molto basso per creare un gran numero di parametri troppo, e il contenuto dello stesso, ma i parametri specifici del diverso URL dinamico, come un ciclo infinito del "buco nero" spider intrappolato, Baiduspider sprecato un gran numero di risorse per strisciare è pagina web non valida.
Ad esempio, molti siti web hanno una funzione di screening, attraverso la funzione di screening della pagina web sarà spesso un gran numero di motori di ricerca crawl, e gran parte del valore di ricerca non è alto, come "500-1000 prezzi tra il noleggio", prima di tutto, il sito web (tra cui la realtà) sulla base di nessuna risorsa rilevante, e in secondo luogo, il sito web (tra cui la realtà ) è sostanzialmente privo di risorse rilevanti e, in secondo luogo, gli utenti del sito e gli utenti dei motori di ricerca non hanno questa abitudine di ricerca. Questo tipo di pagina web è un gran numero di crawling dei motori di ricerca, può solo occupare la preziosa quota di crawling del sito. Come evitare questa situazione?
Prendiamo come esempio un sito di acquisti di gruppo a Pechino, per vedere come il sito utilizza i robot per evitare abilmente questo buco nero per gli spider:


Per la pagina dei risultati di selezione ordinaria, il sito ha scelto di utilizzare link statici, come ad esempio: http://bj.XXXXX.com/category/zizhucan/weigongcun La pagina dei risultati di selezione con la stessa condizione, quando l'utente seleziona una diversa condizione di selezione, genera un link dinamico con parametri diversi. link dinamici, e anche a parità di condizioni di ordinamento (es.: sono in ordine decrescente per vendite), i parametri generati sono diversi.
Ad esempio: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Per questa rete di acquisto di gruppo, solo lasciare che il motore di ricerca strisciare la pagina dei risultati di screening può essere, e tutti i tipi di con i parametri dei risultati della pagina di ordinamento attraverso le regole robots rifiutare di fornire al motore di ricerca.
L'uso del file robots.txt ha una regola: Disallow: /*? *, ovvero vietare ai motori di ricerca l'accesso a tutte le pagine dinamiche del sito. In questo modo, il sito è esattamente la priorità di Baiduspider per mostrare pagine di alta qualità, bloccando le pagine di bassa qualità, per Baiduspider per fornire una struttura del sito più amichevole, per evitare la formazione di buchi neri.






Articolo precedente: Macchina virtuale VMware per installare MAC OSX Mountain Lion
Articolo successivo: Installare Mac OS X10.9 Tutorial Black Apple sul sistema Win
La prima volta che ho visto questo, sono stato in grado di vedere sullo schermo ed è stata una grande opportunità per vedere sullo schermo.
Devi effettuare il login prima di poter postare Log in | Registrati

Q uesta versione delle regole integrali


DISCLAIMER: Tutti i software, i materiali di programmazione o gli articoli pubblicati da Code Farmer sono limitati all'uso per scopi di apprendimento e ricerca; i suddetti contenuti non devono essere utilizzati per scopi commerciali o illegali, altrimenti tutte le conseguenze saranno a carico degli utenti stessi. Le informazioni di questo sito provengono dalla rete, la disputa sul copyright non ha nulla a che fare con questo sito. È necessario rimuovere completamente il contenuto di cui sopra dal proprio computer entro 24 ore dal download. Se vi piace il programma, vi preghiamo di sostenere il software autentico, di acquistare la registrazione e di ottenere un servizio autentico migliore. In caso di violazione, si prega di contattarci via e-mail per risolvere il problema.

Posta To:help@itsvse.com

QQ| ( 鲁ICP备14021824号-2)|Sitemap

GMT+8, 2024-9-17 14:06

Risposta rapidaTorna all'inizioTorna all'elenco