|
Voor Baidu zoekmachine, de spider zwart gat verwijst naar de website door de zeer lage kosten voor een groot aantal parameters te veel te creëren, en de inhoud van hetzelfde, maar de specifieke parameters van de verschillende dynamische URL, zoals een oneindige lus van de "zwarte gat" zal spider gevangen, Baiduspider verspilde een groot aantal middelen te crawlen is ongeldig webpagina. Bijvoorbeeld, veel websites hebben een screening-functie, door de screening functie van de webpagina zal vaak een groot aantal zoekmachine crawl, en een groot deel van de zoekwaarde is niet hoog, zoals "500-1000 prijzen tussen de huur", in de eerste plaats, de website (met inbegrip van de werkelijkheid) op de fundamentele geen relevante middelen, en ten tweede, de website (met inbegrip van de echte ) is in principe geen relevante middelen, en ten tweede, de gebruikers van de site en zoekmachine gebruikers hebben niet deze zoekopdracht gewoonte. Dit soort webpagina is een groot aantal zoekmachine crawling, kan alleen maar nemen van de site waardevolle crawling quota. Dus hoe deze situatie te voorkomen? We nemen een groep-kopen site in Peking als voorbeeld, om te zien hoe de site is het gebruik van robots om slim te voorkomen dat deze spin zwart gat: Voor gewone screening resultaten pagina, de site ervoor gekozen om statische links te gebruiken, zoals: http://bj.XXXXX.com/category/zizhucan/weigongcun Dezelfde voorwaarde screening resultaten pagina, wanneer de gebruiker een andere sortering voorwaarden selecteert, zal het genereren van een dynamische link met verschillende parameters. dynamische links, en zelfs dezelfde sorteervoorwaarden (bijvoorbeeld: zijn in aflopende volgorde op verkoop), de gegenereerde parameters zijn verschillend. Bijvoorbeeld: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
Voor deze groep-kopen netwerk, alleen laat de zoekmachine kruipen de screening resultaten pagina kan worden, en allerlei met parameters van de resultaten van de sorteerpagina door de robots regels weigeren te verstrekken aan de zoekmachine. robots.txt bestand gebruik heeft een dergelijke regel: Disallow: /*? *, dat wil zeggen, zoekmachines de toegang tot alle dynamische pagina's op de site verbieden. Op deze manier is de site precies Baiduspider prioriteit aan pagina's van hoge kwaliteit te tonen, blokkeerde de lage kwaliteit pagina's, voor Baiduspider om een meer vriendelijke site structuur te bieden, om de vorming van zwarte gaten te voorkomen.
|