|
Voor de Baidu-zoekmachine verwijst spider black hole naar het creëren van een groot aantal parameters tegen zeer lage kosten, en dynamische URL's met vergelijkbare inhoud maar verschillende specifieke parameters, net als een oneindige lus van "black hole" die spinnen vangt; Baiduspider verspilt veel middelen aan het crawlen van ongeldige webpagina's. Veel websites hebben bijvoorbeeld een filterfunctie, en de webpagina's die door deze filterfunctie worden gegenereerd worden vaak gecrawld door zoekmachines, waarbij een groot deel van hen een lage zoekwaarde heeft, zoals "een huis huren met een prijs tussen 500-1000", ten eerste zijn er vrijwel geen relevante bronnen op de website (ook niet in de praktijk), en ten tweede is er geen zo'n zoekgewoonte voor gebruikers op de site en zoekmachinegebruikers. Dit soort webpagina wordt in grote aantallen gecrawld door zoekmachines, die slechts een waardevolle crawlquotum op de website kunnen innemen. Hoe kan dit dus worden voorkomen? Laten we een groepsaankoopwebsite in Beijing als voorbeeld nemen om te zien hoe de website robots gebruikt om dit spinnenzwarte gat slim te vermijden: Voor normale filterresultatenpagina's kiest de site ervoor statische links te gebruiken, zoals http://bj.XXXXX.com/category/zizhucan/weigongcun Op dezelfde resultaatpagina voor conditionele filters, wanneer gebruikers verschillende sorteervoorwaarden selecteren, worden dynamische links met verschillende parameters gegenereerd, en zelfs als dezelfde sorteercriteria zijn (bijvoorbeeld allemaal in aflopende volgorde van verkoop), zijn de gegenereerde parameters verschillend. Bijvoorbeeld: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c Voor het groepsaankoopnetwerk kan alleen de zoekmachine de filterresultaatpagina crawlen, terwijl de resultaatsorteerpagina met verschillende parameters wordt afgewezen door de regels van de zoekmachine via robots. robots.txt heeft een regel voor bestandsgebruik: Disallow: /*?*, die zoekmachines verbiedt toegang te krijgen tot alle dynamische pagina's op de website. Op deze manier geeft de website prioriteit aan hoogwaardige pagina's en blokkeert het laagwaardige pagina's voor Baiduspider, waardoor Baiduspider een vriendelijkere websitestructuur krijgt en de vorming van zwarte gaten wordt voorkomen.
|