Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 13134|Antwoord: 0

[Website-ontwikkeling Kennis] Slimme robots om spinnenzwarte gaten te vermijden

[Link kopiëren]
Geplaatst op 23-10-2014 22:44:58 | | |

Voor de Baidu-zoekmachine verwijst spider black hole naar het creëren van een groot aantal parameters tegen zeer lage kosten, en dynamische URL's met vergelijkbare inhoud maar verschillende specifieke parameters, net als een oneindige lus van "black hole" die spinnen vangt; Baiduspider verspilt veel middelen aan het crawlen van ongeldige webpagina's.
       Veel websites hebben bijvoorbeeld een filterfunctie, en de webpagina's die door deze filterfunctie worden gegenereerd worden vaak gecrawld door zoekmachines, waarbij een groot deel van hen een lage zoekwaarde heeft, zoals "een huis huren met een prijs tussen 500-1000", ten eerste zijn er vrijwel geen relevante bronnen op de website (ook niet in de praktijk), en ten tweede is er geen zo'n zoekgewoonte voor gebruikers op de site en zoekmachinegebruikers. Dit soort webpagina wordt in grote aantallen gecrawld door zoekmachines, die slechts een waardevolle crawlquotum op de website kunnen innemen. Hoe kan dit dus worden voorkomen?
       Laten we een groepsaankoopwebsite in Beijing als voorbeeld nemen om te zien hoe de website robots gebruikt om dit spinnenzwarte gat slim te vermijden:

Voor normale filterresultatenpagina's kiest de site ervoor statische links te gebruiken, zoals http://bj.XXXXX.com/category/zizhucan/weigongcun
       Op dezelfde resultaatpagina voor conditionele filters, wanneer gebruikers verschillende sorteervoorwaarden selecteren, worden dynamische links met verschillende parameters gegenereerd, en zelfs als dezelfde sorteercriteria zijn (bijvoorbeeld allemaal in aflopende volgorde van verkoop), zijn de gegenereerde parameters verschillend. Bijvoorbeeld: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Voor het groepsaankoopnetwerk kan alleen de zoekmachine de filterresultaatpagina crawlen, terwijl de resultaatsorteerpagina met verschillende parameters wordt afgewezen door de regels van de zoekmachine via robots.
       robots.txt heeft een regel voor bestandsgebruik: Disallow: /*?*, die zoekmachines verbiedt toegang te krijgen tot alle dynamische pagina's op de website. Op deze manier geeft de website prioriteit aan hoogwaardige pagina's en blokkeert het laagwaardige pagina's voor Baiduspider, waardoor Baiduspider een vriendelijkere websitestructuur krijgt en de vorming van zwarte gaten wordt voorkomen.






Vorig:VMware-virtuele machines zijn geïnstalleerd op MAC OSX Mountain Lion
Volgend:Installeer Mac OS X10.9 onder Windows System Black Apple tutorial
Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com