Webbplatsens anti-ficktjuveri

Laical · Publicerad på 2019-07-12 17:22:08

1. HTTP-förfrågningshuvud

Varje gång en HTTP-förfrågan skickas till servern skickas en uppsättning attribut och konfigurationsinformation, vilket är HTTP-begärandets huvud. Eftersom begäranstecknet som skickas av webbläsaren skiljer sig från det som skickas av crawlern, är det troligt att det upptäcks av anti-crawlern, vilket leder till att IP-blockeringen blir blockerad.

2. Cookie-inställningar

Webbplatser spårar ditt besök via cookies och avbryter det omedelbart om crawlerbeteende upptäcks, som att fylla i ett formulär särskilt snabbt eller bläddra bland ett stort antal sidor på kort tid. Det rekommenderas att kontrollera de cookies som genereras av dessa webbplatser i processen att samla in webbplatser, och sedan fundera på vilken av dem crawlern behöver hantera.

3. Tillträdesväg

Den allmänna åtkomstvägen för crawlers är alltid densamma, och det är lätt att bli igenkänd av anti-crawlers, försöka simulera användaråtkomst och slumpmässigt komma åt sidan.

4. Besöksfrekvens

De flesta anledningarna till att blockera IP-adresser är att åtkomstfrekvensen är för snabb, de vill ju slutföra crawler-uppgiften snabbt, men hastigheten uppnås inte och effektiviteten minskar efter att IP:n blockerats.

Den grundläggande anti-crawler-strategin är förstås några striktare anti-crawlers, inte bara dessa, vilket kräver att anti-crawler-ingenjörer långsamt studerar anti-crawler-strategin på målwebbplatsen, med kontinuerlig uppgradering av anti-crawler-strategin behöver också crawler-strategin uppgraderas kontinuerligt, i kombination med effektiv och högkvalitativ proxy-IP kan crawler-arbetet utföras effektivt.

Lilla avskum · Publicerad på 2019-07-12 19:01:50

Crawlers simulerar HTTP-förfrågningsdata, och alla anti-crawlers är likadana, bara för att se vems algoritm som är smartast och mer effektiv. Det är också nödvändigt att formulera en rimlig strategi baserad på din egen affärssituation.

Till exempel, på en vanlig konsultwebbplats kan användare inte ha 1 000 förfrågningar på 1 minut, eller tiotusentals förfrågningar på en timme, om en enskild IP överstiger den inställda tröskeln kan du direkt avvisa den eller hoppa till en verifieringskod, slide eller ange verifieringskoden, du kan komma åt den normala koden igen, annars blockeras IP:n.

[Kommunikation] Webbplatsens anti-ficktjuveri

Avsnitt som ses