Denna artikel är en spegelartikel om maskinöversättning, klicka här för att hoppa till originalartikeln.

Utsikt: 10314|Svar: 1

[Kommunikation] Webbplatsens anti-ficktjuveri

[Kopiera länk]
Publicerad på 2019-07-12 17:22:08 | | |
1. HTTP-förfrågningshuvud

Varje gång en HTTP-förfrågan skickas till servern skickas en uppsättning attribut och konfigurationsinformation, vilket är HTTP-begärandets huvud. Eftersom begäranstecknet som skickas av webbläsaren skiljer sig från det som skickas av crawlern, är det troligt att det upptäcks av anti-crawlern, vilket leder till att IP-blockeringen blir blockerad.

2. Cookie-inställningar

Webbplatser spårar ditt besök via cookies och avbryter det omedelbart om crawlerbeteende upptäcks, som att fylla i ett formulär särskilt snabbt eller bläddra bland ett stort antal sidor på kort tid. Det rekommenderas att kontrollera de cookies som genereras av dessa webbplatser i processen att samla in webbplatser, och sedan fundera på vilken av dem crawlern behöver hantera.

3. Tillträdesväg

Den allmänna åtkomstvägen för crawlers är alltid densamma, och det är lätt att bli igenkänd av anti-crawlers, försöka simulera användaråtkomst och slumpmässigt komma åt sidan.

4. Besöksfrekvens

De flesta anledningarna till att blockera IP-adresser är att åtkomstfrekvensen är för snabb, de vill ju slutföra crawler-uppgiften snabbt, men hastigheten uppnås inte och effektiviteten minskar efter att IP:n blockerats.

Den grundläggande anti-crawler-strategin är förstås några striktare anti-crawlers, inte bara dessa, vilket kräver att anti-crawler-ingenjörer långsamt studerar anti-crawler-strategin på målwebbplatsen, med kontinuerlig uppgradering av anti-crawler-strategin behöver också crawler-strategin uppgraderas kontinuerligt, i kombination med effektiv och högkvalitativ proxy-IP kan crawler-arbetet utföras effektivt.




Föregående:SpringBootMainApplication eller även för applikation
Nästa:Python introduktionstutorial full version (du kan lära dig om du kan kinesiska)
Publicerad på 2019-07-12 19:01:50 |
Crawlers simulerar HTTP-förfrågningsdata, och alla anti-crawlers är likadana, bara för att se vems algoritm som är smartast och mer effektiv. Det är också nödvändigt att formulera en rimlig strategi baserad på din egen affärssituation.

Till exempel, på en vanlig konsultwebbplats kan användare inte ha 1 000 förfrågningar på 1 minut, eller tiotusentals förfrågningar på en timme, om en enskild IP överstiger den inställda tröskeln kan du direkt avvisa den eller hoppa till en verifieringskod, slide eller ange verifieringskoden, du kan komma åt den normala koden igen, annars blockeras IP:n.
Friskrivning:
All programvara, programmeringsmaterial eller artiklar som publiceras av Code Farmer Network är endast för lärande- och forskningsändamål; Ovanstående innehåll får inte användas för kommersiella eller olagliga ändamål, annars kommer användarna att bära alla konsekvenser. Informationen på denna sida kommer från internet, och upphovsrättstvister har inget med denna sida att göra. Du måste helt radera ovanstående innehåll från din dator inom 24 timmar efter nedladdning. Om du gillar programmet, vänligen stöd äkta programvara, köp registrering och få bättre äkta tjänster. Om det finns något intrång, vänligen kontakta oss via e-post.

Mail To:help@itsvse.com