.net/c# Vejen til webcrawleroptimering

Lille skarn · Opslået på 19/04/2018 14.21.02

0x00

En web crawler (også kendt som en web spider, web bot, mere almindeligt kaldet en web chaser i FOAF-miljøet) er et program eller script, der automatisk skraber information om World Wide Web i henhold til bestemte regler. Andre mindre almindeligt anvendte navne inkluderer myrer, auto-indekser, simulatorer eller orme.

0x01

For at sige det enkelt, henter crawlere data efter deres egne regler, analyserer de indsamlede data og får derefter brugbare data til sig selv.

0x02

Webcrawleroptimering kan opdeles i to faser:

1: Optimer ved indsamling af data;

2: Optimere behandlingen af griberesultater;

I dag taler vi bare om optimering i scraping-processen!

0x03

Jeg har opsummeret et par punkter om optimeringen i crawling-processen:

1: Det kan optimeres på den fysiske adresse, for eksempel: målressourceserveren er Tencent Cloud-værten i Shanghai, vi prøver at vælge serveren i samme region, altså serveren i Shanghai-regionen, vi vælger ikke serveren i Beijing, Qingdao og andre regioner, men prøver også at vælge serveren i samme IDC-computerrum, vi ved, at denne ressourcehjemmeside er serveren for Tencent Cloud, vi prøver at placere crawleren på Tencent Cloud-serveren, ikke på Alibaba Cloud-serveren!

2: Vælg et stabilt og hurtigt netværk, generelt har robotter høje krav til netværkskvalitet, prøv ikke at bruge hjemmenetværket, vælg firmanetværket eller køb en server til at indsamle data.

3: Vælg et mere effektivt crawler-sprog, jeg har hørt, at python er bedre til crawlere, men jeg har ikke brugt det, og jeg vil teste det senere, i dag forklarer jeg det primært på .net-sproget.

0x04

For ting som rush buy er kravene for at opnå hurtig adgang høje, det kan beskrives som et spørgsmål om tid, tidligt at få dataene, hvilket øger chancen for at få fat i det, følgende er: Jeg skrev en demo med konsollen, testen i at hente dataene fra denne hjemmeside, som vist i figuren nedenfor:

(Jo kortere tiden, jo hurtigere går det)

Ovenstående datarangering:1: Optimeret kode, 2: Native kode, 3: Tredjeparts plug-in dll'er (pakker)

0x05

Hvorfor tager tredjeparts plugins (pakker) længst tid? Tredjeparts plug-ins består faktisk af et stort antal indkapslinger af native kode, et stort antal logiske vurderinger og relativt alsidige, hvilket kan føre til langsom crawling-hastighed.

Her er den oprindelige kode:

Login er synlig.

Den oprindelige kode er kun få linjer ovenfor.Gennemsnitstiden er stadig 184 millisekunder,Jo simplere koden er, desto sværere er det at optimereFøler du, hvordan ovenstående kode kan optimeres til at opnå en gennemsnitlig tid på 99 millisekunder?Hastighedsforskellen fordobles!

0x06

Hvis målressourceserveren understøtter gzip-komprimering, vil anmodningsheaderen have følgende parametre, når vi tilgår hjemmesiden og browseren anmoder om hjemmesiden:

Login er synlig.

Respons-headerparametre:

Login er synlig.

Introduktion til "Accept-Kodning": https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/Accept-Encoding

På almindelige måder:

Kunden siger:Jeg støtter komprimeringsalgoritmen "gzip, deflate, sdch, br", du kan bruge hvad som helst, når du returnerer data.

Serveren sagde:Jeg understøtter tilfældigvis gzip-komprimeringsalgoritmen, så jeg vil bruge gzip-algoritmen til at komprimere dataene til dig

Kunden siger:Okay, så dekrypterer jeg de modtagne data med gzip-algoritmen

gzip-algoritmen, som kan komprimere de transmitterede data og kraftigt reducere det transmitterede indhold, så anmodningseffektiviteten vil blive forbedret, og den optimerede kode er som følger:

Login er synlig.

Selvom det er en lille detalje, kan effektiviteten siges at være fordoblet! Det svarer til de data, du indsamlede på to dage, og nu kan det indsamles på 1 dag, og denne artikel er dedikeret til venner, der lærer at crawle.

Bemærk: Gzip-komprimeringsalgoritmen har intet med programmeringssproget at gøre!

Endelig vedhæft kildekoden:

Turister, hvis I vil se det skjulte indhold i dette indlæg, så vær venligSvar

aa7758258 · Opslået på 31/12/2019 10.48.25

Xiaobai kunne ikke komme til skade. Findes der software, der ligner et-klik indsamling af big data?

Luo-svampe er seje · Opslået på 10/06/2019 14.11.09

Xiaobai kunne ikke komme til skade. Findes der software, der ligner et-klik indsamling af big data?

SDX55607545 · Opslået på 15/10/2019 10.29.57

GANJUETINGHAOWANDE KANN

Linn · Opslået på 20/04/2018 12.35.21

Tak fordi du delte

Coolcalf · Opslået på 25/04/2018 11.33.55

Samling, måske nyttigt.

Flygtige år med drømme · Opslået på 17/05/2018 18.02.21

Vejen til Web Crawler Optimeringssamling

wangwei465 · Opslået på 18/05/2018 16.10.57

ooooooooooooooooooo

13263955567 · Opslået på 18/07/2018 14.43.07

Se om det virker

Før han sov · Opslået på 20/07/2018 10.09.50

DADASDSDAD

Coody · Opslået på 13/08/2018 13.06.50

Tjek denne kildekode

ZLCZ2000 · Opslået på 20/08/2018 14.00.52

Tak fordi du delte

Deep · Opslået på 30/08/2018 11.42.26

srkskrskrskrskrskrskr

[Konsolprogram] .net/c# Vejen til webcrawleroptimering

Score

Relaterede indlæg

Afsnit set