Ta članek je zrcalni članek strojnega prevajanja, kliknite tukaj za skok na izvirni članek.

Pogled: 10314|Odgovoriti: 1

[Komunikacija] Spletna stran proti žeparjenju

[Kopiraj povezavo]
Objavljeno na 12. 07. 2019 17:22:08 | | |
1. HTTP glava zahteve

Vsakič, ko je HTTP zahtevek poslan strežniku, se posreduje nabor atributov in konfiguracijskih informacij, ki je HTTP glava zahteve. Ker je glava zahteve, ki jo pošlje brskalnik, drugačna od glave zahteve, ki jo pošlje koda pajka, jo bo verjetno odkril anti-pajkalec, kar povzroči blokado IP-ja.

2. Nastavitve piškotkov

Spletne strani spremljajo vaš obisk preko piškotkov in ga takoj prekinejo, če zaznajo vedenje pajka, na primer pri hitrem izpolnjevanju obrazca ali brskanju po velikem številu strani v kratkem času. Priporočljivo je, da preverite piškotke, ki jih te spletne strani ustvarijo med zbiranjem spletnih strani, in nato premislite, s katerim mora pajka ravnati.

3. Dostopna pot

Splošna dostopna pot do pajkov je vedno enaka in jo je enostavno prepoznati s strani anti-pajkov, poskušati simulirati uporabniški dostop in naključno dostopati do strani.

4. Pogostost obiskov

Večina razlogov za blokiranje IP-jev je, ker je dostopna frekvenca prehitra; navsezadnje želijo hitro dokončati nalogo pajka, vendar hitrost ni dosežena, učinkovitost pa se zmanjša po blokadi IP-ja.

Osnovna strategija proti pajkalnikom so seveda nekateri strožji anti-pajkovniki, ne samo ti, ki zahtevajo, da inženirji proti pajkalnikom počasi preučujejo strategijo proti pajkalnikom ciljne spletne strani, z nenehnim nadgrajevanjem strategije proti pajkalnikom je treba strategijo pajka tudi nenehno nadgrajevati, skupaj z učinkovitim in kakovostnim proxy IP-jem je mogoče delo pajka izvajati učinkovito.




Prejšnji:SpringBootMainApplication ali tudi za aplikacijo
Naslednji:Python uvodni vodič v polni različici (lahko se ga naučiš, če znaš kitajščino)
Objavljeno na 12. 07. 2019 19:01:50 |
Crawlerji simulirajo HTTP podatke za zahteve, vsi anti-pajkovniki pa so enaki, samo da vidimo, kateri algoritem je pametnejši in učinkovitejši. Prav tako je potrebno oblikovati razumno strategijo, ki temelji na vaši poslovni situaciji.

Na primer, na običajni svetovalni spletni strani uporabniki ne morejo prejeti 1.000 zahtevkov v eni minuti ali deset tisoč zahtevkov v eni uri; če en IP preseže določen prag, ga lahko neposredno zavrnejo ali skočijo na stran s preverjanjsko kodo, se pomaknejo ali vnesejo verifikacijsko kodo, do katere lahko ponovno dostopajo normalno, sicer bo IP blokiran.
Disclaimer:
Vsa programska oprema, programski materiali ali članki, ki jih izdaja Code Farmer Network, so namenjeni zgolj učnim in raziskovalnim namenom; Zgornja vsebina ne sme biti uporabljena v komercialne ali nezakonite namene, sicer uporabniki nosijo vse posledice. Informacije na tej strani prihajajo z interneta, spori glede avtorskih pravic pa nimajo nobene zveze s to stranjo. Zgornjo vsebino morate popolnoma izbrisati z računalnika v 24 urah po prenosu. Če vam je program všeč, podprite pristno programsko opremo, kupite registracijo in pridobite boljše pristne storitve. Če pride do kakršne koli kršitve, nas prosimo kontaktirajte po elektronski pošti.

Mail To:help@itsvse.com