ASP.NET rastrello web

Piccolo cappello grigio · Pubblicato su 06/11/2017 18:36:20

Molti crawler su Internet sono scritti in python, e tempo fa è stato scritto anche un crawler aps.net semplice, che può rastrelare i dati che si desiderano scansionare. Oggigiorno, molti siti web hanno creato un meccanismo di backcrawling, che rende molto difficile per i crawler lo scraping dei dati. Probabilmente ci sono diversi modi per scansionare al contrario la maggior parte dei siti: ci sono codici di verifica, indirizzi IP, blacklist, ecc., e alcuni metodi di scansione inversa più avanzati.
Questo crawler ha anche adottato alcune misure per affrontare l'anti-crawling, bypassare i codici di verifica, usare proxy, ecc., incolla parte del codice qui sotto, discutere e imparare con te, per favore correggi ciò che non va!
Questo crawler è principalmente rivolto a un certo sito web.

Dopo aver inserito l'URL, puoi scansionare i dati in base all'URL, poi filtrare e pulire i dati tramite XPath per ottenere i dati desiderati

L'accesso è visibile.

Per bypassare il backcrawling, puoi usare un IP proxy per accedere, puoi scaricare o prendere un IP altamente nascosto su Internet, e poi cambiare casualmente l'IP proxy per prenderlo

L'accesso è visibile.

Il codice sopra serve innanzitutto a determinare se l'IP commutato è accessibile
Guarda il codice sorgente del codice specifico e fornisci il codice sorgente!

Download del codice sorgente

Turisti, se volete vedere il contenuto nascosto di questo post, vi pregoRisposta

Piccolo cappello grigio · Pubblicato su 07/11/2017 09:30:14

Pubblicato il 6-11-2017 alle 18:44
Ho sistemato il contenuto del post per te

Grazie, volevo solo cancellare un duplicato! Grazie per il vostro duro lavoro!

18479403 · Pubblicato su 13/12/2019 10:32:09

Voglio sapere com'è quella procedura memorizzata che hai scritto, amico.

Piccola feccia · Pubblicato su 06/11/2017 18:44:57

Ho sistemato il contenuto del post per te

leggero · Pubblicato su 07/11/2017 15:00:04

Grazie per aver condiviso, diamo un'occhiata

dotnet_charlay · Pubblicato su 08/11/2017 15:46:42

Guarda prima il codice sorgente

do827261756 · Pubblicato su 10/11/2017 17:14:31

ASP.NET rastrello web

Piccola scimmia · Pubblicato su 08/12/2017 22:15:43

Impara a imparare

Zherp · Pubblicato su 10/12/2017 08:25:22

ASP.NET web crawler, buona idea!

cd37ycs · Pubblicato su 23/12/2017 20:54:35

ASP.NET rastrello web

Gallo Birichino · Pubblicato su 16/04/2019 11:46:03

Grazie per aver condiviso, impara da questo.

[WinForm] ASP.NET rastrello web

Punteggio

Post correlati

Sezioni visualizzate