Banyak perayap di Internet ditulis dalam python, dan beberapa waktu lalu, perayap aps.net sederhana juga ditulis, yang dapat merayapi data yang ingin Anda rangkak. Saat ini, banyak situs web telah membuat mekanisme backcrawling, yang membuatnya sangat sulit bagi crawler untuk mengikis data. Mungkin ada beberapa cara untuk merayapi balik sebagian besar situs web: ada kode verifikasi, alamat IP, daftar hitam, dll., dan beberapa metode perayapan terbalik yang lebih canggih. Perayap ini juga telah mengambil beberapa tindakan untuk menangani anti-crawling, melewati kode verifikasi, menggunakan proxy, dll., menempelkan beberapa kode di bawah ini, berdiskusi dan belajar dengan Anda, tolong perbaiki apa yang salah! Perayap ini terutama ditujukan untuk situs web tertentu.
Setelah memasukkan URL, Anda dapat merayapi kembali data sesuai dengan URL, lalu memfilter dan membersihkan data melalui XPath untuk mendapatkan data yang Anda inginkan
Untuk melewati backcrawling, Anda dapat menggunakan IP proxy untuk mengakses, Anda dapat mengunduh atau mengambil IP yang tersembunyi tinggi di Internet, lalu secara acak mengganti IP proxy untuk mengambil
Kode di atas adalah untuk terlebih dahulu menentukan apakah IP yang dialihkan dapat diakses Lihat kode sumber untuk kode tertentu, dan berikan kode sumbernya!
Unduh kode sumber
Wisatawan, jika Anda ingin melihat konten tersembunyi dari posting ini, silakan Jawab
|