Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 13152|Jawab: 2

Beberapa skema untuk crawler terdistribusi untuk menggunakan IP proxy

[Salin tautan]
Diposting pada 17/07/2018 13.54.35 | | |
Tanpa IP proxy, pekerjaan crawler akan sulit, sehingga banyak insinyur crawler perlu membeli IP proxy yang efisien dan stabil. Dengan IP proxy berkualitas tinggi, bisakah Anda duduk dan bersantai? Hal-hal tidak sesederhana itu, dan juga perlu untuk mengoptimalkan skema, mengalokasikan sumber daya secara rasional, meningkatkan efisiensi kerja, dan melakukan pekerjaan perayap dengan lebih efisien, lebih cepat, dan lebih stabil.

Opsi 1: Setiap proses secara acak memilih daftar IP dari API antarmuka (misalnya, mengekstrak 100 IP sekaligus) untuk menelusurinya, lalu memanggil API untuk mendapatkannya jika gagal, dan logika umumnya adalah sebagai berikut:

1. Setiap proses (atau utas) secara acak mengambil sekumpulan IP dari antarmuka, dan mencoba mengambil data dari daftar IP dalam satu perulangan.

2. Jika akses berhasil, lanjutkan untuk mengambil yang berikutnya.

3. Jika gagal (seperti batas waktu, kode verifikasi, dll.), Ambil sekumpulan IP dari antarmuka dan lanjutkan mencoba.

Kekurangan solusi: Setiap IP memiliki tanggal kedaluwarsa, jika 100 diekstraksi, ketika tanggal 10 digunakan, sebagian besar yang terakhir mungkin tidak valid. Jika Anda menyiapkan permintaan HTTP dengan batas waktu koneksi 3 detik dan batas waktu baca 5 detik, Anda mungkin membuang waktu 3-8 detik, dan mungkin 3-8 detik ini dapat diambil puluhan kali.

Opsi 2: Setiap proses mengambil IP acak dari API antarmuka untuk digunakan, dan kemudian memanggil API untuk mendapatkan IP jika gagal, logika umumnya adalah sebagai berikut:

1. Setiap proses (atau utas) secara acak mengambil IP dari antarmuka dan menggunakan IP ini untuk mengakses sumber daya.

2. Jika akses berhasil, lanjutkan untuk mengambil yang berikutnya.

3. Jika gagal (seperti batas waktu, kode verifikasi, dll.), Pilih IP secara acak dari antarmuka dan lanjutkan mencoba.

Kekurangan: Memanggil API untuk mendapatkan alamat IP sangat sering, yang akan memberi tekanan besar pada server proxy, memengaruhi stabilitas antarmuka API, dan mungkin dibatasi untuk mengekstrak. Skema ini juga tidak cocok dan tidak dapat dioperasikan secara berkelanjutan dan stabil.

Opsi 3: Pertama, ekstrak sejumlah besar IP dan impor ke database lokal, lalu ambil IP dari database, logika umumnya adalah sebagai berikut:

1. Buat tabel dalam database, tulis skrip impor, minta API per menit (lihat saran penyedia layanan IP proxy), dan impor daftar IP ke dalam database.

2. Catat waktu impor, IP, port, waktu kedaluwarsa, status ketersediaan IP dan bidang lain dalam database;

3. Tulis skrip ambil, skrip kepiting membaca IP yang tersedia dari database, dan setiap proses memperoleh IP dari database untuk digunakan.

4. Lakukan crawling, menilai hasilnya, memproses cookie, dll., Selama ada kode verifikasi atau kegagalan, menyerahkan IP ini dan mengubah ke IP baru.

Solusi ini secara efektif menghindari konsumsi sumber daya server proxy, secara efektif mengalokasikan penggunaan IP proxy, lebih efisien dan stabil, serta memastikan daya tahan dan stabilitas pekerjaan crawler.




Mantan:Cara menggunakan Hreflang untuk SEO
Depan:ERROR 1093 (HY000): Anda tidak dapat menentukan tabel target 'xxx' untuk upda...
Diposting pada 18/07/2018 14.50.55 |
Bukankah Skema 3 dan Skema 1 sama, ekstrak sejumlah besar IP, dan yang tidak digunakan nanti akan segera kedaluwarsa
Diposting pada 29/01/2019 21.06.25 |
Mark, saya mempelajari ide itu, dan kemudian saya akan mencoba menulisnya
Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com