Beberapa skema untuk crawler terdistribusi untuk menggunakan IP proxy

Sampah kecil · Diposting pada 17/07/2018 13.54.35

Tanpa IP proxy, pekerjaan crawler akan sulit, sehingga banyak insinyur crawler perlu membeli IP proxy yang efisien dan stabil. Dengan IP proxy berkualitas tinggi, bisakah Anda duduk dan bersantai? Hal-hal tidak sesederhana itu, dan juga perlu untuk mengoptimalkan skema, mengalokasikan sumber daya secara rasional, meningkatkan efisiensi kerja, dan melakukan pekerjaan perayap dengan lebih efisien, lebih cepat, dan lebih stabil.

Opsi 1: Setiap proses secara acak memilih daftar IP dari API antarmuka (misalnya, mengekstrak 100 IP sekaligus) untuk menelusurinya, lalu memanggil API untuk mendapatkannya jika gagal, dan logika umumnya adalah sebagai berikut:

1. Setiap proses (atau utas) secara acak mengambil sekumpulan IP dari antarmuka, dan mencoba mengambil data dari daftar IP dalam satu perulangan.

2. Jika akses berhasil, lanjutkan untuk mengambil yang berikutnya.

3. Jika gagal (seperti batas waktu, kode verifikasi, dll.), Ambil sekumpulan IP dari antarmuka dan lanjutkan mencoba.

Kekurangan solusi: Setiap IP memiliki tanggal kedaluwarsa, jika 100 diekstraksi, ketika tanggal 10 digunakan, sebagian besar yang terakhir mungkin tidak valid. Jika Anda menyiapkan permintaan HTTP dengan batas waktu koneksi 3 detik dan batas waktu baca 5 detik, Anda mungkin membuang waktu 3-8 detik, dan mungkin 3-8 detik ini dapat diambil puluhan kali.

Opsi 2: Setiap proses mengambil IP acak dari API antarmuka untuk digunakan, dan kemudian memanggil API untuk mendapatkan IP jika gagal, logika umumnya adalah sebagai berikut:

1. Setiap proses (atau utas) secara acak mengambil IP dari antarmuka dan menggunakan IP ini untuk mengakses sumber daya.

2. Jika akses berhasil, lanjutkan untuk mengambil yang berikutnya.

3. Jika gagal (seperti batas waktu, kode verifikasi, dll.), Pilih IP secara acak dari antarmuka dan lanjutkan mencoba.

Kekurangan: Memanggil API untuk mendapatkan alamat IP sangat sering, yang akan memberi tekanan besar pada server proxy, memengaruhi stabilitas antarmuka API, dan mungkin dibatasi untuk mengekstrak. Skema ini juga tidak cocok dan tidak dapat dioperasikan secara berkelanjutan dan stabil.

Opsi 3: Pertama, ekstrak sejumlah besar IP dan impor ke database lokal, lalu ambil IP dari database, logika umumnya adalah sebagai berikut:

1. Buat tabel dalam database, tulis skrip impor, minta API per menit (lihat saran penyedia layanan IP proxy), dan impor daftar IP ke dalam database.

2. Catat waktu impor, IP, port, waktu kedaluwarsa, status ketersediaan IP dan bidang lain dalam database;

3. Tulis skrip ambil, skrip kepiting membaca IP yang tersedia dari database, dan setiap proses memperoleh IP dari database untuk digunakan.

4. Lakukan crawling, menilai hasilnya, memproses cookie, dll., Selama ada kode verifikasi atau kegagalan, menyerahkan IP ini dan mengubah ke IP baru.

Solusi ini secara efektif menghindari konsumsi sumber daya server proxy, secara efektif mengalokasikan penggunaan IP proxy, lebih efisien dan stabil, serta memastikan daya tahan dan stabilitas pekerjaan crawler.

Putar100 · Diposting pada 18/07/2018 14.50.55

Bukankah Skema 3 dan Skema 1 sama, ekstrak sejumlah besar IP, dan yang tidak digunakan nanti akan segera kedaluwarsa

hdixjlh003 · Diposting pada 29/01/2019 21.06.25

Mark, saya mempelajari ide itu, dan kemudian saya akan mencoba menulisnya

Beberapa skema untuk crawler terdistribusi untuk menggunakan IP proxy

Pos terkait

Bagian yang dilihat