Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 10314|Jawab: 1

[Komunikasi] Situs web anti-pencopetan

[Salin tautan]
Diposting pada 12/07/2019 17.22.08 | | |
1. Header permintaan HTTP

Setiap kali permintaan HTTP dikirim ke server, sekumpulan atribut dan informasi konfigurasi diteruskan, yang merupakan header permintaan HTTP. Karena header permintaan yang dikirim oleh browser berbeda dari header permintaan yang dikirim oleh kode crawler, kemungkinan besar akan ditemukan oleh anti-crawler, yang mengakibatkan pemblokiran IP.

2. Pengaturan cookie

Situs web melacak kunjungan Anda melalui cookie dan segera menghentikan kunjungan Anda jika perilaku perayap terdeteksi, seperti mengisi formulir dengan sangat cepat atau menjelajahi sejumlah besar halaman dalam waktu singkat. Disarankan untuk memeriksa cookie yang dihasilkan oleh situs web ini dalam proses pengumpulan situs web, dan kemudian pikirkan mana yang perlu ditangani oleh perayap.

3. Jalur akses

Jalur akses crawler umum selalu sama, dan mudah dikenali oleh anti-crawler, mencoba mensimulasikan akses pengguna, dan mengakses halaman secara acak.

4. Frekuensi kunjungan

Sebagian besar alasan pemblokiran IP adalah karena frekuensi aksesnya terlalu cepat, lagipula, mereka ingin menyelesaikan tugas perayap dengan cepat, tetapi kecepatannya tidak tercapai, dan efisiensi menurun setelah IP diblokir.

Strategi dasar anti-crawler adalah, tentu saja, beberapa anti-crawler yang lebih ketat, tidak hanya ini, yang mengharuskan insinyur anti-crawler untuk perlahan-lahan mempelajari strategi anti-crawler dari situs web target, dengan peningkatan strategi anti-crawler yang terus menerus, strategi crawler juga perlu terus ditingkatkan, ditambah dengan IP proxy yang efisien dan berkualitas tinggi, pekerjaan crawler dapat dilakukan secara efisien.




Mantan:SpringBootMainAplikasi atau juga untuk Aplikasi
Depan:Tutorial pengantar Python versi lengkap (Anda dapat mempelajarinya jika Anda tahu bahasa Cina)
Diposting pada 12/07/2019 19.01.50 |
Perayap mensimulasikan data permintaan HTTP, dan semua anti-perayap sama, hanya untuk melihat algoritme siapa yang lebih cerdas dan lebih efisien. Penting juga untuk merumuskan strategi yang masuk akal berdasarkan situasi bisnis Anda sendiri.

Misalnya, di situs web konsultasi biasa, pengguna tidak dapat memiliki 1.000 permintaan dalam 1 menit, atau puluhan ribu permintaan dalam 1 jam, jika satu IP melebihi ambang batas yang ditetapkan, Anda dapat langsung menolaknya atau melompat ke halaman kode verifikasi, menggeser atau memasukkan kode verifikasi, Anda dapat mengakses secara normal lagi, jika tidak, IP akan diblokir.
Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com