Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 585936|Jawab: 70

[Program Konsol] .net/c# Jalur menuju pengoptimalan perayap web

  [Salin tautan]
Diposting pada 19/04/2018 14.21.02 | | | |
0x00

Web crawler (juga dikenal sebagai web spider, web bot, lebih sering disebut web chaser di komunitas FOAF) adalah program atau skrip yang secara otomatis mengikis informasi tentang World Wide Web sesuai dengan aturan tertentu. Nama lain yang kurang umum digunakan termasuk semut, indeks otomatis, simulator, atau cacing.

0x01

Sederhananya, perayap mengambil data sesuai dengan aturan mereka sendiri, menganalisis data yang diambil, dan kemudian mendapatkan data yang berguna untuk diri mereka sendiri.

0x02

Pengoptimalan perayap web dapat dibagi menjadi dua tahap:

1: Optimalkan saat mengikis data;

2: Optimalkan pemrosesan hasil pemegang;

Hari ini, kita hanya berbicara tentang pengoptimalan dalam proses pengikisan!

0x03

Saya telah merangkum beberapa poin tentang pengoptimalan dalam proses crawling:

1: Dapat dioptimalkan pada alamat fisik, misalnya: server sumber daya target adalah host Tencent Cloud di Shanghai, kami mencoba memilih server di wilayah yang sama, yaitu server di wilayah Shanghai, jangan memilih server di Beijing, Qingdao dan wilayah lain, tetapi juga mencoba memilih server di ruang komputer IDC yang sama, kami tahu bahwa situs web sumber daya ini adalah server Tencent Cloud, kami mencoba menempatkan crawler di server Tencent Cloud, bukan di server Alibaba Cloud!

2: Pilih jaringan yang stabil dan cepat, umumnya crawler memiliki persyaratan kualitas jaringan yang tinggi, usahakan untuk tidak menggunakan jaringan rumah, pilih jaringan perusahaan atau beli server untuk menangkap data.

3: Pilih bahasa perayap yang lebih efisien, saya mendengar bahwa python lebih baik dalam perayap, tetapi saya belum menggunakannya, dan saya akan mengujinya nanti, hari ini, saya terutama menjelaskannya dalam bahasa .net.

0x04

Untuk hal-hal seperti pembelian terburu-buru, persyaratan untuk kecepatan pengambilan tinggi, dapat digambarkan sebagai masalah waktu, lebih awal untuk mendapatkan data, meningkatkan peluang untuk mengambil, berikut ini adalah saya menulis demo dengan konsol, tes pengambilan data situs web ini, seperti yang ditunjukkan pada gambar di bawah ini:


(Semakin pendek waktunya, semakin cepat)

Peringkat data di atas:1: Kode yang dioptimalkan secara asli, 2: Kode asli, 3: DLL (paket) plug-in pihak ketiga

0x05

Mengapa plugin (paket) pihak ketiga memakan waktu paling lama? Plug-in pihak ketiga sebenarnya adalah sejumlah besar enkapsulasi kode asli, sejumlah besar penilaian logis, dan relatif serbaguna, yang dapat menyebabkan kecepatan perayapan yang lambat.

Berikut kode aslinya:



Kode asli hanya beberapa baris di atas.Waktu rata-rata masih 184 milidetik,Semakin sederhana kodenya, semakin sulit untuk dioptimalkanApakah Anda merasa bahwa bagaimana kode di atas dapat dioptimalkan untuk mencapai waktu rata-rata 99 milidetik?Perbedaan kecepatan dua kali lipat!

0x06

Jika server sumber daya target mendukung kompresi gzip, ketika kita mengakses situs web dan browser meminta situs web, header permintaan akan memiliki parameter berikut:

Parameter Header Respons:






Pengantar "Accept-Encoding": https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/Accept-Encoding

Dalam istilah awam:

Klien mengatakan:Saya mendukung algoritma kompresi "gzip, deflate, sdch, br", Anda dapat menggunakan apa pun yang Anda inginkan saat mengembalikan data.

Server berkata:Saya kebetulan mendukung algoritma kompresi gzip, jadi saya akan menggunakan algoritma gzip untuk mengompres data kepada Anda

Klien mengatakan:Oke, maka saya akan mendekripsi data yang diterima dengan algoritma gzip

algoritma gzip, yang dapat mengompres data yang dikirimkan dan sangat mengurangi konten yang dikirimkan, sehingga efisiensi permintaan akan ditingkatkan, sehingga kode yang dioptimalkan adalah sebagai berikut:


Meskipun ini adalah detail kecil, efisiensinya bisa dikatakan dua kali lipat! Ini setara dengan data yang Anda kumpulkan dalam dua hari, dan sekarang dapat dikumpulkan dalam 1 hari, dan artikel ini didedikasikan untuk teman-teman yang belajar merangkak.

Catatan: Algoritma kompresi gzip tidak ada hubungannya dengan bahasa pemrograman!

Terakhir, lampirkan kode sumber:

Wisatawan, jika Anda ingin melihat konten tersembunyi dari posting ini, silakanJawab

Skor

Jumlah peserta2MB+1 sumbang+2 Roboh alasan
KonNTFS + 1 Sangat kuat!
Seorang pemula kecil yang suka belajar + 1 + 1 Dukung pemilik untuk memposting posting yang bagus, dan saya juga akan memposting posting yang bagus!.

Lihat semua penilaian





Mantan:Laporan pendatang baru praktik internasional keluar
Depan:.net/c# Tutorial Sistem Pengenalan CAPTCHA Generasi Berikutnya 2.3
Diposting pada 31/12/2019 10.48.25 |
Xiaobai tidak bisa terluka. Apakah ada perangkat lunak yang mirip dengan pengumpulan data besar sekali klik?
Diposting pada 10/06/2019 14.11.09 |
Xiaobai tidak bisa terluka. Apakah ada perangkat lunak yang mirip dengan pengumpulan data besar sekali klik?
Diposting pada 15/10/2019 10.29.57 |
GANJUETINGHAOWANDE KANN
Diposting pada 20/04/2018 12.35.21 |
Terima kasih telah berbagi
Diposting pada 25/04/2018 11.33.55 |
Koleksi, mungkin berguna.
Diposting pada 17/05/2018 18.02.21 |
Koleksi Pengoptimalan Perayap Web Jalan Menuju Web
Diposting pada 18/05/2018 16.10.57 |
Ooooooooooooooooooooo
Diposting pada 18/07/2018 14.43.07 |
Lihat apakah itu berhasil
Diposting pada 20/07/2018 10.09.50 |
DADASDSADSAD
Diposting pada 13/08/2018 13.06.50 |
Lihat kode sumber ini
Diposting pada 20/08/2018 14.00.52 |

Terima kasih telah berbagi
Diposting pada 30/08/2018 11.42.26 |
srkskrskrskrskrskr
Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com