Robot pintar untuk menghindari lubang hitam laba-laba

Admin · Diposting pada 23/10/2014 22.44.58

Untuk mesin pencari Baidu, lubang hitam laba-laba mengacu pada situs web yang membuat sejumlah besar parameter dengan biaya yang sangat rendah, dan URL dinamis dengan konten yang serupa tetapi parameter spesifik yang berbeda, seperti loop tak terbatas dari "lubang hitam" yang menjebak laba-laba, Baiduspider membuang-buang banyak sumber daya untuk merayapi halaman web yang tidak valid.
Misalnya, banyak situs web memiliki fungsi pemfilteran, dan halaman web yang dihasilkan oleh fungsi pemfilteran sering dirayapi oleh mesin pencari, dan sebagian besar dari mereka memiliki nilai pencarian yang rendah, seperti "menyewa rumah dengan harga antara 500-1000", pertama-tama, pada dasarnya tidak ada sumber daya yang relevan di situs web (termasuk pada kenyataannya), dan kedua, tidak ada kebiasaan pencarian seperti itu untuk pengguna di situs dan pengguna mesin pencari. Halaman web semacam ini dirayapi oleh mesin pencari dalam jumlah besar, yang hanya dapat menempati kuota perayapan yang berharga di situs web. Jadi bagaimana ini bisa dihindari?
Mari kita ambil situs web pembelian kelompok di Beijing sebagai contoh untuk melihat bagaimana situs web tersebut menggunakan robot untuk dengan cerdik menghindari lubang hitam laba-laba ini:

Untuk halaman hasil filter normal, situs memilih untuk menggunakan link statis, seperti http://bj.XXXXX.com/category/zizhucan/weigongcun
Di halaman hasil filter bersyarat yang sama, ketika pengguna memilih kondisi pengurutan yang berbeda, tautan dinamis dengan parameter berbeda akan dibuat, dan bahkan jika kriteria pengurutan yang sama (misalnya, semuanya dalam urutan penjualan menurun), parameter yang dihasilkan berbeda. Misalnya: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Untuk jaringan pembelian grup, hanya mesin pencari yang dapat merayapi halaman hasil filter, sedangkan halaman penyortiran hasil dengan berbagai parameter ditolak oleh mesin pencari melalui aturan robot.
robots.txt memiliki aturan dalam penggunaan file: Dilarang: /*?*, yang melarang mesin telusur mengakses semua halaman dinamis di situs web. Dengan cara ini, situs web memprioritaskan halaman berkualitas tinggi dan memblokir halaman berkualitas rendah untuk Baiduspider, memberi Baiduspider struktur situs web yang lebih ramah dan menghindari pembentukan lubang hitam.

[Pengetahuan Membangun Situs Web] Robot pintar untuk menghindari lubang hitam laba-laba

Pos terkait

Bagian yang dilihat