|
Untuk mesin pencari Baidu, lubang hitam laba-laba mengacu pada situs web melalui biaya yang sangat rendah untuk membuat sejumlah besar parameter terlalu banyak, dan konten yang sama tetapi parameter spesifik dari URL dinamis yang berbeda, seperti loop tak terbatas dari "lubang hitam" akan laba-laba terperangkap, Baiduspider membuang banyak sumber daya untuk merayapi halaman web yang tidak valid. Misalnya, banyak situs web memiliki fungsi penyaringan, melalui fungsi penyaringan halaman web akan sering menjadi sejumlah besar perayapan mesin pencari, dan sebagian besar nilai pencarian tidak tinggi, seperti "500-1000 harga antara sewa", pertama-tama, situs web (termasuk kenyataan) pada dasarnya tidak ada sumber daya yang relevan, dan kedua, situs web (termasuk yang sebenarnya ) pada dasarnya tidak ada sumber daya yang relevan, dan kedua, pengguna situs dan pengguna mesin pencari tidak memiliki kebiasaan pencarian ini. Halaman web semacam ini adalah sejumlah besar perayapan mesin pencari, hanya dapat mengambil kuota perayapan situs yang berharga. Jadi bagaimana cara menghindari situasi ini? Kami mengambil situs jual beli kelompok di Beijing sebagai contoh, untuk melihat bagaimana situs tersebut menggunakan robot untuk secara cerdik menghindari lubang hitam laba-laba ini: Untuk halaman hasil penyaringan biasa, situs tersebut memilih untuk menggunakan tautan statis, seperti: http://bj.XXXXX.com/category/zizhucan/weigongcun Halaman hasil penyaringan kondisi yang sama, ketika pengguna memilih kondisi penyortiran yang berbeda, itu akan menghasilkan tautan dinamis dengan parameter yang berbeda. Meskipun menggunakan link dinamis, dan kondisi pengurutan yang sama (misal: diurutkan berdasarkan penjualan), namun parameter yang dihasilkan berbeda. Misalnya: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
Untuk jaringan pembelian grup ini, hanya membiarkan mesin pencari merayapi halaman hasil penyaringan yang bisa, dan semua jenis dengan parameter hasil halaman penyortiran melalui aturan robot menolak untuk memberikannya ke mesin pencari. Penggunaan file robots.txt memiliki aturan seperti itu: Larang: /*? *, yaitu, untuk melarang mesin pencari mengakses semua halaman dinamis di situs. Dengan cara ini, situs tersebut menjadi prioritas Baiduspider untuk menampilkan halaman berkualitas tinggi, memblokir halaman berkualitas rendah, agar Baiduspider dapat menyediakan struktur situs yang lebih bersahabat, untuk menghindari pembentukan lubang hitam.
|