架构师_程序员_码农网

E Ambil kata sandi
Daftar

QQ登录

Hanya satu langkah untuk memulai

Cari
架构师_程序员_码农网 "架构' 其他技术&Teknologi Lainnya ' 网站建设 ' 巧用robots避免蜘蛛黑洞
Tampilan:8779|Balas: 0
打印 上一主题 下一主题

[Pengetahuan Situs Web]Menghindari Lubang Hitam Laba-laba dengan Robot

[tautan salin]
A 跳转到指定楼层
pemilik gedung
2014-10-23 22:44:58|只看该作者回帖奖励|MembalikkanPenjelajahan|Mode Baca

Untuk mesin pencari Baidu, lubang hitam laba-laba mengacu pada situs web melalui biaya yang sangat rendah untuk membuat sejumlah besar parameter terlalu banyak, dan konten yang sama tetapi parameter spesifik dari URL dinamis yang berbeda, seperti loop tak terbatas dari "lubang hitam" akan laba-laba terperangkap, Baiduspider membuang banyak sumber daya untuk merayapi halaman web yang tidak valid.
Misalnya, banyak situs web memiliki fungsi penyaringan, melalui fungsi penyaringan halaman web akan sering menjadi sejumlah besar perayapan mesin pencari, dan sebagian besar nilai pencarian tidak tinggi, seperti "500-1000 harga antara sewa", pertama-tama, situs web (termasuk kenyataan) pada dasarnya tidak ada sumber daya yang relevan, dan kedua, situs web (termasuk yang sebenarnya ) pada dasarnya tidak ada sumber daya yang relevan, dan kedua, pengguna situs dan pengguna mesin pencari tidak memiliki kebiasaan pencarian ini. Halaman web semacam ini adalah sejumlah besar perayapan mesin pencari, hanya dapat mengambil kuota perayapan situs yang berharga. Jadi bagaimana cara menghindari situasi ini?
Kami mengambil situs jual beli kelompok di Beijing sebagai contoh, untuk melihat bagaimana situs tersebut menggunakan robot untuk secara cerdik menghindari lubang hitam laba-laba ini:


Untuk halaman hasil penyaringan biasa, situs tersebut memilih untuk menggunakan tautan statis, seperti: http://bj.XXXXX.com/category/zizhucan/weigongcun Halaman hasil penyaringan kondisi yang sama, ketika pengguna memilih kondisi penyortiran yang berbeda, itu akan menghasilkan tautan dinamis dengan parameter yang berbeda. Meskipun menggunakan link dinamis, dan kondisi pengurutan yang sama (misal: diurutkan berdasarkan penjualan), namun parameter yang dihasilkan berbeda.
Misalnya: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Untuk jaringan pembelian grup ini, hanya membiarkan mesin pencari merayapi halaman hasil penyaringan yang bisa, dan semua jenis dengan parameter hasil halaman penyortiran melalui aturan robot menolak untuk memberikannya ke mesin pencari.
Penggunaan file robots.txt memiliki aturan seperti itu: Larang: /*? *, yaitu, untuk melarang mesin pencari mengakses semua halaman dinamis di situs. Dengan cara ini, situs tersebut menjadi prioritas Baiduspider untuk menampilkan halaman berkualitas tinggi, memblokir halaman berkualitas rendah, agar Baiduspider dapat menyediakan struktur situs yang lebih bersahabat, untuk menghindari pembentukan lubang hitam.






Artikel sebelumnya: Mesin virtual VMware untuk menginstal MAC OSX Mountain Lion
Artikel selanjutnya: Instal Mac OS X10.9 Tutorial Apple Hitam pada sistem Win
Pertama kali saya melihat ini, saya bisa melihatnya di layar dan itu adalah kesempatan besar untuk melihatnya di layar.
Anda harus masuk sebelum dapat memposting kembali Masuk | Daftar

V ersi aturan integral iniB


PENAFIAN: Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer terbatas hanya untuk digunakan untuk tujuan pembelajaran dan penelitian; konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, semua konsekuensinya akan ditanggung oleh pengguna itu sendiri. Informasi situs ini berasal dari jaringan, sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus menghapus konten di atas sepenuhnya dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, mohon dukung perangkat lunak asli, beli registrasi dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email untuk menanganinya.

Mail To:help@itsvse.com

QQ | ( 鲁ICP备14021824号-2)|Peta Situs

GMT+8, 2024-9-17 14:06

Balas CepatKembali ke atasKembali ke daftar