거미 블랙홀을 피하는 영리한 로봇들

관리자 · 게시됨 2014. 10. 23. 오후 10:44:58

바이두 검색 엔진에서 거미 블랙홀은 매우 낮은 비용으로 많은 매개변수를 생성하고, 유사한 내용이지만 구체적인 매개변수가 다른 동적 URL을 웹사이트가 만드는 것을 의미하며, 마치 무한한 '블랙홀' 루프가 거미를 가두듯, Baiduspider는 무효 웹페이지를 크롤링하는 데 많은 자원을 낭비합니다.
예를 들어, 많은 웹사이트에 필터링 기능이 있으며, 필터링 기능으로 생성된 웹페이지는 검색 엔진에 의해 크롤링되는 경우가 많고, "500-1000 사이의 집을 임대한다"는 식으로 검색 가치가 낮습니다. 우선, 웹사이트에는 (실제로도 포함해) 관련 자료가 거의 없고, 둘째로, 사이트 내 사용자와 검색 엔진 사용자 모두에게 그런 검색 습관이 없습니다. 이러한 웹페이지는 검색 엔진에 의해 대량으로 크롤링되며, 이는 웹사이트 내 귀중한 크롤 할당량만 차지할 수 있습니다. 그렇다면 이런 상황을 어떻게 피할 수 있을까요?
베이징의 단체 구매 웹사이트를 예로 들어 보면, 이 웹사이트가 로봇을 활용해 이 거미 블랙홀을 영리하게 피하는 방법을 살펴보겠습니다:

일반 필터 결과 페이지에서는 http://bj.XXXXX.com/category/zizhucan/weigongcun 같은 정적 링크를 선택합니다
동일한 조건부 필터 결과 페이지에서 사용자가 서로 다른 정렬 조건을 선택하면 서로 다른 매개변수를 가진 동적 링크가 생성되며, 동일한 정렬 기준(예: 판매 내림차순)을 사용하더라도 생성된 매개변수는 다릅니다. 예를 들어: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

그룹 구매 네트워크에서는 검색 엔진만 필터 결과 페이지를 크롤할 수 있으며, 다양한 매개변수를 가진 결과 정렬 페이지는 로봇 규칙에 의해 검색 엔진에 의해 거부됩니다.
robots.txt 파일 사용에 관한 규칙이 있습니다: Disallow: /*?*로, 이는 검색 엔진이 웹사이트 내 모든 동적 페이지에 접근하는 것을 금지합니다. 이렇게 해서 웹사이트는 고품질 페이지를 우선시하고 저품질 페이지를 차단하여 Baiduspider에 더 친근한 웹사이트 구조를 제공하고 블랙홀 형성을 방지합니다.

[웹사이트 구축 지식] 거미 블랙홀을 피하는 영리한 로봇들

관련 게시물

본 섹션