|
바이두 검색 엔진의 경우 스파이더 블랙홀은 매우 저렴한 비용으로 많은 수의 매개 변수를 너무 많이 생성하고 "블랙홀"의 무한 루프와 같이 동일하지만 다른 동적 URL의 특정 매개 변수의 내용이 스파이더 갇혀있는 웹 사이트를 말하며, 바이두 스파이더는 크롤링에 많은 자원을 낭비하여 잘못된 웹 페이지가 잘못된 웹 페이지입니다. 예를 들어, 많은 웹 사이트에는 선별 기능이 있으며 웹 페이지의 선별 기능을 통해 많은 수의 검색 엔진 크롤링이 이루어지며 "임대 사이의 500-1000 가격"과 같은 검색 값의 상당 부분이 높지 않으며, 우선 웹 사이트 (현실 포함)는 기본적으로 관련 자원이 없으며, 두 번째로 웹 사이트 (실제 포함)는 기본적으로 관련 자원이 없습니다. )는 기본적으로 관련 리소스가 없으며 둘째, 사이트 사용자와 검색 엔진 사용자는 이러한 검색 습관이 없습니다. 이러한 종류의 웹 페이지는 많은 수의 검색 엔진 크롤링이며 사이트의 귀중한 크롤링 할당량 만 차지할 수 있습니다. 그렇다면 이러한 상황을 피하는 방법은 무엇일까요? 베이징의 한 단체 구매 사이트를 예로 들어 로봇을 사용하여이 스파이더 블랙홀을 영리하게 피하는 방법을 살펴 보겠습니다: 일반 심사 결과 페이지의 경우 사이트는 다음과 같은 정적 링크를 사용하기로 선택했습니다. http://bj.XXXXX.com/category/zizhucan/weigongcun 동일한 조건 심사 결과 페이지, 사용자가 다른 정렬 조건을 선택하면 다른 매개 변수가있는 동적 링크가 생성됩니다. 동적 링크와 동일한 정렬 조건(예: 매출 내림차순)을 선택하더라도 생성되는 매개 변수가 다릅니다. 예: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
이 그룹 구매 네트워크의 경우 검색 엔진이 심사 결과 페이지를 크롤링 할 수만 있고 로봇 규칙을 통한 정렬 페이지 결과의 매개 변수가있는 모든 종류는 검색 엔진에 제공을 거부합니다. robots.txt 파일 사용에는 다음과 같은 규칙이 있습니다 : 허용하지 않음 : / *? *즉, 검색 엔진이 사이트의 모든 동적 페이지에 액세스하는 것을 금지하는 것입니다. 이러한 방식으로 사이트는 고품질 페이지를 표시하고 저품질 페이지를 차단하여 Baiduspider가보다 친숙한 사이트 구조를 제공하여 블랙홀 형성을 피하기 위해 정확히 Baiduspider 우선 순위입니다.
|