이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 13134|회답: 0

[웹사이트 구축 지식] 거미 블랙홀을 피하는 영리한 로봇들

[링크 복사]
게시됨 2014. 10. 23. 오후 10:44:58 | | |

바이두 검색 엔진에서 거미 블랙홀은 매우 낮은 비용으로 많은 매개변수를 생성하고, 유사한 내용이지만 구체적인 매개변수가 다른 동적 URL을 웹사이트가 만드는 것을 의미하며, 마치 무한한 '블랙홀' 루프가 거미를 가두듯, Baiduspider는 무효 웹페이지를 크롤링하는 데 많은 자원을 낭비합니다.
       예를 들어, 많은 웹사이트에 필터링 기능이 있으며, 필터링 기능으로 생성된 웹페이지는 검색 엔진에 의해 크롤링되는 경우가 많고, "500-1000 사이의 집을 임대한다"는 식으로 검색 가치가 낮습니다. 우선, 웹사이트에는 (실제로도 포함해) 관련 자료가 거의 없고, 둘째로, 사이트 내 사용자와 검색 엔진 사용자 모두에게 그런 검색 습관이 없습니다. 이러한 웹페이지는 검색 엔진에 의해 대량으로 크롤링되며, 이는 웹사이트 내 귀중한 크롤 할당량만 차지할 수 있습니다. 그렇다면 이런 상황을 어떻게 피할 수 있을까요?
       베이징의 단체 구매 웹사이트를 예로 들어 보면, 이 웹사이트가 로봇을 활용해 이 거미 블랙홀을 영리하게 피하는 방법을 살펴보겠습니다:

일반 필터 결과 페이지에서는 http://bj.XXXXX.com/category/zizhucan/weigongcun 같은 정적 링크를 선택합니다
       동일한 조건부 필터 결과 페이지에서 사용자가 서로 다른 정렬 조건을 선택하면 서로 다른 매개변수를 가진 동적 링크가 생성되며, 동일한 정렬 기준(예: 판매 내림차순)을 사용하더라도 생성된 매개변수는 다릅니다. 예를 들어: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

그룹 구매 네트워크에서는 검색 엔진만 필터 결과 페이지를 크롤할 수 있으며, 다양한 매개변수를 가진 결과 정렬 페이지는 로봇 규칙에 의해 검색 엔진에 의해 거부됩니다.
       robots.txt 파일 사용에 관한 규칙이 있습니다: Disallow: /*?*로, 이는 검색 엔진이 웹사이트 내 모든 동적 페이지에 접근하는 것을 금지합니다. 이렇게 해서 웹사이트는 고품질 페이지를 우선시하고 저품질 페이지를 차단하여 Baiduspider에 더 친근한 웹사이트 구조를 제공하고 블랙홀 형성을 방지합니다.






이전의:VMware 가상 머신은 MAC OSX Mountain Lion에 설치되어 있습니다
다음:윈도우 시스템 블랙 애플 튜토리얼로 Mac OS X10.9 설치
면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com