架构师_程序员_码农网

사용자 이름 비밀번호 검색
등록하기

QQ登录

시작하기 위한 한 단계

검색
架构师_程序员_码农网 " 架构师 ' 其他技术&기타 기술 ' 网站建设 ' 巧用로봇避免蜘蛛黑洞
조회:8779|댓글: 0
打印 上一主题 下一主题

[웹 사이트 지식]로봇으로 거미 블랙홀 피하기

[링크 복사]
바로 가기 跳转到指定楼层
건물 소유주
게시됨 : 2014-10-23 22:44:58|작성자만 보기回帖奖励| 역방향찾아보기| 읽기 모드

바이두 검색 엔진의 경우 스파이더 블랙홀은 매우 저렴한 비용으로 많은 수의 매개 변수를 너무 많이 생성하고 "블랙홀"의 무한 루프와 같이 동일하지만 다른 동적 URL의 특정 매개 변수의 내용이 스파이더 갇혀있는 웹 사이트를 말하며, 바이두 스파이더는 크롤링에 많은 자원을 낭비하여 잘못된 웹 페이지가 잘못된 웹 페이지입니다.
예를 들어, 많은 웹 사이트에는 선별 기능이 있으며 웹 페이지의 선별 기능을 통해 많은 수의 검색 엔진 크롤링이 이루어지며 "임대 사이의 500-1000 가격"과 같은 검색 값의 상당 부분이 높지 않으며, 우선 웹 사이트 (현실 포함)는 기본적으로 관련 자원이 없으며, 두 번째로 웹 사이트 (실제 포함)는 기본적으로 관련 자원이 없습니다. )는 기본적으로 관련 리소스가 없으며 둘째, 사이트 사용자와 검색 엔진 사용자는 이러한 검색 습관이 없습니다. 이러한 종류의 웹 페이지는 많은 수의 검색 엔진 크롤링이며 사이트의 귀중한 크롤링 할당량 만 차지할 수 있습니다. 그렇다면 이러한 상황을 피하는 방법은 무엇일까요?
베이징의 한 단체 구매 사이트를 예로 들어 로봇을 사용하여이 스파이더 블랙홀을 영리하게 피하는 방법을 살펴 보겠습니다:


일반 심사 결과 페이지의 경우 사이트는 다음과 같은 정적 링크를 사용하기로 선택했습니다. http://bj.XXXXX.com/category/zizhucan/weigongcun 동일한 조건 심사 결과 페이지, 사용자가 다른 정렬 조건을 선택하면 다른 매개 변수가있는 동적 링크가 생성됩니다. 동적 링크와 동일한 정렬 조건(예: 매출 내림차순)을 선택하더라도 생성되는 매개 변수가 다릅니다.
예: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

이 그룹 구매 네트워크의 경우 검색 엔진이 심사 결과 페이지를 크롤링 할 수만 있고 로봇 규칙을 통한 정렬 페이지 결과의 매개 변수가있는 모든 종류는 검색 엔진에 제공을 거부합니다.
robots.txt 파일 사용에는 다음과 같은 규칙이 있습니다 : 허용하지 않음 : / *? *즉, 검색 엔진이 사이트의 모든 동적 페이지에 액세스하는 것을 금지하는 것입니다. 이러한 방식으로 사이트는 고품질 페이지를 표시하고 저품질 페이지를 차단하여 Baiduspider가보다 친숙한 사이트 구조를 제공하여 블랙홀 형성을 피하기 위해 정확히 Baiduspider 우선 순위입니다.






이전 기사 : VMware 가상 머신을 설치하기위한 MAC OSX Mountain Lion 설치
다음 : Win 시스템에 Mac OS X10.9 Black Apple 자습서 설치
이것을 처음 보았을 때 화면에서 볼 수 있었고 화면에서 볼 수있는 좋은 기회였습니다.
로그인해야 다시 게시할 수 있습니다 로그인하기 | 등록하기

이 버전의 통합 규칙 댓글 달기


면책 조항: 코드파머에서 제공하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용하도록 제한되며, 위 내용을 상업적 또는 불법적인 목적으로 사용할 경우 모든 결과는 사용자 본인이 부담해야 합니다. 네트워크에서 제공하는 사이트 정보, 저작권 분쟁은 본 사이트와 무관합니다. 다운로드 후 24시간 이내에 컴퓨터에서 위의 콘텐츠를 완전히 삭제해야 합니다. 프로그램이 마음에 들면 정품 소프트웨어를 지원하고 등록을 구입하여 더 나은 정품 서비스를 받으십시오. 침해가 있는 경우 이메일로 연락하여 처리해 주시기 바랍니다.

메일 To:help@itsvse.com

QQ| ( 鲁ICP备14021824号-2)|사이트맵

GMT+8, 2024-9-17 14:06

빠른 답글맨 위로 돌아가기목록으로 돌아가기