이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 10314|회답: 1

[통신] 웹사이트 반소매치기

[링크 복사]
게시됨 2019. 7. 12. 오후 5:22:08 | | |
1. HTTP 요청 헤더

HTTP 요청이 서버에 전송될 때마다 속성과 구성 정보 집합이 전달되며, 이것이 HTTP 요청 헤더입니다. 브라우저가 보내는 요청 헤더가 크롤러 코드에서 보내는 요청 헤더가 다르기 때문에, 안티크롤러가 이를 발견하여 IP 차단이 발생할 가능성이 높습니다.

2. 쿠키 설정

웹사이트는 쿠키를 통해 방문을 추적하며, 크롤러 행동이 감지되면 방문을 즉시 중단합니다. 예를 들어, 양식을 빠르게 작성하거나 짧은 시간에 많은 페이지를 탐색하는 식입니다. 웹사이트를 수집하는 과정에서 해당 웹사이트가 생성한 쿠키를 확인한 후, 크롤러가 어떤 쿠키를 처리해야 하는지 생각해 보는 것이 권장됩니다.

3. 접근 경로

일반적인 크롤러 접근 경로는 항상 동일하며, 안티크롤러에 쉽게 인식되고 사용자 접근을 시뮬레이션하며 무작위로 페이지에 접근할 수 있습니다.

4. 방문 빈도

IP 차단의 대부분 이유는 접근 빈도가 너무 빠르기 때문입니다. 결국 크롤러 작업을 빨리 완료하고 싶어 하지만 속도가 도달하지 못하고, IP가 차단되면 효율성이 떨어집니다.

기본적인 반크롤러 전략은 물론 이들뿐 아니라 일부 더 엄격한 반크롤러 전략들입니다. 이는 반크롤러 엔지니어들이 목표 웹사이트의 반 크롤러 전략을 천천히 연구해야 하며, 안티크롤러 전략을 지속적으로 업그레이드하고 효율적이고 고품질의 프록시 IP와 결합하면 크롤러 작업이 효율적으로 수행될 수 있습니다.




이전의:SpringBootMainApplication 또는 Application용으로도 사용됩니다
다음:파이썬 입문 튜토리얼 전체 버전 (중국어를 알면 배울 수 있습니다)
게시됨 2019. 7. 12. 오후 7:01:50 |
크롤러는 HTTP 요청 데이터를 시뮬레이션하며, 모든 안티크롤러는 동일합니다. 누가 더 똑똑하고 효율적인지 보기 위해서입니다. 또한 자신의 사업 상황에 기반한 합리적인 전략을 수립하는 것도 필요합니다.

예를 들어, 일반 컨설팅 웹사이트에서는 사용자가 1분 동안 1,000건의 요청, 1시간에 수만 건의 요청을 받을 수 없습니다. 단일 IP가 설정된 임계값을 초과하면 직접 거부하거나 인증 코드 페이지로 이동해 슬라이드하거나 인증 코드를 입력하면 정상적으로 다시 접근할 수 있으며, 그렇지 않으면 IP가 차단됩니다.
면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com