인터넷의 많은 크롤러는 파이썬으로 작성되어 있고, 얼마 전에는 aps.net 간단한 크롤러도 만들어져 원하는 데이터를 크롤할 수 있습니다. 요즘 많은 웹사이트들이 백크롤링 메커니즘을 도입해 크롤러가 데이터를 스크래핑하기 매우 어렵게 만들고 있습니다. 대부분의 웹사이트를 역크롤하는 방법은 여러 가지가 있을 것입니다: 인증 코드, IP 주소, 블랙리스트 등, 그리고 좀 더 고급 역크롤링 방법도 있습니다. 이 크롤러는 또한 크롤링 방지, 검증 코드 우회, 프록시 사용 등 여러 조치를 취했습니다. 아래에 일부 코드를 붙여넣고, 여러분과 함께 토론하고 배우세요. 무엇이 잘못되었는지 바로잡아 주세요! 이 크롤러는 주로 특정 웹사이트를 대상으로 합니다.
URL을 입력한 후 URL에 따라 데이터를 크롤링한 뒤, XPath를 통해 필터링 및 정리하여 원하는 데이터를 얻을 수 있습니다
백크롤링을 우회하려면 프록시 IP를 사용해 접근할 수 있고, 인터넷에서 숨겨져 있는 IP를 다운로드하거나 가져와서 프록시 IP를 무작위로 전환해 캡처할 수 있습니다
위 코드는 먼저 교환된 IP가 접근 가능한지 여부를 확인하는 것입니다 특정 코드의 소스 코드를 보고 소스 코드를 제공하세요!
소스 코드 다운로드
관광객 여러분, 이 게시물의 숨겨진 내용을 보고 싶으시다면 부탁드립니다 회답
|