웹 크롤링 예제

Coffman 등은 신선도에 해당하는 웹 크롤러의 목표에 대한 정의를 사용했지만 다른 표현을 사용합니다. 또한 웹 크롤링 문제는 웹 크롤러가 서버이고 웹 사이트가 큐인 다중 큐, 단일 서버 폴링 시스템으로 모델링될 수 있다고 지적했습니다. 페이지 수정은 고객의 도착이며 전환 시간은 단일 웹 사이트에 대한 페이지 액세스 사이의 간격입니다. 이 모델에서 폴링 시스템의 고객 대기 시간은 웹 크롤러의 평균 연령과 같습니다. [30] 웹 크롤러는 거미, [1] 개미, 자동 인덱서, [2] 또는 (FOAF 소프트웨어 컨텍스트에서) 웹 스커터라고도 합니다. [3] 웹 크롤러는 그들이 찾은 단어에만 주의를 기울이지 않는다는 점에 유의하는 것이 중요합니다 . 따라서 크롤러는 제목, 메타 데이터 및 처음 몇 문장에 포함된 단어가 페이지의 컨텍스트에서 더 중요할 수 있다는 것을 알고 있으며, 주요 위치의 키워드는 페이지가 실제로 해당 키워드에 대해 `약`임을 시사합니다. robots.txt 파일을 웹 서버의 루트에 배치하면 웹 크롤러가 따라야 하는 허용 또는 허용 을 허용하는 등의 규칙을 정의할 수 있습니다. 모든 봇에 적용되는 일반 규칙을 적용하거나 보다 세분화된 규칙을 적용하고 특정 사용자 에이전트 문자열을 지정할 수 있습니다. 웹 크롤러는 일반적으로 HTTP 요청의 사용자 에이전트 필드를 사용하여 웹 서버에 자신을 식별합니다. 웹 사이트 관리자는 일반적으로 웹 서버의 로그를 검사하고 사용자 에이전트 필드를 사용하여 웹 서버를 방문한 크롤러와 웹 서버를 방문한 빈도를 확인합니다. 사용자 에이전트 필드에는 웹 사이트 관리자가 크롤러에 대한 자세한 정보를 찾을 수 있는 URL이 포함될 수 있습니다. 웹 서버 로그를 검사하는 것은 지루한 작업이므로 일부 관리자는 도구를 사용하여 웹 크롤러를 식별, 추적 및 확인합니다.

Spambot및 기타 악의적인 웹 크롤러는 사용자 에이전트 필드에 식별 정보를 배치할 가능성이 낮거나 브라우저 또는 기타 잘 알려진 크롤러로 자신의 ID를 마스킹할 수 있습니다. 웹 크롤러는 검색 엔진의 핵심 부분이며 알고리즘 및 아키텍처에 대한 세부 정보는 비즈니스 기밀로 유지됩니다. 크롤러 디자인이 게시될 때 다른 사람이 작업을 재현하지 못하도록 하는 중요한 세부 사항이 부족한 경우가 많습니다. 주요 검색 엔진이 순위 알고리즘을 게시하지 못하도록 하는 “검색 엔진 스팸”에 대한 우려도 대두되고 있습니다. 웹에서 사용할 수 있는 “시각적 웹 스크레이퍼/크롤러” 제품 이 있습니다. 클래식크롤러와 비주얼 크롤러의 주요 차이점 중 하나는 크롤러를 설정하는 데 필요한 프로그래밍 능력 수준입니다. Diffbot,[48] outwithub,[49] 및 import.io[50]와 같은 최신 세대의 “시각적 스크레이퍼”는 웹 데이터를 스크레이핑하기 위해 크롤링을 프로그래밍하고 시작하는 데 필요한 프로그래밍 기술의 대부분을 제거합니다. 빙은 또한 구글과 매우 유사한 도구를 가지고, 빙봇으로 가져 오기라는, 빙 웹 마스터 도구 내에서. Bingbot으로 가져오기를 사용하면 크롤링을 요청할 수 있으며 크롤러가 볼 수 있는 대로 표시할 수 있습니다.

Bingbot이 볼 수 있는 페이지 코드가 표시되어 의도한 대로 페이지를 보는지 확인할 수 있습니다. 엑사봇은 프랑스에 본사를 둔 검색 엔진인 엑사리드의 웹 크롤러입니다. 2000년에 설립되어 현재 160억 페이지 이상이 색인화되어 있습니다.

カテゴリー: 未分類 パーマリンク