크롤러는 다양하게 이용된다.
- 검색 엔진 인덱싱
- 웹 아카이빙
- 웹 마이닝
- 웹 모니터링
1. 문제 이해 및 범위 확정
웹 크롤러의 기본 알고리즘은 다음과 같다.
- URL 집합이 입력으로 주어지면, 해당 URL들이 가리키는 모든 웹페이지를 다운로드한다.
- 다운받은 웹페이지에서 URL들을 추출한다.
- 추출된 URL들을 다운로드할 URL 목록에 추가하고 위의 과정을 처음부터 반복한다.
2. 개략적 설계안 제시 및 동의 구하기
재미가 없다.. 다음 장으로 넘어가자