크롤러는 다양하게 이용된다.

1. 문제 이해 및 범위 확정


웹 크롤러의 기본 알고리즘은 다음과 같다.

  1. URL 집합이 입력으로 주어지면, 해당 URL들이 가리키는 모든 웹페이지를 다운로드한다.
  2. 다운받은 웹페이지에서 URL들을 추출한다.
  3. 추출된 URL들을 다운로드할 URL 목록에 추가하고 위의 과정을 처음부터 반복한다.

2. 개략적 설계안 제시 및 동의 구하기


image.png

재미가 없다.. 다음 장으로 넘어가자