3.문서수집

1. 무엇을 검색해야 하는가

예전 정보뿐 아니라 가장 최근 정보도 함께 가지고 있어야한다.

웹, 파일 서버, 하드디스크, 이메일 등과 같이 다양한 경로를 통해 문서 확보 및 검색

2. 웹 문서 수집

웹 문서를 찾아서 다운로드 하는것을 웹 문서 수집이라 부르며 이렇게 수집하는 프로그램을 웹 수집기(Web crawler)라 부른다.

3. 웹문서 추출

웹 수집기

웹 문서의 신선도 : HEAD 정보의 Last modified 값을 통해 비교

집중수집 : 특정 주제에 특화된 수집

심층 웹 : 크롤러가 찾기 힘든 사이트 비공개 사이트, 입력 결과, 스크립트 페이지

사이트 맵 : 크롤러에 사이트에 대한 충분한 정보를 제공하기 위함

분산수집 : 1. 수집대상 사이트에 수집기를 좀더 가깝게 함

2. 수집기가 기억해야 하는 사이트의 갯수를 감소

3. 컴퓨터 자원 분산

문서와 이메일 수집

변환문제 : 표준 텍스트 파일 형식이 아닌 포맷의 경우 전용 변환툴이 필요

문자 인코딩 : 여러나라의 언어를 표현하기 위해 인코딩 정보기록, 유니코드 사용

문서의 저장 : 원본 문서에 대한 복사본을 저장

데이터베이스 시스템 이용

임의접근 : 검색결과에 댜한 요약정보를 신속하게 검색

압축과 대형파일

갱신 : 새 버전에 대한 문서 업데이트, 앵커텍스트 처리

Big Table : 데이터베이스에서 문서형태의 큰 데이터를 처리하기 위하여 사용

중복 문서 탐지

Moon sorry