본문 바로가기
검색엔진/정보검색

3.문서수집

by 문죄송 2016. 2. 18.

1. 무엇을 검색해야 하는가

예전 정보뿐 아니라 가장 최근 정보도 함께 가지고 있어야한다.

웹, 파일 서버, 하드디스크, 이메일 등과 같이 다양한 경로를 통해 문서 확보 및 검색


2. 웹 문서 수집

웹 문서를 찾아서 다운로드 하는것을 웹 문서 수집이라 부르며 이렇게 수집하는 프로그램을 웹 수집기(Web crawler)라 부른다.


3. 웹문서 추출

웹 수집기

웹 문서의 신선도 : HEAD 정보의 Last modified 값을 통해 비교

집중수집 : 특정 주제에 특화된 수집

심층 웹 : 크롤러가 찾기 힘든 사이트 비공개 사이트, 입력 결과, 스크립트 페이지

사이트 맵 : 크롤러에 사이트에 대한 충분한 정보를 제공하기 위함

분산수집 : 1. 수집대상 사이트에 수집기를 좀더 가깝게 함

2. 수집기가 기억해야 하는 사이트의 갯수를 감소

3. 컴퓨터 자원 분산

문서와 이메일 수집

변환문제 : 표준 텍스트 파일 형식이 아닌 포맷의 경우 전용 변환툴이 필요

문자 인코딩 : 여러나라의 언어를 표현하기 위해 인코딩 정보기록, 유니코드 사용

문서의 저장 : 원본 문서에 대한 복사본을 저장

데이터베이스 시스템 이용

임의접근 : 검색결과에 댜한 요약정보를 신속하게 검색

압축과 대형파일

갱신 : 새 버전에 대한 문서 업데이트, 앵커텍스트 처리

Big Table : 데이터베이스에서 문서형태의 큰 데이터를 처리하기 위하여 사용

중복 문서 탐지

noise 제거 : 배너광고, 이미지, 일반적인 링크, 서비스, 저작권 과 같은 잡다한 정보를 제거

'검색엔진 > 정보검색' 카테고리의 다른 글

6. 질의와 인터페이스  (0) 2016.04.14
5. 색인을 이용한 순위부여  (0) 2016.04.07
4. 텍스트 처리  (0) 2016.03.28
2. 검색엔진의 구조  (0) 2016.02.12
1. 검색엔진과 정보검색  (0) 2016.02.11