1. 무엇을 검색해야 하는가
예전 정보뿐 아니라 가장 최근 정보도 함께 가지고 있어야한다.
웹, 파일 서버, 하드디스크, 이메일 등과 같이 다양한 경로를 통해 문서 확보 및 검색
2. 웹 문서 수집
웹 문서를 찾아서 다운로드 하는것을 웹 문서 수집이라 부르며 이렇게 수집하는 프로그램을 웹 수집기(Web crawler)라 부른다.
3. 웹문서 추출
웹 수집기
웹 문서의 신선도 : HEAD 정보의 Last modified 값을 통해 비교
집중수집 : 특정 주제에 특화된 수집
심층 웹 : 크롤러가 찾기 힘든 사이트 비공개 사이트, 입력 결과, 스크립트 페이지
사이트 맵 : 크롤러에 사이트에 대한 충분한 정보를 제공하기 위함
분산수집 : 1. 수집대상 사이트에 수집기를 좀더 가깝게 함
2. 수집기가 기억해야 하는 사이트의 갯수를 감소
3. 컴퓨터 자원 분산
문서와 이메일 수집
변환문제 : 표준 텍스트 파일 형식이 아닌 포맷의 경우 전용 변환툴이 필요
문자 인코딩 : 여러나라의 언어를 표현하기 위해 인코딩 정보기록, 유니코드 사용
문서의 저장 : 원본 문서에 대한 복사본을 저장
데이터베이스 시스템 이용
임의접근 : 검색결과에 댜한 요약정보를 신속하게 검색
압축과 대형파일
갱신 : 새 버전에 대한 문서 업데이트, 앵커텍스트 처리
Big Table : 데이터베이스에서 문서형태의 큰 데이터를 처리하기 위하여 사용
중복 문서 탐지
noise 제거 : 배너광고, 이미지, 일반적인 링크, 서비스, 저작권 과 같은 잡다한 정보를 제거
'검색엔진 > 정보검색' 카테고리의 다른 글
6. 질의와 인터페이스 (0) | 2016.04.14 |
---|---|
5. 색인을 이용한 순위부여 (0) | 2016.04.07 |
4. 텍스트 처리 (0) | 2016.03.28 |
2. 검색엔진의 구조 (0) | 2016.02.12 |
1. 검색엔진과 정보검색 (0) | 2016.02.11 |