1. 구조란 무엇인가
-검색엔진의 기본적인 두가지 목표
효과성(품질) : 질의에 대해 가장 적합한 문서 집합을 검색
효율성(속도) : 사용자로부터 입력된 질의를 가능한 빠르게 처리
2. 기본 구성요소
-색인과정
텍스트획득 : 검색엔진을 위한 문서를 인식하고 획득
텍스트변환 : 색인어 또는 자질로 변환
색인생성 : 빠른검색을 가능하게 해주는 데이터구조 생성
-질의과정
사용자 상호작용 : 사용자와 검색엔진 사이의 인터페이스
순위부여 : 검색모델에 기반한 점수를 사용하여 문서목록 생성
평가 : 효과성과 효율성을 측정하고 관리
3. 세부구성요소
-텍스트 획득
수집기(crawler) : 검색엔진을 위한 문서를 인식하고 획득
피드 : 문서의 실시간스트림에 접근하기 위한 방법
변환 : 수집기로 찾은 각종 문서를 텍스트로 변환, 인코딩문제
문서 데이터 저장소 : 대량의 문서와 구조화된 관련 데이터를 관리하는 데이터베이스
-텍스트변환
파서 : 구조적 요소를 인식하는 작업
불용어제거 : 텍스트의 주제를 설명하는데 도움이 되지않는 기능어 제거
스테밍 : 공통적인 어근으로부터 도출되는 단어들을 그룹핑
링크 추출 및 분석 : 앵커 텍스트 추출 및 분석
정보추출 : 특정 의미적 내용을 갖는 자질을 추출
분류기 : 문서나 문서의 일부에 대해 클래스 관련 메타데이터를 인식
-색인생성
문서통계 : 단어, 자질, 문서에 대한 통계 정보를 획득. 기록
가중치 부여 : 문서내의 단어들의 상대적인 중요도를 반영하여 순위부여
인버전 : 텍스트 변환 구성요소로 부터 온 정보의 스트림을 역색인 생성에 필요한 정보로 바꾸는 작업
색인분산 : 색인을 여러개의 컴퓨터 및 네트워크로 분산
-사용자 상호작용
질의입력 : 인터페이스와 질의언어에 대한 파서제공
질의변환 : 질의를 개선하기 위한 다양한 기술
결과출력 : 순위부여 구성요소로부터 받은 문서를 보여주는 일
-순위부여
점수부여 : 검색모델에 기반하는 순위부여 알고리즘을 사용하여 점수를계산
성능최적화 : 응답시간 감소와 질의 처리량 증가를 위한 설계
분산 : 색인 분산 방식 -> 검색 분산
-평가
로깅 : 질의 로그와 상호작용 로그
순위부여분석 : 공통적으로 사용되는 다양한 평가의 척도로 측정
성능분석 : 전체 시스템 성능의 감시와 개선
'검색엔진 > 정보검색' 카테고리의 다른 글
6. 질의와 인터페이스 (0) | 2016.04.14 |
---|---|
5. 색인을 이용한 순위부여 (0) | 2016.04.07 |
4. 텍스트 처리 (0) | 2016.03.28 |
3.문서수집 (0) | 2016.02.18 |
1. 검색엔진과 정보검색 (0) | 2016.02.11 |