본문 바로가기
검색엔진/정보검색

2. 검색엔진의 구조

by 문죄송 2016. 2. 12.

1. 구조란 무엇인가


-검색엔진의 기본적인 두가지 목표


효과성(품질) : 질의에 대해 가장 적합한 문서 집합을 검색

효율성(속도) : 사용자로부터 입력된 질의를 가능한 빠르게 처리


2. 기본 구성요소


-색인과정

텍스트획득 : 검색엔진을 위한 문서를 인식하고 획득

텍스트변환 : 색인어 또는 자질로 변환

색인생성 : 빠른검색을 가능하게 해주는 데이터구조 생성


-질의과정

사용자 상호작용 : 사용자와 검색엔진 사이의 인터페이스

순위부여 : 검색모델에 기반한 점수를 사용하여 문서목록 생성

평가 : 효과성과 효율성을 측정하고 관리


3. 세부구성요소


-텍스트 획득

수집기(crawler) : 검색엔진을 위한 문서를 인식하고 획득

피드 : 문서의 실시간스트림에 접근하기 위한 방법

변환 : 수집기로 찾은 각종 문서를 텍스트로 변환, 인코딩문제

문서 데이터 저장소 : 대량의 문서와 구조화된 관련 데이터를 관리하는 데이터베이스


-텍스트변환

파서 : 구조적 요소를 인식하는 작업

불용어제거 : 텍스트의 주제를 설명하는데 도움이 되지않는 기능어 제거

스테밍 : 공통적인 어근으로부터 도출되는 단어들을 그룹핑

링크 추출 및 분석 : 앵커 텍스트 추출 및 분석

정보추출 : 특정 의미적 내용을 갖는 자질을 추출

분류기 : 문서나 문서의 일부에 대해 클래스 관련 메타데이터를 인식


-색인생성

문서통계 : 단어, 자질, 문서에 대한 통계 정보를 획득. 기록

가중치 부여 : 문서내의 단어들의 상대적인 중요도를 반영하여 순위부여

인버전 : 텍스트 변환 구성요소로 부터 온 정보의 스트림을 역색인 생성에 필요한 정보로 바꾸는 작업

색인분산 : 색인을 여러개의 컴퓨터 및 네트워크로 분산


-사용자 상호작용

질의입력 : 인터페이스와 질의언어에 대한 파서제공

질의변환 : 질의를 개선하기 위한 다양한 기술

결과출력 : 순위부여 구성요소로부터 받은 문서를 보여주는 일


-순위부여

점수부여 : 검색모델에 기반하는 순위부여 알고리즘을 사용하여 점수를계산

성능최적화 : 응답시간 감소와 질의 처리량 증가를 위한 설계

분산 : 색인 분산 방식 -> 검색 분산


-평가

로깅 : 질의 로그와 상호작용 로그

순위부여분석 : 공통적으로 사용되는 다양한 평가의 척도로 측정

성능분석 : 전체 시스템 성능의 감시와 개선

'검색엔진 > 정보검색' 카테고리의 다른 글

6. 질의와 인터페이스  (0) 2016.04.14
5. 색인을 이용한 순위부여  (0) 2016.04.07
4. 텍스트 처리  (0) 2016.03.28
3.문서수집  (0) 2016.02.18
1. 검색엔진과 정보검색  (0) 2016.02.11