4.1. 텍스트 처리
텍스트 처리의 목표는 다양한 형태의 단어들을 좀더 일관된 형태의 색인어로 바꾸어주는 것.
토큰화 : 단어들의 구두점을 제거하여 그 단어들을 찾기 쉽도록 만듬
불용어제거 : 질의 처리를 좀 더 효과적이고 효율적으로 하기 위해 통째로 무시
4.2. 텍스트 통계
4.3. 문서파싱
4.3.1. 개요
문서 내에서 인식된 태그와 메티데이터를 이용하여, 마크업 언어의 문법을 바탕으로 문서의 구조를 해석하고(구문분석)
문서의 구조와 내용을 포함하는 문서의 표현 을 생성한다.
4.3.2. 토큰화
문서 내의 문자열로부터 단어를 형성해 나가는 과정
4.4. 문서 구조와
HTML 마크업으로 표시되는 웹문서 구조중 순위 부여 알고리즘에 사용할수 있는 명백한 구절(폰트 볼트 이탤릭 등은 중요성을 입증하는 부가적인 증거) 은 앵커
텍스트 로 사용되거나 페이지의 내용을 표현하는 단어들일 가능성이 높다.
4.5. 링크분석
링크의 관계성을 분석하여 웹 페이지의 간의 관계를 이해하고 순위를 더욱 효과적으로 매기는데 도움을 준다.
4.5.1. 앵커 텍스트
링크분석 과정에서 선정한 웹페이지의 주제를 짧게 기술한 텍스트로 특히, 사용자가 특정 주제나, 개인, 조직 홈페이지를 찾고자 할 경우에 사용한다.
4.5.2. PageRank
웹 검색의 순위 부여 성능을 향상할 수 있는 질의 독립적인 메타데이터의 중요한 예
4.5.3. 링크 품질
PageRank의 악이용을 방지하기 위하여 링크의 속성을 판별하여 색인생성을 하지 않는다.
4.6. 정보 추출
텍스트로 부터 구조를 추출
4.6.1. 추출을 위한 은닉 마르코프 모델
4.7. 국제화
전세계에 걸쳐 사용되는 웹의 65~70% 는 영어로 쓰여 있지만 웹을 검색하는 인구의 절반은 모국어가 영어가 아니다.
단어분리 : 띄어쓰기가 되어 있지 않은 연결되어 있는 글자들을 단어나 색인어로 분리
'검색엔진 > 정보검색' 카테고리의 다른 글
6. 질의와 인터페이스 (0) | 2016.04.14 |
---|---|
5. 색인을 이용한 순위부여 (0) | 2016.04.07 |
3.문서수집 (0) | 2016.02.18 |
2. 검색엔진의 구조 (0) | 2016.02.12 |
1. 검색엔진과 정보검색 (0) | 2016.02.11 |