5.2. 기본 순위 부여 모델
문서의 자질
화제 : 문서가 링크된 수
품질 : 문서가 갱신된 날짜
5.3. 역색인
최근 모든 검색엔진은 역색인을 바탕으로 하고 있다. 시그너처와 같이 과거 다른 색인파일을 사용하기도 했으나, 역색인이 가장 효율적이고 융통성있는 색인 구조로 여겨지고 있다.
색인어는 보통 전통적인 책 색인과 같이 알파벳 순으로 정렬되지만 역색인은 보통 해시테이블로 직접 찾는다는 점이 다르다.
5.3.1. 문서
리스트 스키핑을 통해 계산량을 줄일수 있다.
5.3.2. 카운트
단어의 발생 빈도수는 문서 적합성을 예측하는데 있어서 좋은 근거가 된다. 특히, 단어의 발생 빈도수는 특정 주제를 깊이 다루는 문서와 그 주제를 잠깐
언급하는 문서를 구분하는 데 도움이 된다.
5.3.3. 위치
단어와 단어의 근접 표현에 대한 정확도를 위해 사용된다. 위치의 교차, 혹은 구의 발견으로 정확한 문서를 구분하는데 도움이 된다.
5.3.4. 필드와 익스텐트
이메일과 같이 특정 양식, 필드가 주어진 문서에서는 영역을 구분할 필요가 있다.
5.3.5. 점수
문서에 대한 최종 자질의 값을 저장, 이는 시스템의 유연성을 더 좋게도 하고 나쁘게도 한다.
복잡한 문서 점수 계산을 색인으로 처리하므로, 계산량이 많이 요구되는 점수를 쉽게 다룰 수 있다.
그러나 한 번 계산한 색인은 점수 계산 방식을 바꿀 수 없다는 점에서 유연성이 떨어진다. 더 중요한 것은 주변 단어에 대한 정보가 사라진다는 것이다.
5.4. 압축
5.4.1. Entropy and Ambiguity
5.4.2. 델타 인코딩
5.4.3. 비트 정렬 코드
5.4.4. 바이트 정렬 코드
5.4.5. 실전에서의 압축
5.4.6. 압축에 대한 전망
5.4.7. 스킵하기와 스킵 포인터
'검색엔진 > 정보검색' 카테고리의 다른 글
7. 검색모델 (0) | 2016.04.19 |
---|---|
6. 질의와 인터페이스 (0) | 2016.04.14 |
4. 텍스트 처리 (0) | 2016.03.28 |
3.문서수집 (0) | 2016.02.18 |
2. 검색엔진의 구조 (0) | 2016.02.12 |