검색엔진/형태소

22. 색인어 추출 기법

문죄송 2016. 6. 15. 15:16

22.1 개요

    정보 검색 시스템은 대략의 정보원으로부터 정보 이용자가 찾고자 하는 정보만을 제공해 주는 기능을 수행한다. 정보 검색 시스템의 구조는 
    데이터베이스에 저장되어 있는 정보 자료의 유형이나 활용 분야에 따라 그에 적합한 형태로 구현되어야 한다. 현재 상용화되어 있는 시스템은 대부분
    서지 정보나 안내 정보와 같이 정보 자료에 대한 2차적인 정보를 검색 대상으로 하는 참조 정보 검색 시스템이다. 참조 정보 검색 시스템은 색인
    과정을 거쳐 색인어로 추출된 주제어와 비주제어, 그리고 정보 자료를 데이터베이스에 저장한 후에 질의어를 입력받아 질의에 적합한 정보 자료들을 
    데이터베이스로부터 검색하여 정보 이용자들에게 제공해 준다.

22.2 자동 색인의 목적

    후보 색인어 중 색인어로서 가치가 있는 용어만을 선별하여 최종적으로 색인어 리스트를 구성하는데 색인어 리스트를 구하는 것이 자동 색인의
    목적이다.

22.3 형태소 분석의 필요성
    
    자동 색인의 주요 기능 중에 하나는 문서에 포함되어 있는 명사를 추출하는 것이다. 명사를 추출하기 위하여 형태소 분석을 완벽하게 수행할
    필요는 없으며 명사 중에서도 단지 색인어로 선택될 가능성이 있는 명사를 추출하는 기능이 요구된다.

22.4 자동 색인을 위한 형태소 분석

    어근 추출 관점에서 형태소 분석기의 특성
        1. 어근 중에서 개념을 나타내는 명사를 정확히 추출해야 한다.
        2. 동일한 품사로 분석되는 어근의 품사 중의성을 구별하지 않아도 된다.
        3. 복합 명사와 전문 용어 등 두 개 이상의 형태소로 구성된 용어를 인식해야 한다.
        4. 고유 명사와 외래어 등 사전 미등록어를 정확하게 추정해야 한다.
        5. 아라비아 숫자나 영문자가 포함된 용어 등 색인어로 선택될 가능성이 있는 모든 용어를 추출해야 한다.
       
    색인어와 비색인어를 구별하는 관점에서 요구되는 형태소 분석기의 기능
        1. 용언, 관형어, 부사어, 의존 명사 등 품사 불용어를 판별할 수 있어야한다.
        2. 가능한 한 색인어로서 가치가 없는 용어는 추출되지 않아야 한다.
        3. 미등록 색인어 추정시에 색인어가 됭 수 없는 단어를 판별할 수 있어야 한다.
        4. 띄어 쓰기 오류가 포함된 단어를 처리할 수 있어야 한다.

22.5. 형태소 분석의 문제점

    복합어 인식/분리/결합/ 문제.
    기능어와 관련된 미등록어 추정
    형태소 분석 사전에 수록되어야 하는 어휘의 범위
    중의성으로 인하여 발생하는 문제
    철자 오류를 비롯한 맞춤법 오류의 처리

22.6 정보자료의 유형 및 특성

    1. 일반문서
        일반문서는 주로 국어사전에 수록된 어휘들로 구성된 문서이다.
   
    2. 전문 분야 문서
        특정 분야의 논문이나 전공 서적등의 문서에서 전문 용어는 색인어로서 가치가 매우 쿠지만, 보편적인 어휘들의 중요도는 매우 낮다.
        복합명사분해 문제가 자동색인 기능에 미치는 역할이 크다.
        문서 제목과 항목별 제목에 출현하는 용어의 중요도가 높다.
   
    3. 구조화된 문서
        구성요소별로 태그가 부여되므로 동일한 색인어라 하더라도 문서내 출현 위치와 중요도 등 색인어 관련 정보를 파악하기가 용이하다.

    4. 대화체 문서와 PC통신 오류어
        대화체 어휘 및 인터넷 - PC통신 오류어에 대한 색인 문제가 무시되어 왔으나, 방송이나 연극 대본과 같이 구어체 어휘들이 빈번하게
        사용되는 정보자료에 대한 정보검색 시스템은 구어체 어휘의 처리 방법에 따라 그 성능에 차이가 많다.

    5. 멀티미디어 문서
        일반적인 정보검색 시스템에서 형용사와 동사는 '품사 불용어' 로 간주하여 색인어로 추출되지 않는다. 그러나 디자인이나 예술과 관련된 정보자료
        에서는 색상에 관한 형용사가 질의어로 사용된다. 이 경우에 '빨강', '노랑' 등 명사 질의어 보다는 '노란 꽃' 과 같이 형용사 질의어를 사용하는 경우
        가 더 많다. 이와 같이 형용사를 질의어로 사용하여면 형용사를 색인어로 추출해야 한다.

22.7 자동 색인 방법론

    한글 문서에서 색인어를 추출하는 자동색인 기법

    색인 어휘집과 기능 어휘집을 이용하는 방법
    
        색인 어휘집을 이용한 자동색인
        기능 어휘집을 이용한 자동색인
        색인 어휘집과 기능 어휘집을 이용한 자동 색인
 
    형태소 분석 및 구문 분석을 이용하는 방법

        부분적인 형태소 분석 기법을 이용한 자동 색인
        형태소 분석기를 이용한 자동색인
        형태소 문석 및 구문 분석을 이용한 자동 색인

22.8 자동 색인의 주요 기능

    1.복합명사의 분해-결합
        1. 문서에 출현한 용어를 그대로 색인
        2. 붙여쓴 복합명사를 분해하여 색인
        3. 띄어쓴 복합명사를 결합하여 색인
        4. 복합명사를 분해 또는 결합하여 색인

    2. 주제어와 비주제어 색인
        1. 주제어만 색인
        2. 주제어-비주제어를 구별하지 않고 색인
        3. 주제어-비주제어를 구별하여 색인
        4. 주제어-비주제어를 유형별로 색인

    3. 자동 띄어쓰기
        1. 띄어쓰기를 무시한 정보자료의 색인
        2. 문자인식기에서 줄바꿈 문제 해결
        3. 전자출판 문서에서 중바꿈 문제 해결
        4. 연속어절 음성인식에서 띄어쓰기 문제
    
    4. 불용어 처리
        
    5. 색인어 관리 기법
        1. 일정기간 검색되지 않은 색인어 제거
        2. 문헌빈도가 임계치를 넘는 색인어 제거
        3. 유형별로 색인어 저장 시스템 분할