검색엔진/형태소

10. 형태소 분석기의 구조

문죄송 2016. 5. 30. 10:45

10.1 형태소 분석 개요

    분석 후보의 생성과 그 후보들로부터 옳은 분석 결과를 선택하는 과정

    - 형태소 분석의 처리 대상은 어절이다.
    - 어절은 하나 혹은 둘 이상의 형태소로 이루어진다.
    - 형태소는 형태론적 변형 규칙에 따라 변형이 일어날 수 있다.
    - 형태소 분석은 어휘 사전과 어절간의 결합 관계에 따른 제약을 받는다.
    - 형태론적 중의성이 있는 어절이 존재한다.

10.2 일반적인 형태소 분석 과정
    
    전처리 : 문서로부터 형태소 분석의 대상이 되는 단어를 추출하고, 문장 부호를 분리하며, 숫자나 특수 문자열을 처리한다.
    분석후보 생성 : 형태소 분리 과정과 원형 복원 과정을 거쳐 가능한 모든 분석 후보들을 생성
    결합제약검사 : 후보 생성 과정에서 분석 결과에 비해 매우 많은 후보들을 생성하게 되므로 결합 제약 규칙을 미리 적용함으로써
                        선택의 폭을 줄이고 분석의 효율성과 정확성을 높일 수 있다
    분석후보선택 : 후보 형태소들에 대한 어휘 사전의 검색과 단어 형성 규칙, 결합 제약 조건 등에 의해 최종적으로 옳은 후보를 선택하는 과정
    후처리 : 복합명사나 사전 미등록어, 준말 등과 같이 언어 종속적이거나 특이한 언어 현상들을 처리

10.3 한국어 형태소 분석기의 구조
    
    이층 형태론
    한 이층 형태론

10.4 형태소 분석기의 성능