본문 바로가기
검색엔진/형태소

10. 형태소 분석기의 구조

by 문죄송 2016. 5. 30.

10.1 형태소 분석 개요

    분석 후보의 생성과 그 후보들로부터 옳은 분석 결과를 선택하는 과정

    - 형태소 분석의 처리 대상은 어절이다.
    - 어절은 하나 혹은 둘 이상의 형태소로 이루어진다.
    - 형태소는 형태론적 변형 규칙에 따라 변형이 일어날 수 있다.
    - 형태소 분석은 어휘 사전과 어절간의 결합 관계에 따른 제약을 받는다.
    - 형태론적 중의성이 있는 어절이 존재한다.

10.2 일반적인 형태소 분석 과정
    
    전처리 : 문서로부터 형태소 분석의 대상이 되는 단어를 추출하고, 문장 부호를 분리하며, 숫자나 특수 문자열을 처리한다.
    분석후보 생성 : 형태소 분리 과정과 원형 복원 과정을 거쳐 가능한 모든 분석 후보들을 생성
    결합제약검사 : 후보 생성 과정에서 분석 결과에 비해 매우 많은 후보들을 생성하게 되므로 결합 제약 규칙을 미리 적용함으로써
                        선택의 폭을 줄이고 분석의 효율성과 정확성을 높일 수 있다
    분석후보선택 : 후보 형태소들에 대한 어휘 사전의 검색과 단어 형성 규칙, 결합 제약 조건 등에 의해 최종적으로 옳은 후보를 선택하는 과정
    후처리 : 복합명사나 사전 미등록어, 준말 등과 같이 언어 종속적이거나 특이한 언어 현상들을 처리

10.3 한국어 형태소 분석기의 구조
    
    이층 형태론
    한 이층 형태론

10.4 형태소 분석기의 성능

'검색엔진 > 형태소' 카테고리의 다른 글

12. 한국어 형태소 분석 기법  (0) 2016.06.01
11. 형태소 분석 방법론  (0) 2016.06.01
9. 한국어 형태소 분석 개요  (0) 2016.05.30
8. 한국어의 음절 특성  (0) 2016.05.30
7. 품사 체계와 어절 유형  (0) 2016.05.30