검색엔진/형태소

19. 형태소 분석기의 구현

문죄송 2016. 6. 14. 17:36

19.1 형태소 분석기의 입력 문자열

    1. 형태소 분석의 처리 단위는 "띄어쓰기로 구분되는 어절" 이다. 지능형 형태소 분석기를 구현하기 위해 앞뒤 어절과의 관령성이나 문맥을 반영하는
    방법론이 가능하지만, 여기서는 독립적인 어절을 분석하는 것으로 제한한다. 이 때 띄어쓰기 단위로 구분되는 문자열은 괄호, 따옴표, 문장부호, 등이
    결합되어 있다. 기호와 문장부호는 어절 자체를 구정하는 요소가 아니므로 어절과 구분하여 처리한다.

    2. 형태소 분석의 단위는 중의성 해결, 구분 분석 시스템과의 연계성 등을 고려하여 문장 단위 입출력이 가능하도록 한다. 형태소 분석의 처리 단위는
    '어절' 이지만 그 결과를 활용ㅇ하는 자연 언어 처리 시스템의 처리 단위는 문장이 일반적이므로 문장 단위의 입출력을 지원한다.

    3. 한국어 형태소 분석의 핵심은 항글 어절의 분석이지만, 한글 문서는 숫자와 영문자, 한자어, 기호 등이 혼합되어 있다. 따라서 각 유형의 어절들에
    대한 형태소분석 결과를 생성한다.

19.2 분석 결과의 자료구조

    한국어의 형태소 분석 결과로 생성되는 요소들의 예 : 어근, 조사, 어미, 선어말어미, 접미사 등
    
    문장구조체
    어절구조체
    분석결과구조체
    조사/어미의 변이체 정보

19.3 형태소 분석 알고리즘

   
 분석결과를 저장할 결과 구조체를 초기화 하고 기분석 사전을 탐색하여 기분석 결과를 생성한다. 입력 어절 키워드로 부터 조사/어미 를 분리한 후보
    를 생성한다.