13.1 형태소 분석의 특성 및 요구 사항
형태소 분석의 활용 분야
자동 색인 - 명사 등 색인어 추출
맞춤법 검사 - 분석성공, 실패에 의한 오류어 판단
기계번역, 기계이해 등 - 정확한 분석 결과 1개
형태소 분석기의 유형
범용 형태소 분석기
특정 복적을 위한 형태소 분석기
언어별 형태소 분석 모델의 주요 관점
영어 - 형태론적 변형 문제
한국어 - 형태소 분리 문제
일본어, 중국어 - 단어 분리 문제
기능
문장 부호와 숫자의 처리
어휘 형태소와 문법 형태소의 분리
분리된 형태소간의 결합 조건 검사
사전 탐색
복합어와 미등록어의 추정
중의적 분석 결과의 생성 가능
오류 방지 조건
옳은 어절을 분석하지 못하는 오류가 없어야 한다.
옳은 어절을 엉뚱하게 잘못 분석하는 오류가 없어야 한다.
틀린 어절을 분석하는 오류가 없어야 한다.
중의성을 갖는 어절의 가능한 모든 분석 결과를 출력해야 한다.
13.2 형태소 분석기의 구조
형태소 분리 기능
원형 복원 기능
형태소간 결합 관계 검사
기타 필요한 기능
13.3 다단계 모델에 의한 형태소 분석
전처리
문법형태소 분리
체언 분석
용언 분석
단일형태소 분석
복합어 추정
준말처리
미등록어 추정
후처리
13.4 형태소 분석 후보 생성
13.5 단일어 후보 제약
2 음절 이상의 문법형태소가 분리된 어절은 단일어로 분석될 가능성이 매우 낮다.
'는/을/를/에' 로 끝니는 어절은 단일어 혹은 독립언으로 분석될 가능성이 거의 없으며, '은'으로 끝나는 어절은 단일어 혹의 독립언으로 분석될 가능성이
매우 낮다.
13.6 문법 형태소 분리 제약
2음절 이상의 조사(또는 어미) 가 분리된 어절은 어미(또는 조사) 가 분리될 가능성이 없다.
문법 형태소를 분리할때는 최장 문법 형태소가 분리된 분석 후보와 최장 문법형태소보다 1 음절 짧은 문법형태소에 대한 후보만 생성한다.
13.7 어간과 어미의 분리 조건
규칙 용언과 규칙 어미 : 규칙 용언과 어간만 변하는 불규칙 용언의 어미부가 문법형태소 사전에 어미로 등록되어 있으면 이를 어미로 추정한다.
'ㄴ/ㅇ/ㅁ/ㅂ' 으로 시작되는 어미 : 어간부가 받침 'ㄴ/ㅇ/ㅁ/ㅂ' 으로 끝나고 'ㄴ/ㅇ/ㅁ/ㅂ' + 어미부 가 문법형태소 사전에 어미로 등록되어 있으면
'ㄴ/ㅇ/ㅁ/ㅂ'+어미부 를 어미로 추정한다.
'하여/거라/너라/' 불규칙 어미 : 어간부의 마지막 음절과 어미부의 첫부분이 각각 '하-' 와 '-여', '가-' 와 '-거라', '오-' 와 '-너라' 이면 어미부를 어미로 추정한다.
'아/어' 가 탈락되는 어미 : 어간부 끝음절이 '아/어' 가 아니고 '아/어'+어미부 가 문법형태소 사전에 어미로 등록되어 있으면 '아/어' 가 생략된 어미로
추정한다.
'아/어' 로 시작되는 어미의 변이체 : 어간부 끝음절의 중성이 'ㅘ/ㅝ/ㅕ/ㅐ/ㅔ/ㅒ/ㅙ' 이고 '아/어'+어미부 가 문법형태소 사전에 어미로 등록되어 있으면
'아/어' 의 변이체 어미로 추정한다.
'푸' 불규칙 : 어간부가 '퍼-' 이고 '아/어'+어미부 가 문법형태소 사전에 어미로 등록되어 있으면 '아/어' 가 생략된 어미로 추정한다.
13.8 전처리 기능
한글 이외의 문자에는 문장 부호와 숫자, 영문자, 한자, 특수문자 기호 등이 있다. 이들은 형태소 분석시에 전처리 과정에서 분석해야 한다.
13.9 형태소 분석기 구현시 고려 사항
1. 단어 형성 규칙에 어긋나는 오류어는 분석 실패 후 미등록어 추정을 한다.
2. 형태소 사전은 형태소 분석에 반드시 필요한 가전과 추가 정보가 수록된 사전으로 구분하여 구성한다.
3. 형태소 분석의 효율은 입력 단어의 길이가 아니라 단어를 분석하기 위하여 시도되는 평균분석시도 횟수이다.
4. 형태소 분석 알고리즘은 탐색 공간을 최소화하고 확장성을 최대로 하는 방법을 취한다.
5. 형태소 분석 결과에 가중치를 부여한다.
'검색엔진 > 형태소' 카테고리의 다른 글
15. 선어말 어미 (0) | 2016.06.09 |
---|---|
14. 조사/어미의 음절 특성 (0) | 2016.06.09 |
12. 한국어 형태소 분석 기법 (0) | 2016.06.01 |
11. 형태소 분석 방법론 (0) | 2016.06.01 |
10. 형태소 분석기의 구조 (0) | 2016.05.30 |