21.1 개요
한국어 형태소 분석 시스템을 평가할때 기준이 되는 요소
1. 옳은 어절을 성공적으로 분석할 수 있는가?
2. 옳은 어절을 분석하지 못하는 오류가 발생하는가?
3. 옳은 어절을 엉뚱하게 분석하는 오류가 발생하는가?
4. 틀린 어절을 분석에 성공하는 오류가 발생하는가?
21.2 복수어 단위 정보
형태소 간의 결합은 선행 환경 자질이나 후행 황경 자질과의 통합 관계에 따라 다음과 같이 다섯 가지 부류로 나누어진다.
1. 한 어절 내에서 어휘 형태소와 문법 형태소 사이의 제약
2. 문법 형태소가 후행 단어의 품사를 제약하는 것
3. 어휘 형태소가 선행 단어의 문법 형태소를 제약 하는 것
4. 숙어적 표현
21.3 복수어 단위 형태소 분석 알고리즘
형태소 분석 후보로서 가능한 모든 경우의 수 = 어절의 음절 수 + 'ㅏ/ㅓ/ㅐ/ㅔ/ㅕ/ㄴ/ㄹ/ㅁ/ㅂ' 으로 끝나는 음절의 수
21.4 사전 미등록어 추정
복합어와 전문용어
사전 미등록어의 대부분을 차지하는 것은 복합 명사와 전문 용어, 신조어, 고유 명사 등, 음절 정보와 복수어 단위 정보에 의해 사전에
수록되지 않은 고유명사나 신조어와 같은 미등록어를 추정하기가 매우 쉬워진다.
붙여쓰기가 허용되는 어절
두 개 이상의 단어가 하나의 어절을 이루는 경우에는 각 형태소들이 결합할때 일정한 제약 조건을 갖게 된다. 그 제약 조건은 주로 발음의 편의를
위한 것과 두 형태소간의 의미 관계에 의한 것으로 구분된다. 이러한 제약 조건은 띄어쓰기 규칙과 매우 밀접한 관련이 있다. 대부분의 언어는
단어별로 띄어쓰기를 하지만 일본어나 중국어는 모든 단어를 붙여쓴다. 한국어는 한글 맞춤법 규정에 따라 각 어절은 띄어 쓰는 것을 원칙으로하고,
보조 용언과 복합명사에 대해서는 예외 규정이 있다.
'검색엔진 > 형태소' 카테고리의 다른 글
23. 용어 가중치 부여 기법 (0) | 2016.06.15 |
---|---|
22. 색인어 추출 기법 (0) | 2016.06.15 |
20. 형태론적 중의성 해결 (0) | 2016.06.14 |
19. 형태소 분석기의 구현 (0) | 2016.06.14 |
18. 형태소 분석과 품사 표지 (0) | 2016.06.14 |