20. 형태론적 중의성 해결
20.1 형태론적 중의성 유형
형태론적 중의성 어절
임의의 어절에 대해 다능한 모든 형태소 분석 결과를 생성하는 형태소 분석기 M 이 단어 w 에 대한 분석 결과로 R1,R2....Rn 을 생성할때 n>=2 이면
w 는 형태론적 중의성이 있는 어절이다.
형태론적 중의성 유형 분류
어절 w 에 대한 임의의 두 개의 분석 결과 Ri 와 Rj 에 대해 형태론적 차이점을 기준으로 중의성 유형을 분류한다. 이때 어절 w 에 대한 분석 결과 Ri
와 Rj 의 중의성 유형은 두 가지 이상의 유형에 속하지 않고 유일하게 결정되는 것을 원칙으로 한다.
1. 어근 유형 중의성
두 형태소 분석 결과에 대해 어휘형태소의 품사가 체언과 용언, 혹은 체언과 독립언 등 대분류 차원에서 단어 유형이 다른 경우이다.
2. 형태소 분리 중의성
조사나 어미의 분리 위치는 동일하지만 명사형 어미, 접미사, 보조용언, 선어말어미 '시' 등의 분리 여부에 따라 형태소의 개수가 달라진다.
3. 형태소 길이 중의성
어든의 품사가 동일한 품사범주 에 속하면서 조사와 어미의 분리 위치에 따라 어휘형태소의 길이가 달라지는 중의성이다.
4. 불규칙 어간 중의성
어휘형태소가 분리되는 위치는 같으나 불규칙 용언의 원형 복원에 의하여 발생하는 중의성을 불규칙 어간 중의성 이라한다.
5. 서술격 조사 중의성
'-라고'와 같이 조사와 어미로 사용되면서 어미 앞에 서술격 조사가 경합됭 수 있는 것은 형태소 분석 결과로 체언+조사 유형과 체언+서술격
조사+어미 유형이 생성된다. 또한 '이고/이라고' 등과 같이 '이' 로 시작되는 조사에서 '이' 를 제외한 부분이 어미인 경우에도 두 가지 유형
이 생성된다. 이러한 중의성을 서술격 조사 중의성이라 한다.
6. '아/에' 복원 중의성
7. 품사 중의성
형태소 분석 결과에서 어떤 형태소의 품사가 두 가지 이상이 가능한 경우
20.2 품사 체계에 의한 중의성
대부분의 체계는 어든의 품사 유형을 체언, 용언, 독립언 세 가지로만 분륲한 것으로 이 범주 내에서 발생하는 품사 중의성을 '1차 품사 중의성' 이라
한다. 중분류 체계는 체언을 명사/대명사/수사/의존명사, 용언을 자동사/타동사/형용사/보조용언, 독립언을 부사/관형사/감탄사로 세분화한 것으로
이러한 세분화로 인하여 발생하는 품사 중의성을 '2차 품사 중의성' 이라 한다.
20.3 중의성 해결 방법
1. 절대 가중치 부여 방법
형태소 길이 비례의 원칙
형태소 개수 비례의 원칙
원형 보존의 원칙
통계적 선호도의 원칙
2. 통계적 빈도수를 이용하는 방법
3. 상대 가중치 부여 방법
어근 유형 중의성의 해결
단어 유형에 따른 가중치 부여
문법형태소의 빈도/길이/구어체 정보
'아/에/이' 탈락 중의성