24.1 복합명사의 인식 문제
형태소 분석에서 다루고자 하는 '단어' 는 단어 구성 규칙을 기준으로 하지 않고 사전을 기반으로 하여 정의된다. 즉 어떤 문자열이 사전에 수록되어
있으면 그것은 하나의 단어로 인식되지만 사전에 수록되어 있지 않으면 단어로 인식되지 않는다.
24.2 복합명사 사전의 구성
일반 복합 명사는 구 개 이상의 단어가 띄어쓴 형태로 국어 사전에 수록되어 있다. 현재 국어 사전에 표제어로 수록되어 잇는 네 음절 이상으로
구성된 복합어의 수는 18,238개로 이들은 모두 복합어 사전으로 구성할 수 있다. 복합 명사 사전은 국어 사전에 수록된 복합명사들을 추출하여
구성된다. 세 음절 이하로 이루어진 복합 명사는 출현빈도가 낮을 뿐 아니라 띄어 쓰는 경우가 거의 발생하지 않으므로 어휘 형태소 사전에 수록한다.
24.3 복합명사 인식방법
규칙 1. 단어 W 를 이루는 모든 구성명사 Wi가 사전에 수록되어 있고 그 품사가 명사이면 W는 복합 명사로 추정된다.
규칙 2. 마지막 구성명사 Wn이 명사이고 W1,...Wn-1 이 모두 '명사+조사' 혹은 '용언+어미' 로 분석되지 않으면 W는 복합명사로 추정한다.
24.4 복합명사 문해 문제
24.5 복합명사 분해 방법
1. 분해 후보 생성
복합명사에 대해 가능한 분해 후보 생성
미등록어가 포함된 복합명사 분해
중의적 분할이 발생한 경우에 옳은 후보 선택
2. 복합명사 분해 규칙
사전에 수록된 명사들의 시퀀스를 우선으로 분해 후보를 생성한다.
복합명사의 음절 패턴을 이용하여 빈도가 높은 유형을 우선으로 생성한다.
분해되는 단위명사의 음절수는 2음절 이상으로 한다. 즉 1음절 명사를 따로 분리하지 않고 접두사 혹은 접미사처럼 간주하여 접사와 동일한 방법
으로 처리한다.
2 음절 단위명사가 분해되면 2+x 유형과 함께 다음 1 음절을 접미사로 간주한 3+y 유형에 대한 분해 후보를 생성한다.
24.6 복합명사 분해 알고리즘
복합명사를 왼쪽에서 오른쪽 방향으로 2 음절 혹은 3음절 단위로 명사 사전을 참조하여 분해 후보를 생성한다.
예외규칙 1 : 사전에 수록되어 있는 4~5 음절 단위명사는 우선적으로 분리한다.
예외규칙 2 : 사전 탐색과 접미사에 의하여 단위명사가 분리되지 않으면 한 음절씩 건너뛴다.
24.7 접사와 1 음절 명사
1. 접사가 결합된 4음절 복합어
4음절어 분해시에 접사와 관련된 유형은 2+2 음절이 명사인지, 미등록어 인지에 따라 세 가지 경우가 발생한다.
2. 5음절 이상 복합어
보편적인 접사 이외에 어떤 접사들을 접사 사전에 수록할 것인가? 어떤 명사에 어떤 접사가 결합될 수 있는가?
따라서 복합명사 분해 알고리즘에서는 접사 사전을 이용하지 않고 단순히 한 음절씩 건너뛰기만 하고 접사 사전이나 1 음절 명사 사전은 참조하지
않는다. 단순히 건너뛰기만 하더라도 복합명사 분해 성능 저하 문제가 거의 없으며, 접사 사전을 활용하더라도 성능향상에 별 도움이 되지 않기
때문이다.
24.8 최종 후보 선택
가중치를 부여하는 규칙
1. 단위명사의 유형
분리된 단위명사들의 유형에 따라 '사전에 수록된 명사', '접미사가 결합된 명사', '미등록어' 의 순서대로 가중치를 부여한다.
2. 사전에 수록된 명사의 음절 길이
'사전에 수록된 명사' 는 음절수에 따라 음절의 길이가 길수록 가중치를 높이고 길이가 짧을수록 가중치를 낮춘다.
3. 접미사가 결합된 명사의 음절 길이
'접미사가 결합된 명사'는 음절수에 따라 3 음절인 경우와 4 음절 이상인 경우로 구분하여 4 음절 이상은 3 음절에 비해 가중치를 낮게 부여한다.
4. 음절 패턴 빈도
4~7 음절 복합명사는 음절 패턴 특성에 따라 빈도가 높은 패턴에 더 높은 가중치를 부여한다.
5. 중심어 빈도
복합명사 분해 후보의 첫 번째 단위명사와 맨 끝에 있는 단위명사들에 대해 첫번째 혹은 마지막 단위명사로 사용된 확률을 비교하여 가중치 부여
24.9 구현 및 실험
'검색엔진 > 형태소' 카테고리의 다른 글
26. 자동 띄어쓰기 (0) | 2016.06.15 |
---|---|
25. 수사 어절 정규화 (0) | 2016.06.15 |
23. 용어 가중치 부여 기법 (0) | 2016.06.15 |
22. 색인어 추출 기법 (0) | 2016.06.15 |
21. 복수어 단위 형태소 분석 (0) | 2016.06.15 |