26. 자동 띄어쓰기
26.1 자동 띄어쓰기 문제
한글 문서의 자동 띄어쓰기는 이웃한 두 어절을 붙여쓴 경우에 자동으로 띄워주는 기능과 문장 전체 또는 여러 어절을 모두 붙여썻을 떄 각 어절
을 자동으로 분리하는 기능이 가능하다. 이웃한 두 어절 사이의 띄어쓰기는 현재 문서편집기에서 활용되고 있으나 자주 틀리는 고정된 유형에 대해
서만 처리되는 제약이 있다.
1. 공백 삽입 접근법
n개의 음절로 이루어진 문장의 띄어쓰기 문제는 음정과 음절 사이에 공백을 삽입해야 하는지, 그렇지 않은지에 따라 어느 위치에 공백을 삽입할
것인가 하는 문제로 정의된다.
2. 어절 인식 접근법
어절 인식을 바탕으로 한 자동 띄어쓰기는 문장 내에 출현한 어절을 인식하여 어절과 어절 사이에 공백을 삽입하는 인식론적인 방법이다.
26.2 띄어쓰기 알고리즘
순방향 역방향 알고리즘
어절인식을 위한 순방향 알고리즘은 입력 문장을 전진 방향으로 진행하면서 형태소 분석기를 이용하여 순차적으로 어절을 분석하는 방법이고
역방향 알고리즘은 진행 방향으로 반대로 하여 문장끝에서 부터 후진 방향으로 어절을 인식해 나가는 방법이다.
양방향 최장일치법
문장의 양쪽끝에서 동시에 진행하는 방법. 즉 순방향 알고리즘과 역방향 알고리즘을 조합하여 문장의 첫부분 혹은 끝부분 부터 어절을 인식
하다가 더 이상 어절이 인식되지 않으면 다른쪽 끝에서 부터 반대쪽으로 어절을 인식한다.
어절 블록 양방향 알고리즘
문장의 길이를 어절수 3~4개 정도의 어절 블록으로 분할한 후에 양방향 최장일치법을 적용하는 방법
26.3 어절 블록 및 어절 인식
어절 블록 인식
조사로 사용되는 음절수는 70여개, 어미로 사용되는 음절수가 130 여 개로 자주 사용되는 음절수 1,300여 개에 비해 그 수가 매우 적으므로
문장내에 나타난 조사/어미의 음절 특성을 이용하여 어절 블록의 경계를 인식한다.
어절 블록내의 어절 인식
조사부분을 제외한 어절 블록의 음절수다 4음절 이하인 경우는 음절수에 따라 처리한다. 어절 블록 전체가 형태소 분석 성공이면 하나의 어절로
간주하고, 3음절이면 2+1 또는 1+2 , 4음절이면 2+2,1+3,3+1 로 분할하여 검사한다.