본문 바로가기
검색엔진/형태소

3. 한글코드와 코드 변환

by 문죄송 2016. 2. 17.

1.코드체계


-영문아스키 코드

영문자(대소) 52 숫자 10 특수문자 34 제어문자 32

-한글코드

완성형 한글코드(KS C5601) 한글입출력에는 문제가 없으나 초성, 중성, 종성이 음절을 구성하는 한글의 특성때문에 형태소 분석이나 출현빈도 계산에서의 문제가 야기

-n바이트 한글코드

자음과 모음을 아스키 문자로 대응, 한음절의 길이가 2~5바이트로 가변적, 탐색과 정렬에 문제

-3바이트 한글코드

초성, 중성, 종성을 가가 하나의 아스키 문자오 대응, 한 음절의 길이가 3바이트로 고정(복자음 문제 해결)

-상용 조합형 한글코드

초성, 중성, 종성에 각 5비트 코드를 부여하고 이를 2바이트로 조합, 최상위 비트는 한영 구분

-KS완성형 한글-한자 코드

한자가 많은 한글문서에 대응하기 위해 국제 표준 협회의 기준을 따라 7-bit아스키 코드 영역과 충돌하지 않는 범위에서 한글 및 한자 코드 부여

-KS완성형 한글코드

한글문자중 빈도수가 높은 2,350 자를 선별하여 한글코드 정의

-KS완성형 자모코드

KS완성형 한글코드는 음절 단위로 코드를 부여하므로 자음과 모음에 대한 코드를 부여

-KS완성형 한자코드

빈도수에 따라 4888자의 한자를 선별하여 한글 발음네 따라 가나다 순서대로 코드 부여


2.유니코드


상용 조합형, KS 완성형 한글코드는 영문 아스키 코드와 중복되지 않게 정의되어 있으나 기타 다른 언어의 코드체계와 중복되는 경우가 발생한다.

이러한 문제점을 해결하기 위하여 유니코드 체계가 고안

11,172개의 한글 음절이 '가'~'힣' 까지 순서대로 정의

계산식을 이용하여 초성, 중성, 종성을 인식

초성 : (unicode-0xAC00)/28

중성 : (unicode-0xAC00)%(21*28)/28

종성 : ((unicode-0xAC00)%(21*28))%28

'검색엔진 > 형태소' 카테고리의 다른 글

6. 한국어의 형태론적 특성  (0) 2016.05.30
5. 어절 빈도 조사  (0) 2016.05.23
4. 코드 변환과 인코딩  (0) 2016.05.23
2. 한국어의 특성  (0) 2016.02.12
1. 한국어 정보처리 개요  (0) 2016.02.11