검색엔진/형태소

2. 한국어의 특성

문죄송 2016. 2. 12. 16:17

코드체계 및 표기 특성


자모가 구성하는 단위

음절 단위로 표기하기 때문에 2-바이트 코드체계를 사용하지만 각음절을 구성하고 있는 자음과 모음이 명확하게 구별되므로 '음절단위처리' 와 '자모단위처리'가 동시에 지원되는 코드체계로 구현

한개이상의 형태소가 어절 을 구성하고 있어서 어절단위로 띄어쓰는 특징->띄어쓰기 경계가 명확하지 않는 경우가 있다.


형태론적 특성


한국어의 단어는 한개 이상의 형태소들이 결합하여 단어를 구성->어절

형태론적 변형을 복원


구문론적 특성


이중주어현상, 주어의 생략이 자유롭다.


품사체계


한글 음절 특성


한글 자모 빈도