검색엔진/형태소
2. 한국어의 특성
문죄송
2016. 2. 12. 16:17
코드체계 및 표기 특성
자모가 구성하는 단위
음절 단위로 표기하기 때문에 2-바이트 코드체계를 사용하지만 각음절을 구성하고 있는 자음과 모음이 명확하게 구별되므로 '음절단위처리' 와 '자모단위처리'가 동시에 지원되는 코드체계로 구현
한개이상의 형태소가 어절 을 구성하고 있어서 어절단위로 띄어쓰는 특징->띄어쓰기 경계가 명확하지 않는 경우가 있다.
형태론적 특성
한국어의 단어는 한개 이상의 형태소들이 결합하여 단어를 구성->어절
형태론적 변형을 복원
구문론적 특성
이중주어현상, 주어의 생략이 자유롭다.
품사체계
한글 음절 특성
한글 자모 빈도