검색엔진/형태소
25. 수사 어절 정규화
문죄송
2016. 6. 15. 16:17
25.1 개요
25.2 수사 어절의 유형
수사는 기능에 따라 양수사와 서수사, 어원에 따라 고유어 수사와 한자어 수사로 구분된다.
25.3 수사 어절의 인식
입력 어절인지 판단하는 알고리즘과 수사 어절을 아라비아 숫자 스트링으로 변환하는 알고리즘이 이용된다.
25.4 수사 어절의 정규화
아라비아 숫자와 한글이 혼용된 문자열을 아라비아 숫자로 된 문자열로 변환하는 함수를 구현하기 위해서 숫자를 한글로 표기하는 규칙을 이용한다.
즉 영어에서는 천 단위로 쉼표를 삽입하지만 한글에서는 만 단위로 띄어쓴다.
25.5 띄어쓴 수사 어절의 결합