Notice
Recent Posts
Recent Comments
Link
목록딥러닝을 이용한 자연어 처리 입문 (1)
초보 개발자의 일기
정제(Cleaning) and 정규화(Normalization)
Cleaning and Normalization 코퍼스에서 용도에 맞게 토큰을 분류하는 작업이 앞서 포스팅 했던 '토큰화'이고, 토큰화 작업 전 후에는 데이터를 용도에 맞게 정리해주는 일이 함께한다. 정제는 코퍼스로부터 노이즈 데이터를 제거하는 것이고, 정규화는 표현방법이 다른 단어들을 통합시켜 같은 단어로 만들어 준다. '정규 분포'라는 단어와 '가우시안 분포'라는 단어가 있다. 이 둘은 같은 의미를 갖고 있으면서 표기가 다른다. KOR과 Korea 또한 표기가 다르지만 여전히 같은 의미를 지니고 있다. 정규화를 거치게 되면 둘 중 하나를 찾아도 함께 찾을 수 있게 된다. 영어권에서 대, 소문자를 통합하면 단어의 개수를 줄일 수 있다. 'Tea'와 'tea'가 있다. 이 둘은 다른 언어로 받아들여지는데..
소소한 공부 일기/NLP
2021. 7. 20. 10:13