Notice
Recent Posts
Recent Comments
Link
목록deeplearning (1)
초보 개발자의 일기
정제(Cleaning) and 정규화(Normalization)
Cleaning and Normalization 코퍼스에서 용도에 맞게 토큰을 분류하는 작업이 앞서 포스팅 했던 '토큰화'이고, 토큰화 작업 전 후에는 데이터를 용도에 맞게 정리해주는 일이 함께한다. 정제는 코퍼스로부터 노이즈 데이터를 제거하는 것이고, 정규화는 표현방법이 다른 단어들을 통합시켜 같은 단어로 만들어 준다. '정규 분포'라는 단어와 '가우시안 분포'라는 단어가 있다. 이 둘은 같은 의미를 갖고 있으면서 표기가 다른다. KOR과 Korea 또한 표기가 다르지만 여전히 같은 의미를 지니고 있다. 정규화를 거치게 되면 둘 중 하나를 찾아도 함께 찾을 수 있게 된다. 영어권에서 대, 소문자를 통합하면 단어의 개수를 줄일 수 있다. 'Tea'와 'tea'가 있다. 이 둘은 다른 언어로 받아들여지는데..
소소한 공부 일기/NLP
2021. 7. 20. 10:13