Notice
Recent Posts
Recent Comments
Link
목록딥 러닝을 이용한 자연어 처리 입문 (1)
초보 개발자의 일기
토큰화 (Tokenization)
Tokenizition 토큰(Token)이란 보통 화폐 대신에 유통되는 주조물 등을 말한다. 지금은 사용하지 않지만 버스 승차 시 사용했던 버스 토큰이나, 아직까지 사용되고 있는 지하철 토큰 등이 있다. 화폐의 경우 구겨지거나, 찢어지거나, 낙서가 되어 있어도 그 화폐의 가치는 변하지 않는다. 즉, 고유값을 가지고 있다. 그 고유값을 일정 모양의 주조물로 옮겨놓은 것을 토큰이라고 하는 것이다. (이것은 스스로 이해를 쉽게 하기 위해 생각해낸 예시이다.) 자연어처리에서의 토큰 또한 비슷한 개념이라고 생각하면 될 것 같다. 주어진 문장이나 큰 글에서 토큰(Token)이라 불리는 단위로 나누는 작업을 토큰화(Tokenization)라고 하며, 의미있는 부분을 토큰으로 정의한다. 다만 여기에서 의미있는 '부분'..
소소한 공부 일기/NLP
2021. 7. 14. 16:50