목록소소한 공부 일기 (25)
초보 개발자의 일기
Boston Marathon 2019 - 시각화2 (Pareto Chart) Boston Marathon 2019 - 시각화1 (Column Chart) Boston Marathon 2019_데이터 확인 학원에서 Finishers Boston Marathon 2015, 2016 & 2017 데이터셋으로 데이터 전처리와 시각화방법을 배웠는데요! 캐글에 검색.. dada-devdiary.tistory.com 안녕하세요! 이번에는 빠르게 돌아왔습니당! 오늘 아침은 많이 선선해서 깜짝 놀랐네요. 낮에도 시원해졌으면 좋겠지만, 시간이 빨리 가는게 너무 아쉽습니다. 어제는 축이 두개인 Pareto Chart를 다뤄봤는데, 오늘은 비교적 쉬운 Pie 차트를 그려볼겁니다. 데이터는 캐글에서 'Boston maratho..
노트북 설정을 다시 해야할 일이 있어 한창 여러가지를 테스트해보던 중에 Konlpy에서 이런 오류가 발생했다. from konlpy.tag import Okt okt = Okt() text = '환경 설정 중입니다. 노트북에 설치해야 할 게 너무 많네요' print(*okt.pos(text),sep='\n') SystemError: java.nio.file.InvalidPathException: Illegal char at index 55: C:\ProgramData\Anaconda3\Lib\site-packages\konlpy\java\* 사실 이 오류를 지난번에도 겪었기 때문에 아무렇지 않게... 저 경로로 들어가서 jvm.py를 열어 에스테리스크(* : 이하 별표)를 지웠다. 별표는 총 2개이다. ..
Boston Marathon 2019 - 시각화1 (Column Chart) Boston Marathon 2019_데이터 확인 학원에서 Finishers Boston Marathon 2015, 2016 & 2017 데이터셋으로 데이터 전처리와 시각화방법을 배웠는데요! 캐글에 검색해보니 Boston Marathon 2019 데이터가 있어서 복.. dada-devdiary.tistory.com 안녕하세요! 이번에는 금방 돌아올 줄 알았는데 또 달이 바뀌어버렸네용... 시간이 정말 빨라요! 지난번에 Column Chart를 그려봤는데, 이번에는 파레토 차트를 다뤄보겠다고 말씀드렸었죠? 기억하시나요? 파레토 차트... 저한테는 차트 중에 가장 어렵습니다... 하지만 공부는 끝이 없으니 계속 다뤄봐야 늘겠죠! 이..
Cleaning and Normalization 코퍼스에서 용도에 맞게 토큰을 분류하는 작업이 앞서 포스팅 했던 '토큰화'이고, 토큰화 작업 전 후에는 데이터를 용도에 맞게 정리해주는 일이 함께한다. 정제는 코퍼스로부터 노이즈 데이터를 제거하는 것이고, 정규화는 표현방법이 다른 단어들을 통합시켜 같은 단어로 만들어 준다. '정규 분포'라는 단어와 '가우시안 분포'라는 단어가 있다. 이 둘은 같은 의미를 갖고 있으면서 표기가 다른다. KOR과 Korea 또한 표기가 다르지만 여전히 같은 의미를 지니고 있다. 정규화를 거치게 되면 둘 중 하나를 찾아도 함께 찾을 수 있게 된다. 영어권에서 대, 소문자를 통합하면 단어의 개수를 줄일 수 있다. 'Tea'와 'tea'가 있다. 이 둘은 다른 언어로 받아들여지는데..
Tokenizition 토큰(Token)이란 보통 화폐 대신에 유통되는 주조물 등을 말한다. 지금은 사용하지 않지만 버스 승차 시 사용했던 버스 토큰이나, 아직까지 사용되고 있는 지하철 토큰 등이 있다. 화폐의 경우 구겨지거나, 찢어지거나, 낙서가 되어 있어도 그 화폐의 가치는 변하지 않는다. 즉, 고유값을 가지고 있다. 그 고유값을 일정 모양의 주조물로 옮겨놓은 것을 토큰이라고 하는 것이다. (이것은 스스로 이해를 쉽게 하기 위해 생각해낸 예시이다.) 자연어처리에서의 토큰 또한 비슷한 개념이라고 생각하면 될 것 같다. 주어진 문장이나 큰 글에서 토큰(Token)이라 불리는 단위로 나누는 작업을 토큰화(Tokenization)라고 하며, 의미있는 부분을 토큰으로 정의한다. 다만 여기에서 의미있는 '부분'..
SQLD 공부를 시작했다. 정보처리기사 시험이 끝나고 나니까 하고싶은게 너무 많아져서 여러가지를 시도하는 중이다. SQLD는 5월부터 생각해둔 일정이므로 계획에 맞게 시작했다. 공부할 때 보통 타이핑을 하면서 자료를 읽고, 이해하는 편이기 때문에 오늘부터 1챕터씩 정리를 해보고, SQLD 기출 문제를 풀어볼 예정이다. 자료는 '데이터 전문가 포럼'의 무료학습 자료를 참고한다. SQLD가이드와 함께 너그러운 분들의 정리자료가 많이 올라와있다. 데이터 전문가 포럼 (빅데이터분석기사... : 네이버 카페 빅데이터분석기사, ADP, ADsP, SQLP, SQLD, DAP, DAsP, 자격증 취득 등 데이터 전문가 커뮤니티입니다. cafe.naver.com SQLD 시험일정은 아래 홈페이지에 나와있다. 올해 시험..