Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Archives
Today
Total



GitHub Contribution
Loading data ...
관리 메뉴

초보 개발자의 일기

Boston Marathon 2019_데이터 확인 본문

소소한 공부 일기/데이터 분석

Boston Marathon 2019_데이터 확인

Da다 2021. 6. 6. 17:00

학원에서 Finishers Boston Marathon 2015, 2016 & 2017 데이터셋으로 데이터 전처리와 시각화방법을 배웠는데요!

캐글에 검색해보니 Boston Marathon 2019 데이터가 있어서 복습도 할 겸 전처리와 시각화를 해보려고 합니다.

 

Finishers Boston Marathon 2015, 2016 & 2017

This data has the names, times and general demographics of the finishers

www.kaggle.com

 

Boston Marathon 2019

Analysis of the Boston Marathon 2019 results based on different properties

www.kaggle.com

데이터 전처리를 하려면 데이터를 다운받아야 합니다. 위의 링크나 캐글에 검색하셔서 데이터를 받아주세요!

준비

데이터를 받은 후에 압축을 풀어주세요!

 

이렇게 캐글 내의 다운로드를 받았던 화면에서 데이터의 구성을 확인할 수 있습니다.

 

엑셀로 파일을 열어서 직접 확인할 수도 있어요!


데이터 로딩

저는 주피터 노트북을 이용해서 데이터 시각화를 진행했습니다.

 

Python3로 파일을 생성한 후, 경로를 확인해주세요.

이때, 같은 경로에 데이터 파일이 있으면 쉽게 데이터를 로딩할 수 있습니다.

pwd    # 경로 확인    # 사실 굳이 안해줘도 됩니다!

 

라이브러리(판다스와 넘파이)를 호출합니다.

데이터도 불러와서 저장합니다.

import pandas as pd # 판다스 - 데이터 분석을 위한 라이브러리
import numpy as np  # 넘파이 - 숫자, 계산, 행렬을 위한 라이브러리

marathon_2019 = pd.read_csv('./Dataset-Boston-2019.csv')    # 데이터 호출

 

불러온 데이터가 정상적으로 저장되었는지 확인합니다.

print(marathon_2019.shape)    # 데이터의 shape을 확인합니다.
marathon_2019.head(10)        # 상위 10개 행을 출력합니다.

 

shape을 출력했기 때문에 총 26651개의 행과 8개의 컬럼으로 구성되어 있는 것을 알 수 있습니다.

이렇게 보니 2015~2017 데이터보다는 컬럼이 적네요!


데이터 확인

이제 데이터의 형식 등을 확인해 보겠습니다.

marathon_2019.info()   # 데이터의 정보를 확인합니다.

 

Result _sec, Result_hr 컬럼이 object로 되어있으니 변환을 해줘야겠네요!

 

다음은 데이터의 null 값을 확인해보겠습니다.

marathon_2019.isnull().sum()

 

다행히도 null값이 하나도 없습니다. 전처리가 쉬울것 같네요!


오늘은 데이터를 불러와서 확인까지 했으니, 다음 시간에 데이터 정제를 진행해보도록 하겠습니다~

Comments