공공데이터 로드하고 데이터 미리보기 + 요약
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
파이썬에서 판다스를 사용하기 위해서는 우선 판다스 라이브러리를 import를 통해 불러와야 한다.
이때, pandas as pd를 통해 매번 모듈명을 작성해야 하는 번거로움을 줄인다. (pd만으로 모듈 사용)
numpy 라이브러리는 고성능 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리 (수치해석을 위한 기능)
seaborn 라이브러리는 데이터 시각화를 위한 라이브러리
matplotlib도 데이터 시각화를 위한 라이브러리 (그래프를 그리기 위한 기능)
시각화를 위한 폰트 설정
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
위 코드를 통해 나눔 폰트를 코랩에 설치해주는 작업을 진행하고
세션 다시 시작을 통해 런타임을 초기화해줍니다.
! 런타임 초기화 런타임 초기화를 진행하지 않을 경우 한글로 노출되지 않을 수 있습니다! 해당 코드를 통해 폰트를 설치했음에도 한글이 깨져서 보이는 경우 런타임을 초기화하고 진행해주세요. |
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
이후 위 코드를 통해 설치한 폰트를 적용해주면 시각화 차트에서도 한글 폰트가 깨지지 않고 정상 노출됩니다.
데이터 불러오기
pd.read_csv를 통해 불러올 파일의 절대경로와 파일명을 작성하고 한글 파일 오류 예방을 위해 encoding=''cp949' 설정을 추가합니다.
데이터 미리보기
df.head()를 사용하면 불러온 파일의 데이터 5개를 미리 볼 수 있습니다.
df.head()의 괄호 안에 넣는 인수는 미리 볼 데이터의 개수를 의미하며, 공백으로 비워두면 5로 설정됩니다.
* 명령어의 공식 문서를 빠르게 보는 방법 : 도구 > 설정 > 편집기 > 코드 완성 제안을 자동으로 표시 '해제' 이후 코드작성하다가 tab키를 누르면 독스트링을 볼 수 있음.
* ctrl + enter 키를 누르면 현재 위치의 셀에서 실행만 하고 다음 셀로 자동으로 넘어가지 않음
df.tail()를 사용하면 불러온 파일의 데이터 중 마지막 5개를 미리 볼 수 있습니다.
데이터 요약하기
df.info()라는 명령어를 통해 불러온 데이터의 간단한 요약본을 확인할 수 있다.
df.columns 명령어를 통해 모든 컬럼명을 확인할 수 있습니다.
df.dtypes() 명령어를 통해 column의 데이터 타입을 확인할 수 있습니다.
'Data Science(w. naver boostcourse)' 카테고리의 다른 글
7. 데이터 요약하기 (0) | 2024.10.10 |
---|---|
6. 결측치 다루기 (8) | 2024.10.04 |
4. 파일 경로 설정 및 불러오기 (0) | 2024.08.26 |
3. Pandas Cheat-Sheet (0) | 2024.08.12 |
2. 데이터 분석을 위한 파이썬 기초 (0) | 2024.08.02 |