pandas 3

8. 데이터 시각화 (Visualization)

seaborn 라이브러리이전에 간단히 소개한 대로, seaborn 라이브러리는 시각화를 위한 다양한 그래프를 제공하는 도구입니다. seaborn은 일반적으로 x,y, data에 대한 정보를 지정해야 함.장점: 고급 통계 기능을 그래프 내부적으로 제공하고 있습니다.단점: 데이터 크기가 클수록 속도가 느려집니다.그래프 그려보기표시해야 할 데이터가 많아질수록 가독성은 낮아진다. 다양한 설정을 통해 가독성을 향상시킬 수 있다. 위경도 데이터 scatterplot으로 시각화하기df_seoul["시군구명"].value_counts()우선 서울 각각의 시군구에 얼마나 많은 병원이 있는지 출력해봤습니다.df_seoul["시군구명"].value_counts().plot.bar(figsize=(10,4), rot=30)이..

6. 결측치 다루기

결측치란?결측치란 값이 없거나, NaN으로 나타나는 데이터를 의미합니다.데이터에 따라 다르지만, 여기서는 따로 데이터가 없는 값으로 보기에 해당 column은 제외하는 방식으로 데이터 전처리 과정을 갖는다. df.isnull() 을 통해 결측치가 존재하는 컬럼을 구한다. 이때 isnull은 해당 데이터가 결측치라면 True를 반환한다.null_count = df.isnull().sum() 을 통해 True로 추출된 결측치 데이터들의 총 합을 구하고 변수에 저장한다. (boolean indexing을 통해 True는 1과 동일함)이제 null_count 변수를 출력해보면,이와 같이 결측치가 없는 데이터는 0으로 출력되고 결측치가 있는 데이터는 결측치의 개수가 출력된다.결측치 시각화하기결측치를 저장한 nul..

5. 데이터 미리보기 및 요약하기

공공데이터 로드하고 데이터 미리보기 + 요약import pandas as pdimport seaborn as snsimport numpy as npimport matplotlib.pyplot as plt파이썬에서 판다스를 사용하기 위해서는 우선 판다스 라이브러리를 import를 통해 불러와야 한다.이때, pandas as pd를 통해 매번 모듈명을 작성해야 하는 번거로움을 줄인다. (pd만으로 모듈 사용) numpy 라이브러리는 고성능 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리 (수치해석을 위한 기능)seaborn 라이브러리는 데이터 시각화를 위한 라이브러리matplotlib도 데이터 시각화를 위한 라이브러리 (그래프를 그리기 위한 기능)시각화를 위한 폰트 설정!sudo ap..