2024/10 6

10. 텍스트 데이터 전처리

이전 내용 복습시작하기 앞서 우선 서울에 위치하는 약국의 데이터만 따로 변수에 저장해서 활용해보겠습니다.df_seoul_drug["시군구명"]을 사용하면 시군구명 column에 해당하는 데이터만 확인이 가능합니다. (데이터프레임에 대괄호를 하고 확인하고 싶은 컬럼명을 입력)c = df_seoul_drug["시군구명"].value_counts()c.head()을 사용하면 특정 시군구별에 해당하는 데이터들의 수를 확인할 수 있고, head()를 통해 상위 5개의 시군구명을 확인할 수 있습니다. c.plot.bar(rot=60)을 사용하면 bar 그래프로 시각화할 수 있으며, rot=60을 통해 가로 레이블에 기울기를 60도로 지정할 수 있습니다.n = df_seoul_drug["시군구명"].value_cou..

9. 데이터 색인하기

원하는 데이터만 추출해서 데이터 색인하기 '==' 기호 활용 == 기호를 활용하여 csv파일에 "상권업종중분류명" 칼럼의 데이터들 중 "약국/한약방"에 해당하는 데이터만 True로 출력한다. 더보기 간단 응용:약국/한약방인 상권만 True로 전처리한 데이터를 변수에 지정하고 value_counts() 함수를 사용하면 True로 확인된 상권의 총 개수를 확인할 수 있습니다.기존 df["상권업종중분류명"]=="약국/한약방" 을 한번 더 df[] 로 덮으면 해당 조건에 True인 데이터만 추출이 가능합니다.특정 조건으로 추출한 데이터를 다른 목적으로 변형해서 사용할 때 copy() 를 사용해야 warning 이 발생하지 않으며 원본이 영향받지 않습니다.  추출 조건 추가하기상권업종대분류명이 "의료"에 해당하는..

8. 데이터 시각화 (Visualization)

seaborn 라이브러리이전에 간단히 소개한 대로, seaborn 라이브러리는 시각화를 위한 다양한 그래프를 제공하는 도구입니다. seaborn은 일반적으로 x,y, data에 대한 정보를 지정해야 함.장점: 고급 통계 기능을 그래프 내부적으로 제공하고 있습니다.단점: 데이터 크기가 클수록 속도가 느려집니다.그래프 그려보기표시해야 할 데이터가 많아질수록 가독성은 낮아진다. 다양한 설정을 통해 가독성을 향상시킬 수 있다. 위경도 데이터 scatterplot으로 시각화하기df_seoul["시군구명"].value_counts()우선 서울 각각의 시군구에 얼마나 많은 병원이 있는지 출력해봤습니다.df_seoul["시군구명"].value_counts().plot.bar(figsize=(10,4), rot=30)이..

7. 데이터 요약하기

기초 통계값* 데이터의 타입은 dtypes를 통해 확인 가능.df["위도"].dtypes 기존에 불러온 상가업소정보 데이터를 기반으로 실습을 해보자.df["위도"] 를 출력하면 위도라는 column의 데이터만 확인할 수 있다.위 사진에서 보다싶이, Google Colab에서는 굳이 .dtypes 함수를 사용하지 않더라도 하단에 타입이 같이 출력되긴 한다.1. 평균값mean()을 사용하면 해당 값들의 평균값을 확인할 수 있다.2. 중앙값median()을 사용하면 전체 데이터의 중앙값을 확인할 수 있다. (가운데 데이터의 값)3. 최대값max()를 사용하면 해당 데이터 중 가장 큰 값을 확인할 수 있다.4. 최소값min()을 사용하면 가장 작은 값을 확인할 수 있다.5. 데이터 개수count()를 사용하면 ..

6. 결측치 다루기

결측치란?결측치란 값이 없거나, NaN으로 나타나는 데이터를 의미합니다.데이터에 따라 다르지만, 여기서는 따로 데이터가 없는 값으로 보기에 해당 column은 제외하는 방식으로 데이터 전처리 과정을 갖는다. df.isnull() 을 통해 결측치가 존재하는 컬럼을 구한다. 이때 isnull은 해당 데이터가 결측치라면 True를 반환한다.null_count = df.isnull().sum() 을 통해 True로 추출된 결측치 데이터들의 총 합을 구하고 변수에 저장한다. (boolean indexing을 통해 True는 1과 동일함)이제 null_count 변수를 출력해보면,이와 같이 결측치가 없는 데이터는 0으로 출력되고 결측치가 있는 데이터는 결측치의 개수가 출력된다.결측치 시각화하기결측치를 저장한 nul..

5. 데이터 미리보기 및 요약하기

공공데이터 로드하고 데이터 미리보기 + 요약import pandas as pdimport seaborn as snsimport numpy as npimport matplotlib.pyplot as plt파이썬에서 판다스를 사용하기 위해서는 우선 판다스 라이브러리를 import를 통해 불러와야 한다.이때, pandas as pd를 통해 매번 모듈명을 작성해야 하는 번거로움을 줄인다. (pd만으로 모듈 사용) numpy 라이브러리는 고성능 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리 (수치해석을 위한 기능)seaborn 라이브러리는 데이터 시각화를 위한 라이브러리matplotlib도 데이터 시각화를 위한 라이브러리 (그래프를 그리기 위한 기능)시각화를 위한 폰트 설정!sudo ap..