10. 텍스트 데이터 전처리

Data Science(w. naver boostcourse)

10. 텍스트 데이터 전처리

테크MANIA 2024. 10. 22. 12:30

이전 내용 복습

시작하기 앞서 우선 서울에 위치하는 약국의 데이터만 따로 변수에 저장해서 활용해보겠습니다.

df_seoul_drug["시군구명"]

을 사용하면 시군구명 column에 해당하는 데이터만 확인이 가능합니다. (데이터프레임에 대괄호를 하고 확인하고 싶은 컬럼명을 입력)

c = df_seoul_drug["시군구명"].value_counts()
c.head()

을 사용하면 특정 시군구별에 해당하는 데이터들의 수를 확인할 수 있고, head()를 통해 상위 5개의 시군구명을 확인할 수 있습니다.

c.plot.bar(rot=60)

을 사용하면 bar 그래프로 시각화할 수 있으며, rot=60을 통해 가로 레이블에 기울기를 60도로 지정할 수 있습니다.

n = df_seoul_drug["시군구명"].value_counts(normalize=True)

을 사용하면 특정 시군구별에 해당하는 데이터들의 비율을 확인할 수 있습니다.

df_seoul_hospitals = df[(df["상권업종소분류명"]=="종합병원") & (df["시도명"]=="서울특별시")]

을 사용하면 서울에 위치하는 종합병원만 추출해서 변수에 저장할 수 있습니다.

df_seoul_hospital["시군구명"]

을 사용하면 서울에 위치한 종합병원들이 어느 시군구에 위치하는지 볼 수 있습니다.

추가로 value_counts()를 사용하면, 시군구별 종합병원들의 수를 확인할 수도 있습니다.

텍스트 데이터 색인하기

특정 텍스트가 포함되는 데이터만 찾고 싶습니다.

df_seoul_hospitals["상호명"].str.contains("재단")

위 코드를 사용하면 '상호명' 칼럼 데이터에 '재단'이라는 텍스트가 포함된 데이터만 추출할 수 있습니다.

다만, 위 코드를 그대로 사용하면 df_seoul_hospitals에서 조건을 적용한 결과에 대한 True/ False 를 전부 나열해 주니 조금 수정해보겠습니다.

df_seoul_hospitals[df_seoul_hospitals["상호명"].str.contains("재단")]

기존에 True/False로만 나오던 결과 값에 대한 데이터를 다시 해당 데이터프레임으로 감싸면 True에 대한 결과 데이터들만 표로 확인이 가능합니다.

데이터 제거하기

데이터를 확인하다 보면 필요 없는 데이터거나, 의미 없는 데이터가 포함되어 있을 수도 있습니다.

이런 경우 해당 데이터를 제거하면 되는데, 일일히 제거하기 어려우니 조건을 통해 불필요한 데이터를 추출하고 해당 데이터들의 위치인 인덱스 값만 따로 뽑아서 제거하면 좋습니다.

* 추출한 인덱스 값은 리스트 형태로 변환 후 사용합니다.

str.contains를 통해 제거할 데이터를 텍스트 색인을 통해 추출하고 변수에 저장합니다.

위 과정처럼 두개의 drop_row 리스트를 + 연산자를 통해 합쳤는데요, 이는 파이썬에서 제공하는 기본 문법이기도 합니다. (리스트+리스트 합치기 가능)

drop 함수를 통해 데이터를 드랍하고 shape으로 데이터의 크기를 확인하면 제거된 모습을 확인할 수 있습니다.

최종적으로 전처리된 데이터를 seaborn을 통해 시각화해보면, 어느 지역에 종합병원이 가장 많이 분포되어 있는지 확인할 수 있습니다.

plt.figure(figsize=(15,4))
sns.countplot(data=df_seoul_hospitals,x="시군구명",palette='rainbow')

저작자표시 비영리 변경금지

'Data Science(w. naver boostcourse)' 카테고리의 다른 글

9. 데이터 색인하기 (0)	2024.10.21
8. 데이터 시각화 (Visualization) (4)	2024.10.11
7. 데이터 요약하기 (0)	2024.10.10
6. 결측치 다루기 (8)	2024.10.04
5. 데이터 미리보기 및 요약하기 (3)	2024.10.03

현재글10. 텍스트 데이터 전처리

IT Enthusiast

다양한 개발 지식을 재미있어하는 괴짜

사무용마우스, 데이터 사이언스, 주피터 노트북, 부스트코스, MX Master 3S, data frame, Python, 캔디 바닐라 스위치, 키네틱스, Keynetix, 결측치, Bsun 스위치, 코칭스터디, vscode #html #emmet #tab안될때 #자동완성, Bsun 캔디바닐라, 네이버 부스트코스, pandas, 다얼유A87PRO8K #DAREU #게이밍키보드 #8K키보드, padnas, 비선 스위치,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

IT Enthusiast