본문 바로가기

데이터분석캠프 TIL

250313 TIL 데이터분석과정(최종 프로젝트 EDA 시각화)

1. 회고

오늘은 하루 종일 데이터셋의 EDA를 진행했다. 지난주에는 SQLD 시험이 있어서 준비할 시간이 많지 않았었는데, 이번주에는 온전히 데이터 분석에 집중할 수 있는 시간이 있었다. 

 

Keep

- 현업에 들어가서도 EDA를 꼼꼼하게 할 것

- EDA를 통해서 데이터 자체에 대한 해석을 꼼곰하게 하고, 처음부터 다시 데이터프레임을 다시 짜는 시행착오를 줄일 수 있어야 함 

 

 

Problem

- 시각화 코드를 자유롭게 짤 수 있도록 코드 연습을 많이 해볼 것 

 

Try

- 변수 간 상관관계에 대한 가설을 많이 세워볼 것 

 

2. EDA 내용 정리

(1) 이상치 정리

 

이상치 파악을 위해 박스플롯 부터 그려보았다. 

 

 

 

 

 

 

 

 

 

(2) 수치형 변수 기술통계

 

 

(3) 히트맵 

 

(4) Scatter plot 

 

- 가격과 셀러 판매가의 관계 

 

- 셀러 수익금과 가격의 관계 

 

- 가격과 구매자 수수료의 관계 

(5) 

product_categories= data.groupby('product_category').size().reset_index(name='Count')
product_categories