1. 회고
오늘은 하루 종일 데이터셋의 EDA를 진행했다. 지난주에는 SQLD 시험이 있어서 준비할 시간이 많지 않았었는데, 이번주에는 온전히 데이터 분석에 집중할 수 있는 시간이 있었다.
Keep
- 현업에 들어가서도 EDA를 꼼꼼하게 할 것
- EDA를 통해서 데이터 자체에 대한 해석을 꼼곰하게 하고, 처음부터 다시 데이터프레임을 다시 짜는 시행착오를 줄일 수 있어야 함
Problem
- 시각화 코드를 자유롭게 짤 수 있도록 코드 연습을 많이 해볼 것
Try
- 변수 간 상관관계에 대한 가설을 많이 세워볼 것
2. EDA 내용 정리
(1) 이상치 정리
이상치 파악을 위해 박스플롯 부터 그려보았다.
(2) 수치형 변수 기술통계
(3) 히트맵
(4) Scatter plot
- 가격과 셀러 판매가의 관계
- 셀러 수익금과 가격의 관계
- 가격과 구매자 수수료의 관계
(5)
product_categories= data.groupby('product_category').size().reset_index(name='Count')
product_categories
'데이터분석캠프 TIL' 카테고리의 다른 글
250401 데이터분석과정: 최종 프로젝트 TIL(태블로 대시보드) (1) | 2025.04.01 |
---|---|
250319 TIL 데이터분석캠프(K-means 군집, 엘보우 기법, 실루엣 지표) (0) | 2025.03.20 |
250311 TIL 데이터분석과정(EDA, 전처리) (0) | 2025.03.11 |
250307 TIL 데이터분석과정 (SQLD 공부, 최종프로젝트, 퍼널분석) (0) | 2025.03.07 |
250306 TIL 데이터분석과정 (0) | 2025.03.06 |