1. 회고
오늘 하루도 머신러닝 프로젝트만 하다가 끝이났다. 진짜 피곤하다. 팀장을 맡아서 역할들을 조율하고, 스케줄이 밀리지 않도록 조정하고 있는데, 간단한 것 같으면서도 어렵다. 누군가는 불편한 마음이 들 수도 있기 때문이다. 그래도 끝날 것 같지 않던 머신러닝 프로젝트도 곧 끝을 향해 달려가고 있다. 이제 이틀만 더 하면 마무리고, PPT도 거의 완성되어 가는 중이다.
2. 현대차 테이블 EDA
현대 차가 영국의 중고차 시장에서 서비스를 확장한다고 가정하는 프로젝트 목표를 세웠다. 영국 현지에서는 현대차가 어느 정도의 위치에 자리잡고 있고, 경쟁 브랜드는 무엇이 있을지 파악하기 위해 관련 조사를 했다.
(1) 수치형 데이터
주행거리
- 10,000~60,000 miles 구간에서 대부분의 차량이 분포.
- 주행거리가 많아질수록 차량 개수는 점진적으로 감소하는 형태.
- 오른쪽 꼬리가 긴 비대칭 분포 → 일부 차량은 매우 높은 주행거리를 기록.
→ 10,000~60,000 miles 범위에서 거래되며, 매우 높은 주행거리를 가진 차량은 상대적으로 적음.
엔진 크기
- 엔진 크기 1.0L~2.0L 사이에 가장 많은 차량이 분포
- 대형 엔진(2.5L 이상) 차량의 비율이 매우 낮음
- 왼쪽 꼬리가 긴 비대칭 분포 → 대형 엔진 차량은 극히 일부
→ 1.0L~2.0L 엔진 크기가 가장 일반적이며, 대형 엔진 차량(2.5L 이상)은 거의 없음
연비
- 연비가 40~60 MPG 범위에서 집중되어 있음.
- 일부 차량은 30MPG 이하 또는 70MPG 이상을 기록하지만, 비율이 낮음
- 정규분포에 가까운 형태
→ 40~60MPG의 연비 범위에서 운행되며, 고연비 차량(70MPG 이상)은 적은 편.
연도
(2) 범주형 데이터
변속기
- Manual: 차량의 가격이 낮은 편으로, 대체로 경제적인 차량에 많이 사용됨.
- Automatic: 중간 가격대의 수요층에게 추천
- Semi-Auto: 고급 차량이나 최신 기술이 적용된 모델에 주로 사용
연료 유형
- Petrol: 가격의 분포가 넓은 것으로 보아 수요층이 많음
- Diesel: 중앙값이 높기 때문에, 고급 디젤 차량으로 상위 가격대에 많이 분포하는 것을 알 수 있음
- Hybrid: 중앙값이 높고 분포가 좁음. 친환경 및 고연비 차량으로 고급형 차량에 속함
(3) 상관관계
- 주행거리가 짧을 수록 가격이 비싸다. (음의 상관관계)
- 엔진 크기가 클수록 가격이 비싸다. (양의 상관관계)
- 연비가 높을 수록 가격이 저렴하다(경차의 경우를 생각하면 됨) - (음의 상관관계)
해당 내용들을 가지고 Feature Importance를 측정해보았다.
- 엔진사이즈, 주행거리, mpg, fuelType, transmission_Manual 정도가 모델링 결과에 유의미한 영향을 주는 것으로 드러났다.
✅Feature Importance: 특정 Feature가 트리를 분할하는데 얼마나 기여를 했는가?
'데이터분석캠프 TIL' 카테고리의 다른 글
250210 데이터분석과정 - 태블로(Tableau) 활용 데이터 시각화 실습 (0) | 2025.02.10 |
---|---|
250127 TIL 데이터분석과정 (0) | 2025.01.27 |
[아티클 스터디] 알라미의 A/B 테스팅 일지 (0) | 2025.01.23 |
250122 TIL 데이터분석과정 (0) | 2025.01.22 |
[아티클] A/B 테스트에 적정한 표본과 주의 사항 (0) | 2025.01.22 |