1. 회고
오늘은 하루종일 데이터 전처리를 진행했다. 이전 프로젝트보다는 훨씬 판다스를 자유롭게 사용할 수 있게된 것 같아서 좋다. 팀원들과도 많이 친해져서 편하게 대화를 나눌 수 있는 사이가 된 것 같다. 처음에는 너무 어색해서 걱정을 정말 많이 했는데, 의견도 적극적으로 내주시고 내가 알지 못했던 지식들도 서로 공유할 수 있어서 좋은데, 내가 개념이 많이 부족한 것 같아서 슬프다...
우리조는 중고차 가격을 예측하는 머신러닝 모델을 만드는 중인데, 테이블 개수도 많고 그만큼 변수가 많아서 발표 라인 전개에 어려움을 겪는 중이다.
그리고 예상치 못한 이상치들이 많이 등장하고 있어서, 회의 시간에 하나하나 결정을 내리고 있다. 내가 모든 걸 아는 척척박사였다면 좋았겠다만...아쉽게도 나는 배움이 느린 편이라 의견 하나 내는 것에 감지덕지 하며 열심히 참여 중이다.
서당 개 삼년에 풍월을 읊는다고, 저번에 한 번 해봤더니 지금은 앞에 전처리 단계는 수월하게 진행하고 있다.
2. 데이터 EDA
우리조가 겪고 있는 어려움은 이걸 데이터를 전체적으로 가져가는 가, 브랜드 별로 분석하는 가 이다.
브랜드를 가격 대 별로 세그멘테이션 해서 분석하려고 하니, audi, bmw, merc 빼고는 평균 판매가격이 큰 차이가 없어서 분석이 애매해질 것 같았다.
그리고 이상치가 많이 튀어나왔는데 결과값에 영향을 거의 미치지 않아서 삭제할 것들은 먼저 삭제하고, 아직 더 확인해보아야 하는 것들은 일단 보류 상태로 두었다.
삭제한 행
- year = 2060년인 경우 (1행)
- engineSize = 0인 경우 (268행)
- year 1970 이하인 경우 (2행)
보류 중
- tax 0인 경우
- mpg 200 이상인 경우
- mileage 13만 이상인 경우 (152행)
이렇게 하고 스토리라인에 대해서 이야기 하니 오늘 하루가 다 갔다.. 설 연휴 마치고 나서는 플젝 마무리에 열심히 힘을 쏟아야 겠다.
'데이터분석캠프 TIL' 카테고리의 다른 글
250210 데이터분석과정 - 태블로(Tableau) 활용 데이터 시각화 실습 (0) | 2025.02.10 |
---|---|
250203 TIL 데이터 분석 과정(머신러닝 프로젝트) (0) | 2025.02.03 |
[아티클 스터디] 알라미의 A/B 테스팅 일지 (0) | 2025.01.23 |
250122 TIL 데이터분석과정 (0) | 2025.01.22 |
[아티클] A/B 테스트에 적정한 표본과 주의 사항 (0) | 2025.01.22 |