본문 바로가기

데이터분석캠프 TIL

250311 TIL 데이터분석과정(EDA, 전처리)

1. 회고

오늘의 회고는 이 한 마디로 끝난다. 오늘 오랜만에 운동을 갔더니 힘이 나는 것 같다. 크로스핏 맨처음에 갈 땐 그저 무서웠는데, 이젠 이거라도 안하면 엔돌핀이 돌지 않는다..

 

 

2. 프로젝트 정리

Vestiarie Collective 데이터셋의 EDA를 진행하면서, 서브 카테고리가 제대로 분류되어 있지 않다는 것을 깨달았다. 그래서 공홈의 기준과 비교해서 서브 카테고리 컬럼 생성 후 값을 채워주었다. 

# Men clothing: 193549개
len(df[df['product_category'] == 'Men Clothing'])

cond_category_men_clothing = (df['product_category']=='Men Clothing')
men_clothing = df1[cond_category_men_clothing]


#Coat:19866개 
#Coat: coats, dufflecoats, parkas, peacoats, puffers, trenchcoats, trenchs
cond1 = (df['product_category'] == 'Men Clothing') &  (df['product_type'].str.contains(r'\b(coat|dufflecoat|parka|peacoat|puffer|trenchcoat|trench)\b', case=False, na=False))
len(df[cond1])
df.loc[cond1,'product_sub_category'] = 'Coat'
    

#jacket, vest: 52559개
cond2 = (df['product_category'] == 'Men Clothing') &  (df['product_type'].str.contains('jacket|vest', case=False, na=False))
len(df[cond2])
df.loc[cond2,'product_sub_category'] = 'Jacket'