본문 바로가기

분류 전체보기

(82)
[SQL 풀이] DataLemur - User's Third Transaction 모든 유저의 세 번째 거래에 대한 정보를 출력하는 쿼리를 만드는 문제 RANK함수를 이용해서 user_id 내 순위를 구하는 쿼리를 만든다. SELECT user_id, spend, transaction_dateFROM (SELECT user_id, spend, transaction_date, ROW_NUMBER() OVER ( PARTITION BY user_id ORDER BY transaction_date) AS row_num FROM transactions) AS trans_numWHERE row_num = 3; 1. RANK: 동일한 숫자가 있으면 제외하고 출력(1, 1, 3) 2. DENSE_RANK: 동일한 숫자가 ..
[태블로 신병 훈련소] 태블로 작동 기본 원리 1. 필드 차원: 정성적 데이터, 분석 기준이 되는 값, 불연속형 데이터로 측정값을 쪼개어 보는 하나의 관점(ex. 제품명, 날짜, 지리명 등) 측정값: 정량적 데이터, 연속형 데이터로 집계되는 수치 2. 측정값집계: 합계, 평균, 중앙값, 카운트, 카운트(고유), 최소값, 최대값, 백분위수, 표준편차, 분산하나의 측정값을 어떤 기준으로 집계하느냐에 따라서 다양한 데이터 분석이 가능
[책 리뷰] 그로스 해킹의 개념 (1) : 그로스 해킹의 등장배경 1. 그로스해킹의 등장 배경과거: 전통적 마케팅의 한계전통적인 마케팅은 ‘기획-생산-판매’의 순차적 구조로, 제품이 시장에 출시된 후에는 생산자가 개입할 수 있는 여지가 거의 없었다.시장의 기대가 명확했고, 좋은 품질의 제품만 만들면 고객이 자연스럽게 구매하는 단순한 성공 공식이 통했다. 제품의 성공과 실패는 온전히 시장에 의해 결정되었으며, 생산 이후에는 추가적인 성장 전략이 부재했다.현재: 시장 환경의 변화와 불확실성고객의 취향이 세분화되고, 시장의 변화 속도가 빨라지면서 과거의 성공 공식이 더 이상 통하지 않게 되었다.기획과 생산에 아무리 많은 노력을 들여도, 실제 시장에 출시하기 전까지 제품의 성공을 확신하기 어려운 시대가 되었다.서비스의 출시는 끝이 아니라 시작에 가깝고, 출시 이후에도 지속적으..
250405 데이터 분석 캠프 최종프로젝트 지난 4월 5일 최종 프로젝트 결과물을 제출했다. 원래는 목요일에 제출하는 걸 목표로 세웠지만 결과적으로는 당일에 딱 맞춰서 제출하게 되었다. 그래도 미리 제출하겠다는 좋은 팀원들을 만났기에 끝까지 마칠 수 있었다. 팀 프로젝트 회고 Keep: 1. 자유롭게 의견 조율을 할 수 있는 분위기.2. 일정 조율 3. 한 사람이 다양한 역할을 체험할 수 있었음4. 진행사항에 대한 공유가 잘 되었음 Problem + 향후 진행해보고 싶은 방향1. 가설검정을 철저하게 할 것2. 인사이트에 제안한 모델링을 작업해보고 싶음 TRY 1. 인사이트와 EDA를 통해서 탄탄하게 이야기 구조를 만들고 싶음2. 가설설정을 탄탄히 하고 싶음3. 엑스퍼트 판매자가 판매하는 상품을 강조할 수 있으면 좋겠다4. 구매자의 입장에..
250401 데이터분석과정: 최종 프로젝트 TIL(태블로 대시보드) 오늘은 대시보드의 완성도를 높이는 작업을 진행했다. 지난 번 태블로 프로젝트 때 구현하지 못했던 기능들에 익숙해졌고, 만질 수록 태블로의 기능들을 빠르게 파악하게 되었다.  가장 구현하기 어려웠던 것은 '클러스터별 인원 수' 도넛 차트와 '정품 인증 통과 비율'이었다. '정품 인증 통과 비율'의 경우 KPI로 나타내는 것이 어려워서 아직도 구현을 하지 못했다.   위와 같은 방식으로 구현해야 하는데, 아직 아래에 머물러 있다.  그리고 Key Value 값에 들어가는 그래프를 하나하나 부동 처리로 만들어내는 게 보통 일이 아니다. 겉보기에는 금방 만들어낸 그래프같았지만, 실제로 만들어보니 시간이 많이 걸린다. 또한, 가상의 월을 만들어서 시계열 예측 그래프를 만들었다. 비록 우리의 데이터에는 시계열 자료..
250319 TIL 데이터분석캠프(K-means 군집, 엘보우 기법, 실루엣 지표) 1. 회고월요일 부터 모델링 구현에 힘쓰는 중이다. 그런데 생각보다 잘 안굴러가서 머리가 아프다. 월요일에는 우수 셀러 선정을 위해 파생변수를 만들어냈고, 화요일에는 그 파생변수를 기반으로 우수 셀러를 선정하기 위한 군집을 시행했다. 우리가 선정한 기준은 '인기도', '신뢰도', '회사 이윤' 측면에서 도움을 주는 셀러들이다.  튜터님께서 올려주신 군집 강의를 보면서 코드 진행 방식에 대해서 복습했다.   2. 모델링(1) K-means 클러스터링의 정의: 데이터 포인트를 k개의 클러스터로 나누는 알고리즘클러스터의 개수 K를 설정초기 클러스터 중심을 무작위로 선택각 데이터 포인트를 가장 가까운 클러스터 중심으로 할당각 클러스터에 대해 중심을 재계산클러스터 중심이 수렴하거나 최대 반복 횟수에 도달하면 종료..
히트맵 삼각형 모양으로 만드는 방법 mask 옵션을 활용해서 삭제 가능하다. mask = np.triu(np.ones_like(df, dtype = bool)) 해당 옵션을 활용하면, 삼각형 모양으로 출력된다.  ✅정리 np.triu(np.ones_like(df, dtype=bool))np.triu()는 행렬의 위쪽 삼각형 부분을 True로 만드는 함수.ones_like(df, dtype=bool)는 데이터 크기와 같은 True/False 행렬을 만듦.sns.heatmap(df, mask=mask, annot=True, cmap="coolwarm")mask=mask를 추가하면 위쪽 삼각형 부분이 사라지고 아래쪽 데이터만 표시됨. import seaborn as snsimport numpy as npimport pandas as pdimpo..
250313 TIL 데이터분석과정(최종 프로젝트 EDA 시각화) 1. 회고오늘은 하루 종일 데이터셋의 EDA를 진행했다. 지난주에는 SQLD 시험이 있어서 준비할 시간이 많지 않았었는데, 이번주에는 온전히 데이터 분석에 집중할 수 있는 시간이 있었다.  Keep- 현업에 들어가서도 EDA를 꼼꼼하게 할 것- EDA를 통해서 데이터 자체에 대한 해석을 꼼곰하게 하고, 처음부터 다시 데이터프레임을 다시 짜는 시행착오를 줄일 수 있어야 함   Problem- 시각화 코드를 자유롭게 짤 수 있도록 코드 연습을 많이 해볼 것  Try- 변수 간 상관관계에 대한 가설을 많이 세워볼 것  2. EDA 내용 정리(1) 이상치 정리 이상치 파악을 위해 박스플롯 부터 그려보았다.          (2) 수치형 변수 기술통계  (3) 히트맵  (4) Scatter plot  - 가격과 ..