250110 TIL 데이터 분석과정 (QCC만 하다가 하루가 끝난...)
·
데이터분석캠프 TIL
1. 오늘의 목표🎯 이제 슬슬 포트폴리오에 자료들을 붙여넣으려고 하는데, 할 게 많아서 정신이 없다. 아직 모르는 게 너무 많은 느낌이다. 그래도 통계학 기초 강의는 어제부로 완강하였고, 이제 실습을 다시 한 번 풀어보면서 파이썬에 적용하는 방법을 연습하려고 한다. 남는 시간은 틈틈히 파이썬이랑 sql복습하기! 2. 회고📝오늘 하루는 QCC문제만 풀다가 하루가 다 간 것 같다.문제를 푸는데 concat 함수 적용하는 방법이 생각이 안나는 것이다..코드를 돌려봐도 계속 first name과 last name만 결과에 출력되어서 진심 당황했다. 그래서 한 문제 겨우 제출하고 도망갔더니 매니저님이 따라오심ㅋㅋㅋ 왜 출력이 안되었나 하니 컬럼에 따옴표을 씌워서 출력했기 때문.. 그냥 문자열만 붙이려면 따옴표..
통계학 기초 정리 (2) : 모집단과 표본, 분포의 종류
·
기초통계
1. 모집단과 표본 (1) 모집단: 대상의 전체 집단(2) 표본: 모집단의 특성을 반영하여 선별한 일부전체 모집단을 조사하는 것은 비용과 시간이 많이 들고, 물리적으로 불가능한 경우가 많기 때문에 표본을 수집한다. 표본 데이터를 사용하는 것이 처리와 분석에 훨씬 용이함. 작은 표본에서는 데이터 품질을 더 쉽게 관리함표본 데이터를 사용해서 통계적 모델을 검증할 수 있음 전수조사표본조사모집단 전체를 조사. 시간과 비용이 많이 든다. 표본만 선별하여 조사. 표본이 대표성을 가져야 함 import numpy as np #Numpy 불러오기import matplotlib.pyplot as plt #시각화 도구#모집단 생성population = np.random.normal(170, 10, 1000) #표본 추출..
통계학 기초 정리 (1) : 기술통계와 추론통계, 상관관계와 인과관계, 자료형의 종류
·
기초통계
1. 통계가 데이터 분석에 중요한 이유→ 데이터를 분석하고 이를 바탕으로 의사결정을 내릴 수 있음 2. 통계학의 분류: 기술통계와 추론통계기술통계: 회사의 매출 데이터를 요약하고 설명하는 통계 방법 / 계산하는 것데이터를 특정 대표값으로 요약하는 것평균, 중앙값, 분산, 표준편차1. 평균(Mean): 데이터의 중앙값, 모든 데이터를 더한 후 데이터의 개수로 나누는 것- 데이터의 일반적인 경향을 파악할 때 유용함2. 중앙값(Median): 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값- 이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법 3. 분산(Variance): 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는 지를 나타내는 척도, 데이터의 흩어짐 정도- 각 데이..
스타벅스 마케팅 데이터 분석 기초 프로젝트 EDA
·
Project
스타벅스 프로모션 데이터를 기반으로 EDA를 진행해보았다.   Starbucks Customer DataStarbucks customer datasetwww.kaggle.com  내가 생각했던 내용들은 아래와 같았는데, 우선 이 데이터는 내부적으로 기준을 잡아 고객 세그멘테이션을 하는 것이 가장 대표적으로 생각나는 분석인 것 같았다.  내가 생각해 본 가설들은 대략 아래와 같은데, 1. 회원 가입 시기 별(연도별 혹은 분기별)로 세그멘테이션 후 유입이 많이 된 프로모션 분석 2. 프로모션 별로 높은 어려움을 겪은 고객군이 있을것 . 그리고 프로모션이 유입된 채널 특성을 기반으로 조합(광고 채널 별로 특성이 다르기 때문에 어떤 조합을 이용하는 게 효과적이려나…?)3. 헤비 유저, 일반 유저, 라이트 유저의..
241220 TIL 데이터분석과정
·
데이터분석캠프 TIL
1. SQL 코드카타문제1. 상품을 구매한 회원 비율 구하기SELECT DATE_FORMAT(O.SALES_DATE, '%Y') AS YEAR, DATE_FORMAT(O.SALES_DATE, '%m') AS MONTH, COUNT(DISTINCT U.USER_ID) AS PUCHASED_USERS, ROUND(COUNT(DISTINCT U.USER_ID)/(SELECT COUNT(*) FROM USER_INFO WHERE joined LIKE '2021%'), 1) AS PUCHASED_RATIOFROM USER_INFO UJOIN ONLINE_SALE OON U.USER_ID = O.USER_IDWHERE U.JOINED LIKE '2021%'GROUP BY YEA..
241224 TIL 데이터분석과정
·
데이터분석캠프 TIL
1. 판다스 퀴즈(1) iris 데이터 활용하여 산점도 만들기 요구사항1) species별 sepal length, sepal width, petal length, petal width의 평균과 표준편차를 구하세요.2) sepal length, sepal_width, petal_length, petal_width 4가지 변수 중 가장 상관관계가 높은 두 변수를 찾으세요.3) 위에서 구한 두 변수를 x, y축으로 두고 species에 따라 분류하는 산점도를 생성하세요.#평균과 표준편차df = iris.groupby("species").agg(['mean', 'std'])print(df)#상관계수iris[['sepal_length', 'sepal_width','petal_length','petal_width..
241219 TIL 데이터 분석 과정
·
데이터분석캠프 TIL
회고일간 목표 데이터 시각화 4주차 강의SQL 코드카타 72 ~ 74번아티클라이브 세션팀 데이터 분석 자료점프투 파이썬 2장 읽는 중목요일이 되어서 그런지 오늘은 어제보다는 지친 하루인 것 같다.어제는 컨디션이 꽤나 좋았는데, 오늘은 오후쯤 되니 눈이 뻑뻑해서, 눈을 자주 감고 있었다.   그래도 좋은 점은 판다스는 오류가 많이 뜨지 않고, 내가 보고 싶은 결과들을 바로 시각화해서 볼 수 있어서 비교적 재밌게 수업을 진행하고 있다. 오늘은 어제보다 실시간 세션 시간에 다룬 내용들이 많았는데,데이터 필터, 정렬하기, 변경하는 법, 결측값을 처리하는 방법에 대해 배울 수 있었다.  제공된 강의로 데이터 시각화 4주차까지 완강해서 matplotlib으로 그래프 그리는 법까지 실습을 진행했는데, 이 내용을 가지..
241218 TIL 데이터 분석과정 - SQL 코드카타(저자 별 카테고리 별 매출액 집계하기, 그룹별 조건에 맞는 식당 목록 출력하기, 대여 횟수가 많은 자동차들의 월별 대여 횟수 구하기, 오프라인/온라인 판매 데이터 통합하기)
·
데이터분석캠프 TIL
241218 TIL  1. SQL 코드카타 정리❤️문제1. 저자 별 카테고리 별 매출액 집계하기 총 세 개의 테이블이 주어졌고, 특정 기간의 카테고리 별 매출액, 저자 ID, 저자명, 카테고리, 매출액을 구해주어야 한다.  BOOK 테이블  BOOK 테이블    AUTHOR 테이블     BOOK_SALES 테이블   ✅문제풀이  #AUTHOR_ID, AUTHOR_NAME, CATEGORY, SALES출력 - 2022년 1월만 추출해야 함.  # 매출액 구하는 식만들기 #GROUP BY로 2022년 1월을 묶어준다.  2022년 1월 매출액만 불러오기 위해서 GROUP BY로 먼저 그룹화해 준 후 HAVING절로 2022년 1월 매출값을 가져왔더니 동작하지 않았다.  그 이유는 HAVING절은 집계 함수..