통계학 기초 정리 (1) : 기술통계와 추론통계, 상관관계와 인과관계, 자료형의 종류
·
기초통계
1. 통계가 데이터 분석에 중요한 이유→ 데이터를 분석하고 이를 바탕으로 의사결정을 내릴 수 있음 2. 통계학의 분류: 기술통계와 추론통계기술통계: 회사의 매출 데이터를 요약하고 설명하는 통계 방법 / 계산하는 것데이터를 특정 대표값으로 요약하는 것평균, 중앙값, 분산, 표준편차1. 평균(Mean): 데이터의 중앙값, 모든 데이터를 더한 후 데이터의 개수로 나누는 것- 데이터의 일반적인 경향을 파악할 때 유용함2. 중앙값(Median): 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값- 이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법 3. 분산(Variance): 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는 지를 나타내는 척도, 데이터의 흩어짐 정도- 각 데이..
TIL 241231 데이터분석과정: 스타벅스 마케팅 분석, 우수 TIL 선정된 날
·
데이터분석캠프 TIL
Starbucks Customer DataStarbucks customer datasetwww.kaggle.com스타벅스 프로모션 데이터를 분석하여, 고객 세그멘테이션을 하고 이에 맞는 마케팅 인사이트를 도출하는 것이 이번 분석의 목표였다.  주어진 데이터셋은 총 3개이다. portfolio.csv - 고객에게 프로모션 오퍼를 보낸 기록이 있는 데이터 (10 offers x 6 columns)profile.csv - 고객들의 인구통계학적 자료가 담긴 데이터 (17,000 customers x 5 columns)transcript.csv -   (306,648 events x 4 columns)1. ERD분석하기 앞서 ERD를 만들어보았다.  관계도에서 발견할 수 있는 주요사항은 아래와 같았다. profi..
스타벅스 마케팅 데이터 분석 기초 프로젝트 EDA
·
Project
스타벅스 프로모션 데이터를 기반으로 EDA를 진행해보았다.   Starbucks Customer DataStarbucks customer datasetwww.kaggle.com  내가 생각했던 내용들은 아래와 같았는데, 우선 이 데이터는 내부적으로 기준을 잡아 고객 세그멘테이션을 하는 것이 가장 대표적으로 생각나는 분석인 것 같았다.  내가 생각해 본 가설들은 대략 아래와 같은데, 1. 회원 가입 시기 별(연도별 혹은 분기별)로 세그멘테이션 후 유입이 많이 된 프로모션 분석 2. 프로모션 별로 높은 어려움을 겪은 고객군이 있을것 . 그리고 프로모션이 유입된 채널 특성을 기반으로 조합(광고 채널 별로 특성이 다르기 때문에 어떤 조합을 이용하는 게 효과적이려나…?)3. 헤비 유저, 일반 유저, 라이트 유저의..
241220 TIL 데이터분석과정
·
데이터분석캠프 TIL
1. SQL 코드카타문제1. 상품을 구매한 회원 비율 구하기SELECT DATE_FORMAT(O.SALES_DATE, '%Y') AS YEAR, DATE_FORMAT(O.SALES_DATE, '%m') AS MONTH, COUNT(DISTINCT U.USER_ID) AS PUCHASED_USERS, ROUND(COUNT(DISTINCT U.USER_ID)/(SELECT COUNT(*) FROM USER_INFO WHERE joined LIKE '2021%'), 1) AS PUCHASED_RATIOFROM USER_INFO UJOIN ONLINE_SALE OON U.USER_ID = O.USER_IDWHERE U.JOINED LIKE '2021%'GROUP BY YEA..
241224 TIL 데이터분석과정
·
데이터분석캠프 TIL
1. 판다스 퀴즈(1) iris 데이터 활용하여 산점도 만들기 요구사항1) species별 sepal length, sepal width, petal length, petal width의 평균과 표준편차를 구하세요.2) sepal length, sepal_width, petal_length, petal_width 4가지 변수 중 가장 상관관계가 높은 두 변수를 찾으세요.3) 위에서 구한 두 변수를 x, y축으로 두고 species에 따라 분류하는 산점도를 생성하세요.#평균과 표준편차df = iris.groupby("species").agg(['mean', 'std'])print(df)#상관계수iris[['sepal_length', 'sepal_width','petal_length','petal_width..
데이터 전처리를 위한 판다스(Pandas) - 데이터 조회
·
PYTHON
1. 데이터 확인1-1 데이터 조회head () 앞 부분 tail () 뒷 부분 조회 해당 함수들로 가장 앞과 뒤의 데이터를 원하는 갯수만큼 확인할 수 있음. 갯수를 지정하지 않을 경우 default옵션으로 5개부터 조회된다. df.head(3) #앞의 3개의 행 조회df.tail(3) #뒤의 3개의 행 조회1-2 컬럼 정보 확인info ()컬럼별로 정보를 확인하고자 할 때 사용(인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입, null값 확인)   value_counts() column 별 값의 분포를 확인할 때 사용df['column'].value_counts() 1-3 데이터프레임 속성 확인 - Index: 데이터프레임 또는 시리즈의 각 행 또는 각 요소에 대한 식별자  - dtypes: 컬럼별..
241219 TIL 데이터 분석 과정
·
데이터분석캠프 TIL
회고일간 목표 데이터 시각화 4주차 강의SQL 코드카타 72 ~ 74번아티클라이브 세션팀 데이터 분석 자료점프투 파이썬 2장 읽는 중목요일이 되어서 그런지 오늘은 어제보다는 지친 하루인 것 같다.어제는 컨디션이 꽤나 좋았는데, 오늘은 오후쯤 되니 눈이 뻑뻑해서, 눈을 자주 감고 있었다.   그래도 좋은 점은 판다스는 오류가 많이 뜨지 않고, 내가 보고 싶은 결과들을 바로 시각화해서 볼 수 있어서 비교적 재밌게 수업을 진행하고 있다. 오늘은 어제보다 실시간 세션 시간에 다룬 내용들이 많았는데,데이터 필터, 정렬하기, 변경하는 법, 결측값을 처리하는 방법에 대해 배울 수 있었다.  제공된 강의로 데이터 시각화 4주차까지 완강해서 matplotlib으로 그래프 그리는 법까지 실습을 진행했는데, 이 내용을 가지..
데이터 전처리를 위한 - 판다스(Pandas) 기초
·
PYTHON
판다스 기초1. 판다스는 무엇인가? 관계형 또는 레이블이 된 데이터, 아래와 같은 형식의 데이터를 분석하는데 적합한 PYTHON 패키지이다. SQL 테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 테이블 형식 데이터정렬되고 정렬되지 않은 시계열 데이터다른 형태의 관찰 / 통계 데이터 세트 ✅판다스 설치방법이전에 Visual Studio와 Python이 컴퓨터에 설치되어 있어야 하며, Visual Studio에서 Jupyter와 Python도 설치해주어야 한다.  1) 터미널이나 코드창에 아래의 코드를 입력하면, 밑에 주루룩 무언가 설치되었다는 문구들이 뜬다. pip install pandas 2) 그 다음 아래의 코드를 입력한다.import pandas as pd # pandas 라..