1. 모집단과 표본
(1) 모집단: 대상의 전체 집단
(2) 표본: 모집단의 특성을 반영하여 선별한 일부
- 전체 모집단을 조사하는 것은 비용과 시간이 많이 들고, 물리적으로 불가능한 경우가 많기 때문에 표본을 수집한다.
- 표본 데이터를 사용하는 것이 처리와 분석에 훨씬 용이함.
- 작은 표본에서는 데이터 품질을 더 쉽게 관리함
- 표본 데이터를 사용해서 통계적 모델을 검증할 수 있음
전수조사 | 표본조사 |
모집단 전체를 조사. 시간과 비용이 많이 든다. | 표본만 선별하여 조사. 표본이 대표성을 가져야 함 |
import numpy as np #Numpy 불러오기
import matplotlib.pyplot as plt #시각화 도구
#모집단 생성
population = np.random.normal(170, 10, 1000)
#표본 추출
sample = np.random.choice(population, 100)
#bins: 히스토그램의 구간 개수
#alpha: 막대의 투명도
#label: 히스토그램의 범례 안에 들어갈 값
plt.hist(population, bins = 50, alpha =0.5, lable = 'population', color = 'blue')
plt.legend() #범례 추가
plt.title('population') #차트 제목 추가
plt.show()
np.random.choice
- 주어진 배열에서 임의로 샘플링하여 요소를 선택하는 것
- numpy.random.choice(a, size=None, replace=True, p=None)
- a: 샘플링할 원본 배열. 정수인 경우 np.arange(a)와 동일하게 간주
- size: 출력 배열의 크기
- replace: 복원 추출 여부
- p: 각 요소가 선택될 확률. 배열의 합은 1이 되어야 한다.
2. 표본오차와 신뢰구간
표본오차: 표본에서 계산된 통계량과 모집단의 값 간의 차이
신뢰구간: 95%정도의 신뢰수준 z값은 1.96 이다.
3. 분포의 종류
(1) 정규분포(Normal Distribution): 대부분의 데이터가 평균 주변에 몰려 있어, 종 모양의 대칭 분포 형태를 띠고 있음.
- 평균을 중심으로 좌우 대칭
- 중심극한정리: 대부분의 상황에서 데이터 수가 많으면 정규분포를 따르게 된다.
- 예시 - 키와 몸무게, 시험점수
표본: 분포의 중앙값, 표준편차는 데이터의 퍼짐 정도를 나타낸다.
![](https://blog.kakaocdn.net/dn/ziCp6/btsLGbIryai/3DCpvUk1F1kKuM6kc8XmN1/img.webp)
np.random.normal
- 정규분포를 따르는 난수(무작위로 추출된 수)를 생성할 때 사용함
- 평균과 표준편차를 중심으로 데이터가 대칭적으로 분포
numpy.random.normal(loc=0.0, scale=1.0, size=None)
loc(float): 정규분포의 평균(기본값: 0.0)
scale(float): 정규분포의 표준편차(기본값: 1.0)
size(int or tuple of ints): 출력 배열의 크기(기본값: None)
#정규분포
normal_dist = np.random.normal(170,10,1000)
#히스토그램
plt.hist(normal_dist, bins=30, density=True, alpha=0.6, color='g')
# 정규분포 곡선 추가
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = stats.norm.pdf(x, 170, 10)
plt.plot(x, p, 'k', linewidth=2)
plt.title('normal distribution histogram')
plt.show()
(2) 긴 꼬리 분포(Long Tail)
대부분의 데이터가 분포의 한 쪽 끝에 몰려있고, 반대쪽으로 긴 꼬리가 이어지는 형태
비대칭형이다.
- 예시: 소득분포, 웹사이트 방문자 수
![](https://blog.kakaocdn.net/dn/cU5YNc/btsLHpsnELo/kLfv7S63T2vTw6fMeXjxoK/img.jpg)
(3) 스튜던트 t분포: 모집단의 표준편차를 알 수 없고, 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포
- 자유도가 커질 수록 정규분포에 가까워짐
- 표본의 크기가 작을수록 꼬리가 두꺼워지는 특징
✅ 자유도: 표본의 크기와 관련 있는 값
(4) 카이제곱분포: 범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포
- 데이터 수가 많아질 수록 정규분포와 관련이 있을 수 있다.
- 자유도에 따라 모양이 달라짐
- 독립성 검정이나 적합도 검정이 필요할 때
- 숫자형 데이터에서는 상관관계를 검사할 수 없음. 주사위의 각 면이 동일한 확률로 나오는지 검토할 수 있다.
![](https://blog.kakaocdn.net/dn/rFvOT/btsLE4Q61iV/BoBUKQFB2Ex4KmKHi2Q0g0/img.webp)
(5) 이항분포: 결과가 두 개만 나오는 상황일 때 사용함
예시: 동전의 앞뒷면,
성공 확률을 p라고 할 때, 성공의 횟수를 확률적으로 나타낸다.
(6) 푸아송 분포: 희귀한 사건이 발생할 때 사용하는 분포
- 특정시간이나 특정 공간에서 발생하는 사건
- 연속된 값이 아니기 때문에, 이산형 분포에 해당한다.
- 예시:
콜센터: 특정 시간 동안 콜센터에 도착하는 전화 통화 수
교통사고: 특정 도로 구간에서 일정 기간 동안 발생하는 교통사고의 수
문자 메시지: 특정 시간 동안 수신되는 문자 메시지의 수
Pareto 분포
결국에 데이터 수가 많아지면 정규분포에 수렴(중심극한정리)
⭐️
데이터 수가 충분하다 -> 정규분포
데이터 수가 적다 -> 스튜던트 t 분포
일부 데이터가 전체적으로 큰 영향을 미친다 -> 롱테일분포(파레토 분포)
범주형 데이터의 독립성 검정이나 적합도 검정 -> 카이제곱 분포
결과가 두 개만 나오는 상황 - 이항 분포
특정 시간, 공간에서 발생하는 사건 - 푸아송 분포
모집단의 특징을 표본이 가지고 있지만, 완전히 동일하다고는 할 수 없다.
일부 사용자들에게 얻은 데이터 값. 표본의 값이 모집단에게도 동일할 것인가?
A/B 테스트: 두 버전 중 어느 것이 더 효과적인지를 평가하기 위해 사용
두 그룹 간의 변화가 우연히 일어난 것인지 아닌지? 파악하기 위해
T - 검정을 진행한다. 이 값을 이용하면, P-value로 우연인지 인과관계가 있는지를 파악한다.
일반적으로 0.05보다 낮은 경우에는 결과가 유의미하다고 여긴다.
3. 가설검정
내가 데이터를 개발했는데 의미가 있다고 할 수 있는가?
표본 데이터를 통해 모집단의 가설을 검증하는 과정(즉, 데이터가 특정 가설을 지지하는지 평가하는 과정)
Null(H0): 귀무가설 - 효과가 없을 것이다.
Alternative(H1): 대립가설 - 효과가 있을 것이다
- 확증적 자료분석: 미리 가설을 세워보고 다음 가설을 검증
- 탐색적 자료분석(EDA): 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것
일단 무엇을 하던지 가설을 설정을 하고 시작해야 한다.
가설검정: 모수가 특정 값과 일치한지 테스트하는 것
회고
오늘은 통계 기초 강의 위주로 수업을 들었다. 생각보다 재밌고, 파이썬 보다 재밌다. 막상 실습 때 적용해보면 처음 듣는 말이 되겠지만...
분포가 이렇게나 종류가 다양한 지는 전혀 몰랐던 사실이다.
내가 왜 통계 용어들이 익숙할까 생각해보았는데, 알고보니 대학 때 전공시간에 경영통계를 들었었다.
기초통계학 책으로 수업을 진행했던 지라 대부분 내용은 겹치는 편.
그 때 기말 마치자마자 더 이상 볼 일이 없다고 생각하고 아마...통계책은 버린 것으로 기억되는데, 조만간 본가에 가서 책이 있나 확인해보아야 겠다.
'기초통계' 카테고리의 다른 글
통계학 기초 정리 (6) : 가설검정(재현가능성, p-해킹, 선택적보고) (0) | 2025.01.09 |
---|---|
통계학 기초 정리 (5) : 상관계수(피어슨 상관계수, 스피어만 상관계수, 켄달타우 상관계수, 상호정보 상관계수) (0) | 2025.01.09 |
통계학 기초 정리 (4) : 회귀분석(선형회귀, 다항회귀, 스플라인회귀) (4) | 2025.01.08 |
통계학 기초 정리 (3) : 각종 검정 방법 (t검정, 다중 검정, 카이제곱 오류), 제 1종 오류와 제 2종 오류 (0) | 2025.01.08 |
통계학 기초 정리 (1) : 기술통계와 추론통계, 상관관계와 인과관계, 자료형의 종류 (0) | 2025.01.06 |