1. 중심경향치
- - 평균을 포함하는 고급스러운 용어
- - 범주형의 요약은 최빈값을 이용할 수 있음. 가장 많이 등장하는 값.
- - 수치형의 경우 평균, 중앙값이 사용됨
- 평균
- 평균은 이상치에 민감하기 때문에, 데이터가 커지면 전체 데이터를 왜곡하는 현상이 일어난다.
- 중앙값: 일련의 숫자를 값 순서대로 줄 세웠을 때, 백분위 50%에 해당하는 값
2. 산포도
- 데이터의 퍼짐 정도를 나타내는 방법
1. 분산(Variance) : 평균에 데이터가 퍼진 정도
- 1차원의 데이터는 넘파이로 사용하는 게 훨씬 유용하다.
2. 표준편차(Standard Deviation): 분산을 계산할 때 숫자를 제곱하면, 단위까지 제곱되는데 이를 막기 위해
3. 변동계수(Coeffient of Variation): 서로 값의 스케일이 다르다면 분산도 달라지는데 이를 보정하기 위한 방법. 변동 계수는 표준 편차를 산술 평균으로 나눈 것이다. 상대 표준 편차라고도 한다. 측정단위가 서로 다른 자료를 비교하고자 할 때 쓰인다.
#변동계수
my_array.std()/my_array.mean()
✅random 모듈
#0부터 1사이의 분포에서 난수를 생성하는 함수. 실행할 때마다 바뀜. 컴퓨터의 m/s에 따라 다르다.
np.random.seed(42) #난수를 고정해 줄 때 seed를 사용하면 됨
np.random.rand()
#낮은 값(포함)에서 높은 값(제외)까지 무작위 정수를 반환합니다.
np.random.randint(1,7)
#통계학은 시뮬레이션을 좋아하기 때문에, 종종 random 함수를 사용한다.
'기초통계' 카테고리의 다른 글
통계학 기초 문제풀이 (0) | 2025.01.21 |
---|---|
통계학 기초 정리 (6) : 가설검정(재현가능성, p-해킹, 선택적보고) (0) | 2025.01.09 |
통계학 기초 정리 (5) : 상관계수(피어슨 상관계수, 스피어만 상관계수, 켄달타우 상관계수, 상호정보 상관계수) (0) | 2025.01.09 |
통계학 기초 정리 (4) : 회귀분석(선형회귀, 다항회귀, 스플라인회귀) (4) | 2025.01.08 |
통계학 기초 정리 (3) : 각종 검정 방법 (t검정, 다중 검정, 카이제곱 오류), 제 1종 오류와 제 2종 오류 (0) | 2025.01.08 |