기초통계

기초통계학(1) : 중심경향치, 산포도

selenaass 2025. 1. 22. 22:10

1. 중심경향치

  • - 평균을 포함하는 고급스러운 용어
  • - 범주형의 요약은 최빈값을 이용할 수 있음. 가장 많이 등장하는 값. 
  • - 수치형의 경우 평균, 중앙값이 사용됨
    • 평균
    • 평균은 이상치에 민감하기 때문에, 데이터가 커지면 전체 데이터를 왜곡하는 현상이 일어난다. 
    • 중앙값: 일련의 숫자를 값 순서대로 줄 세웠을 때, 백분위 50%에 해당하는 값

 

2. 산포도

  • 데이터의 퍼짐 정도를 나타내는 방법

1. 분산(Variance) : 평균에 데이터가 퍼진 정도

- 1차원의 데이터는 넘파이로 사용하는 게 훨씬 유용하다. 

 

2. 표준편차(Standard Deviation): 분산을 계산할 때 숫자를 제곱하면, 단위까지 제곱되는데 이를 막기 위해 

 

3. 변동계수(Coeffient of Variation): 서로 값의 스케일이 다르다면 분산도 달라지는데 이를 보정하기 위한 방법. 변동 계수는 표준 편차를 산술 평균으로 나눈 것이다. 상대 표준 편차라고도 한다. 측정단위가 서로 다른 자료를 비교하고자 할 때 쓰인다. 

#변동계수
my_array.std()/my_array.mean()

 

✅random 모듈

#0부터 1사이의 분포에서 난수를 생성하는 함수. 실행할 때마다 바뀜. 컴퓨터의 m/s에 따라 다르다. 
np.random.seed(42) #난수를 고정해 줄 때 seed를 사용하면 됨
np.random.rand()

 

#낮은 값(포함)에서 높은 값(제외)까지 무작위 정수를 반환합니다. 
np.random.randint(1,7)

#통계학은 시뮬레이션을 좋아하기 때문에, 종종 random 함수를 사용한다.