기초통계학(1) : 중심경향치, 산포도
·
기초통계
1. 중심경향치- 평균을 포함하는 고급스러운 용어- 범주형의 요약은 최빈값을 이용할 수 있음. 가장 많이 등장하는 값. - 수치형의 경우 평균, 중앙값이 사용됨평균평균은 이상치에 민감하기 때문에, 데이터가 커지면 전체 데이터를 왜곡하는 현상이 일어난다. 중앙값: 일련의 숫자를 값 순서대로 줄 세웠을 때, 백분위 50%에 해당하는 값 2. 산포도데이터의 퍼짐 정도를 나타내는 방법1. 분산(Variance) : 평균에 데이터가 퍼진 정도- 1차원의 데이터는 넘파이로 사용하는 게 훨씬 유용하다. 2. 표준편차(Standard Deviation): 분산을 계산할 때 숫자를 제곱하면, 단위까지 제곱되는데 이를 막기 위해 3. 변동계수(Coeffient of Variation): 서로 값의 스케일이 다르다면 분..