기초통계학(1) : 중심경향치, 산포도
·
기초통계
1. 중심경향치- 평균을 포함하는 고급스러운 용어- 범주형의 요약은 최빈값을 이용할 수 있음. 가장 많이 등장하는 값. - 수치형의 경우 평균, 중앙값이 사용됨평균평균은 이상치에 민감하기 때문에, 데이터가 커지면 전체 데이터를 왜곡하는 현상이 일어난다. 중앙값: 일련의 숫자를 값 순서대로 줄 세웠을 때, 백분위 50%에 해당하는 값 2. 산포도데이터의 퍼짐 정도를 나타내는 방법1. 분산(Variance) : 평균에 데이터가 퍼진 정도- 1차원의 데이터는 넘파이로 사용하는 게 훨씬 유용하다.  2. 표준편차(Standard Deviation): 분산을 계산할 때 숫자를 제곱하면, 단위까지 제곱되는데 이를 막기 위해  3. 변동계수(Coeffient of Variation): 서로 값의 스케일이 다르다면 분..
통계학 기초 문제풀이
·
기초통계
문제1. 변동계수 구하기변동계수(coefficient of variation) = 표준편차 / 평균표준 편차를 산술 평균으로 나눈 값 변동 계수는 같은 단위를 가지는 평균값으로 나누어주기 때문에, 측정단위가 서로 다른 자료를 비교하고자 할 때 쓰인다. 변동 계수의 값이 클수록 상대적인 차이가 크다는 것을 의미하며, 상대 표준 편차라고도 부른다. 풀이1. Numpy(1) a와 b의 평균 구하기mean_a = np.mean(com_a)mean_b = np.mean(com_b)print(mean_a, mean_b) (2) 표준 편차 구하기std_a = np.std(com_a, ddof=1) #자유도가 1이다. 표본이기 때문에 자유도 : 자료의 개수 -1std_b = np.std(com_b, ddof=1) (3..
통계학 기초 정리 (6) : 가설검정(재현가능성, p-해킹, 선택적보고)
·
기초통계
1. 재현가능성 동일한 연구나 실험을 했을 때 우연한 결과가 계속 나오는 것이 아니라, 언제 어떤 상황에서도 일관된 결과값이 나와야 의미가 있다. 연구의 신뢰성을 높이기 위함. - 재현 가능성이 없다면 아무런 의미가 없는 것이다. 최근 p값에 대한 논쟁이 두드러지고 있음 p값을 사용하지 않는 것이 좋다. 유의수준을 0.05에서 변경하는 것이 좋다. 가설검정의 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생p-값이 우리가 원하는 수치가 나왔음에도 잘못된 결과가 나올 수 있기 때문에, 너무 맹신해서는 안된다. ✅재현성 위기의 원인- 실험 조건을 동일하게 조성하기 어려움- 완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않음 - 가설검정 ..
통계학 기초 정리 (5) : 상관계수(피어슨 상관계수, 스피어만 상관계수, 켄달타우 상관계수, 상호정보 상관계수)
·
기초통계
1. 피어슨 상관계수(Pearson Coefficient Correlation) 전형적인 선형 관계를 볼 수 있다. (비선형관계에서는 사용할 수 없다.) 어떤 숫자형태의 변수여야 한다. 숫자 형태의 값들은 연속적인 값을 가진다. 연속적인 값을 가지지 않으면 피어슨 상관계수를 쓸 수 없다.  -1에서 1의 값을 가지고, 1은 완전한 양의 상관관계 / -1 은 완전한 음의 상관관계 / 0은 상관관계가 없음  ✅파이썬에서 활용방법#피어슨 상관계수 계산pearson_corr, _ = pearsonr(df['Study Hours'], df['Exam Scores'])print(f"피어슨 상관계수: {pearson_corr}") 2. 비모수 상관계수(Nonparametric Correlation Coefficien..
통계학 기초 정리 (4) : 회귀분석(선형회귀, 다항회귀, 스플라인회귀)
·
기초통계
1. 회귀회귀(Regression): 경향선을 파악하고자 하는 것이다. ‼️회귀분석의 유래 회귀분석(Regression analysis)이라는 용어는 약 80여년 전 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래되었다. 부모와 자식들 간의 키의 상관관계를 분석해 본 갈톤은 다음과 같은 재미있는 관계를 찾아내었다. 즉, 특이하게 큰 부모의 자식들은 대게 크긴 하되 부모들보다는 대부분 작았고, 특이하게 작은 부모들의 자식들은 대게 작긴 하되 부모들보다는 대부분 크다는 사실이다. 이러한 경향은 사람들의 키가 평균키로 회귀하려는 경향이 있음을 말하는 것인데, 바로 이 연구에서부터 회귀분석이라는 용어가 사용되게 되었다.(현대통계학, 김세헌) https://blog.naver.com/definitice..
통계학 기초 정리 (3) : 각종 검정 방법 (t검정, 다중 검정, 카이제곱 오류), 제 1종 오류와 제 2종 오류
·
기초통계
1. t검정두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법독립표본 t검정(Independent T - test) : 두 독립된 그룹의 평균을 비교대응표본 t검정(Paired T-test) : 동일한 그룹의 사전/사후 평균을 비교독립표본 t 검정은 두 집단이 서로 독립적인 경우에 사용 / 대응표본 t 검정은 두 집단이 서로 관련성이 있는 경우에 사용 ✅참고 자료  [Python / Study] 독립표본, 대응표본 t-test 공부하기1. 대응표본 대응표본이란 같은 대상에 대해 두 번의 측정을 한 후 두 측정치의 평균이 차이가 있는지 비교하는 통계적 방법입니다. 예를 들면 처치나 중재, 약물, 교육, 치료 등의 효과를 알아보jangcoding77.tistory.com  2. 다중 검정(m..
통계학 기초 정리 (2) : 모집단과 표본, 분포의 종류
·
기초통계
1. 모집단과 표본 (1) 모집단: 대상의 전체 집단(2) 표본: 모집단의 특성을 반영하여 선별한 일부전체 모집단을 조사하는 것은 비용과 시간이 많이 들고, 물리적으로 불가능한 경우가 많기 때문에 표본을 수집한다. 표본 데이터를 사용하는 것이 처리와 분석에 훨씬 용이함. 작은 표본에서는 데이터 품질을 더 쉽게 관리함표본 데이터를 사용해서 통계적 모델을 검증할 수 있음 전수조사표본조사모집단 전체를 조사. 시간과 비용이 많이 든다. 표본만 선별하여 조사. 표본이 대표성을 가져야 함 import numpy as np #Numpy 불러오기import matplotlib.pyplot as plt #시각화 도구#모집단 생성population = np.random.normal(170, 10, 1000) #표본 추출..
통계학 기초 정리 (1) : 기술통계와 추론통계, 상관관계와 인과관계, 자료형의 종류
·
기초통계
1. 통계가 데이터 분석에 중요한 이유→ 데이터를 분석하고 이를 바탕으로 의사결정을 내릴 수 있음 2. 통계학의 분류: 기술통계와 추론통계기술통계: 회사의 매출 데이터를 요약하고 설명하는 통계 방법 / 계산하는 것데이터를 특정 대표값으로 요약하는 것평균, 중앙값, 분산, 표준편차1. 평균(Mean): 데이터의 중앙값, 모든 데이터를 더한 후 데이터의 개수로 나누는 것- 데이터의 일반적인 경향을 파악할 때 유용함2. 중앙값(Median): 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값- 이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법 3. 분산(Variance): 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는 지를 나타내는 척도, 데이터의 흩어짐 정도- 각 데이..