기초통계

통계학 기초 정리 (1) : 기술통계와 추론통계, 상관관계와 인과관계, 자료형의 종류

selenaass 2025. 1. 6. 22:27

1. 통계가 데이터 분석에 중요한 이유

→ 데이터를 분석하고 이를 바탕으로 의사결정을 내릴 수 있음

 

2. 통계학의 분류: 기술통계와 추론통계

  • 기술통계: 회사의 매출 데이터를 요약하고 설명하는 통계 방법 / 계산하는 것
  • 데이터를 특정 대표값으로 요약하는 것
  • 평균, 중앙값, 분산, 표준편차
1. 평균(Mean): 데이터의 중앙값, 모든 데이터를 더한 후 데이터의 개수로 나누는 것
- 데이터의 일반적인 경향을 파악할 때 유용함

2. 중앙값(Median): 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
- 이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법 

3. 분산(Variance): 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는 지를 나타내는 척도, 데이터의 흩어짐 정도
- 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것. 

4. 표준편차(Standard Deviation): 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도. 데이터의 변동성을 측정하고, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미함. 
- 분산의 제곱근
  • 추론통계: 표본 데이터를 가지고 모집단의 특성을 추정, 가설을 검정하는 통계 방법 / 추론하는 것
  • 신뢰구간, 가설검정 등을 사용함
신뢰구간(Confidence Interval)
- 모집단의 평균이 특정 범위 내에 있을 것이라는 확률
- 일반적으로 95% 신뢰구간이 사용되며, 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미함

가설검정(Hypothesis Testing) 
- 모집단에 대한 가설을 검증하기 위해 사용됨
- 귀무가설(H0): 검증하고자 하는 가설이 효과가 없다. 
- 대립가설(H1): 변화가 있다, 효과가 있다 등 가설이 맞다. 

 

3. 수식 이해

  알파벳 대문자 알파벳 소문자 그리스 대문자 그리스 소문자
표현목적 변수 혹은 여러 값이 모인 데이터를 표현 실체화된 개별의 값 데이터 통합하는 거시적인 관점에서 사용 모집단의 특성 표현
예시
 : 확률 변수
: 실제 값 
∑: 데이터의 합  μ: 모집단의 평균 

출처: 스파르타 통계학 강의안

 

통계학은 위와 같이 구분하여 수식을 표현하고 있는데, 그래서 그리스 문자들을 아는 것이 수식작성 시의 효율성을 높여줄 수 있다. 

 

4. 위치추정

- 데이터의 중심을 파악하기 위해서는 평균, 중앙값으로 파악한다. 

 

5. 변이추정

- 데이터들이 얼마나 다른 지를 파악하기 위해서는 분산, 표준편차, 범위(range)를 파악한다. 

범위(Range): 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도
- 어느정도의 변동성을 가지는 지 파악 가능 

범위 = 최댓값 - 최솟값 

 

 

6. 데이터 분포 탐색

Box plot과 히스토그램을 이용해서 데이터의 분포를 확인한다. 

최대와 최솟값을 확인할 수 있는 Box Plot
주사위 던지기 시뮬레이션 히스토그램

7. 상관관계와 인과관계

  • 상관계수: 두 변수 간의 관계를 측정하는 방법

출처: https://www.simplypsychology.org/correlation.html

 

 

상관관계는 두 변수 간의 관계를 나타내며, 인과관계는 한 변수가 다른 변수에 미치는 영향

상관관계는 원인과 결과가 분명하지는 않다. 따라서 A가 발생한다고 B가 반드시 발생한다는 의미는 아니다. 인과관계는 원인이 결과에 직접적으로 영향을 미치는 것을 의미한다. 

 

  • 인과관계는 상관관계의 충분조건이며 인과관계를 위해서는 상관관계가 필요조건이다. 

 

출처: https://statisticseasily.com/correlation-vs-causality/

 

위의 자료를 보면 아이스크림 판매량과 피부가 햇볕에 탄 사람이 증가한 데이터의 그래프가 동일한 추세를 보이는 것을 확인할 수 있다. 두 변수 모두 날씨가 더워지면 수치가 올라가지만, 아이스크림 판매량이 높아진다고, 피부가 타는 사람의 비율이 반드시 많아진다고 원인과 결과를 증명할 수는 없다. 

 

 

추가자료로 앰플리튜드 공식사이트에서 가져온 내용으로, 인과관계와 상관관계의 차이에 대해 더욱 자세하게 알 수 있다. 

 

Correlation vs Causation: Learn the Difference | Amplitude

In this example, joining communities and higher retention correlate, but a third factor could be causing both. To find out, you can conduct statistical analysis by testing for causation in your product.

amplitude.com

 

 

8. 자료형의 종류

(1) 범주형 자료: 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 나누어 진 자료

  • 명목형 자료(Nomial data): 순서가 의미 없는 자료
  • 순서형 자료(Ordinal data): 순서가 의미 있는 자료

(2) 수치형 자료: 관측된 값이 수치로 측정되는 자료

  • 이산형 자료(Discrete data): 두 데이터 구간이 유한한 자료
  • 연속형 자료(Continuous data): 두 데이터 구간이 무한한 자료

출처: 스파르타 통계학 강의안

 

 

 


 

📝 회고

오늘은 기초프로젝트가 마치고 통계학과 머신러닝이라는 새로운 발제 주차로 넘어가는 주였다. 다시 임정튜터님이 강의를 해주시는데, 역시 임정튜터님의 잔잔한 개그는 나에게 빅웃음을 선사해주신다. 

첫주차 강의 제목이 '중학생도 이해할 수 있는 통계학' 이다....😅 (이제 앞자리가 3이라...이해 못하면 자괴감이 들것 같...기 때무네 열심히 오늘도 머리에 꾸깃꾸깃 넣는다)

 

지난 주에 달렸던 만큼 오늘은 좀 힘을 빼고 새롭게 배울 내용과 친해지는 것이 우선순위라는 생각이 들었다. 그리고 곧 파이썬의 수준별 학습이 시작될 예정이라 일단 통계학에 대한 기초를 탄탄하게 다지면서 구멍이 난 파이썬 개념을 다지려고 한다. 

지난주에 프로젝트를 진행하면서도 통계학에 대한 개념이 없다보니, 인사이트를 분석하는 데에 어려움을 겪었던 지라 KOCW나 K-mooc로 통계학 강의를 찾아보고 있었는데 마침 이 순서로 진행되어서 다행인 것 같다.

대학강의는 학문적인 내용을 다룰 것 같아서 일단 현업에 들어가는 게 목표인 나에게는 실무 활용할 수 있는 적용점을 갖춘 지금의 커리가 나은 것 같다. 추후에 어느정도 지식이 쌓였을 때 시간을 내서 통계학 명강의로 알려진 것들도 차근차근 들어보려고 한다.