1. 통계가 데이터 분석에 중요한 이유
→ 데이터를 분석하고 이를 바탕으로 의사결정을 내릴 수 있음
2. 통계학의 분류: 기술통계와 추론통계
- 기술통계: 회사의 매출 데이터를 요약하고 설명하는 통계 방법 / 계산하는 것
- 데이터를 특정 대표값으로 요약하는 것
- 평균, 중앙값, 분산, 표준편차
1. 평균(Mean): 데이터의 중앙값, 모든 데이터를 더한 후 데이터의 개수로 나누는 것
- 데이터의 일반적인 경향을 파악할 때 유용함
2. 중앙값(Median): 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
- 이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
3. 분산(Variance): 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는 지를 나타내는 척도, 데이터의 흩어짐 정도
- 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것.
4. 표준편차(Standard Deviation): 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도. 데이터의 변동성을 측정하고, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미함.
- 분산의 제곱근
- 추론통계: 표본 데이터를 가지고 모집단의 특성을 추정, 가설을 검정하는 통계 방법 / 추론하는 것
- 신뢰구간, 가설검정 등을 사용함
신뢰구간(Confidence Interval)
- 모집단의 평균이 특정 범위 내에 있을 것이라는 확률
- 일반적으로 95% 신뢰구간이 사용되며, 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미함
가설검정(Hypothesis Testing)
- 모집단에 대한 가설을 검증하기 위해 사용됨
- 귀무가설(H0): 검증하고자 하는 가설이 효과가 없다.
- 대립가설(H1): 변화가 있다, 효과가 있다 등 가설이 맞다.
3. 수식 이해
알파벳 대문자 | 알파벳 소문자 | 그리스 대문자 | 그리스 소문자 | |
표현목적 | 변수 혹은 여러 값이 모인 데이터를 표현 | 실체화된 개별의 값 | 데이터 통합하는 거시적인 관점에서 사용 | 모집단의 특성 표현 |
예시 | ![]() |
![]() |
∑: 데이터의 합 | μ: 모집단의 평균 |
출처: 스파르타 통계학 강의안
통계학은 위와 같이 구분하여 수식을 표현하고 있는데, 그래서 그리스 문자들을 아는 것이 수식작성 시의 효율성을 높여줄 수 있다.
4. 위치추정
- 데이터의 중심을 파악하기 위해서는 평균, 중앙값으로 파악한다.
5. 변이추정
- 데이터들이 얼마나 다른 지를 파악하기 위해서는 분산, 표준편차, 범위(range)를 파악한다.
범위(Range): 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도
- 어느정도의 변동성을 가지는 지 파악 가능
범위 = 최댓값 - 최솟값
6. 데이터 분포 탐색
Box plot과 히스토그램을 이용해서 데이터의 분포를 확인한다.
7. 상관관계와 인과관계
- 상관계수: 두 변수 간의 관계를 측정하는 방법
상관관계는 두 변수 간의 관계를 나타내며, 인과관계는 한 변수가 다른 변수에 미치는 영향
상관관계는 원인과 결과가 분명하지는 않다. 따라서 A가 발생한다고 B가 반드시 발생한다는 의미는 아니다. 인과관계는 원인이 결과에 직접적으로 영향을 미치는 것을 의미한다.
- 인과관계는 상관관계의 충분조건이며 인과관계를 위해서는 상관관계가 필요조건이다.
위의 자료를 보면 아이스크림 판매량과 피부가 햇볕에 탄 사람이 증가한 데이터의 그래프가 동일한 추세를 보이는 것을 확인할 수 있다. 두 변수 모두 날씨가 더워지면 수치가 올라가지만, 아이스크림 판매량이 높아진다고, 피부가 타는 사람의 비율이 반드시 많아진다고 원인과 결과를 증명할 수는 없다.
추가자료로 앰플리튜드 공식사이트에서 가져온 내용으로, 인과관계와 상관관계의 차이에 대해 더욱 자세하게 알 수 있다.
Correlation vs Causation: Learn the Difference | Amplitude
In this example, joining communities and higher retention correlate, but a third factor could be causing both. To find out, you can conduct statistical analysis by testing for causation in your product.
amplitude.com
8. 자료형의 종류
(1) 범주형 자료: 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 나누어 진 자료
- 명목형 자료(Nomial data): 순서가 의미 없는 자료
- 순서형 자료(Ordinal data): 순서가 의미 있는 자료
(2) 수치형 자료: 관측된 값이 수치로 측정되는 자료
- 이산형 자료(Discrete data): 두 데이터 구간이 유한한 자료
- 연속형 자료(Continuous data): 두 데이터 구간이 무한한 자료
📝 회고
오늘은 기초프로젝트가 마치고 통계학과 머신러닝이라는 새로운 발제 주차로 넘어가는 주였다. 다시 임정튜터님이 강의를 해주시는데, 역시 임정튜터님의 잔잔한 개그는 나에게 빅웃음을 선사해주신다.
첫주차 강의 제목이 '중학생도 이해할 수 있는 통계학' 이다....😅 (이제 앞자리가 3이라...이해 못하면 자괴감이 들것 같...기 때무네 열심히 오늘도 머리에 꾸깃꾸깃 넣는다)
지난 주에 달렸던 만큼 오늘은 좀 힘을 빼고 새롭게 배울 내용과 친해지는 것이 우선순위라는 생각이 들었다. 그리고 곧 파이썬의 수준별 학습이 시작될 예정이라 일단 통계학에 대한 기초를 탄탄하게 다지면서 구멍이 난 파이썬 개념을 다지려고 한다.
지난주에 프로젝트를 진행하면서도 통계학에 대한 개념이 없다보니, 인사이트를 분석하는 데에 어려움을 겪었던 지라 KOCW나 K-mooc로 통계학 강의를 찾아보고 있었는데 마침 이 순서로 진행되어서 다행인 것 같다.
대학강의는 학문적인 내용을 다룰 것 같아서 일단 현업에 들어가는 게 목표인 나에게는 실무 활용할 수 있는 적용점을 갖춘 지금의 커리가 나은 것 같다. 추후에 어느정도 지식이 쌓였을 때 시간을 내서 통계학 명강의로 알려진 것들도 차근차근 들어보려고 한다.
'기초통계' 카테고리의 다른 글
통계학 기초 정리 (6) : 가설검정(재현가능성, p-해킹, 선택적보고) (0) | 2025.01.09 |
---|---|
통계학 기초 정리 (5) : 상관계수(피어슨 상관계수, 스피어만 상관계수, 켄달타우 상관계수, 상호정보 상관계수) (0) | 2025.01.09 |
통계학 기초 정리 (4) : 회귀분석(선형회귀, 다항회귀, 스플라인회귀) (4) | 2025.01.08 |
통계학 기초 정리 (3) : 각종 검정 방법 (t검정, 다중 검정, 카이제곱 오류), 제 1종 오류와 제 2종 오류 (0) | 2025.01.08 |
통계학 기초 정리 (2) : 모집단과 표본, 분포의 종류 (0) | 2025.01.07 |