1. 회귀
회귀(Regression): 경향선을 파악하고자 하는 것이다.
‼️회귀분석의 유래
회귀분석(Regression analysis)이라는 용어는 약 80여년 전 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래되었다. 부모와 자식들 간의 키의 상관관계를 분석해 본 갈톤은 다음과 같은 재미있는 관계를 찾아내었다. 즉, 특이하게 큰 부모의 자식들은 대게 크긴 하되 부모들보다는 대부분 작았고, 특이하게 작은 부모들의 자식들은 대게 작긴 하되 부모들보다는 대부분 크다는 사실이다. 이러한 경향은 사람들의 키가 평균키로 회귀하려는 경향이 있음을 말하는 것인데, 바로 이 연구에서부터 회귀분석이라는 용어가 사용되게 되었다.
(현대통계학, 김세헌)
https://blog.naver.com/definitice/220983804060
(1) 단순선형회귀(Simple Linear Regression)
- 선형 회귀의 범주
*선형회귀: 직선과 같은 상황에서 사용하는 것
- 변수가 하나인 경우의 관계를 직선으로 모델링하는 방법
Y = β0 + β1X (β0는 절편(intercept), β1는 기울기(slope)
단순선형회귀 모델은 단순한 직선을 긋기 때문에 1차 방정식의 형태로 X와 Y관계를 설명하게 된다.
- 독립 변수(X)의 변화에 따라 종속 변수(Y)가 어떻게 변화하는지 설명하고 예측.
- 데이터가 직선적 경향을 따를 때 사용
- 간단하고 해석이 용이
- 예시: 광고비와 매출 간의 분석
(2) 다중선형회귀 (Multiple Linear Regression)
Y = β0 + β1X1 + β2X2 + ... + βnXn
다중선형회귀는 단순선형회귀와는 다르게 여러개의 독립변수와 Y의 관계를 설명하기 때문에 X와그 계수가
여러개 있어야 하며 2차식이나 3차식과 같은 고차항은 존재하지 않아 평면을 만들게 되는 방정식이다.
- 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측함
- 종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용함
- 여러 변수의 영향을 동시에 분석할 수 있음
- 다중공선성을 반드시 확인해주어야 함
‼️다중공선성
다중공선성(Multicollinearity) : 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우
- 독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리하기 어려워져 회귀의 해석을 어렵게 한다.
- 회귀에 있어서 다중공선성이 있는 것은 좋지 않은 경우이다.
진단방법
- 가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있다.
- 더 정확한 방법으로는 분산 팽창 계수 (VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법으로 다중공선성이 높다고 판단할 수 있다.
해결 방법
- 가장 간단한 방법으로는 높은 계수를 가진 변수 중 하나를 제거해준다.
- 혹은 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결한다.
2. 범주형 변수
수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수
더미변수로 변경해서 사용한다.
3. 다항회귀, 스플라인 회귀
선형회귀로 해결이 되지 않을 때 사용한다.
(1) 다항회귀(polynomial regression)
- 선형이 아닌 경우는 모두 다항회귀를 사용하고, 독립 변수의 다항식을 사용하여 종속 변수를 예측한다.
- 데이터가 곡선적 경향을 따를 때 사용한다.
- 고차 다항식의 경우 과적합(overfitting) 위험이 있다.
x에 대한 모든 관계를 선으로 그어버릴 수 있다는 것 우리가 앞으로 수집하는 모든 데이터에 대해서 잘 들어맞을 것이라는 보장이 없다.
Y = β0 + β1X + β2 X²
2차원 비선형관계를 가지고 있기 때문에 2차식(X제곱) 형태를 가지고 있어야 하며 독립변수가 한개이기 때문에 각 차수(1차, 2차)마다 1개의 X를 가지고 있다.
(2) 스플라인 회귀(Spline Regression)
- 시간에 따라 비선형관계가 계속 바뀌는 것과 같이 데이터의 변화가 매우 불규칙할 경우 사용함
- 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
- 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성한다
- 복잡한 비선형 관계를 유연하게 모델링할 수 있다
- 적절한 매듭점(knots)의 선택이 중요하다
'기초통계' 카테고리의 다른 글
통계학 기초 정리 (6) : 가설검정(재현가능성, p-해킹, 선택적보고) (0) | 2025.01.09 |
---|---|
통계학 기초 정리 (5) : 상관계수(피어슨 상관계수, 스피어만 상관계수, 켄달타우 상관계수, 상호정보 상관계수) (0) | 2025.01.09 |
통계학 기초 정리 (3) : 각종 검정 방법 (t검정, 다중 검정, 카이제곱 오류), 제 1종 오류와 제 2종 오류 (0) | 2025.01.08 |
통계학 기초 정리 (2) : 모집단과 표본, 분포의 종류 (0) | 2025.01.07 |
통계학 기초 정리 (1) : 기술통계와 추론통계, 상관관계와 인과관계, 자료형의 종류 (0) | 2025.01.06 |