기초통계

통계학 기초 정리 (4) : 회귀분석(선형회귀, 다항회귀, 스플라인회귀)

selenaass 2025. 1. 8. 16:15

1. 회귀

회귀(Regression): 경향선을 파악하고자 하는 것이다. 

‼️회귀분석의 유래 
회귀분석(Regression analysis)이라는 용어는 약 80여년 전 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래되었다. 부모와 자식들 간의 키의 상관관계를 분석해 본 갈톤은 다음과 같은 재미있는 관계를 찾아내었다. 즉, 특이하게 큰 부모의 자식들은 대게 크긴 하되 부모들보다는 대부분 작았고, 특이하게 작은 부모들의 자식들은 대게 작긴 하되 부모들보다는 대부분 크다는 사실이다. 이러한 경향은 사람들의 키가 평균키로 회귀하려는 경향이 있음을 말하는 것인데, 바로 이 연구에서부터 회귀분석이라는 용어가 사용되게 되었다.
(현대통계학, 김세헌) 

https://blog.naver.com/definitice/220983804060

 

(1)  단순선형회귀(Simple Linear Regression)

  • 선형 회귀의 범주

*선형회귀: 직선과 같은 상황에서 사용하는 것 

  • 변수가 하나인 경우의 관계를 직선으로 모델링하는 방법

https://www.scribbr.com/statistics/simple-linear-regression/

 

Y = β0 + β1X  (β0는 절편(intercept), β1는 기울기(slope)
단순선형회귀 모델은 단순한 직선을 긋기 때문에 1차 방정식의 형태로 X와 Y관계를 설명하게 된다.

 

  • 독립 변수(X)의 변화에 따라 종속 변수(Y)가 어떻게 변화하는지 설명하고 예측.
  • 데이터가 직선적 경향을 따를 때 사용
  • 간단하고 해석이 용이
  • 예시: 광고비와 매출 간의 분석

 

 (2) 다중선형회귀 (Multiple Linear Regression) 

 

https://corporatefinanceinstitute.com/resources/data-science/multiple-linear-regression/

 

스파르타 강의안

 

Y = β0 + β1X1 + β2X2 + ... + βnXn

다중선형회귀는 단순선형회귀와는 다르게 여러개의 독립변수와 Y의 관계를 설명하기 때문에 X와그 계수가
여러개 있어야 하며 2차식이나 3차식과 같은 고차항은 존재하지 않아 평면을 만들게 되는 방정식이다.
  • 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측함
  • 종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용함
  • 여러 변수의 영향을 동시에 분석할 수 있음 
  • 다중공선성을 반드시 확인해주어야 함 

‼️다중공선성

다중공선성(Multicollinearity) : 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우

  • 독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리하기 어려워져 회귀의 해석을 어렵게 한다. 
  • 회귀에 있어서 다중공선성이 있는 것은 좋지 않은 경우이다. 

진단방법

  • 가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있다. 
  • 더 정확한 방법으로는 분산 팽창 계수 (VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법으로 다중공선성이 높다고 판단할 수 있다. 

해결 방법

  • 가장 간단한 방법으로는 높은 계수를 가진 변수 중 하나를 제거해준다. 
  • 혹은 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결한다. 

https://heung-bae-lee.github.io/2020/01/08/machine_learning_02/

 


 

 

 

2. 범주형 변수

수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수

더미변수로 변경해서 사용한다. 

 

 

 

3. 다항회귀, 스플라인 회귀

선형회귀로 해결이 되지 않을 때 사용한다. 

 

(1) 다항회귀(polynomial regression)

  • 선형이 아닌 경우는 모두 다항회귀를 사용하고, 독립 변수의 다항식을 사용하여 종속 변수를 예측한다. 
  • 데이터가 곡선적 경향을 따를 때 사용한다. 
  • 고차 다항식의 경우 과적합(overfitting) 위험이 있다. 

x에 대한 모든 관계를 선으로 그어버릴 수 있다는 것 우리가 앞으로 수집하는 모든 데이터에 대해서 잘 들어맞을 것이라는 보장이 없다. 

 

https://serokell.io/blog/polynomial-regression-analysis

Y = β0 + β1X + β2 X²
2차원 비선형관계를 가지고 있기 때문에 2차식(X제곱) 형태를 가지고 있어야 하며 독립변수가 한개이기 때문에 각 차수(1차, 2차)마다 1개의 X를 가지고 있다. 


(2) 스플라인 회귀(Spline Regression) 

  • 시간에 따라 비선형관계가 계속 바뀌는 것과 같이 데이터의 변화가 매우 불규칙할 경우 사용함
  • 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
  • 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성한다
  • 복잡한 비선형 관계를 유연하게 모델링할 수 있다 
  • 적절한 매듭점(knots)의 선택이 중요하다 

https://www.spsanderson.com/steveondata/posts/2023-12-04/index.html