본문 바로가기

머신러닝

머신러닝 기초 (2) : 선형회귀(Linear Regression)

선형회귀(Linear Regression) 

 

장점

- 직관적이며 이해하기 쉽다. X-Y관계를 정량화 할 수 있다. 

- 모델이 빠르게 학습된다

 

단점

- X-Y간의 선형성 가정이 필요하다

- 평가지표가 평균을 포함하기에 이상치에 민감하다. (평균은 늘 이상치에 민감하다.) 

- 범주형 변수를 인코딩시 정보 손실이 일어난다. 

from sklearn.linear_model import LinearRegression​

 

☑️ 자주 쓰는 함수

  • sklearn.linear_model.LinearRegression : 선형회귀 모델 클래스
    • coef_: 회귀 계수
    • intercept: 편향(bias)
    • fit: 데이터 학습
    • predict: 데이터 예측

 

예시

몸무게와 키 데이터를 이용해서 선형회귀 식을 만들면, y = 0.86x + 109.37 이 나와요. 이 뜻은, 1kg 증가할때마다 키가 0.86 cm 증가한다는 것으로 해석 할 수 있다. 

 

 

☑️ 선형회귀 용어 정리

  • 공통
    • Y는 종속 변수, 결과 변수
    • X는 독립 변수, 원인 변수, 설명 변수 

 

선형회귀 평가 지표

  • Mean Squared Erorr(MSE)라고 정의
  • R Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도

 

☑️ 선형 회귀의 가정

  1. 선형성 (Linearity): 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 한다. 
  2. 등분산성 (Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 한다. 즉, 오차가 특정 패턴을 보여서는 안 되며, 독립 변수의 값에 상관없이 일정해야 한다. 
  3. 정규성 (Normality): 오차 항은 정규 분포를 따라야 한다. 
  4. 독립성 (Independence): X변수는 서로 독립적이어야 한다.