선형회귀(Linear Regression)
장점
- 직관적이며 이해하기 쉽다. X-Y관계를 정량화 할 수 있다.
- 모델이 빠르게 학습된다
단점
- X-Y간의 선형성 가정이 필요하다
- 평가지표가 평균을 포함하기에 이상치에 민감하다. (평균은 늘 이상치에 민감하다.)
- 범주형 변수를 인코딩시 정보 손실이 일어난다.
from sklearn.linear_model import LinearRegression
☑️ 자주 쓰는 함수
- sklearn.linear_model.LinearRegression : 선형회귀 모델 클래스
- coef_: 회귀 계수
- intercept: 편향(bias)
- fit: 데이터 학습
- predict: 데이터 예측
예시
몸무게와 키 데이터를 이용해서 선형회귀 식을 만들면, y = 0.86x + 109.37 이 나와요. 이 뜻은, 1kg 증가할때마다 키가 0.86 cm 증가한다는 것으로 해석 할 수 있다.
☑️ 선형회귀 용어 정리
- 공통
- Y는 종속 변수, 결과 변수
- X는 독립 변수, 원인 변수, 설명 변수
선형회귀 평가 지표
- Mean Squared Erorr(MSE)라고 정의
- R Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도
☑️ 선형 회귀의 가정
- 선형성 (Linearity): 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 한다.
- 등분산성 (Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 한다. 즉, 오차가 특정 패턴을 보여서는 안 되며, 독립 변수의 값에 상관없이 일정해야 한다.
- 정규성 (Normality): 오차 항은 정규 분포를 따라야 한다.
- 독립성 (Independence): X변수는 서로 독립적이어야 한다.
'머신러닝' 카테고리의 다른 글
머신러닝 심화 (2) : 데이터 분리 (0) | 2025.01.17 |
---|---|
머신러닝 심화 (1) : 인코딩, 스케일링 (0) | 2025.01.17 |
머신러닝 기초 (1) : 머신러닝의 정의, 종류, 사용분야 (3) | 2025.01.13 |