머신러닝 심화 (2) : 데이터 분리
·
머신러닝
1. 데이터 분리 과대적합(Overfitting): 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 현상은 잘 맞추지 못하는 경우과소 적합: 모형이 지나치게 단순할 때 과대 적합: 모형이 지나치게 복잡할 때학습 데이터(Train Data): 모델을 학습(fit)하기 위한 데이터테스트 데이터(Test Data): 모델을 평가 하기 위한 데이터함수 및 파라미터 설명 sklearn.model_selection.train_test_split파라미터test_size: 테스트 데이터 세트 크기train_size: 학습 데이터 세트 크기shuffle: 데이터 분리 시 섞기random_state: 호출할 때마다 동일한 학습/테스트 데이터를 생성하기 위한 난수 값. 수행할 때 마다 동일한 데이터 세트..
머신러닝 심화 (1) : 인코딩, 스케일링
·
머신러닝
1. 인코딩 어떤 정보를 정해진 규칙에 따라 변환하는 것을 의미한다.  (1) 레이블 인코딩모델이 처리하기 쉬운 수치형으로 데이터 변환 실제로는 그렇지 않은데, 순서 간 크기에 의미가 부여되어 모델이 잘못 해석 할 수 있음. sklearn.preprocessing.LableEncoder - 메소드- fit: 데이터 학습- transform: 정수형 데이터로 변환 - fit_transform: fit과 transform을 연결하여 한번에 실행 - inverse_transform: 인코딩된 데이터를 원래 문자열로 반환  (2) 원-핫 인코딩(One-Hot Encoding) 각 범주를 이진 형식으로 표현하는 기법 장점: 각 범주가 독립적으로 표현되어, 순서가 중요도를 잘못 학습하는 것을 방지. 명목형 데이터에..
머신러닝 기초 (2) : 선형회귀(Linear Regression)
·
머신러닝
선형회귀(Linear Regression)  장점- 직관적이며 이해하기 쉽다. X-Y관계를 정량화 할 수 있다. - 모델이 빠르게 학습된다 단점- X-Y간의 선형성 가정이 필요하다- 평가지표가 평균을 포함하기에 이상치에 민감하다. (평균은 늘 이상치에 민감하다.) - 범주형 변수를 인코딩시 정보 손실이 일어난다. from sklearn.linear_model import LinearRegression​ ☑️ 자주 쓰는 함수sklearn.linear_model.LinearRegression : 선형회귀 모델 클래스coef_: 회귀 계수intercept: 편향(bias)fit: 데이터 학습predict: 데이터 예측 예시몸무게와 키 데이터를 이용해서 선형회귀 식을 만들면, y = 0.86x + 109.37 ..
머신러닝 기초 (1) : 머신러닝의 정의, 종류, 사용분야
·
머신러닝
1. 머신러닝의 기본 정의AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘 Deep Learning: 인공신경망을 이용한 머신러닝. 머신러닝의 하위 개념Data science: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문Data Analysis: 데이터 집계, 통계 분석, 머신러닝을 포함한 행위  2. 머신러닝이 발전한 이유인간은 데이터를 기반으로 한 의사결정을 내리고 싶기 때문  통계: 모집단(전체 집단)의 성질을 표본집단으로부터 알기 위한 추론 방법-> 비용의 한계(시간과 돈)로 인해, 전체 모집단의 성질을 알 수 없기 때문에 표본을 뽑아서 성질을 파악하고자 한 것을 계기로 통계가 발전함 ..