머신러닝 심화 (1) : 인코딩, 스케일링
·
머신러닝
1. 인코딩 어떤 정보를 정해진 규칙에 따라 변환하는 것을 의미한다.  (1) 레이블 인코딩모델이 처리하기 쉬운 수치형으로 데이터 변환 실제로는 그렇지 않은데, 순서 간 크기에 의미가 부여되어 모델이 잘못 해석 할 수 있음. sklearn.preprocessing.LableEncoder - 메소드- fit: 데이터 학습- transform: 정수형 데이터로 변환 - fit_transform: fit과 transform을 연결하여 한번에 실행 - inverse_transform: 인코딩된 데이터를 원래 문자열로 반환  (2) 원-핫 인코딩(One-Hot Encoding) 각 범주를 이진 형식으로 표현하는 기법 장점: 각 범주가 독립적으로 표현되어, 순서가 중요도를 잘못 학습하는 것을 방지. 명목형 데이터에..
SQL QCC 오답노트
·
카테고리 없음
문제1. 지역별로 매출이 가장 높은 매장의 매출을 조회하는 SQL 문을 작성해주세요. 단, 해당 지역에 매장이 두 개 이상인 경우만 결과에 포함해주세요. 결과는 지역 이름을 기준으로 오름차순으로 정렬해주세요.select REGION_NAME as region_name, MAX(SALES) as highest_sales from storesgroup by region_nameHAVING count(distinct STORE_ID) >= 2 order by region_name; 문제2. 최근 특정 사용자들이 결제를 하지 않고 상품을 주문하거나, 결제를 하지 않은 시점에 이미 상품을 주문하는 버그가 발견되었습니다. 🐞 해당 버그를 악용한 사용자를 파악하기 위해 SQL 문을 작성해주세요. 다음 조건에..
250116 데이터분석과정 TIL
·
데이터분석캠프 TIL
회고 오늘은 통계학 마지막 세션과 QCC가 있어서 세웠던 계획을 다 달성하지 못했다. QCC는 지난번 보다 어렵지 않아서 풀만 했던 것 같다. 마침 어제 리트코드에서 풀었던 셀프조인 문제가 나와서 접근하는데까지는 성공했는데, 뒤에 조건을 덜 넣어서 틀렸다. 그래도 배웠던 내용을 다시 복습할 수 있어서 아주 좋았던 문제였다. 오늘로써 통계학 기초 강의도 끝났는데, 머리에 들어온 게 없어서 아무래도 강의를 다시 들어야 할 것 같다^^ 통계학 기본서도 함께 구입하고...하하 공부할 게 끝이 나지 않는다.
SQL풀이: Leetcode 1661. Average Time of Process per Machine
·
DATA/SQL
https://leetcode.com/problems/average-time-of-process-per-machine/ 문제machine_id와 기계 종류별로 처리 평균 시간을 구하면 되는 문제로 평균 시간은 소수 3째자리에서 반올림해주어야 한다. 방법1 select machine_id, round(sum(case when activity_type = 'start' then - timestamp else timestamp end) / count(distinct process_id), 3) as processing_timefrom Activitygroup by machine_id; 방법2테이블을 두 개로 분리해서 푸는 방법SELECT a.machine_id, ROUND(AVG(b...
250115 TIL 데이터분석 과정
·
데이터분석캠프 TIL
1. 회고 이번주는 계속...위기를 맞고 있다. 해야 할 분량들은 다 끝나면서 하고 있지만 몸이 너무 힘들어서 머리에 들어오는 게 없다. 출석률 100%를 놓치기 싫어서 일단 엉덩이를 책상앞에 열심히 붙이고 있다. 죽겠다....이번 고비만 넘어가면 나아질 것 같은데, 공부량이 너무 많아서 하루 빠지는 게 뭔가 크다는 생각이 든다. 머신러닝이 흥미롭지 않고, 당장 나에게 있어 우선순위가 아니라서 그런지 더욱 집중이 잘 안되는 기분이다. 이야기 나누던 사람들도 하나둘 떠나가서 그런 것 같기도. 2. 아티클 정리 A/B 테스트 제대로 이해하기: ④ A/B 테스트 표본 크기와 유의미한 결과의 관계 | 요즘IT이전 글에서 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 방법과 해석에 관한 내용을 살펴보았다..
머신러닝 기초 (2) : 선형회귀(Linear Regression)
·
머신러닝
선형회귀(Linear Regression)  장점- 직관적이며 이해하기 쉽다. X-Y관계를 정량화 할 수 있다. - 모델이 빠르게 학습된다 단점- X-Y간의 선형성 가정이 필요하다- 평가지표가 평균을 포함하기에 이상치에 민감하다. (평균은 늘 이상치에 민감하다.) - 범주형 변수를 인코딩시 정보 손실이 일어난다. from sklearn.linear_model import LinearRegression​ ☑️ 자주 쓰는 함수sklearn.linear_model.LinearRegression : 선형회귀 모델 클래스coef_: 회귀 계수intercept: 편향(bias)fit: 데이터 학습predict: 데이터 예측 예시몸무게와 키 데이터를 이용해서 선형회귀 식을 만들면, y = 0.86x + 109.37 ..
250113 TIL 데이터분석과정 TIL(머신러닝 주차 시작)
·
데이터분석캠프 TIL
1. 회고 오늘은 뭔가 체력적으로 엄청 지친다. 새로 머신러닝 강의를 듣기 시작했는데, 뭔가 집중도 이해도 잘 안되었다. 심지어 강의페이지에서 잘못보고 기초강의가 아니라 심화강의부터 듣기 시작했다...낮에 난 무엇을 한 것인가? 남는 시간에는 파이썬 베이직반 강의 올라온 것들을 복습해주었다. 머신러닝이 너무 재미없다보니, 파이썬이 더 재미있게 느껴지는 기현상이 일어난다.  이제 본격적으로 포트폴리오에 넣을 내용들을 만들어주어야 하는지라, 내가 해왔던 내용들을 놓치지 말고 잘 적어주어야 겠다. 대략 아래의 내용을 중심적으로 담으려고 한다. 그동안 잠시 내려놓았던 공고 찾기도 이제 다시 시작해야 하는데, 체력적으로 잘 뒷받침해줄 수 있기를...흐물흐물해지는 기분이다..ㅎ 무슨 데이터를 가지고 어떤 분석을 했..
머신러닝 기초 (1) : 머신러닝의 정의, 종류, 사용분야
·
머신러닝
1. 머신러닝의 기본 정의AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘 Deep Learning: 인공신경망을 이용한 머신러닝. 머신러닝의 하위 개념Data science: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문Data Analysis: 데이터 집계, 통계 분석, 머신러닝을 포함한 행위  2. 머신러닝이 발전한 이유인간은 데이터를 기반으로 한 의사결정을 내리고 싶기 때문  통계: 모집단(전체 집단)의 성질을 표본집단으로부터 알기 위한 추론 방법-> 비용의 한계(시간과 돈)로 인해, 전체 모집단의 성질을 알 수 없기 때문에 표본을 뽑아서 성질을 파악하고자 한 것을 계기로 통계가 발전함 ..