데이터 전처리를 위한 판다스(Pandas) - 데이터 조회
·
PYTHON
1. 데이터 확인1-1 데이터 조회head () 앞 부분 tail () 뒷 부분 조회 해당 함수들로 가장 앞과 뒤의 데이터를 원하는 갯수만큼 확인할 수 있음. 갯수를 지정하지 않을 경우 default옵션으로 5개부터 조회된다. df.head(3) #앞의 3개의 행 조회df.tail(3) #뒤의 3개의 행 조회1-2 컬럼 정보 확인info ()컬럼별로 정보를 확인하고자 할 때 사용(인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입, null값 확인)   value_counts() column 별 값의 분포를 확인할 때 사용df['column'].value_counts() 1-3 데이터프레임 속성 확인 - Index: 데이터프레임 또는 시리즈의 각 행 또는 각 요소에 대한 식별자  - dtypes: 컬럼별..
241219 TIL 데이터 분석 과정
·
데이터분석캠프 TIL
회고일간 목표 데이터 시각화 4주차 강의SQL 코드카타 72 ~ 74번아티클라이브 세션팀 데이터 분석 자료점프투 파이썬 2장 읽는 중목요일이 되어서 그런지 오늘은 어제보다는 지친 하루인 것 같다.어제는 컨디션이 꽤나 좋았는데, 오늘은 오후쯤 되니 눈이 뻑뻑해서, 눈을 자주 감고 있었다.   그래도 좋은 점은 판다스는 오류가 많이 뜨지 않고, 내가 보고 싶은 결과들을 바로 시각화해서 볼 수 있어서 비교적 재밌게 수업을 진행하고 있다. 오늘은 어제보다 실시간 세션 시간에 다룬 내용들이 많았는데,데이터 필터, 정렬하기, 변경하는 법, 결측값을 처리하는 방법에 대해 배울 수 있었다.  제공된 강의로 데이터 시각화 4주차까지 완강해서 matplotlib으로 그래프 그리는 법까지 실습을 진행했는데, 이 내용을 가지..
데이터 전처리를 위한 - 판다스(Pandas) 기초
·
PYTHON
판다스 기초1. 판다스는 무엇인가? 관계형 또는 레이블이 된 데이터, 아래와 같은 형식의 데이터를 분석하는데 적합한 PYTHON 패키지이다. SQL 테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 테이블 형식 데이터정렬되고 정렬되지 않은 시계열 데이터다른 형태의 관찰 / 통계 데이터 세트 ✅판다스 설치방법이전에 Visual Studio와 Python이 컴퓨터에 설치되어 있어야 하며, Visual Studio에서 Jupyter와 Python도 설치해주어야 한다.  1) 터미널이나 코드창에 아래의 코드를 입력하면, 밑에 주루룩 무언가 설치되었다는 문구들이 뜬다. pip install pandas 2) 그 다음 아래의 코드를 입력한다.import pandas as pd # pandas 라..
241218 TIL 데이터 분석과정 - SQL 코드카타(저자 별 카테고리 별 매출액 집계하기, 그룹별 조건에 맞는 식당 목록 출력하기, 대여 횟수가 많은 자동차들의 월별 대여 횟수 구하기, 오프라인/온라인 판매 데이터 통합하기)
·
데이터분석캠프 TIL
241218 TIL  1. SQL 코드카타 정리❤️문제1. 저자 별 카테고리 별 매출액 집계하기 총 세 개의 테이블이 주어졌고, 특정 기간의 카테고리 별 매출액, 저자 ID, 저자명, 카테고리, 매출액을 구해주어야 한다.  BOOK 테이블  BOOK 테이블    AUTHOR 테이블     BOOK_SALES 테이블   ✅문제풀이  #AUTHOR_ID, AUTHOR_NAME, CATEGORY, SALES출력 - 2022년 1월만 추출해야 함.  # 매출액 구하는 식만들기 #GROUP BY로 2022년 1월을 묶어준다.  2022년 1월 매출액만 불러오기 위해서 GROUP BY로 먼저 그룹화해 준 후 HAVING절로 2022년 1월 매출값을 가져왔더니 동작하지 않았다.  그 이유는 HAVING절은 집계 함수..