판다스 기초
1. 판다스는 무엇인가?
관계형 또는 레이블이 된 데이터, 아래와 같은 형식의 데이터를 분석하는데 적합한 PYTHON 패키지이다.
- SQL 테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 테이블 형식 데이터
- 정렬되고 정렬되지 않은 시계열 데이터
- 다른 형태의 관찰 / 통계 데이터 세트
✅판다스 설치방법
이전에 Visual Studio와 Python이 컴퓨터에 설치되어 있어야 하며, Visual Studio에서 Jupyter와 Python도 설치해주어야 한다.
1) 터미널이나 코드창에 아래의 코드를 입력하면, 밑에 주루룩 무언가 설치되었다는 문구들이 뜬다.
pip install pandas
2) 그 다음 아래의 코드를 입력한다.
import pandas as pd
# pandas 라이브러리를 불러올 것이며 이제부터 pandas를 pd라고 부를게 !
# 에러날 경우 !pip install pandas #실행
❗파이썬과 pip의 버전이 잘 맞는지 확인을 해주어야 하며, 판다스에서 install pandas를 실행해도 설치가 완료되지 않는 경우가 있다. 그런 경우 아래의 내용들을 확인할 필요가 있다.
1. 파이썬에 환경변수(path) 연결이 잘 되었는지 확인
설치 과정에서 path설정을 안해주어서 오류가 뜨는 경우가 있다. 이 경우는 수동으로 환경변수를 지정해주어야 한다.
파이썬 (19) 환경변수 설정, pip 실행 불가 문제 해결
0. Visual Studio Code 에서 파이썬을 잘하고 있던 중에 pip 가 실행되지 않는 문제가 발생. 경로 문제...
blog.naver.com
또는, 파이썬을 처음부터 다시 설치하는 것이 편하다. 아래 링크를 참고해서 설치
파이썬 (1) 파이썬 설치 / 환경 구축 / 비쥬얼 스튜디오 코드(Visual Studio Code) 설치
0. 유튜브 강좌 추천 6 시간짜리 좋은 강좌가 있어서 보면서 파이썬을 공부하는 중. 파트가 잘 나뉘어져 있...
blog.naver.com
2. 파이썬과 pip의 버전이 안맞을 경우
파이썬3 버전인 지 확인하고 pip3를 설치한다. 터미널 말고 코드 창에 입력해도 설치가 된다. 나의 경우 파이썬 3.13을 사용하고 있었기 때문에 pip 설치 시에는 오류가 떴다.
!pip3 install pandas
2. 판다스 활용방법
- 대용량 데이터 처리가 가능 : Pandas는 데이터를 메모리에 로드하고, 다양한 연산을 빠른 처리가 가능하며 대용량 데이터를 처리하는데 최적화되어 있습니다.
- 데이터 조작 기능 : 데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음
- 데이터 시각화 기능 제공 : Matplotlib, Seaborn , … , etc
- 데이터를 구조화하여 분석할 수 있음 : DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내어 분석이 가능함
3. 판다스 구조
3.1 데이터 프레임
- 2차원 데이터 구조로 Excel 데이터 시트의 형태를 띈다.
- Index는 각 아이템을 특정할 수 있는 고유의 값이다.
- 행과 열로 구성되어 있으며, 각 열은 각각의 데이터 타입(dtype)을 가진다.
pandas.DataFrame — pandas 2.2.3 documentation
Dict can contain Series, arrays, constants, dataclass or list-like objects. If data is a dict, column order follows insertion-order. If a dict contains Series which have an index defined, it is aligned by its index. This alignment also occurs if data is a
pandas.pydata.org
3.2 시리즈
- 데이터를 담는 차원 배열 구조를 가진다.
- 인덱스(Index) + value
- 데이터 타입을 가진다.
4. 파일 입출력
4.1 파일 불러오기
✅Excel
excel = pd.read_excel('./filename.xlsx', sheet_name='sheetname', engine='openpyxl')
# 엑셀 데이터 로드시 에러 발생한다면 engine='openpyxl'을 추가
✅CSV
df = pd.read_csv('./filename.csv')
4.2 파일 저장하기
✅Excel
excel.to_excel('sample1.xlsx', index=False, sheet_name='샘플')
index=False 옵션은 가급적 꼭 지정하는 옵션. 지정을 안하면 index가 별도의 컬럼으로 저장되게 되어 조잡해질 수 있음.
✅CSV
customers2.to_csv("customers.csv", index = True, encoding = "UTF-8-SIG")
한글깨짐 현상 방지를 위해 CSV는 ENCODING을 입력 encoding = "UTF-8-SIG" (EXCEL파일은 할 필요 없음)
'PYTHON' 카테고리의 다른 글
데이터 전처리를 위한 판다스(Pandas) - 데이터 조회 (0) | 2024.12.24 |
---|---|
241209 TIL 파이썬 1주차 강의 정리 (1) | 2024.12.09 |