pandas 기본 모듈 가져오기
import pandas as pd
import numpy as np
pandas 기본 생성 => series
series : 데이터(필수, 배열) + 인덱스 정보(옵션), 1차원, 인덱스는 자동적으로 부여됩니다.
# np.nan : 결측 데이터
a = pd.Series([1,2,3,np.nan, 6, 8])
a
pandas 기본 생성 => Data Frame
Data Frame : 데이터(필수, 배열) + 인덱스 정보(옵션) + 컬럼(옵션), 2차원, 여러개의 series입니다, 인덱싱하면 series가 됩니다.
# 데이터 준비
data = np.arange(28).reshape(7,4)
# 인덱스 -> 가로기준 -> row:7
index = pd.date_range('20210804', periods=7)
# 컬럼 -> 세로기준 -> col:4
col = list('ABCD')
df = pd.DataFrame(data, index, col)
df
pandas 외부에서 데이터 호출 => pd.read_csv( )
csv_file = 'E:/developer/lab/customer.csv'
# pd.read_xlsx( ) : xlsx 파일을 불러올 때
# pd.read_csv( ) : csv 파일을 불러올 때
customer = pd.read_csv(csv_file)
customer
customer 데이터는 헬스장 가입 고객의 데이터입니다
pandas 데이터 기본 점검 => head, tail, shape, dtypes, info, values, coloums, index, describe
customer.head() : 해당 데이터 프레임의 상위 5개 값을 확인할 수 있습니다.
customer.tail() : 해당 데이터 프레임의 하위 5개 값을 확인할 수 있습니다.
.shape : 데이터의 모양을 확인할 수 있습니다.
customer.shape
# 데이터 4192개, 특성(컬럼) 8개 가지고 있습니다.
.dtypes : 컬럼별로 데이터 타입을 확인할 수 있습니다.
customer.dtypes
# object는 문자열입니다.
.info : 결측치를 조사하기 위해 사용합니다.
customer.info()
1. end_date에 결측지 존재합니다. customer 데이터는 헬스장 가입 고객의 데이터입니다. end_date는 탈퇴한 회원이기 때문에 계속 다니고 있는 회원은 end_date 값이 없는 것입니다.
.values : 데이터만 뽑아낼 수 있습니다.
customer.values
.columns: 컬럼만 뽑아낼 수 있습니다.
customer.columns
.index : 인덱스만 뽑아낼 수 있습니다.
customer.index
# 0~4192 까지 1간격으로 있습니다.
.describe : 수치인 데이터들의 통계요약을 출력합니다, 갯수/평균/최소값/25%지점에 위치한 데이터/50%지점/75%지점/최대값이 있습니다.
customer.describe()
'파이썬(Python)' 카테고리의 다른 글
판다스 / pandas 3 - 정렬, 컬럼제거, 데이터 가공, 파생변수 생성 (0) | 2021.08.06 |
---|---|
판다스 / pandas 2 - 데이터 추출(인덱싱, 슬라이싱, loc, iloc, 불리언 인덱싱) (0) | 2021.08.05 |
넘파이 / numpy 5 - 선형대수, 저장 및 로드, 압축 (0) | 2021.08.04 |
넘파이 / numpy 4 - 축 변경, 유니버셜 함수 (0) | 2021.08.04 |
넘파이 / numpy 3 - 데이터 추출(인덱싱, 슬라이싱), 스칼라값 수정, 배열 재정립 (0) | 2021.08.03 |