본문 바로가기
파이썬(Python)

판다스 / pandas 1 - 기본생성, 외부에서 데이터 호출, 데이터 기본 점검

by 무지성개발자 2021. 8. 4.

pandas 기본 모듈 가져오기


import pandas as pd
import numpy as np


pandas 기본 생성 => series


series : 데이터(필수, 배열) + 인덱스 정보(옵션), 1차원, 인덱스는 자동적으로 부여됩니다.

# np.nan : 결측 데이터

 

a = pd.Series([1,2,3,np.nan, 6, 8])
a


pandas 기본 생성 => Data Frame


Data Frame : 데이터(필수, 배열) + 인덱스 정보(옵션) + 컬럼(옵션), 2차원, 여러개의 series입니다, 인덱싱하면 series가 됩니다.

 

# 데이터 준비
data = np.arange(28).reshape(7,4)


# 인덱스 -> 가로기준 -> row:7
index = pd.date_range('20210804', periods=7)


# 컬럼 -> 세로기준 -> col:4
col = list('ABCD')

 

df = pd.DataFrame(data, index, col)
df


pandas 외부에서 데이터 호출 => pd.read_csv(  )


csv_file = 'E:/developer/lab/customer.csv'

 

# pd.read_xlsx(  ) : xlsx 파일을 불러올 때 

# pd.read_csv(  ) : csv 파일을 불러올 때 

 

customer = pd.read_csv(csv_file)

customer 

customer 데이터는 헬스장 가입 고객의 데이터입니다


pandas 데이터 기본 점검 => head, tail, shape, dtypes, info, values, coloums, index, describe


customer.head() : 해당 데이터 프레임의 상위 5개 값을 확인할 수 있습니다. 

customer.tail() : 해당 데이터 프레임의 하위 5개 값을 확인할 수 있습니다. 

 

 

.shape : 데이터의 모양을 확인할 수 있습니다.

customer.shape

 

# 데이터 4192개, 특성(컬럼) 8개 가지고 있습니다.

 

.dtypes : 컬럼별로 데이터 타입을 확인할 수 있습니다.

customer.dtypes

 

# object는 문자열입니다.

.info : 결측치를 조사하기 위해 사용합니다.

customer.info()

1. end_date에 결측지 존재합니다. customer 데이터는 헬스장 가입 고객의 데이터입니다. end_date는 탈퇴한 회원이기 때문에 계속 다니고 있는 회원은  end_date 값이 없는 것입니다.

 

 

.values : 데이터만 뽑아낼 수 있습니다.

customer.values 

 

.columns: 컬럼만 뽑아낼 수 있습니다.

customer.columns

 

.index : 인덱스만 뽑아낼 수 있습니다.

customer.index

 

# 0~4192 까지 1간격으로 있습니다.

 

.describe : 수치인 데이터들의 통계요약을 출력합니다, 갯수/평균/최소값/25%지점에 위치한 데이터/50%지점/75%지점/최대값이 있습니다.

customer.describe()