본문 바로가기

파이썬(Python)13

판다스 / pandas 4 - 데이터 병합(merge, concat) - 데이터 준비 - PATH = 'E:/developer/lab/' transaction_1 = pd.read_csv(PATH + 'transaction_1.csv') transaction_2 = pd.read_csv(PATH + 'transaction_2.csv') transaction_detail_1 = pd.read_csv(PATH + 'transaction_detail_1.csv') transaction_detail_2 = pd.read_csv(PATH + 'transaction_detail_2.csv') 데이터 병합이란? - n 개의 데이터를 한개의 데이터로 합치는 과정입니다. - 합쳐지는 DF간에 공통의 컬럼이 존재해야합니다. 단, concat 제외 - DF에서는 일반적으로 join으로 표현할.. 2021. 8. 6.
판다스 / pandas 3 - 정렬, 컬럼제거, 데이터 가공, 파생변수 생성 - 데이터 준비 - pandas 정렬 => .sort_values .sort_values(by = '컬럼명', ascending = False or True) customer.sort_values(by = 'is_deleted', ascending = False) # ascending : 오름차순 pandas 컬럼 제거 => drop .drop customer1 = customer.drop(['end_date'], axis = 1) customer1 데이터 가공 => apply - 데이터 준비 - df = pd.DataFrame([ [1,2,3,4], [7,6,9,2] ]) df def cal(col): return col.max()- col.min() df.apply(cal) # col에는 컬럼별로 배.. 2021. 8. 6.
판다스 / pandas 2 - 데이터 추출(인덱싱, 슬라이싱, loc, iloc, 불리언 인덱싱) - 데이터 준비- panadas 인덱싱 - 차원축소가 일어납니다. - 수직 방향, 컬럼 단위로 데이터를 추출합니다. customer['customer_id'] customer[['customer_id', 'name']].tail(2) # 차원을 유지하고 싶을 때 []로 더 감싸주면 됩니다. pandas 슬라이싱 - 차원이 유지됩니다. - 수평 방향, 인덱스(row) 단위로 데이터를 추출합니다. customer[1:4] => 인덱스의 순서를 사용한 경우 # 인덱스의 순서를 사용하면 a 2021. 8. 5.
판다스 / pandas 1 - 기본생성, 외부에서 데이터 호출, 데이터 기본 점검 pandas 기본 모듈 가져오기 import pandas as pd import numpy as np pandas 기본 생성 => series series : 데이터(필수, 배열) + 인덱스 정보(옵션), 1차원, 인덱스는 자동적으로 부여됩니다. # np.nan : 결측 데이터 a = pd.Series([1,2,3,np.nan, 6, 8]) a pandas 기본 생성 => Data Frame Data Frame : 데이터(필수, 배열) + 인덱스 정보(옵션) + 컬럼(옵션), 2차원, 여러개의 series입니다, 인덱싱하면 series가 됩니다. # 데이터 준비 data = np.arange(28).reshape(7,4) # 인덱스 -> 가로기준 -> row:7 index = pd.date_range('.. 2021. 8. 4.