Pandas 2

생성일

2023/02/16 14:39

태그

Pandas 2

ch3_pandas_2.pdf

3143.2KB

Groupby

•

SQL groupby 명령어와 같음

•

split → apply → combine

•

과정을 거쳐 연산

•

한 개 이상의 column을 묶을 수 있음

Hierarchical index

•

Groupby 명령의 결과물도 결국은 dataframe

•

두 개의 column으로 groupbt를 할 경우, index가 두 개 생성

unstack()

•

group 으로 묶여진 데이터를 matrix 형태로 전환해줌

swaplevel

•

Index lovel을 변경할 수 있음

operations

•

Index level을 기준으로 기본 연산 수행 가능

Groupby

gropued

•

groupby에 의해 split 된 상태를 추출 가능함

•

특정 key값을 가진 그룹의 정보만 추출 가능

•

추출된 group 정보에는 세가지 유형의 apply 가 가능함

•

Aggregation - 요약된 통계정보를 추출

◦

특정 컬럼에 여러개의 function을 Apply 할 수도 있음

◦

한번에 통계치를 보여줄 때 유용

◦

하나의 타입에 대해서도 다양한 값을 추출할 수 있다

•

Transformation - 해당 정보를 변환

◦

Aggregation 과 달리 key값 별로 요약된 정보가 아니다

◦

개별 데이터의 변환을 지원

◦

단 max나 min처럼 series 데이터에 적용되는 key 값을 기준으로 grouped 된 데이터 기준

•

Filtration - 특정 정보를 제거하여 보여주는 필터링 기능

◦

filter 안에는 boolean 조건이 존재해야함

◦

len(x) 는 grouped 된 dataframe 개수

Data

•

시간과 데이터 종류가 정리된 통화량 데이터

Pivot table

•

Index 축은 groupby 와 동일

•

Column에 추가로 labelling 값을 추가하여,

•

Value 에 numeric type 값을 aggregation 하는 형태

Crosstab

•

특허 두 칼럼에 교차빈도, 비율, 덧셈 등을 구할 때 사용

•

Pivot table의 특수한 형태

•

User-Item Rating Matrix 등을 만들 때 사용가능

Merge & Concat

Merge

•

SQL 에서 많이 사용하는 Merge 와 같은 기능

•

두 개의 데이터를 하나로 합침

•

pd.merge(df_a, df_b, on=’subject_id’)

•

pd.merge(df_a, df_b, left_on=’subject_id’, right_on=’subject_id’)

•

Left join

◦

pd.merge(df_a, df_b, on=’subject_id’, how=’left’)

•

Right join

◦

pd.merge(df_a, df_b, on=’subject_id’, how=’right’)

•

Inner join

◦

pd.merge(df_a, df_b, on=’subject_id’, how=’inner’)

Concat

DB Persistence

Database connection

•

Data loading 시 db connection 기능을 제공함

XLS Persistence

•

Dataframe 의 엑셀 추출 코드

•

xls 엔진으로 openpyxls 또는 xlsWrite 사용

Pickle Persistence

•

가장 일반적인 python 파일 persistence

•

to_pickle, read_pickle 함수 사용