In [1]:
from IPython.core.display import display, HTML
display(HTML("<style> .container{width:90% !important;}</style>"))
Summarize Data¶
In [2]:
import pandas as pd
import seaborn as sns
import numpy as np
In [3]:
# 예제 데이터셋 불러오기
df = sns.load_dataset('iris')
df.shape
Out[3]:
In [4]:
df.head()
Out[4]:
In [5]:
# 카테고리형 변수가 각 값별로 데이터가 얼마나 있는지 확인
df['species'].value_counts()
Out[5]:
In [6]:
# value_counts() 한 것을 데이터 프레임으로 넣기
df['species'].value_counts().to_frame()
# pd.DataFrame(df['species'].value_counts()) 도 같은 결과
Out[6]:
In [7]:
# 데이터 프레임의 행수 확인
len(df)
# df.shape[0] 도 같은 결과
Out[7]:
In [8]:
# 변수의 유니크한 값 개수
df['species'].nunique()
Out[8]:
In [9]:
# describe()를 사용해서 기본 통계값들을 확인할 수 있다.
df.describe()
Out[9]:
In [10]:
# include = 'all' 인자를 넣어주면 categorical 변수에 대한 값인 unique, top, freq도 조회할 수 있음
df.describe(include='all')
Out[10]:
In [11]:
# 문자형(카테고리형) 변수에 대한 통계값을 조회할 수 있음
df.describe(include=[np.object])
Out[11]:
In [12]:
# 수치형 변수에 대한 통계값을 조회할 수 있음
df.describe(include=[np.number])
Out[12]:
In [13]:
# 해당 컬럼의 값 합계
df['petal_width'].sum()
Out[13]:
In [14]:
# 해당 컬럼의 null이 아닌 행의 수
df['petal_width'].count()
Out[14]:
In [15]:
# 해당 컬럼의 중위수
df['petal_width'].median()
Out[15]:
In [16]:
# 해당 컬럼의 평균값
df['petal_width'].mean()
Out[16]:
In [17]:
# 데이터 프레임 각 컬럼의 평균값
df.mean()
Out[17]:
In [18]:
# 4분위수 확인하기
df.quantile([0.25, 0.75])
Out[18]:
In [19]:
# 데이터 프레임 각 컬럼의 최댓값
df.max()
Out[19]:
In [20]:
# 데이터 프레임 각 컬럼의 최솟값
df.min()
Out[20]:
In [21]:
# 데이터 프레임 각 컬럼의 분산
df.var()
Out[21]:
In [22]:
# 데이터 프레임의 각 컬럼의 표준편차
df.std()
Out[22]:
apply(function)¶
In [23]:
# 임의의 함수 설정
def smp(x):
# 뒤에서 세번째까지의 문자를 가져오는 함수
x = x[-3:]
return x
In [24]:
# lambda 익명함수 적용
df['species_3'] = df['species'].apply(lambda x : x[:3])
In [25]:
# 설정해둔 함수 적용
df['species_4'] = df['species'].apply(smp)
In [26]:
df.head()
Out[26]:
'Python > Pandas Cheat Sheet' 카테고리의 다른 글
5. Handling Missing Data(결측치 다루기) (0) | 2019.10.16 |
---|---|
3. Subset Observations(Columns) (열 데이터 다루기) (0) | 2019.10.09 |
2. Subset Observations(Rows) (행 데이터 다루기) (0) | 2019.10.09 |
1. Creating DataFrame(데이터프레임 만들기) (0) | 2019.10.09 |