자료출처 : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

from IPython.core.display import display, HTML
display(HTML("<style> .container{width:90% !important;}</style>"))

Handling Missing Data¶

import pandas as pd
import numpy as np

# 임의의 데이터프레임 생성
df = pd.DataFrame( [ [np.nan, 2, np.nan, 0], 
                     [3, 4, np.nan, 1],
                     [np.nan, np.nan, np.nan, 5] ],
                                 columns = list('ABCD') )
df

dropna(axis = ?, how = ?, inplace = ?) : 결측치 버리기

axis = 0 (default) : 행 버리기 ⟷ axis = 1 : 컬럼 버리기
how = 'any' (default) : 행 또는 열의 NaN이 하나라도 있을 때 버리기 ⟷ how = 'all' : 전체 행 또는 열의 값이 NaN일 때 버리기
inplace = False (default) : drop한 결과 조회만 하기 ⟷ inplace = True : drop한 결과 데이터프레임에 바로 저장

# 전부다 Null인 컬럼 drop
df.dropna(axis=1, how= 'all')

# 하나라도 Null이 있는 컬럼 drop
df.dropna(axis=1, how= 'any')

# 전부다 Null인 열 drop
df.dropna(axis=0, how='all')

# 하나라도 Null이 있는 열 drop
df.dropna(axis=0, how='any')

df.fillna : NaN 을 지정해준 값으로 채워줌

# 결측치 0으로 채우기
df.fillna(0)

# 딕셔너리를 사용해서 컬럼별로 지정값으로 채우기
values = { 'A' : 0, 'B': 1, 'C': 2, 'D': 3}
df.fillna(value=values)

# 결측치를 중앙값으로 채우기
fill_na_value = df['D'].median()
df.fillna(fill_na_value)

# 컬럼별로 결측치 데이터 갯수 확인
df.isnull().sum()

A    2
B    1
C    3
D    0
dtype: int64

# 컬럼별로 결측치가 아닌 데이터 갯수 확인
df.notnull().sum()

A    1
B    2
C    0
D    3
dtype: int64

자료출처 : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

from IPython.core.display import display, HTML
display(HTML("<style> .container{width:90% !important;}</style>"))

Summarize Data¶

import pandas as pd
import seaborn as sns
import numpy as np

# 예제 데이터셋 불러오기
df = sns.load_dataset('iris')
df.shape

(150, 5)

df.head()

# 카테고리형 변수가 각 값별로 데이터가 얼마나 있는지 확인
df['species'].value_counts()

virginica     50
setosa        50
versicolor    50
Name: species, dtype: int64

# value_counts() 한 것을 데이터 프레임으로 넣기
df['species'].value_counts().to_frame()
# pd.DataFrame(df['species'].value_counts()) 도 같은 결과

# 데이터 프레임의 행수 확인
len(df)
# df.shape[0] 도 같은 결과

150

# 변수의 유니크한 값 개수
df['species'].nunique()

3

# describe()를 사용해서 기본 통계값들을 확인할 수 있다.
df.describe()

# include = 'all' 인자를 넣어주면 categorical 변수에 대한 값인 unique, top, freq도 조회할 수 있음
df.describe(include='all')

# 문자형(카테고리형) 변수에 대한 통계값을 조회할 수 있음
df.describe(include=[np.object])

# 수치형 변수에 대한 통계값을 조회할 수 있음
df.describe(include=[np.number])

# 해당 컬럼의 값 합계
df['petal_width'].sum()

179.90000000000003

# 해당 컬럼의 null이 아닌 행의 수
df['petal_width'].count()

150

# 해당 컬럼의 중위수
df['petal_width'].median()

1.3

# 해당 컬럼의 평균값
df['petal_width'].mean()

1.199333333333334

# 데이터 프레임 각 컬럼의 평균값
df.mean()

sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
dtype: float64

# 4분위수 확인하기
df.quantile([0.25, 0.75])

# 데이터 프레임 각 컬럼의 최댓값
df.max()

sepal_length          7.9
sepal_width           4.4
petal_length          6.9
petal_width           2.5
species         virginica
dtype: object

# 데이터 프레임 각 컬럼의 최솟값
df.min()

sepal_length       4.3
sepal_width          2
petal_length         1
petal_width        0.1
species         setosa
dtype: object

# 데이터 프레임 각 컬럼의 분산
df.var()

sepal_length    0.685694
sepal_width     0.189979
petal_length    3.116278
petal_width     0.581006
dtype: float64

# 데이터 프레임의 각 컬럼의 표준편차
df.std()

sepal_length    0.828066
sepal_width     0.435866
petal_length    1.765298
petal_width     0.762238
dtype: float64

apply(function)¶

# 임의의 함수 설정
def smp(x):
    # 뒤에서 세번째까지의 문자를 가져오는 함수
    x = x[-3:]
    return x

# lambda 익명함수 적용
df['species_3'] = df['species'].apply(lambda x : x[:3])

# 설정해둔 함수 적용
df['species_4'] = df['species'].apply(smp)

df.head()

자료출처 : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

from IPython.core.display import display, HTML
display(HTML("<style> .container{width:90% !important;}</style>"))

import pandas as pd
import seaborn as sns

# 예시 데이터 불러오기
df = sns.load_dataset('iris')
print(df.shape)
df.head()

(150, 5)

데이터프레임에서 특정 컬럼 정보만 불러오기¶

columns = ['sepal_length', 'sepal_width', 'species']
df[columns].head()

# 이 방식에서는 한글이나 특수문자가 들어간 컬럼명을 쓸 수 없음
df.sepal_width.head()

0    3.5
1    3.0
2    3.2
3    3.1
4    3.6
Name: sepal_width, dtype: float64

df['sepal_width'].head()

0    3.5
1    3.0
2    3.2
3    3.1
4    3.6
Name: sepal_width, dtype: float64

정규 표현식으로 특정컬럼 불러오기¶

df.filter( regex = 'regex' )

'\.' : 점( . )을 포함하고 있는 문자열

df.filter(regex='\,').head(3)

'length$' : 특정문자열(length)로 끝나는 문자열

df.filter(regex='length$').head(3)

'_' : _ 를 포함하고 있는 문자열

df.filter(regex='_').head(3)

'^sepal' : 특정문자열(Sepal)로 시작하는 문자열

df.filter(regex='^sepal').head(3)

*'^(?!species$).' : 특정문자열('species')이 없는 문자열

df.filter(regex='^(?!species).*').head(3)

'^x[1-5]$' : 특정문자(x)로 시작하고 특정문자(1, 2, 3, 4, 5)로 끝나는 문자열

df.filter(regex='^x[1-5]$').head(3)

df.loc[ ]와 df.iloc[ ] 비교¶

df.loc[2:5, 'sepal_width':'petal_width']

loc와는 다르게 iloc로 검색을 했을 때 a:b 면 b-1행까지 검색을 함
iloc는 인덱스번호만 입력이 가능함

df.iloc[2:5:,  1:3]

loc 를 통해 logic 조건으로 행을 지정하고, 컬럼명을 선택할 수 있음

df.loc[df['sepal_length']>3 , ['sepal_length','sepal_width']].head()

자료출처 : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

from IPython.core.display import display, HTML
display(HTML("<style> .container{width:90% !important;}</style>"))

import pandas as pd
import numpy as np

# 데이터프레임 생성
df = pd.DataFrame(
                            {'a' : [4, 5, 6], 
                             'b' : [7, 8, 9],
                             'c' : [6, 9, 12]},
                            index = pd.MultiIndex.from_tuples( [('d', 1), ('d', 2), ('e', 2)] ,
                                                                                     names = ['n', 'v'] )
                                )

df

True/False (불린인덱싱)을 이용한 행 데이터 조회¶

# 기본적으로  <, >, = 와 같은 연산자를 이용하면 아래와 같이 불린 값이 반환된다.
df['a'] < 6

n  v
d  1     True
   2     True
e  2    False
Name: a, dtype: bool

# True로 값을 반환한 행에 대해서만 데이터를 불러온다.
df[df['a'] < 6]

중복데이터 제거 : df.drop_duplicates( )¶

# 중복된 행을 가지는 임의의 데이터프레임 생성
df = pd.DataFrame(
                {'a' : [4, 5, 6, 6 ],
                 'b' : [7, 8, 9, 9],
                 'c' : [6, 9, 12, 12]},
                index = pd.MultiIndex.from_tuples(
                                    [('d', 1), ('d',2), ('e', 2), ('e', 3)],
                                    names = ['n', 'v']    )
                                )
df

# drop_duplicates을 수행하면 중복된 행을 제거해준다
df.drop_duplicates()

# 하지만 위의 코드를 실행 후 다시 데이터프레임을 불러오면 중복된 값이 그대로 살아있다.
df

# 결과를 데이터프레임에 적용하려면 아래와 같이 괄호 안에 inplace = True 추가하면 된다.
# df.drop_duplicates(inplace=True)

# 하지만 권장되는 방법은 아니며 주로 아래와 같이 기존 데이터 프레임에 덧씌우는 방식을 사용
df = df.drop_duplicates()

# 중복데이터가 제거된체 데이터프레임이 저장되었음을 확인할 수 있다.
df

Logic in 파이썬(판다스)¶

연산자	의미	연산자	의미
<	Less than	!=	Not equal to
>	Greater than	df['column명'].isin(values)	value값을 포함하는지의 여부
==	equal	pd.isnull(obj)	Null값 여부
<=	Less than or equals	pd.notnull(obj)	Not Null 여부
>=	Greater than or equals	&, I , ~, ^, any( ) , df.all( )	and, or, not, xor, any, all

# 예시데이터 불러오기
import numpy as np

df = pd.DataFrame(
                {'a' : [4, 5, 6, 6, np.nan ],
                 'b' : [7, 8, 9, 9, np.nan],
                 'c' : [6, 9, 12, np.nan, 12]},
                index = pd.MultiIndex.from_tuples(
                                    [('d', 1), ('d',2), ('e', 2), ('e', 3), ('e', 4)],
                                    names = ['n', 'v']    )
                                )
df

예시를 이용해서 로직 하나씩 실행해보기

df['a'] < 5

n  v
d  1     True
   2    False
e  2    False
   3    False
   4    False
Name: a, dtype: bool

df['b'] != 7

n  v
d  1    False
   2     True
e  2     True
   3     True
   4     True
Name: b, dtype: bool

df['a'] == 5

n  v
d  1    False
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

df['a'].isin([5])

n  v
d  1    False
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

pd.isnull(df)

# isnull() 과 sum() 을 같이 활용해서 null 값의 수를 셀 수 있다.
df['a'].isnull().sum()

1

pd.notnull(df)

# isnull() 과 any()를 동시에 사용해서 null 값이 하나라도 있으면 True를 반환
df.isnull().any()

a    True
b    True
c    True
dtype: bool

# isnull() 과 all()를 동시에 사용해서 모두 null 값이면 True를 반환
df.isnull().all()

a    False
b    False
c    False
dtype: bool

# ~ 는 not 의 의미로 아래에서는 결국 Null이면 True를 반환
~df['a'].notnull()

n  v
d  1    False
   2    False
e  2    False
   3    False
   4     True
Name: a, dtype: bool

# 데이터프레임에서는 and를 쓸 수 없고 & 를 사용해야함
df[(df['b']==7) and (df['a'] ==4) ]

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-22-6decfb4c32c4> in <module>
      1 # 데이터프레임에서는 and를 쓸 수 없고 & 를 사용해야함
----> 2 df[(df['b']==7) and (df['a'] ==4) ]

/anaconda3/lib/python3.7/site-packages/pandas/core/generic.py in __nonzero__(self)
   1476         raise ValueError("The truth value of a {0} is ambiguous. "
   1477                          "Use a.empty, a.bool(), a.item(), a.any() or a.all()."
-> 1478                          .format(self.__class__.__name__))
   1479 
   1480     __bool__ = __nonzero__

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

df[ (df['b']==7) & (df['a'] ==4) ]

데이터프레임의 일부샘플 조회하기¶

df.head( ) 와 df.tail( ) 을 이용한 조회¶

# 최초 n행 조회하기 (default는 5행)
df.head(2)

# 마지막 n행 조회하기 (default는 5행)
df.tail(2)

df.sample( ) 을 이용한 샘플 추출¶

# 전체 데이터프레임에서 특정 비율만큼 샘플링하는 것
df.sample(frac=0.5)

# 하지만 코드를 실행할 때마다 다른 샘플이 나옴
df.sample(frac=0.5)

# 아래와 같이 난수값을 설정함으로써 일관된 샘플을 할 수 있다.
df.sample(frac=0.5, random_state=5)

# 샘플 갯수 설정
df.sample(n=3)

df.iloc[ ]와 콜론(:)을 이용한 데이터프레임 조회¶

# df.iloc[인덱스 시작: 인덱스 끝]
# iloc로 조회를 할 떄 인덱스 끝의 바로 앞 데이터까지만 조회가 된다.
df.iloc[2:4]

# 콜론 앞에 아무것도 입력하지 않으면 첫 데이터부터 조회
df.iloc[:4]

# 음수값을 입력하면 뒤에서 몇번째인지를 나타냄
# 아래 코드는 뒤에서 두번째 행부터 끝까지 조회
df.iloc[-2:]

# df.iloc 
df.iloc[2:4, 1:]

df.nlargest( ) 과 df.nsmallest( )¶

# 샘플 데이터프레임 생성
df = pd.DataFrame(  { 'a' : [1, 10, 8, 11, -1],
                             'b' : list('abcde'),
                             'c' : [1.0, 2.0, np.nan, 3.0, 4.0]}  )
df

# 가장 큰  a 값을 가진 행 조회
df.nlargest(1, 'a')

#  a 값이 큰 순서대로 상위 3개 행 조회
df.nlargest(3, 'a')

# 문자열에는 사용할 수 없음
df.nlargest(2, 'b')

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-37-b38daf335006> in <module>
      1 # 문자열에는 사용할 수 없음
----> 2 df.nlargest(2, 'b')

/anaconda3/lib/python3.7/site-packages/pandas/core/frame.py in nlargest(self, n, columns, keep)
   4909                                        n=n,
   4910                                        keep=keep,
-> 4911                                        columns=columns).nlargest()
   4912 
   4913     def nsmallest(self, n, columns, keep='first'):

/anaconda3/lib/python3.7/site-packages/pandas/core/algorithms.py in nlargest(self)
   1056 
   1057     def nlargest(self):
-> 1058         return self.compute('nlargest')
   1059 
   1060     def nsmallest(self):

/anaconda3/lib/python3.7/site-packages/pandas/core/algorithms.py in compute(self, method)
   1172                     "Column {column!r} has dtype {dtype}, cannot use method "
   1173                     "{method!r} with this dtype"
-> 1174                 ).format(column=column, dtype=dtype, method=method))
   1175 
   1176         def get_indexer(current_indexer, other_indexer):

TypeError: Column 'b' has dtype object, cannot use method 'nlargest' with this dtype

#  a 값이 작은 순서대로 상위 3개 행 조회
df.nsmallest(3, 'a')

자료출처 : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

from IPython.core.display import display, HTML
display(HTML("<style> .container{width:90% !important;}</style>"))

딕셔너리를 사용하여 DataFrame 생성하기¶

import pandas as pd

# 인덱스 옵션을 넣지 않으면 행 인덱스가 0부터 생성
df = pd.DataFrame(
                {'a' : [4, 5, 6],
                 'b' : [7, 8, 9],
                 'c' : [10, 11, 12]},
                )

df

# 인덱스 값을 입력해서 내가 원하는 임의의 인덱스 값을 설정할 수 있다.
df = pd.DataFrame(
                {'a' : [4, 5, 6],
                 'b' : [7, 8, 9],
                 'c' : [10, 11, 12]},
                 index = [1, 2, 3]
                )

df

데이터 프레임에서 특정 데이터 불러오기¶

# 하나의 컬럼만 불러오기
df['a']

1    4
2    5
3    6
Name: a, dtype: int64

# 두 개 이상의 컬럼을 불러올 때는 대괄호 안에 리스트 형식으로 불러온다.
df[ ['a','b'] ]

# 행(혹은 인덱스) 기준으로 데이터를 불러올 때는 df.loc[인덱스] 를 사용
df.loc[2]

a     5
b     8
c    11
Name: 2, dtype: int64

# df.loc[인덱스, 컬럼명] 을 사용해서 특정 행, 열의 데이터를 불러올 수 있다
df.loc[2, 'a']

5

# 이 때 복수의 행과 열을 조회할 때는 행과 열을 각각 리스트 형식으로 적어주면 된다
df.loc[[1, 2], ['a', 'b']]

리스트를 사용해서 컬럼명 만들기¶

# 리스트를 사용하여 데이터프레임을 만들 때, 컬럼명 옵션을 입력하지 않으면
# 0부터 순서대로 컬럼명이 만들어진다
df = pd.DataFrame(
                [ [4, 5, 6],
                  [7, 8, 9],
                  [10, 11, 12]],
                index = [1, 2, 3]
                )

df

# 때문에 리스트로 데이터 프레임을 만들 때 아래 처럼 컬럼명을 설정해주는 것이 보통
df = pd.DataFrame(
                [ [4, 5, 6],
                  [7, 8, 9],
                  [10, 11, 12]],
                 index = [1, 2, 3],
                columns = ['a', 'b', 'c']
                )

df

데이터프레임 만들기 : Multi Index¶

# 복수의 인덱스를 만들어 줄 수도 있음 (pd.Multiindex 사용)
df = pd.DataFrame(
                            {'a' : [4, 5, 6], 
                             'b' : [7, 8, 9],
                             'c' : [6, 9, 12]},
                            index = pd.MultiIndex.from_tuples( [('d', 1), ('d', 2), ('e', 2)] ,
                                                                                     names = ['n', 'v'] )
                                )

df

	A	B	D
0	0.0	2.0	0
1	3.0	4.0	1
2	0.0	0.0	5

4. Summarize Data(자료 요약하기) (0)	2019.10.16
3. Subset Observations(Columns) (열 데이터 다루기) (0)	2019.10.09
2. Subset Observations(Rows) (행 데이터 다루기) (0)	2019.10.09
1. Creating DataFrame(데이터프레임 만들기) (0)	2019.10.09

	sepal_length	sepal_width	petal_length	petal_width
count	150.000000	150.000000	150.000000	150.000000
mean	5.843333	3.057333	3.758000	1.199333
std	0.828066	0.435866	1.765298	0.762238
min	4.300000	2.000000	1.000000	0.100000
25%	5.100000	2.800000	1.600000	0.300000
50%	5.800000	3.000000	4.350000	1.300000
75%	6.400000	3.300000	5.100000	1.800000
max	7.900000	4.400000	6.900000	2.500000

	sepal_length	sepal_width	petal_length	petal_width
count	150.000000	150.000000	150.000000	150.000000
mean	5.843333	3.057333	3.758000	1.199333
std	0.828066	0.435866	1.765298	0.762238
min	4.300000	2.000000	1.000000	0.100000
25%	5.100000	2.800000	1.600000	0.300000
50%	5.800000	3.000000	4.350000	1.300000
75%	6.400000	3.300000	5.100000	1.800000
max	7.900000	4.400000	6.900000	2.500000

	sepal_length	sepal_width	petal_length	petal_width
0.25	5.1	2.8	1.6	0.3
0.75	6.4	3.3	5.1	1.8

데이터분석, 머신러닝 정리 노트

Python/Pandas Cheat Sheet

5. Handling Missing Data(결측치 다루기)

Handling Missing Data¶

'Python > Pandas Cheat Sheet' 카테고리의 다른 글

4. Summarize Data(자료 요약하기)

Summarize Data¶

apply(function)¶

'Python > Pandas Cheat Sheet' 카테고리의 다른 글

3. Subset Observations(Columns) (열 데이터 다루기)

데이터프레임에서 특정 컬럼 정보만 불러오기¶

정규 표현식으로 특정컬럼 불러오기¶

df.loc[ ]와 df.iloc[ ] 비교¶

'Python > Pandas Cheat Sheet' 카테고리의 다른 글

2. Subset Observations(Rows) (행 데이터 다루기)

True/False (불린인덱싱)을 이용한 행 데이터 조회¶

중복데이터 제거 : df.drop_duplicates( )¶

Logic in 파이썬(판다스)¶

데이터프레임의 일부샘플 조회하기¶

df.head( ) 와 df.tail( ) 을 이용한 조회¶

df.sample( ) 을 이용한 샘플 추출¶

df.iloc[ ]와 콜론(:)을 이용한 데이터프레임 조회¶

df.nlargest( ) 과 df.nsmallest( )¶

'Python > Pandas Cheat Sheet' 카테고리의 다른 글

1. Creating DataFrame(데이터프레임 만들기)

딕셔너리를 사용하여 DataFrame 생성하기¶

데이터 프레임에서 특정 데이터 불러오기¶

리스트를 사용해서 컬럼명 만들기¶

데이터프레임 만들기 : Multi Index¶

'Python > Pandas Cheat Sheet' 카테고리의 다른 글

+ Recent posts

티스토리툴바

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

5. Handling Missing Data(결측치 다루기) (0)	2019.10.16
3. Subset Observations(Columns) (열 데이터 다루기) (0)	2019.10.09
2. Subset Observations(Rows) (행 데이터 다루기) (0)	2019.10.09
1. Creating DataFrame(데이터프레임 만들기) (0)	2019.10.09

		a	b	c
n	v
d	1	False	False	False
d	2	False	False	False
e	2	False	False	False
	3	False	False	True
	4	True	True	False

	A	B	C	D
0	1.0	2.0	1.0	0
1	3.0	4.0	1.0	1
2	1.0	1.0	1.0	5

		a	b	c
n	v
d	1	4.0	7.0	6.0
d	2	5.0	8.0	9.0
e	2	6.0	9.0	12.0
	3	6.0	9.0	NaN
	4	NaN	NaN	12.0