파이썬 이것저것/파이썬 데이터분석

[파이썬] 수치형 변수의 요약, 기술통계

agingcurve 2022. 4. 23. 16:56
반응형

환경 : Google Colab

데이터: mpg 데이터 사용
 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

 

# 파이썬 버전 확인

print(pd.__version__)
3print(sns.__version__)
 
 
# 데이터 확인
df.head(4)
df.info()

 

# 결측데이터 확인
df.isnull().sum()

horesepower 변수가 6개의 결측치가 확인

# 비율로 확인

 

# 기초통계량 확인

df.describe()

 

# 범주형 데이터의 기초통계량 확인

df.describe(include="object")

 

# mpg 변수의 고윳값 갯수 보기

df["mpg"].nunique()

 

# 각 변수별 히스토그램 생성

_ = df.hist(figsize=(10,8), bins=50)

 

# 왜도 확인

df.skew()

 

# 첨도 확인

df.kurt()