KEEP GOING

[python] 파이썬으로 시작하는 통계 데이터 분석 : 입문 - 탐색적 데이터 분석(기술통계분석, EDA) 실습(Part1) 본문

python

[python] 파이썬으로 시작하는 통계 데이터 분석 : 입문 - 탐색적 데이터 분석(기술통계분석, EDA) 실습(Part1)

jmHan 2022. 10. 25. 16:14
반응형
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings("ignore")
src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv'
df = pd.read_csv(src_path, sep=',', encoding='CP949')

 

print(df.head(3))

 

sample_df = df[['RAD', 'TAX']]
print(sample_df.head(3))

# mean
print(sample_df.groupby('RAD').mean())
fig = plt.figure(figsize= (8, 8))
ax = fig.gca()
sns.barplot(x='RAD', y='TAX', data=sample_df, ax=ax)

 

 

sample_df = df[['RAD', 'TAX']]
# var
print(sample_df.groupby('RAD').var())

fig = plt.figure(figsize= (12,12))
ax = fig.gca()
sns.boxplot(x='RAD', y='TAX', data=sample_df, ax=ax)
plt.show()

#std
print(sample_df.groupby('RAD').std())

 

 

#왜도와 첨도
print("mean: ", df['RM'].mean())
print("skew: ", df['RM'].skew())
print("kurt: ", df['RM'].kurt())

 

 

fig = plt.figure(figsize= (8,8))
ax = fig.gca()
df['RM'].hist(bins=10, ax=ax)
plt.show()

 

fig = plt.figure(figsize= (6,6))
ax = fig.gca()
sns.histplot(x='RM', kde=True, data=df, bins=10, ax=ax)
plt.show()

 

 

# 기술통계량
print(df['TAX'].describe())
# 최빈값
print(df['TAX'].value_counts())
# value_counts로 빈도 파악 후 id 최댓값 추출 
print(df['TAX'].value_counts().idxmax())

 

print("Q1: ", np.percentile(df['TAX'], 25))
print("Q2: ", np.percentile(df['TAX'], 50))
print("Q3: ", np.percentile(df['TAX'], 75))

 

반응형
Comments