KEEP GOING
[python] 파이썬으로 시작하는 통계 데이터 분석 : 입문 - 탐색적 데이터 분석(기술통계분석, EDA) 실습(Part1) 본문
python
[python] 파이썬으로 시작하는 통계 데이터 분석 : 입문 - 탐색적 데이터 분석(기술통계분석, EDA) 실습(Part1)
jmHan 2022. 10. 25. 16:14반응형
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv'
df = pd.read_csv(src_path, sep=',', encoding='CP949')
print(df.head(3))
sample_df = df[['RAD', 'TAX']]
print(sample_df.head(3))
# mean
print(sample_df.groupby('RAD').mean())
fig = plt.figure(figsize= (8, 8))
ax = fig.gca()
sns.barplot(x='RAD', y='TAX', data=sample_df, ax=ax)
sample_df = df[['RAD', 'TAX']]
# var
print(sample_df.groupby('RAD').var())
fig = plt.figure(figsize= (12,12))
ax = fig.gca()
sns.boxplot(x='RAD', y='TAX', data=sample_df, ax=ax)
plt.show()
#std
print(sample_df.groupby('RAD').std())
#왜도와 첨도
print("mean: ", df['RM'].mean())
print("skew: ", df['RM'].skew())
print("kurt: ", df['RM'].kurt())
fig = plt.figure(figsize= (8,8))
ax = fig.gca()
df['RM'].hist(bins=10, ax=ax)
plt.show()
fig = plt.figure(figsize= (6,6))
ax = fig.gca()
sns.histplot(x='RM', kde=True, data=df, bins=10, ax=ax)
plt.show()
# 기술통계량
print(df['TAX'].describe())
# 최빈값
print(df['TAX'].value_counts())
# value_counts로 빈도 파악 후 id 최댓값 추출
print(df['TAX'].value_counts().idxmax())
print("Q1: ", np.percentile(df['TAX'], 25))
print("Q2: ", np.percentile(df['TAX'], 50))
print("Q3: ", np.percentile(df['TAX'], 75))
반응형
'python' 카테고리의 다른 글
[python] 파이썬 정규표현식(regex) 사용법([], ^, |, +, ?, ., *, $) 정리 및 연습 사이트 추천 (0) | 2023.05.29 |
---|---|
[python] 문자열 치환 총 정리 및 성능 비교하기(str.translate, str.replace, re.sub) (0) | 2023.02.13 |
[python] 파이썬으로 시작하는 통계 데이터 분석 : 입문 - 데이터 전처리 실습(Part1) (0) | 2022.10.25 |
[python] 파이썬으로 시작하는 통계 데이터 분석 : 입문 - 데이터 전처리 실습(Part2) (0) | 2022.10.25 |
[python] 로깅(logging) 라이브러리 사용법(setLevel, fileHandler, StreamHandler) (0) | 2022.10.13 |
Comments