목록 인공지능/machine learning (7)
KEEP GOING
목차 2.1.1 당뇨병 데이터셋 미리보기 EDA(Exploratory Data Analysis) 1주차에서는 전처리 없이 데이터셋을 모델에 입력값으로 넣어 그대로 결과를 예측했었다. EDA를 통해 데이터들의 특징을 알아보고 feature를 어떻게 전처리해줘야 할지 선택해보자. import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline # 구버전 주피터노트북에서 그래프 표시를 위함 df = pd.read_csv("data/diabetes.csv") df.shape df.head() df.info() head()를 통해 컬럼에 담긴 값들을 확인할 수 있다. 그리고 in..
1.1.1 사이킷런 소개 사이킷런은 python에서 제공하는 대표적인 머신러닝 라이브러리이다. 사이킷런은 머신러닝 기법인 classification, regression, clustering 등을 제공하는데 이 기법들은 머신러닝 아래에서 하위 범주들로 나뉜다. classification과 regression은 머신러닝 중 지도학습(supervised learning)에 속한다. 지도학습은 모델이 정답(=label)이 있는 데이터를 학습하여 데이터와 정답간의 관계를 파악하는 방법을 말한다. 그리고 비지도 학습(unsupervised learning)은 정답이 없는 데이터를 모델이 학습하는 방법을 의미한다. 대표적으로 clustering, dimensionality reduction같은 기법이 비지도학습에 ..
강의: https://www.youtube.com/watch?v=BS6O0zOGX4E&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm 소스코드: https://github.com/hunkim/DeepLearningZeroToAll/tree/master/tf2
분류 어떤 대상을 정해진 범주에 구분하여 넣는 작업 ex. 사람의 질병 유무 판별(1/0), 책의 IT 도서 유무 판별(1,0) 등 타깃값은 범주형 데이터여야한다. 타깃값의 데이터 범주가 2개라면 => 이진 분류 타깃값의 데이터 범주가 3개라면 => 다중 분류 분류 평가지표 1. 오차(=혼동) 행렬 Confusion Matrix 실제 타깃값과 예측한 타깃값이 어떻게 매칭되는지 확인 실제\예측 0 1 0 1291 74 1 151 110 실제로 매칭 안됐는데, 매칭이 안됐다고 예측한 경우: 1291건 (참 양성) 실제로 매칭이 됐는데, 실제로 매칭이 됐다고 예측한 경우: 110건(참 음성) 실제로 예측이 안됐는데, 매칭이 됐다고 예측한 경우: 74건 (제 1종 오류) 실제로 예측이 됐는데, 매칭이 안됐다고 ..
* 와인 종류를 분류하는 문제 https://heytech.tistory.com/149# [Python] Random Forest 알고리즘 정의, 장단점, 최적화 방법📚목차 1. 랜덤포레스트 정의 2. 랜덤포레스트 장단점 3. 실습코드 및 데이터셋 4. 코드 설명 1. Random Forest 정의 Random Forest는 의사결정나무 모델 여러 개를 훈련시켜서 그 결과를 종합해 예측하는 heytech.tistory.com Tips1. dir과 help 함수 이용하기help(list.append) help(pandas) dir(pandas) 2. 어떤 모델을 선택할지 모르겠을 경우 랜덤포레스트 사용 from sklearn.ensemble import RandomForestClassifier from s..
문제 - 자동차 가격 예측 모델 선형회귀로 먼저 학습 후 랜덤포레스트 방식으로 성능 개선 (오차 줄이기) https://ebbnflow.tistory.com/m/140 [캐글] 중고차 가격 예측 모델1_선형회귀 Linear Regression() ● Kaggle 캐글(Kaggle)은 머신러닝 대회로 유명한 플랫폼 입니다. 알고리즘 문제를 푸는 백준, 프로그래머스 사이트와 비슷한 개념입니다. 캐글에 있는 여러 데이터셋과 문제들로 데이터 전처리, ebbnflow.tistory.com 랜덤포레스트 오버피팅 문제를 해결하기 위해 앙상블 기법인 랜덤 포레스트를 적용한다. 앙상블 기법은 여러 개의 모델을 훈련하여 결과를 종합하여 예측하는 방법을 뜻한다. train dataset에서 중복을 허용하여 샘플링한 데이터 ..
Tips 1. dir과 help 함수 이용하기 help(list.append) help(pandas) dir(pandas) 2. 어떤 모델을 선택할지 모르겠을 때 랜덤포레스트 사용 from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import RandomForestRegressor pandas 1. 데이터 불러오기(read_csv) / 저장하기(to_csv) import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') submission = pd.read_csv('submission.csv') submission.to_csv('subm..