목록 인공지능 (16)
KEEP GOING
강의: https://www.youtube.com/watch?v=BS6O0zOGX4E&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm 소스코드: https://github.com/hunkim/DeepLearningZeroToAll/tree/master/tf2
분류 어떤 대상을 정해진 범주에 구분하여 넣는 작업 ex. 사람의 질병 유무 판별(1/0), 책의 IT 도서 유무 판별(1,0) 등 타깃값은 범주형 데이터여야한다. 타깃값의 데이터 범주가 2개라면 => 이진 분류 타깃값의 데이터 범주가 3개라면 => 다중 분류 분류 평가지표 1. 오차(=혼동) 행렬 Confusion Matrix 실제 타깃값과 예측한 타깃값이 어떻게 매칭되는지 확인 실제\예측 0 1 0 1291 74 1 151 110 실제로 매칭 안됐는데, 매칭이 안됐다고 예측한 경우: 1291건 (참 양성) 실제로 매칭이 됐는데, 실제로 매칭이 됐다고 예측한 경우: 110건(참 음성) 실제로 예측이 안됐는데, 매칭이 됐다고 예측한 경우: 74건 (제 1종 오류) 실제로 예측이 됐는데, 매칭이 안됐다고 ..
* 와인 종류를 분류하는 문제 https://heytech.tistory.com/149# [Python] Random Forest 알고리즘 정의, 장단점, 최적화 방법📚목차 1. 랜덤포레스트 정의 2. 랜덤포레스트 장단점 3. 실습코드 및 데이터셋 4. 코드 설명 1. Random Forest 정의 Random Forest는 의사결정나무 모델 여러 개를 훈련시켜서 그 결과를 종합해 예측하는 heytech.tistory.com Tips1. dir과 help 함수 이용하기help(list.append) help(pandas) dir(pandas) 2. 어떤 모델을 선택할지 모르겠을 경우 랜덤포레스트 사용 from sklearn.ensemble import RandomForestClassifier from s..
문제 - 자동차 가격 예측 모델 선형회귀로 먼저 학습 후 랜덤포레스트 방식으로 성능 개선 (오차 줄이기) https://ebbnflow.tistory.com/m/140 [캐글] 중고차 가격 예측 모델1_선형회귀 Linear Regression() ● Kaggle 캐글(Kaggle)은 머신러닝 대회로 유명한 플랫폼 입니다. 알고리즘 문제를 푸는 백준, 프로그래머스 사이트와 비슷한 개념입니다. 캐글에 있는 여러 데이터셋과 문제들로 데이터 전처리, ebbnflow.tistory.com 랜덤포레스트 오버피팅 문제를 해결하기 위해 앙상블 기법인 랜덤 포레스트를 적용한다. 앙상블 기법은 여러 개의 모델을 훈련하여 결과를 종합하여 예측하는 방법을 뜻한다. train dataset에서 중복을 허용하여 샘플링한 데이터 ..
Tips 1. dir과 help 함수 이용하기 help(list.append) help(pandas) dir(pandas) 2. 어떤 모델을 선택할지 모르겠을 때 랜덤포레스트 사용 from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import RandomForestRegressor pandas 1. 데이터 불러오기(read_csv) / 저장하기(to_csv) import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') submission = pd.read_csv('submission.csv') submission.to_csv('subm..
강의: https://www.youtube.com/watch?v=BS6O0zOGX4E&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm 소스코드: https://github.com/hunkim/DeepLearningZeroToAll/tree/master/tf2
목차 kss(korean sentence spliter)는 대표적인 한국어 문장분리기 도구입니다. kss.split_sentences의 간단한 사용법과 파라미터를 정리하고 split_sentences 사용 시 발생하는 ValueError: not enough values to unpack(expected 2, got 1) 해결 방법을 소개하겠습니다. kss의 split_sentences 사용 예제 from kss import split_sentences s = split_sentences('여름에 먹는 수박과 화채는 참 맛이 좋다. 선풍기 앞에서 먹어야 제 맛이지') print(s) kss의 split_senteces()를 사용하면 이렇게 한국어 문장을 잘 분리해주는데요. 동작과 동시에 내부적으로 mec..
목차 0. nlp(자연어처리) 인간의 언어를 컴퓨터가 이해할 수 있도록 처리하는 기술 1. nltk 토크나이징, 어간 추출, 품사 태깅 등 자연어 처리에 사용하는 파이썬 모듈 import nltk print(dir(nltk.corpus)) # 말뭉치 목록 확인 2. 말뭉치(corpus) 자연어처리를 위한 목적으로 정리해놓은 문서 집합 import nltk nltk.download('movie_reviews') # 말뭉치 중 'movie_reviews' 다운로드 from nltk.corpus import movie_reviews nltk.corpus 패키지는 다양한 연구용 말뭉치를 제공합니다. 말뭉치 자료를 사용하려면 nltk.download 명령으로 다운받으면 됩니다. 3. 토크나이징(tokenizing..