목록 분류 전체보기 (301)
KEEP GOING
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dI8Wbq/btsBGndaqJq/U3Mv1UI4cRQDQqQKtgp00K/img.png)
강의: https://www.youtube.com/watch?v=BS6O0zOGX4E&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm 소스코드: https://github.com/hunkim/DeepLearningZeroToAll/tree/master/tf2
분류 어떤 대상을 정해진 범주에 구분하여 넣는 작업 ex. 사람의 질병 유무 판별(1/0), 책의 IT 도서 유무 판별(1,0) 등 타깃값은 범주형 데이터여야한다. 타깃값의 데이터 범주가 2개라면 => 이진 분류 타깃값의 데이터 범주가 3개라면 => 다중 분류 분류 평가지표 1. 오차(=혼동) 행렬 Confusion Matrix 실제 타깃값과 예측한 타깃값이 어떻게 매칭되는지 확인 실제\예측 0 1 0 1291 74 1 151 110 실제로 매칭 안됐는데, 매칭이 안됐다고 예측한 경우: 1291건 (참 양성) 실제로 매칭이 됐는데, 실제로 매칭이 됐다고 예측한 경우: 110건(참 음성) 실제로 예측이 안됐는데, 매칭이 됐다고 예측한 경우: 74건 (제 1종 오류) 실제로 예측이 됐는데, 매칭이 안됐다고 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b7wGOJ/btsAq3gbfjX/xYVTLZW8qezzgYXAhDjiP1/img.png)
* 와인 종류를 분류하는 문제 https://heytech.tistory.com/149# [Python] Random Forest 알고리즘 정의, 장단점, 최적화 방법📚목차 1. 랜덤포레스트 정의 2. 랜덤포레스트 장단점 3. 실습코드 및 데이터셋 4. 코드 설명 1. Random Forest 정의 Random Forest는 의사결정나무 모델 여러 개를 훈련시켜서 그 결과를 종합해 예측하는 heytech.tistory.com Tips1. dir과 help 함수 이용하기help(list.append) help(pandas) dir(pandas) 2. 어떤 모델을 선택할지 모르겠을 경우 랜덤포레스트 사용 from sklearn.ensemble import RandomForestClassifier from s..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/nvD2o/btsAor9LRe6/iDB694oblgQAOYOq1LK05k/img.png)
문제 - 자동차 가격 예측 모델 선형회귀로 먼저 학습 후 랜덤포레스트 방식으로 성능 개선 (오차 줄이기) https://ebbnflow.tistory.com/m/140 [캐글] 중고차 가격 예측 모델1_선형회귀 Linear Regression() ● Kaggle 캐글(Kaggle)은 머신러닝 대회로 유명한 플랫폼 입니다. 알고리즘 문제를 푸는 백준, 프로그래머스 사이트와 비슷한 개념입니다. 캐글에 있는 여러 데이터셋과 문제들로 데이터 전처리, ebbnflow.tistory.com 랜덤포레스트 오버피팅 문제를 해결하기 위해 앙상블 기법인 랜덤 포레스트를 적용한다. 앙상블 기법은 여러 개의 모델을 훈련하여 결과를 종합하여 예측하는 방법을 뜻한다. train dataset에서 중복을 허용하여 샘플링한 데이터 ..
Tips 1. dir과 help 함수 이용하기 help(list.append) help(pandas) dir(pandas) 2. 어떤 모델을 선택할지 모르겠을 때 랜덤포레스트 사용 from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import RandomForestRegressor pandas 1. 데이터 불러오기(read_csv) / 저장하기(to_csv) import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') submission = pd.read_csv('submission.csv') submission.to_csv('subm..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ZBLDL/btszCpY0u4x/MKqBUtoHym6IjSUKed3OE0/img.png)
강의: https://www.youtube.com/watch?v=BS6O0zOGX4E&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm 소스코드: https://github.com/hunkim/DeepLearningZeroToAll/tree/master/tf2
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/AeMoS/btszmyg28hS/3Xw3hMr4jUxEx7fKRfZMK0/img.png)
개요 sklearn의 tfidfVectorizer를 통해 tfidf matrix를 생성하고 행렬 간 코사인 유사도를 구해 문서 간 유사도를 산출할 수 있습니다. 하지만 문제가 되는 점은 문서가 대용량 dataset일 경우입니다. 단일 서버로는 감당하기 힘들 정도로 매우 느린 속도로 지연이 발생합니다. 이때 브로드캐스트와 parallelize라는 spark의 분산 처리 기능을 활용하여 대규모 dataset에 대한 처리 속도를 개선할 수 있습니다. tfidftfidf는 단어 빈도 tf(term frequency)를 역문서빈도 idf(inverse document frequency)로 곱한 값입니다.tfidf는 문장 내에서 중요한 단어에 높은 가중치를 주기 위한 방법입니다. 우리가 적는 말들은 컴퓨터가 이해할..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/QREoH/btszi4WbV2D/uDKX1Y291riet9UeNdSwW1/img.png)
얼마 전 방문했던 정비소 사장님께서 겨울이 가기 전 타이어를 갈아야 한다고 말씀해주셨습니다. 셀프로 타이어를 구매하고 타이어를 교체하기 위해 타이어 규격을 알아 보겠습니다. 타이어 옆에 적혀 있는 영문과 숫자를 통해 타이어 규격을 확인할 수 있습니다. 제 차량인 그랜저 HG 타이어를 촬영해 봤습니다. 앞쪽은 한국 타이어, 뒷쪽은 넥센 타이어였는데 타이어 옆구리를 확인해보니 적혀있는 글자는 'P225/55R17 95V' 네요. 그럼 각각 어떤 의미를 가지는지 한 번 알아볼까요? 대한타이어산업협회 사이트에서 가져온 자료입니다. 타이어에 적힌 규격 표시는 국제표준화기구(ISO)에서 정한 표기법을 따른다고 하네요. 그래서 타이어 회사에 관계없이 같은 형식으로 규격이 적혀 있었나 봅니다. 정리하면 P225/55R..