목록 전체 글 (301)
KEEP GOING
1. 주성분분석(PCA. Principal Component Analysis) 여러 독립변수들을 주성분이라는 서로 상관성이 낮은 변수들의 선형결합으로 만들어 변수들을 요약, 축소하는 기법이다. - 공분산행렬이나 상관계수행렬을 통해 모든 변수들을 잘 설명해주는 주성분을 찾는다. - 독립변수들과 주성분과의 거리를 나타내는 정보손실량을 최소화하고 분산을 최대화한다. - 제1주성분이 전체 변동을 최대로 설명할 수 있어야 하고 제2주성분은 제1주성분과 상관성이 낮아 제1주성분이 설명하지 못하는 나머지 변동을 가장 잘 설명할 수 있어야 한다. * 공분산행렬과 상관계수행렬의 차이 공분산행렬 상관계수행렬 변수의 측정단위를 그대로 반영한다. 변수의 측정단위를 표준화한다. 특징 변수들의 측정단위에 민감하다. 사용 사례 모..
목차 1. 시계열 데이터 시계열 데이터란 시간의 흐름에 따라 관측된 데이터이다. 시계열 분석을 통해 미래 값을 예측하고 어떤 경향이나 주기, 계절성 등을 파악할 수 있다. 시계열 데이터는 두 가지로 나뉘는데 1) 비정상 시계열 시계열 분석으로 핸들링하기 어려운 자료로 대부분의 시계열 자료가 비정상 시계열이다. 2) 정상 시계열 비정상 시계열을 변환하여 만든 핸들링 하기 쉬운 시계열 자료를 말한다. 정상 시계열이 되기 위해서는 정상성이라는 조건을 따라야 한다. 2. 정상성(Stationary) 시계열 데이터는 정상성이라는 3가지 성질을 만족해야 한다. 1) 시간에 관계없이 평균이 일정하다. 2) 시간에 관계없이 분산이 일정하다. 3) 공분산은 시간에 의존하지 않고 오직 시차에만 의존한다. 세 가지 중 하나..
목차 1. 회귀분석 하나 또는 여러 개의 독립변수(x)가 종속변수(y)에 미치는 영향을 추정하는 통계 기법이다. 2. 회귀분석 종류 1) 단순선형회귀 2) 다중선형회귀 3) 로지스틱회귀 4) 다항회귀 5) 비선형회귀 2. 회귀분석의 가정 1) 회귀분석의 가정 - 선형성: 선형회귀분석에서 독립변수와 종속변수는 선형관계여야 한다. (예외적으로 다항회귀/비선형회귀는 선형성을 갖지 않아도 된다.) 산점도를 통해 변수 간의 선형관계를 파악할 수 있다. 만약 독립변수와 종속변수 간에 선형관계가 아니라면 로그 변환을 통해 직선을 만들거나 비선형회귀분석을 하면 된다. - 비상관성 다중선형회귀일 경우, 독립변수들 간에 상관관계가 없어야 한다. 즉, 다중공선성 문제를 해결해야 한다. 그리고 잔차들끼리 상관관계가 없어야 한..
전달 매체가 아무리 늘어나도 사람과 사람이 마주하는 '원칙'은 바뀌지 않는다고 생각한다. 바로 자신과 상대방을 존중하면서 문제를 해결하기 위해 포기하지 않고 대화하는 자세다. 그 과정에서 얻게 되는 관계의 지혜는 모든 것이 불확실하고 앞이 보이지 않는 시대에도 앞으로 나아갈 수 있는 힘을 길러준다. 자신의 생각이나 감정을 솔직하게 표현하면서도, 상대를 존중하는 말하기 방식을 '어서티브'라고 한다. 어서티브에서는 상대를 이겨야 할 대상이 아닌 꼬인 관계 이면에 숨은 문제를 함께 풀어나가는 협력자로 대한다. 상처때문에 관계 맺기가 두렵다면 한 걸음 더 내디딜 용기마음에 새겨야 할 두가지가 있다. 하나는 무슨 말을 할 때 '상대방이 알아서 잘 헤아려 줄 것'이라는 착각을 버리는 일이다. 상대방은 나와 사고방식..
목차 2.1.1 당뇨병 데이터셋 미리보기 EDA(Exploratory Data Analysis) 1주차에서는 전처리 없이 데이터셋을 모델에 입력값으로 넣어 그대로 결과를 예측했었다. EDA를 통해 데이터들의 특징을 알아보고 feature를 어떻게 전처리해줘야 할지 선택해보자. import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline # 구버전 주피터노트북에서 그래프 표시를 위함 df = pd.read_csv("data/diabetes.csv") df.shape df.head() df.info() head()를 통해 컬럼에 담긴 값들을 확인할 수 있다. 그리고 in..
행복한 연인 관계는 무엇일까 생각해보는 요즘입니다. 도서관에서 문득 제 눈을 사로잡은 책을 읽고 독서 후기를 적어봅니다. 건강한 가치관으로 연인을 존중하는 사람이 되고 싶은 여성분들께 추천드리는 책입니다. 작가 김옥림님은 남성분으로 작가이자 시인이기도 합니다. , , 등 행복과 사랑에 대한 이야기로 책을 써내려 오신 분입니다. 2006년에 출판되었지만, 방금 출판했다고 해도 믿어질 정도로 세련된 생각과 태도가 눈에 들어옵니다. 자신만의 색깔이 있는 여자가 아름답다 여성이 예뻐 보이려고 하는 것은 본능이다. 하지만 외모에 너무 치중한 나머지 내면의 세계를 가꾸는 덴 소홀히 하는 경향이 있다. 여기서 말하는 내면의 세계란 실력을 쌓는 일을 말한다. 자신만의 장점을 살려 남이 할 수 없는 일을 해보임으로써 자..
1.1.1 사이킷런 소개 사이킷런은 python에서 제공하는 대표적인 머신러닝 라이브러리이다. 사이킷런은 머신러닝 기법인 classification, regression, clustering 등을 제공하는데 이 기법들은 머신러닝 아래에서 하위 범주들로 나뉜다. classification과 regression은 머신러닝 중 지도학습(supervised learning)에 속한다. 지도학습은 모델이 정답(=label)이 있는 데이터를 학습하여 데이터와 정답간의 관계를 파악하는 방법을 말한다. 그리고 비지도 학습(unsupervised learning)은 정답이 없는 데이터를 모델이 학습하는 방법을 의미한다. 대표적으로 clustering, dimensionality reduction같은 기법이 비지도학습에 ..
목차 개요 딥러닝에서 최적화(optimization)란 손실함수(loss function)를 최소화(minimize)하는 파라미터를 찾아가는 과정입니다. 파라미터를 최적화하기 위해서는 데이터를 분할하여 여러 번의 훈련 과정을 거칩니다. 이때 구분이 필요한 개념이 배치(batch size)와 에폭(epoch) 그리고 반복(iteration)입니다. 배치 사이즈(batch size) 한 번의 배치마다 주는 데이터 샘플의 크기 배치(=미니 배치라고도 불림)는 전체 데이터셋을 일정 크기로 분할한 작은 데이터 셋을 의미합니다. 이때 배치 사이즈는 이러한 작은 데이터 셋(=배치)의 크기를 뜻합니다. 예를 들어 500개의 데이터셋이 있을 때, 5번에 걸쳐 학습한다면 배치는 5개이고 배치 사이즈는 100이 됩니다. 그..