code review/study

[adsp] 주성분분석(PCA. Principal Component Analysis)

jmHan 2024. 2. 20. 18:37
반응형

 

 

1. 주성분분석(PCA. Principal Component Analysis)

여러 독립변수들을 주성분이라는 서로 상관성이 낮은 변수들의 선형결합으로 만들어 변수들을 요약, 축소하는 기법이다.

 

- 공분산행렬이나 상관계수행렬을 통해 모든 변수들을 잘 설명해주는 주성분을 찾는다.

- 독립변수들과 주성분과의 거리를 나타내는 정보손실량을 최소화하고 분산을 최대화한다.

 - 제1주성분이 전체 변동을 최대로 설명할 수 있어야 하고 제2주성분은 제1주성분과 상관성이 낮아 제1주성분이 설명하지 못하는 나머지 변동을 가장 잘 설명할 수 있어야 한다.

 

* 공분산행렬과 상관계수행렬의 차이

  공분산행렬 상관계수행렬
  변수의 측정단위를 그대로 반영한다. 변수의 측정단위를 표준화한다.
특징 변수들의 측정단위에 민감하다.  
사용 사례 모든 변수들이 같은 수준으로 점수화된 설문조사에서 사용한다. 변수들의 scale이 많이 다를 경우 사용한다. 

 

2. 주성분분석의 목적

여러 변수들간에 내재하는 상관관계를 소수의 주성분으로 나타냄으로서 차원을 축소하고 데이터 관리를 쉽게 한다.

회귀분석이나 의사결정나무 같은 모형을 개발할 때 설명 변수간의 상관관계가 높아 다중공선성이 존재하게 된다. 이때 주성분분석으로 상관성이 적은 주성분으로 변수들을 축소하여 모형을 개발할 수 있다.

 

3. 주성분분석과 요인분석의 차이 

  주성분분석(PCA) 요인분석(Factor Analysis)
공통점 데이터를 축소하여 몇 개의 새로운 변수들을 생성한다.
생성된 변수의 개수 제1주성분, 제2주성분, 제3주성분을 활용한다. (보통 4개 이상은 넘지 않음)  제약 없음
생성된 변수명 제n주성분(n=1,2,3 ..) 분석자가 요인을 명명한다.
생성된 변수간의 관계 제1주성분이 가장 중요하고 순차적으로 중요하게 취급된다. 모든 변수들은 대등한 관계를 가진다. 만약 분류/예측의 다음 단계로 활용된다면 그때 변수 간의 중요성이 달라진다.
분석기법의 의미 목표변수를 고려하여 목표변수를 잘 분류/예측하기 위한 주성분들을 찾아낸다. 목표변수 고려 없이 비슷한 성격들로 묶어서 새로운 변수를 생성한다.

 

4. 주성분분석 해석 

- 표준편차(Standard Deviation): 자료의 산포도를 나타내는 수치. 표준편차가 작을수록 평균과 변량의 거리는 가깝다.  

- 분산비율(Proportion of Variance): 전체 분산에서 각 분산이 차지하는 비율

- 누적비율(Cumulative Proportion): 분산의 누적 비율  

해석)

- 제1주성분으로 전체 분산의 62%를 설명할 수 있다. (제1주성분의 분산비율)

- 두 개의 주성분으로 자료를 축약할 때 전체 분산의 86.7%를 설명할 수 있다. (제2주성분의 누적비율)

- 정보손실율을 5% 이하로 변수를 축약한다면 세 개의 주성분을 사용하는 것이 바람직하다. (100-95.6=4.4<5)

- 누적비율이 85% 이상이면 주성분 수로 결정할 수 있으므로 주성분은 2개가 적합하다. 

 

5. 주성분분석 시 고려사항들 

1) 공분산행렬과 상관계수행렬 중 무엇을 선택할까?

 

2) 주성분 개수를 몇 개로 할 것인가?

 

3) 주성분에 영향을 주는 변수로 어떤 독립변수를 선택할 것인가?  

 

 

참고

https://airsbigdata.tistory.com/118

https://huiyu.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EC%A4%80-%EC%A0%84%EB%AC%B8%EA%B0%80ADsP-3%EA%B3%BC%EB%AA%A9-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%A3%BC%EC%84%B1%EB%B6%84%EB%B6%84%EC%84%9DPCA

 

 

 

 

 

 

반응형