무냐의 개발일지

[2/14] 비지도 학습 (PCA, 클러스터링) 본문

Data Scientist Bootcamp

[2/14] 비지도 학습 (PCA, 클러스터링)

무냐코드 2024. 2. 14. 14:18

 

 

1. 차원축소 (PCA)

- PCA 

차원축소의 대표적 기법

고차원 -> 저차원으로 축소하는 선형 투영 기법

데이터 차원 (feature) 이 증가할수록 저리 증가, 오버피팅 가능성이 커진다

 

- PCA 단계

분산이 최대인 축을 찾음 (1번 축) - 첫번째 축과 직교하면서 분산이 최대인 축을 찾기 (2번 축) - 1,2번 축과 직교하고 분산이 최대인 축을 찾기 (3번 축)

(참고) 주성분 선택: 고유값이 큰 순서대로 주성분을 선택합니다. 이는 데이터의 분산을 최대한 보존하면서 차원을 줄이는 데 도움이 됩니다. PCA는 데이터의 주요 정보를 최대한 보존하는 방향으로 주성분을 선택합니다. 이는 데이터의 분산을 가장 잘 설명하는 주축을 찾아내어, 데이터를 더 잘 이해하고 해석할 수 있도록 돕습니다.

 

- PCA 종류

* 점진적 PCA : 데이터셋이 큰 경우 활용 (배치를 통해 점진적으로 수행) (incrementalPCA)

* 희소 PCA : 적절한 희소성 유지 (alpha값으로 조정), 오버피팅 방지

* 커널 PCA : 비선형으로 차원 축소

* SVD (Singular Value Decomposition, 특이값 분해) : 행렬을 특정 구조로 분해하는 방식, 신호 처리와 통계학 등 분야에서 자주 사용됨

 

 

2. 군집 (클러스터링)

정의 : 유사성이 높은 대상의 집단을 분류하는 방법 (label이 없어서, 그냥 비슷한 것들끼리 묶은 것)

평가지표 : Silhouette , Dunn Index 등

 

 

종류 : 

1) 비계층적 (k-means)

: 군집의 갯수를 가장 먼저 선정 (k 의 갯수) : 초기중심값은 임의로 선정되며 중심값이 이동한다

 

2) 계층적 (전통적 방식)

군집의 갯수를 나중에 선장