무냐의 개발일지
[2/14] 비지도 학습 (PCA, 클러스터링) 본문
1. 차원축소 (PCA)
- PCA
차원축소의 대표적 기법
고차원 -> 저차원으로 축소하는 선형 투영 기법
데이터 차원 (feature) 이 증가할수록 저리 증가, 오버피팅 가능성이 커진다
- PCA 단계
분산이 최대인 축을 찾음 (1번 축) - 첫번째 축과 직교하면서 분산이 최대인 축을 찾기 (2번 축) - 1,2번 축과 직교하고 분산이 최대인 축을 찾기 (3번 축)
(참고) 주성분 선택: 고유값이 큰 순서대로 주성분을 선택합니다. 이는 데이터의 분산을 최대한 보존하면서 차원을 줄이는 데 도움이 됩니다. PCA는 데이터의 주요 정보를 최대한 보존하는 방향으로 주성분을 선택합니다. 이는 데이터의 분산을 가장 잘 설명하는 주축을 찾아내어, 데이터를 더 잘 이해하고 해석할 수 있도록 돕습니다.
- PCA 종류
* 점진적 PCA : 데이터셋이 큰 경우 활용 (배치를 통해 점진적으로 수행) (incrementalPCA)
* 희소 PCA : 적절한 희소성 유지 (alpha값으로 조정), 오버피팅 방지
* 커널 PCA : 비선형으로 차원 축소
* SVD (Singular Value Decomposition, 특이값 분해) : 행렬을 특정 구조로 분해하는 방식, 신호 처리와 통계학 등 분야에서 자주 사용됨
2. 군집 (클러스터링)
정의 : 유사성이 높은 대상의 집단을 분류하는 방법 (label이 없어서, 그냥 비슷한 것들끼리 묶은 것)
평가지표 : Silhouette , Dunn Index 등
종류 :
1) 비계층적 (k-means)
: 군집의 갯수를 가장 먼저 선정 (k 의 갯수) : 초기중심값은 임의로 선정되며 중심값이 이동한다
2) 계층적 (전통적 방식)
군집의 갯수를 나중에 선장
'Data Scientist Bootcamp' 카테고리의 다른 글
[2/19] 전설의 포켓몬 예측하기!! (완전 신나게 한 프로젝트 ㅎㅎ) (0) | 2024.02.19 |
---|---|
[2/14] 자연어처리 NLP (0) | 2024.02.15 |
[데싸통계] Day1 확률, 기술통계 (0) | 2024.01.26 |
[1/9] SQL 사용하여 데이터베이스 다루기 (0) | 2024.01.09 |
[1/8] 파이썬 계좌 만들기! (0) | 2024.01.09 |