무냐의 개발일지
[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석 본문
목차
각 단원이 약 40쪽씩 이뤄져있다. 한 주에 20쪽씩하면 되겠다. 일단 오늘은 1단원 가볍게 끝내기.
1. EDA (탐색적 데이터 분석) (p.20 ~ 60)
2. 데이터와 표본분포 (p.64 ~ 99)
3. 통계적 실험과 유의성 검정 (p.102 ~ 149)
4. 회귀와 예측 Regression (p.151 ~ 197)
5. 분류 Classification (p.200 ~ 236)
6. 통계적 머신러닝 Machine Learning (p.238 ~ 276)
7. 비지도 학습 Unsupervised Learning (p.280 ~ 314)
1. EDA (탐색적 데이터 분석)
1.1 정형 데이터
: 수치형데이터 (continuous, discrete) & 범주형 데이터 (categorical - binary, ordinal)
1.2 데이블 데이터
: dataframe(테이블 형태의 2차원 행렬 데이터 구조), feature(열/ 특징/ 속성/ 입력변수), outcome(feature를 활용해 예측하려는 결과), record(테이블의 행/ case/ sample)
1.3 위치 추정(대부분의 값이 어디쯤 위치하는지)
: 평균, 절사평균(극단값 제외한 나머지의 평균), 가중평균, 중간값(median), robust(극단값에 민감하지 않은 것), outlier(특이값, 극단값)
1.4 변이 추정(variability, dispersion을 나타낸다)
: 편차(오차, 잔차), variance(분산), sd(standard deviation), mean absolute deviatione(L1, L2 norm), range(최소값-최대값의 차이), percentile, interquartile range(75%-25%, IQR)
*자유도 (ddof, degree of freedom)
분산을 구할 때 n이 아닌, n-1을 분모로 사용해주는 것 : n-1을 쓰면 unbiased 추정이 된다
1.5 데이터분포 탐색
- 상자수염그림 boxplot
- 도수분포표 frequency table(구간 bin 별 수치데이터값의 빈도)
- histogram(x축 구간, y축 빈도수) : 도수분포표를 시각화하는 방법이다
- density plot (histogram을 부드러운 곡선으로 나타낸 것 (kernel density estimation을 주로 사용 ; kde)
1.6 이진데이터, 범주형데이터
- mode : 최빈값. 범주형데이터 분석 시 간단하게 사용된다
- 기댓값 : (각 결과값 x 발생확률).sum()
- bar chart : 히스토그램과 매우 유사하다. x축은 각기 다른 요인이고, 히스토그램에서는 숫자값이다
- pie chart : 잘 안쓴다
1.7 상관관계 (bivariate analysis)
- 상관계수(correlation coefficient) : 수치적 변수들 간 관계를 나타내기 위함 (Pearson을 주로 쓴다 : -1 ~ 1)
단, 변수들이 선형적 관계를 갖지 않는 경우, 상관계수는 더 이상 유용하지 않다
- 상관행렬(correlation matrix) : 행과 열이 변수들을 의미하는 표
- 산점도(scatter plot) : x, y 축이 서로 다른 변수를 나타내는 도표
1.8 두 개 이상의 변수 탐색 (multivariate analysis)
- heatmap
- violin plot : boxplot + 밀도추정 (boxplot은 outlier를 좀 더 명확히 보여주고, violin plot은 boxplot에선 볼 수 없는 데이터의 분포를 볼 수 있다)
'데싸 추가 독학' 카테고리의 다른 글
ARIMA 모델에서 가장 중요한 정상성 확인 | ADFuller test에 대하여 (0) | 2024.02.29 |
---|---|
[머신러닝] 머신러닝에 사용되는 라이브러리 순서!! (0) | 2024.02.19 |
[Python] Heatmap으로 그래프 그리기 (0) | 2024.02.13 |
[Python] Scaling (MinMaxScaler, StandardScaler), PCA(차원축소) (0) | 2024.02.11 |
[Python] 머신러닝 절차 (1) | 2024.02.11 |