무냐의 개발일지

[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석 본문

데싸 추가 독학

[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석

무냐코드 2024. 2. 18. 19:13

목차

각 단원이 약 40쪽씩 이뤄져있다. 한 주에 20쪽씩하면 되겠다. 일단 오늘은 1단원 가볍게 끝내기.

 

1. EDA (탐색적 데이터 분석)  (p.20 ~ 60)
2. 데이터와 표본분포 (p.64 ~ 99)

3. 통계적 실험과 유의성 검정  (p.102 ~ 149)

4. 회귀와 예측 Regression (p.151 ~ 197)

5. 분류 Classification (p.200 ~ 236)

6. 통계적 머신러닝 Machine Learning (p.238 ~ 276)

7. 비지도 학습 Unsupervised Learning (p.280 ~ 314)

 


1. EDA (탐색적 데이터 분석) 

 

1.1 정형 데이터

: 수치형데이터 (continuous, discrete) & 범주형 데이터 (categorical - binary, ordinal)

 

1.2 데이블 데이터

: dataframe(테이블 형태의 2차원 행렬 데이터 구조), feature(열/ 특징/ 속성/ 입력변수), outcome(feature를 활용해 예측하려는 결과), record(테이블의 행/ case/ sample)

 

1.3 위치 추정(대부분의 값이 어디쯤 위치하는지)

: 평균, 절사평균(극단값 제외한 나머지의 평균), 가중평균, 중간값(median), robust(극단값에 민감하지 않은 것), outlier(특이값, 극단값)

 

1.4 변이 추정(variability, dispersion을 나타낸다)

: 편차(오차, 잔차), variance(분산), sd(standard deviation), mean absolute deviatione(L1, L2 norm), range(최소값-최대값의 차이), percentile, interquartile range(75%-25%, IQR)

 

*자유도 (ddof, degree of freedom)
분산을 구할 때 n이 아닌, n-1을 분모로 사용해주는 것 : n-1을 쓰면 unbiased 추정이 된다

 

 

1.5 데이터분포 탐색

- 상자수염그림 boxplot

수염보다 바깥쪽의 데이터는 점으로 표현한다

 

 

- 도수분포표 frequency table(구간 bin 별 수치데이터값의 빈도)

- histogram(x축 구간, y축 빈도수) : 도수분포표를 시각화하는 방법이다

 

 

- density plot (histogram을 부드러운 곡선으로 나타낸 것 (kernel density estimation을 주로 사용 ; kde)

 

 

1.6 이진데이터, 범주형데이터

- mode : 최빈값. 범주형데이터 분석 시 간단하게 사용된다

- 기댓값 : (각 결과값 x 발생확률).sum()

- bar chart : 히스토그램과 매우 유사하다. x축은 각기 다른 요인이고, 히스토그램에서는 숫자값이다

- pie chart : 잘 안쓴다

 

 

1.7 상관관계 (bivariate analysis)

- 상관계수(correlation coefficient) : 수치적 변수들 간 관계를 나타내기 위함 (Pearson을 주로 쓴다 : -1 ~ 1)

 단, 변수들이 선형적 관계를 갖지 않는 경우, 상관계수는 더 이상 유용하지 않다

- 상관행렬(correlation matrix) : 행과 열이 변수들을 의미하는  표

- 산점도(scatter plot) : x, y 축이 서로 다른 변수를 나타내는 도표

 

1.8 두 개 이상의 변수 탐색 (multivariate analysis)

- heatmap

- violin plot : boxplot + 밀도추정 (boxplot은 outlier를 좀 더 명확히 보여주고, violin plot은 boxplot에선 볼 수 없는 데이터의 분포를 볼 수 있다)