[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석

관리 메뉴

무냐의 개발일지

[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석 본문

데싸 추가 독학

[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석

무냐코드 2024. 2. 18. 19:13

1. EDA (탐색적 데이터 분석)

1.1 정형 데이터

: 수치형데이터 (continuous, discrete) & 범주형 데이터 (categorical - binary, ordinal)

1.2 데이블 데이터

: dataframe(테이블 형태의 2차원 행렬 데이터 구조), feature(열/ 특징/ 속성/ 입력변수), outcome(feature를 활용해 예측하려는 결과), record(테이블의 행/ case/ sample)

1.3 위치 추정(대부분의 값이 어디쯤 위치하는지)

: 평균, 절사평균(극단값 제외한 나머지의 평균), 가중평균, 중간값(median), robust(극단값에 민감하지 않은 것), outlier(특이값, 극단값)

1.4 변이 추정(variability, dispersion을 나타낸다)

: 편차(오차, 잔차), variance(분산), sd(standard deviation), mean absolute deviatione(L1, L2 norm), range(최소값-최대값의 차이), percentile, interquartile range(75%-25%, IQR)

*자유도 (ddof, degree of freedom)
분산을 구할 때 n이 아닌, n-1을 분모로 사용해주는 것 : n-1을 쓰면 unbiased 추정이 된다

1.5 데이터분포 탐색

- 상자수염그림 boxplot

- 도수분포표 frequency table(구간 bin 별 수치데이터값의 빈도)

- histogram(x축 구간, y축 빈도수) : 도수분포표를 시각화하는 방법이다

- density plot (histogram을 부드러운 곡선으로 나타낸 것 (kernel density estimation을 주로 사용 ; kde)

1.6 이진데이터, 범주형데이터

- mode : 최빈값. 범주형데이터 분석 시 간단하게 사용된다

- 기댓값 : (각 결과값 x 발생확률).sum()

- bar chart : 히스토그램과 매우 유사하다. x축은 각기 다른 요인이고, 히스토그램에서는 숫자값이다

- pie chart : 잘 안쓴다

1.7 상관관계 (bivariate analysis)

- 상관계수(correlation coefficient) : 수치적 변수들 간 관계를 나타내기 위함 (Pearson을 주로 쓴다 : -1 ~ 1)

단, 변수들이 선형적 관계를 갖지 않는 경우, 상관계수는 더 이상 유용하지 않다

- 상관행렬(correlation matrix) : 행과 열이 변수들을 의미하는 표

- 산점도(scatter plot) : x, y 축이 서로 다른 변수를 나타내는 도표

1.8 두 개 이상의 변수 탐색 (multivariate analysis)

- heatmap

- violin plot : boxplot + 밀도추정 (boxplot은 outlier를 좀 더 명확히 보여주고, violin plot은 boxplot에선 볼 수 없는 데이터의 분포를 볼 수 있다)

'데싸 추가 독학' 카테고리의 다른 글

ARIMA 모델에서 가장 중요한 정상성 확인 \| ADFuller test에 대하여 (0)	2024.02.29
[머신러닝] 머신러닝에 사용되는 라이브러리 순서!! (0)	2024.02.19
[Python] Heatmap으로 그래프 그리기 (0)	2024.02.13
[Python] Scaling (MinMaxScaler, StandardScaler), PCA(차원축소) (0)	2024.02.11
[Python] 머신러닝 절차 (1)	2024.02.11

'데싸 추가 독학' Related Articles

무냐의 개발일지

무냐의 개발일지

[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석 본문

[데이터 과학을 위한 통계]#1 EDA 탐색적 데이터분석

목차

1. EDA (탐색적 데이터 분석)

'데싸 추가 독학' 카테고리의 다른 글

티스토리툴바