무냐의 개발일지
[캐글스터디] #2 House Price (왜도, 첨도, distplot, kde, concat) 본문
| 불러온 코드
from scipy.stats import norm
scipy.stats 모듈에서 norm 클래스를 가져옵니다. 이는 정규 분포를 나타내는데 사용됩니다. 정규 분포는 통계 분석 및 가설 검정에서 자주 사용되는 분포 중 하나입니다.
from sklearn.preprocessing import StandardScaler
scikit-learn 라이브러리에서 StandardScaler 클래스를 가져옵니다. 이 클래스는 데이터의 표준화를 수행하는데 사용됩니다. 표준화는 데이터를 평균이 0이고 표준 편차가 1인 형태로 변환하는 과정으로, 여러 머신 러닝 알고리즘에서 입력 데이터를 정규화하는 데 유용합니다.
from scipy import stats
scipy 라이브러리에서 stats 모듈을 가져옵니다. 이 모듈은 다양한 통계적 함수 및 도구를 제공합니다. 앞에서 norm 클래스를 가져온 것과는 별개로, stats 모듈은 다양한 통계 검정 및 함수를 제공합니다.
| 항상 공통적으로 가져오는 코드
import warnings 파이썬의 warnings 모듈을 가져옵니다. 이 모듈은 경고 메시지를 다루는 데 사용됩니다.
warnings.filterwarnings('ignore'): 경고 메시지를 무시하도록 설정합니다. 이는 코드 실행 중에 발생하는 경고 메시지를 표시하지 않도록 하는 명령입니다.
%matplotlib inline
Jupyter Notebook 환경에서 matplotlib 그래프를 인라인으로 표시하도록 하는 매직 명령입니다. 이를 통해 코드 셀 실행 결과로 생성된 그래프가 노트북 내에서 바로 시각화됩니다
| Distplot
sns.distplot(data, kde=True, bins=10, hist_kws={'edgecolor': 'black'})
주로 히스토그램 + 커널 밀도 추정(Kernel Density Estimation, KDE)을 함께 표시하여 데이터의 분포를 살펴볼 수 있습니다.
kde=True 하면 KDE가 히스토그램과 함께 표시된다. 불연속성을 보완하여 데이터를 부드럽게 표현한다.
| 첨도와 왜도
print("Skewness: %f" % df_train['SalePrice'].skew())
print("Kurtosis: %f" % df_train['SalePrice'].kurt())
왜도 1.88, 첨도 6.54 가 나왔다. 왜도는 양수니까 오른쪽으로 긴 꼬리고, 첨도는 3보다 크니까 뾰족한 분포이다.
skew 왜도 :
- 왜도가 0보다 크면 오른쪽으로 긴 꼬리를 갖는 분포 (양의 왜도), 0보다 작으면 왼쪽으로 긴 꼬리를 갖는 분포 (음의 왜도)를 의미합니다.
- 왜도가 0에 가까우면 대칭적인 분포입니다.
kurt 첨도 :
- 첨도가 3에 가까우면 정규 분포에 가까운 분포를 의미하며, 3보다 크면 뾰족한 분포 (뾰족한 정점), 3보다 작으면 둥근 분포를 의미합니다.
- 첨도가 0에 가까우면 꼬리가 얇고, 0보다 크면 꼬리가 두꺼운 분포입니다.
| 두 변수 간에 상관관계 파악하기
var = 'GrLivArea'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0.8))
* concat의 문법
pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)
axis = 1 열기준으로 결합한다
하기 노트북을 참고하여 진행한다.
Comprehensive data exploration with Python
Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advanced Regression Techniques
www.kaggle.com
'데싸 추가 독학' 카테고리의 다른 글
회귀 모델의 종류!! (0) | 2024.02.01 |
---|---|
[캐글스터디] #2 House Price (Scatterplot, Boxplot) (0) | 2024.01.26 |
[SQL독학] <SQL로 시작하는 데이터 분석> 1-3장 (0) | 2024.01.17 |
[SQL로 시작하는 데이터분석] #1 PostGreSQL 로 CSV파일 IMPORT 해오기! (1) | 2024.01.13 |
[헷갈린다] Python Class (1) | 2024.01.06 |