무냐의 개발일지

[데싸통계] Day1 확률, 기술통계 본문

Data Scientist Bootcamp

[데싸통계] Day1 확률, 기술통계

무냐코드 2024. 1. 26. 11:33

인공지능 활발히 사용할 것! (ChatGPT, Bard, Bing, 뤼튼, 라이너, AskUp)

 

| 사용하면 좋은 Tool

뤼튼, ChatGPT, AskUP, Bing Chat, Bard, 위키피디아

 

ex) 논문 읽어오는 건 AskUP -> ChatGPT에 넣어서 표로 만들어라/ 요약해라

ex)  Instruction 만드는 건 Bard에 이미지를 올리고, "이 이미지를 라디오로 설명한다면 어떻게 설명할까" 하여 설명을 만든다 -> 이미지 생성 시 Bing에서 가능

ex) 뤼튼 : GPT4를 무료로 사용 가능. 국내 사용자가 많음. Instruction이 잘 되어있다. (성장 기대됨)

ex) 라이너 : 해외사용자가 많음. PlugIn 으로 개발이 잘 되어있음. (성장 기대됨)

 

 

| 학문 분야

* 통계학 : 산술적 방법을 기초로, 다량의 데이터를 관찰, 정리, 분석하는 방법을 연구하는 수학의 한 분야이다 . 풀고자 하는 문제에 어떤 통계적 지식을 적용할 것인지를 판단하는 것이 중요하다

* 데이터과학 : 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다. 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.
* 데이터 분석 : 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정이다. 

 

| 파이썬 통계도구

도구 설명 활용
NumPy 수치 계산을 위한 라이브러리로, 다차원 배열을 효율적으로 처리할 수 있음. 데이터 조작, 기본적인 통계 계산
Pandas 데이터 분석을 위한 라이브러리로, 표 형식의 데이터를 쉽게 처리할 수 있음. 데이터 정제, 탐색, 분석
Matplotlib 데이터 시각화 라이브러리로, 다양한 그래프와 차트를 그릴 수 있음. 데이터 시각화
Seaborn Matplotlib을 기반으로 한 시각화 라이브러리로, 통계적 연산, 미려한 시각화 고급 데이터 시각화
SciPy 과학 계산을 위한 라이브러리로, 통계, 최적화, 신호 처리 등 고급 수학적 계산, 통계적 테스트
StatsModels 통계 모델링에 사용되는 라이브러리로, 회귀 분석과 시계열 분석 기능 통계 모델링, 추정
Scikit-learn 머신 러닝 라이브러리로, 분류, 회귀, 군집화 등 다양한 알고리즘 제공. 머신 러닝 모델 구축, 데이터 마이닝

 

 | StatsModels 주요 기능

주요 기능 모듈 명칭 설명 비즈니스 사례 예시
선형 회귀 분석 statsmodels.api.OLS 독립 변수와 종속 변수 간의 선형 관계를 모델링합니다. 매출 예측: 광고 지출액과 매출 간의 관계 분석
로지스틱 회귀 분석 statsmodels.api.Logit 이진 결과(예/아니오)를 가지는 종속 변수에 대한 예측 모델을 생성합니다. 고객 이탈 예측: 고객의 구매 이력 데이터를 바탕으로 이탈 가능성 예측
시계열 분석 statsmodels.tsa.api 시간에 따라 변화하는 데이터의 패턴을 분석합니다. 주가 예측: 과거 주가 데이터를 분석하여 미래의 주가 변동 예측
일반화 선형 모델 statsmodels.api.GLM 선형 회귀를 확장하여 다양한 종류의 데이터에 적용할 수 있습니다. 수요 예측: 계절적 요인을 반영한 제품 수요 예측
생존 분석 statsmodels.duration 시간에 따른 이벤트 발생(예: 사망, 고장)을 분석합니다. 제품 수명 분석: 제품의 수명 주기와 고장률 예측
다변량 분석 statsmodels.multivariate 여러 변수 간의 상호 관계를 분석합니다. 마케팅 효과 분석: 다양한 마케팅 채널이 매출에 미치는 영향 분석
패널 데이터 분석 statsmodels.panel 시간과 개체에 걸친 데이터를 분석합니다 (예: 연도별 개체별 데이터). 경제 연구: 여러 나라의 연도별 경제 지표 분석

 

| 통계 활용 사례

소비자 물가지수, 호갱노노(배우자와 나의 직장 사이 최적의 주거 위치), 직방(조망권), 리치고(전부 공공데이터를 활용해 학군, 마트, 학원수, 셔틀 여부, 쿠팡 배달 여부까지 표시한다), 특허검색 윕스(특허정보를 수집해서 자연어처리 해서 유사한 특허가 얼마나 있고, 특허 등록 가능성 분석 등), 크레딧잡(원티드 인사이트로 통합이 되었는데, 국민연금 데이터를 통해 연봉정보를 알 수 있다)

 

생각) 한국은 부동산 관련해서 인공지능을 활용해서 특성을 파악하고, 추천해주고, 추이를 보여주는 게 진짜 응용도가 높겠다

 

| 기술통계(descriptive statistics)

측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다.

 

데이터의 종류

 

| 단변량, 이변량, 다변량