● 카이제곱검정
범주형 데이터의 표본 분포가 모집단 분포와 일치하는 검정(적합도 검정)하거나
두 범주형 변수 간의 독립성을 검정(독립성 검정)
● 제1종 오류와 제2종 오류
| 통계적 결정 \ 실제 상황 | H0가 사실 (참) | H0가 허윗 (거짓) |
| H0 채택 | 옳은 결정 확률 = 1 - a |
제2종 오류 확률 = b |
| H0 기각 | 제1종 오류 확률 = a |
옳은 결정 확률 = 1 - b |
● 단순선형회귀
한개의 변수에 의한 결과를 예측한다.
- 하나의 독립 변수(X)와 하나의 종속 변수(Y)간의 관계를 직선으로 모델링하는 방법

- 회귀식 : Y = β0 + β1X | β0는 절편, β1는 기울기
- 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측
- 데이터가 직선적 경향을 따를 때 사용함.
● 다중선형회귀
두개 이상의 변수에 의한 결과를 예측
- 두개 이상의 독립 변수 (X1, X2, ..., Xn)와 하나의 종속 변수(Y)간의 관계를 모델링

- 회귀식 : β0 + β1X1 + β2X2 + ... + βnXn
- 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
- 종속변수에 영향을 미치는 여러 독립변수가 있을 대 사용함.
● 범주형변수
수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수
종류
- 순서 O : 옷의 사이즈, 수능등급 등
- 순서 X : 성별, 지역
● 다항회귀
- 독립 변수와 종속 변수 간의 고나계까 선형이 나리 때, 독립 변수의 다항식을 사용하여 종속 변수를 예측
- 데이터가 곡선적 경향을 따를 때 사용

● 스플라인 회귀
- 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
- 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성한다.
- 데이터가 국부적으로 다른 패턴을 보일 때 사용함.

● 앙상블 모델
여러 모델의 예측을 결합하여 더 나은 결과를 얻는 방법

배깅 (Bagging)
원래 데이터에서 여러번 샘플링하여 다양한 데이터셋을 만들고, 각각에 대해 독립적으로 모델을 학습시킴.
→ 여러 의사가 각자의 경험을 바탕으로 독립적인 진단을 내리는 것과 비슷함
부스팅(Boosting)
이전 모델이 잘못 예측한 데이터에 더 많은 가중치를 두어 순차적으로 모델을 개선함
→ 의사가 이전의 잘못된 진단으로부터 배워 진단 능력을 향상시키는 것과 유사