카테고리 없음

[내일배움 부트캠프] 06.19

tundercloud 2026. 6. 19. 20:58

● 카이제곱검정

범주형 데이터의 표본 분포가 모집단 분포와 일치하는 검정(적합도 검정)하거나

두 범주형 변수 간의 독립성을 검정(독립성 검정)

 

● 제1종 오류와 제2종 오류

통계적 결정 \ 실제 상황 H0가 사실 (참) H0가 허윗 (거짓)
H0 채택 옳은 결정
확률 = 1 - a
제2종 오류
확률 = b
H0 기각 제1종 오류
확률 = a
옳은 결정
확률 = 1 - b

 

● 단순선형회귀

한개의 변수에 의한 결과를 예측한다.

- 하나의 독립 변수(X)와 하나의 종속 변수(Y)간의 관계를 직선으로 모델링하는 방법

- 회귀식 : Y = β0 + β1X | β0는 절편, β1는 기울기

- 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측

- 데이터가 직선적 경향을 따를 때 사용함.

 

● 다중선형회귀

두개 이상의 변수에 의한 결과를 예측

- 두개 이상의 독립 변수 (X1, X2, ..., Xn)와 하나의 종속 변수(Y)간의 관계를 모델링

- 회귀식 : β0 + β1X1 + β2X2 + ... + βnXn

- 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측

- 종속변수에 영향을 미치는 여러 독립변수가 있을 대 사용함.

 

● 범주형변수

수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수

종류

- 순서 O : 옷의 사이즈, 수능등급 등

- 순서 X : 성별, 지역

 

● 다항회귀

- 독립 변수와 종속 변수 간의 고나계까 선형이 나리 때, 독립 변수의 다항식을 사용하여 종속 변수를 예측

- 데이터가 곡선적 경향을 따를 때 사용

 

● 스플라인 회귀

- 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링

- 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성한다.

- 데이터가 국부적으로 다른 패턴을 보일 때 사용함.

 

 

● 앙상블 모델

여러 모델의 예측을 결합하여 더 나은 결과를 얻는 방법

 

배깅 (Bagging)

원래 데이터에서 여러번 샘플링하여 다양한 데이터셋을 만들고, 각각에 대해 독립적으로 모델을 학습시킴.

→ 여러 의사가 각자의 경험을 바탕으로 독립적인 진단을 내리는 것과 비슷함

 

부스팅(Boosting)

이전 모델이 잘못 예측한 데이터에 더 많은 가중치를 두어 순차적으로 모델을 개선함

→ 의사가 이전의 잘못된 진단으로부터 배워 진단 능력을 향상시키는 것과 유사