카테고리 없음

[내일배움 부트캠프]06.08

tundercloud 2026. 6. 8. 21:03

 오늘은 기초 프로젝트 시작 주의 첫날이었다. 다사가 다난했다.. 도메인 선정 후 데이터를 찾던 중 어마무시한 데이터를 찾게 되어 그만 정신을 잃다보니 저녁시간.. 호다닥 기획서를 작성하고 이해가 안됐던 내용이나 반도체에 대해 공부를 했다. 오전에 풀었던 Atani와 코드카타가 기억나지 않을 정도로 정신이 없었다.


🤖 Atani

⭐ 정답 : C

테스트 데이터는 모델이 학습 과정에서 전혀 접하지 않은 데이터여야 하며, 최종 성능 평가 시 단 한번만 사용하는 것이 원칙이다.

A : 테스트 데이터를 학습에 사용하여 데이터 누수(leakage)를 발생시킨다.

B : 테스트 데이터로 반복 평가하여 과적합 위험이 있다.(이 경우 검증 데이터를 사용해야 한다)

D : 테스트 데이터의 정보를 학습에 사용하여 데이터 누수가 발생한다.


⭐ 정답 : C

MSE는 오차를 제곱하기 때문에 원래 데이터의 단위가 제곱된 형태로 표현된다.

예를 들어 데이터가 '원'단위라면 MSE는 원^2 단위가 되어 직관적인 해석이 어렵다.

→ 이러한 단점을 보완하기 위해 RMSE (제곱근을 취한 값)를 사용한다.


⭐ 정답 : B

R^2(결정계수)모델이 종속변수의 분산을 얼마나 잘 설명하는지를 나타내는 지표로, 1에 가까울수록 모델의 설명력이 높다는 것을 의미한다.

A : 일반적으로 0과 1 사이의 값을 갖지만, 모델이 평균보다 못한 경우 음수가 될 수도 있다.

C : MSE의 제곱근은 RMSE이며 R^2와는 다른 개념이다.

D : 예측값과 실제값의 절대 차이의 평균은 MAE(Mean Absolute Error)이다.


⭐ 정답 : B

RMSE(Root Mean Squared Error)는 MSE의 제곱근(square root)을 취한 값이다.

RMSE는 MSE와 달리 원래 데이터동일한 단위를 가지므로 해석이 더 직관적이다.

A : mse ** 2 는 MSE를 제곱한 값이다.

C : mse/2는 단순히 MSE를 2로 나눈 값이다.

D : 1-mse는 R^2 계산과도 다른 의미 없는 연산이다.


⭐ 정답 : C

과적합은 모델의 복잡도가 높고 훈련 데이터가 부족할 때 주로 발생한다. 모델이 너무 복잡하면 훈련 데이터의 세부적인 패턴과 노이즈까지 학습하게 되어 새로운 데이터에 대한 일반화 능력이 떨어진다.


⌨️ 코드카타

51번


52번


53번


54번


55번


 🤓기초 프로젝트

Day 1. 주제 선정

- 도메인 : 반도체

- 프로젝트 제목 : 비선형데이터 분석을 통한 양품, 불량 선별

- 목표 : 공정 변수와 데이터를 분석하여 결함 발생 원인을 파악하고 불량 예측 모델을 형성시킴으로써 반도체 제조 수율 극대화와 품질 최적화에 기여하고자 한다.

- 기대 효과 : 사후 품질 검사가 아닌 실시간 품질 예측 및 사전 대응 체계를 구축함으로써 수율을 개선하고 이에 따른 직접적인 수익증대를 기대할 수 있다.

- 공정별로 데이터를 분석하여 Bar chart로 표시 등 여러 대시보드를 이용하여 결과 도출

- 시계열 데이터를 어떤식으로 올바르게 분석해야 할지 신경 쓸 것!