
오늘은 기초 프로젝트 시작 주의 첫날이었다. 다사가 다난했다.. 도메인 선정 후 데이터를 찾던 중 어마무시한 데이터를 찾게 되어 그만 정신을 잃다보니 저녁시간.. 호다닥 기획서를 작성하고 이해가 안됐던 내용이나 반도체에 대해 공부를 했다. 오전에 풀었던 Atani와 코드카타가 기억나지 않을 정도로 정신이 없었다.
🤖 Atani

⭐ 정답 : C
테스트 데이터는 모델이 학습 과정에서 전혀 접하지 않은 데이터여야 하며, 최종 성능 평가 시 단 한번만 사용하는 것이 원칙이다.
A : 테스트 데이터를 학습에 사용하여 데이터 누수(leakage)를 발생시킨다.
B : 테스트 데이터로 반복 평가하여 과적합 위험이 있다.(이 경우 검증 데이터를 사용해야 한다)
D : 테스트 데이터의 정보를 학습에 사용하여 데이터 누수가 발생한다.

⭐ 정답 : C
MSE는 오차를 제곱하기 때문에 원래 데이터의 단위가 제곱된 형태로 표현된다.
예를 들어 데이터가 '원'단위라면 MSE는 원^2 단위가 되어 직관적인 해석이 어렵다.
→ 이러한 단점을 보완하기 위해 RMSE (제곱근을 취한 값)를 사용한다.

⭐ 정답 : B
R^2(결정계수)는 모델이 종속변수의 분산을 얼마나 잘 설명하는지를 나타내는 지표로, 1에 가까울수록 모델의 설명력이 높다는 것을 의미한다.
A : 일반적으로 0과 1 사이의 값을 갖지만, 모델이 평균보다 못한 경우 음수가 될 수도 있다.
C : MSE의 제곱근은 RMSE이며 R^2와는 다른 개념이다.
D : 예측값과 실제값의 절대 차이의 평균은 MAE(Mean Absolute Error)이다.

⭐ 정답 : B
RMSE(Root Mean Squared Error)는 MSE의 제곱근(square root)을 취한 값이다.
RMSE는 MSE와 달리 원래 데이터와 동일한 단위를 가지므로 해석이 더 직관적이다.
A : mse ** 2 는 MSE를 제곱한 값이다.
C : mse/2는 단순히 MSE를 2로 나눈 값이다.
D : 1-mse는 R^2 계산과도 다른 의미 없는 연산이다.

⭐ 정답 : C
과적합은 모델의 복잡도가 높고 훈련 데이터가 부족할 때 주로 발생한다. 모델이 너무 복잡하면 훈련 데이터의 세부적인 패턴과 노이즈까지 학습하게 되어 새로운 데이터에 대한 일반화 능력이 떨어진다.
⌨️ 코드카타
51번


52번



53번


54번


55번



🤓기초 프로젝트
Day 1. 주제 선정
- 도메인 : 반도체
- 프로젝트 제목 : 비선형데이터 분석을 통한 양품, 불량 선별
- 목표 : 공정 변수와 데이터를 분석하여 결함 발생 원인을 파악하고 불량 예측 모델을 형성시킴으로써 반도체 제조 수율 극대화와 품질 최적화에 기여하고자 한다.
- 기대 효과 : 사후 품질 검사가 아닌 실시간 품질 예측 및 사전 대응 체계를 구축함으로써 수율을 개선하고 이에 따른 직접적인 수익증대를 기대할 수 있다.
- 공정별로 데이터를 분석하여 Bar chart로 표시 등 여러 대시보드를 이용하여 결과 도출
- 시계열 데이터를 어떤식으로 올바르게 분석해야 할지 신경 쓸 것!