
오늘은 데이터셋을 전처리한 후 어느정도 변수별 시각화를 하여 어떤 상관관계가 있을지 얘기하는 시간을 가졌다. (반도체 기초 지식을 쌓으며) 처음으로 데이터 불러오기부터 시각화까지 진행할려고 하다보니 막막했는데 팀원분들이 먼저 자료를 보여주시면서 의견을 얘기해주면서 데이터를 이해할 수 있게 도와주셨다.😭 그래프를 뜯어보면서 온도와 사용시간에 뭔가 영향이 있는것을 확인했고 또 다른 변수의 영향이 없는지, 그리고 온도와 사용시간의 어느부분에서 영향을 미쳤는지 내일 다시 회의하기로 하였다.
Atani와 코드카타는 시간 관계상 빠르게 풀고 넘어갔다.


그래프를 보면 시간 12시에서 13시에 결함수가 급증한 것을 볼 수 있고, 온도에서 171℃에서 결함수가 급증한 것을 알 수 있었다.
내일은 요 변수를 중점으로 보고, 다른 변수도 가능성을 열어서 볼 예정이다.
🤖 Atani

⭐ 정답 : B
과소적합은 모델이 너무 단순하여 훈련 데이터의 패턴조차 제대로 학습하지 못하는 상태
→ 모델의 복잡도를 높이거나(층수 증가, 뉴런 수 증가 등), 더 많은 특성을 추가하여 모델의 표현력을 향상시켜야 함.
A : 정규화 강도를 증가시키면 모델이 더 단순해져 과소적합이 악화될 수 있다. 정규화는 과적합 방지 기법임.
C : 훈련 데이터를 줄이면 모델이 학습할 정보가 더 부족해져 과소적합이 심화됨.
D : 드롭아웃 비율을 높이면 모델의 학습 능력이 제한되어 과소적합이 발생하거나 악화될 수 있다. 드롭아웃은 과적합 방지 기법임.

❌ 오답!!
⭐ 정답 : B
훈련 오차와 검증 오차가 모두 높고 비슷한 수준이라는 것은 모델이 훈련 데이터조차 제대로 학습하지 못하고 있다는 의미로, 과소적합 상태이다. 이는 모델이 너무 단순하거나 학습이 충분히 이루어지지 않았음을 나타낸다.
A, C : 정규화, 드롭아웃, 조기 종료는 과적합 방지 기법으로, 현재 상황에는 적합하지 않음.
D : 두 오차가 모두 높다면 모델의 성능이 부족한 상태이므로 개선이 필요하다.

⭐ 정답 : B
코드에서 사용된 Ridge는 L2 정규화를 적용하는 선형 회귀 모델이다. alpha 매개변수는 정규화 강도를 조절하며, 값이 클수록 모델의 가중치가 더 작아져 과적합을 방지하다.
A : 배깅은 여러 모델을 앙상블하는 기법이며, Ridge 모델과는 다르다.
C, D : 특성 증가와 모델 복잡도 증가는 과소적합 해결방법이다. 코드의 의도와 반대다.

❌ 오답!!
⭐ 정답 : B
과적합은 높은 분산과 낮은 편향을 특징으로 한다. 모델이 훈련 데이터에 지나치게 맞춰져 있어 훈련 데이터의 작은 변화에도 민감하게 반응하며(높은 분산), 훈련 데이터에 대해서는 정확한 예측을 한다(낮은 편향)
A : 과소적합은 높은 편향과 낮은 분산을 가진다.
C : 모델의 복잡도를 높이면 편향은 감소하지만 분산은 증가한다.
D : 편향과 분산은 트레이드오프 관계로, 하나를 줄이면 다른 하나가 증가하는 경향이 있어 동시에 최소화하기 어렵다.

⭐ 정답 : C
드롭아웃은 신경망 모델이 특정 뉴런에 과도하게 의존하는 것을 막고 여러 뉴런이 고루 특징을 학습하도록 유도하기 위해 학습 시 무작위로 일부 뉴런의 출력을 0으로 만드는 대표적인 과적합 방지 기법이다.
⌨️ 코드카타
56번


57번


58번

