데이터 다루기/머신러닝 이론

Reducible and Irreducible Errors

분석벌레 2019. 6. 10. 11:35
728x90

이번 시간에는 머신러닝의 오차에 대해서 알려드리겠습니다.

첫번째 포스팅에서 머신러닝에 대해서 소개를 드릴 때

라는 식을 기억하실겁니다. 회귀문제를 다룰 때 실제 데이터가 회귀모형에 정확히 적합하지는 않을 것이기 때문에 아무도 알지 못하는 오차항인 ε가 존재하게 됩니다. 오차항은 random variable로 평균이 0이고 분산이 Var(ε)인 정규분포를 따르게 됩니다. 이 때 머신러닝에서 예측한 값을

 

라고 정의해보겠습니다. 이 때 y값과 예측값의 차이의 제곱에 기댓값을 취하면

 

 

으로 표현되게 됩니다.

따라서 머신러닝 알고리즘은 reducible error를 최소로 하는 것을 목표로 하게 됩니다. (Irreducible error는 알지못하는 오차로 조절 x)