본문 바로가기

데이터 다루기/머신러닝 이론

[머신러닝] Optimal Bayes Classifier

728x90
반응형

안녕하세요. 이번 포스팅에서는 Optimal Bayes Classifier에 대해서 알아보겠습니다.

한글로 해석하면 최적의 베이즈 분류라는 내용입니다.

가설 공간 H에서 데이터 D가 주어졌을 때, 새로운 관측값 x의 class를 정해야 하는 분류문제가 있다고 생각해봅시다.

과연 어떠한 class를 주는 것이 옳을까요??

예를 들어보겠습니다.

가설공간 H={h1, h2, h3}가 존재한다고 합시다.

우선 가설공간에 대한 데이터의 사후확률이 다음과 같이 주어졌습니다.

P(h1|D)=0.4, P(h2|D)=P(h3|D)=0.3

각 가설의 x에 대한 class 예측은 다음과 같습니다.

h1(x) = +, h2(x) = -, h3(x)=-

이 때, x에 대한 class 예측은 무엇이 최적일까요??

그냥 딱 봤을 때는 두 가지 관점이 있습니다.

1. h1이 맞을 확률이 제일 높으니까, h1의 예측대로 x를 +로 예측한다.

2. 3개의 가설 중에서 2개가 -로 예측하고 1개가 +로 예측했으므로, -로 예측한다.

정답을 미리 스포일러하자면, 정답은 -가 가장 최적이라는 것입니다.

이를 정석적으로 풀어보면 다음과 같습니다.

 

반응형