[수리통계학] 32. 추정의 기준

728x90

[Ref] 수리통계학 (송명주, 전명식)

안녕하세요, 오랜만입니다.

한 동안 바빠서, 수리통계학 포스팅을 잠깐 쉬었는데요...

다시 시작해보도록 하겠습니다. (열심히 할게요~)

이번 포스팅에서는 추정의 기준에 대해서 다루어보려고 합니다.

실제로, 추정량이 항상 추정대상인 g(theta) 랑 같은 값을 가진다면 가장 좋겠지만, 추정량은 확률변수이기 때문에, 표본을 어떻게 뽑는가에 따라서 달라지게 됩니다. 따라서 항상 가장 좋은 값을 가지지 못하기 때문에, 이를 평가하기 위한 기준이 필요합니다.

가장 많이 사용하는 지표로써는 MAE (Mean Absolute Error) 와 MSE (Mean Squared Error)가 있습니다.

물론, 많이 들어보셨을수도 있고, 이름에서 유추해볼 수 있습니다만, 자세히 알아보도록 하겠습니다.

MAE는 추정량과 추정 대상과의 차이의 절대값의 기댓값이며, MSE는 제곱의 기댓값입니다.

통계학에 있어서 더 중요하게 다루는 부분이 MSE 입니다.

다음으로, 편향 (Bias) 라는 통계학에 있어서 매우 중요한 개념이 나옵니다.

편향은 쉽게 말해서, 추정량의 기댓값과 실제 추정 대상과의 차이를 나타냅니다.

예를 쉽게 들자면, 정규분포 N(5,1) (평균 5, 분산 1) 을 따르는 분포가 있다고 합시다.

이 때, 제 친구가 와서 (이 친구는 데이터가 정규 분포를 따른다는 것만 알고 있음) 모분포의 평균을 추정한다고 합시다.

가장 적합한 추정량으로는 표본평균이라고 할 수 있겠네요.

친구는 100개의 표본을 추출하는 데, 이 작업을 3번 했다고 합시다.

실제로 이 100개의 표본평균을 계산해보면, 물론 운이 좋으면 5일 수도 있겠지만, 4.9, 5.2, 5.2 로 주어졌다고 합시다.

E(T(X)) = (4.9 + 5.2 + 5.2) / 3 으로 계산됩니다.

따라서 편향은 5.1 - 5 = 0.1이 됩니다.

앞서 배웠던 MSE는 편향으로 표현 될 수 있습니다.

이 식은 외워두시는 것을 추천합니다. (학교 시험이나, 대학원 시험에서도 가끔 나와요!)

우선 편의가 없는 비편향 추정량이 좋은것은 알겠지요?

다음으로, 추정량의 분산이 적을수록 좋은 추정량입니다.

왜그런지는 조금만 생각해보면 알 수 있습니다.

어떤 하나의 값을 예측하는데 있어서, 분산이 크면 예측이 그 만큼 들쑥날쑥하다는 것인데, 별로 좋게 보이지는 않겠죠?

2개의 추정량의 분산을 비교하는 것을 상대 효율을 비교한다고도 합니다.

분석벌레의 공부방