본문 바로가기

데이터 다루기/머신러닝 이론

(43)
Reducible and Irreducible Errors 이번 시간에는 머신러닝의 오차에 대해서 알려드리겠습니다. 첫번째 포스팅에서 머신러닝에 대해서 소개를 드릴 때 라는 식을 기억하실겁니다. 회귀문제를 다룰 때 실제 데이터가 회귀모형에 정확히 적합하지는 않을 것이기 때문에 아무도 알지 못하는 오차항인 ε가 존재하게 됩니다. 오차항은 random variable로 평균이 0이고 분산이 Var(ε)인 정규분포를 따르게 됩니다. 이 때 머신러닝에서 예측한 값을 라고 정의해보겠습니다. 이 때 y값과 예측값의 차이의 제곱에 기댓값을 취하면 으로 표현되게 됩니다. 따라서 머신러닝 알고리즘은 reducible error를 최소로 하는 것을 목표로 하게 됩니다. (Irreducible error는 알지못하는 오차로 조절 x)
머신러닝 vs 데이터마이닝 많은 사람들은 머신러닝과 데이터마이닝의 차이를 잘 인지하지 못하고 있다. 이는 머신러닝에서 사용되는 다양한 모델 (ex: 회귀 모델, 분류 모델)이 데이터마이닝에서도 똑같이 사용되기 때문이다. 하지만 머신러닝과 데이터마이닝은 엄격하게 다른 개념이며, 이를 쉽게 설명하는 구절을 찾았기 때문에 인용해보았습니다. ​ 분류나 예측, 군집과 같은 기술, 모델, 알고리즘을 이용해 문제를 해결하는 것을 Computer Science 관점에서는 머신러닝이라고 하고, 통계학 관점에서는 데이터 마이닝이라고 한다. 이러한 현상이 발생한 계기는 1990년대에 들어서면서 실용적인 머신러닝 연구를 위해 통계학에서 다루고 있는 사례들을 컴퓨터 과학자들이 컴퓨터를 이용해 좀 더 효율적인 해결 방안을 찾아내는 과정에서 비롯되었다고 할..
머신러닝이란? 1. 머신러닝의 정의 머신러닝 (Machine Learning)은 위키피디아의 정의에 따르면 "컴퓨터 시스템이 대신 패턴과 추론에 의존하면서 명시적 지시를 사용하지 않고 특정 작업을 효과적으로 수행하기 위해 사용하는 알고리즘과 통계 모델의 과학적 연구" 라고 나타나있다. ​ ​ 즉 쉽게 말해서, 이전에 우리가 수학에서 배워오던 익숙한 과정은 input 변수 x와 function f(x)가 주어지고, output: y=f(x)를 얻는 것이였지만, 머신러닝은 input 변수 x와 output 변수 y가 주어지고, 그 관계를 나타내는 Target function: f()를 찾는 일련의 과정이라 할 수 있다. input 변수와 output 변수간의 관계는 오차값 ε 와 함께 다음과 같이 표현된다. ​ y = f..