본문 바로가기

데이터 다루기/머신러닝 이론

[머신러닝] Lasso Regression

728x90
반응형

안녕하세요, 이번 포스팅에서는 저번 포스팅에서 언급했다시피 Ridge Regression의 한계점인 회귀 계수를 0으로 만들지 못하는 한계를 극복한 Lasso Regression 입니다.

Lasso Regression과 Ridge Regression 의 차이는 패널티 항에서 비롯됩니다.

그렇다면 여기서 한가지 질문이 있을 수 있습니다.

Lasso Regression과 Ridge Regression의 패널티의 항의 어떤 차이가 Lasso 는 회귀 계수를 0으로 만들 수 있지만, Ridge 는 회귀 계수를 0으로 만들지 못하는 것일까요?

그것은 Lasso Regression과 Ridge Regression에서 회귀 계수 ß 를 추정할 때, 최적화 식으로 변경하여 해를 구할 수 있는 데, 이 식을 보시면 쉽게 이해하실 수 있습니다.

2 가지 최적화 식을 기하학적으로 그려보면 다음과 같습니다.

이 때, 빨간 등고선은, 적당한 ß1과 ß2 에 대하여 같은 RSS값을 가지는 위치이며, 색칠된 영역은 제약 조건을 만족하는 공간입니다.

따라서, 최적화 식을 풀 때, 제약 조건을 만족하게 되는 구간에 대하여 마름모 형태의 제약 조건에서는 모서리에 닿아, 위와 같이 ß1 = 0 의 값이 가능하지만, 원 형태의 제약 조건에서는 ß1 의 값이 0에는 가까이 가지만, 결코 0이 될 수는 없습니다.

따라서 마름모 형태의 제약 조건을 가지는 Lasso Regression은 회귀 계수를 0으로 만드는 효과를 낼 수 있지만, 원 형태의 제약 조간을 가지는 Ridge Regression은 회귀 계수를 0으로 만드는 효과를 기대할 수는 없습니다.

반응형