분류 전체보기 (297) 썸네일형 리스트형 [Machine Learning] ROC 곡선 및 AUC 안녕하세요. 이번 포스팅에서는 ROC Curve (ROC 곡선)과 AUC 에 대해서 배워볼거에요. 이 두 가지는 실제로 Classification model 에서 굉장히 자주 쓰이는 데, 무엇을 의미하는 지를 모르고 쓰는 분들이 많은 것 같아요. 오늘은 핵심 개념을 잡아보고자 합니다. ROC 곡선은 Classification model 에서 예측 threshold와 밀접한 관계가 있어요. Binary Classification이라 가정할 때, Logistic Regression을 하면 각 관측치에 대해서 1의 값을 가질 확률이 예측이 됩니다. 보통 0.5를 Threshold로 정하고, 0.5보다 크면 1, 작으면 0의 값을 Return 하게 되는거지요. ROC Curve는 이 Threshold를 바꿔.. [Machine Learning] Confusion Matrix 안녕하세요. 이번 포스팅에서는 Classification 머신러닝 모델의 성능 평가 지표로 많이 사용되는 Confusion Matrix (혼동 행렬) 에 대해서 배워보고자 합니다. 혼동 행렬에서 사용되는 Accuracy (정확도), Sensitivity (민감도), Specifitify (특이도) 모두 굉장히 쉬운 내용이긴 하지만, 계속 까먹게 되는 점이 있더라구요. 아무래도 정의들이 다 비슷해서 그런 것 같아요. 그래도 계속 외우다보면 성공하는 날이 올 거에요!! Classification Model 이 심장병 여부를 예측한다고 가정해볼게요. Confusion Matrix는 위와 같이 정의가 됩니다. 그리고 Accuracy (정확도), Sensitivity (민감도), Specifitify (특.. [머신러닝] Odds vs Odds Ratio 안녕하세요. 저번 포스팅에서 Odds (오즈) 에 대해서 배워보았어요. 많은 사람들이 Odds 와 Odds Ratio를 같은 개념으로 알고 계시더라구요. 하지만 이 둘은 엄연히 다른 개념입니다. Odds에 대해서 복습해볼게요. Odds는 위와 깉이 어떤 일이 발생할 확률과 발생하지 않을 확률 사이의 비율을 의미해요. Odds ratio는 Odds 사이의 비율이라 생각하면 됩니다. 그렇다면 Odds ratio로 어떠한 정보를 얻을 수 있을까요?? Mutated gene을 보유한 환자가 없는 환자보다 암에 걸릴 확률이 더 높을지에 대해서 Odds ratio를 계산하면, 6.88배 더 높다는 정보를 얻을 수 있습니다. 즉, Odds ratio는 일반적으로 두 변수 사이의 관계를 나태내며, 큰 값을 가질수록.. [머신러닝] Odds (오즈) 란? [참조] StatQuest 안녕하세요. 이번 포스팅에서는 머신러닝 알고리즘에서 자주 쓰이는 Odds (오즈) 가 무엇인지에 대해서 배워볼게요. A라는 사람이 8번의 경기를 치뤘다고 해보겠습니다. 그리고 A는 5번을 이기고 3번을 졌습니다. 경기를 승리하는 것에 대한 Odds는 A가 지는 것에 비해서 얼마나 이기는 가에 대한 값으로 5/3으로 쉽게 계산이 됩니다. 하지만, 알아두셔야 점이 바로 Odds 는 확률을 나타내는 것이 아니라는 것입니다. 위의 Case에서 A가 게임에서 이길 확률 p=5/8 입니다. 이 때, Odds는 p에 의해서 계산 되기도 합니다. Odds 는 (A가 게임에서 이길 확률 / A가 게임에서 질 확률) = p/(1-p)로 계산될 수 있습니다. 즉, 이를 다시 말하자면 Odds를.. [머신러닝] Gaussian Process Regression 안녕하세요. 이번 포스팅에서는 Gaussian Process Regression에 대해서 배워보도록 하겠습니다. 우선, Gaussian Process는 분포위의 함수라고 할 수 있습니다. 따라서 Gaussian Process또한 분포의 형태를 가집니다. 이 때, 중요한 것은 k(x1,x2)를 어떻게 정의하는 가 입니다. GPR은 정규분포를 따르는 두 개 x의 Covariance를 가까울수록 크게 만듭니다. 이 때, k(x1,x2)는 아래와 같이 정의되는데 이를 Squared exponential (SE) kernel이라 부릅니다. 이 때, 시그마 제곱과 l 값은 하이퍼파라미터입니다. 시그마 제곱이 크거나, l이 작아지면, K값이 커지기 때문에, 예측의 분산이 커집니다. 그 이유는 지금부터 살펴보겠습니다... [머신러닝] Gaussian Process Regression 1. Prior Knowledge 안녕하세요. 이번포스팅부터 Gaussian Process Regression (가우시안 프로세스 회귀)에 대해서 배워보도록 하겠습니다. GPR은 시계열 데이터에서 찍히는 랜덤프로세스상에서 예측을 하는 것입니다. GPR을 알기위해서는 두 가지 사전지식이 필요하기 때문에, 오늘은 이에 대해서 배워보려고 합니다. 첫 번째는 바로, Multivariate Gaussian Distribution입니다. 한글로 다변량 정규분포 혹은 다변량 가우시안분포로 불립니다. 다음으로, 정규 분포에서의 사전확률분포입니다. 다변량 정규분포에서 일부분이 주어졌을 때 나머지 부분에 대한 분포를 나타냅니다. [머신러닝] Radial Basis Function Network 안녕하세요. 이번 포스팅에서는 Radial Basis Function (RBF) Network에 대해서 배워보도록 하겠습니다. Radial Basis Function (RBF) Network는 신경망 형태를 가지고 있고, distance-weighted regression으로 볼 수 있습니다. Radial Basis Function을 위와 같이 정의합니다. 이를 해석해보면, 새로운 x가 들어왔을 때, 정해져 있는 x와의 거리를 계산합니다. 거리가 가까울 수록 높은 값을 반환하고, 거리가 멀수록 0과 가까운 값을 반환합니다. 즉, 거리가 멀면 적게 반영하고 멀면 가깝게 반영하는 것이지요. Regression은 다음과 같이 진행됩니다. 데이터에 대한 학습을 통해 기준이 되는 데이터의 개수를 정해주기만.. [머신러닝] Kernel Trick for Linear Regression 안녕하세요. 이번 포스팅부터는 당분간 Kernel Trick에 대해서 배워볼려고 합니다. Kernel Trick은 머신러닝을 공부할 때, 굉장히 유용하게 사용됩니다. 따라서, 이 부분을 완벽하게 해 놓으면 실력있는 데이터 사이언티스트가 될 수 있을거에요. Kernel Trick이 활용 되는 예를 보여드리겠습니다. 아래와 같은 데이터를 빨간색과 파란색을 서로 분류하려고 합니다. 선형으로 이를 분류할 수 있을까요? 절대로 하나의 직선으로는 이를 분류할 수 없습니다. (2개가 필요하겠네요 이 경우는) 하지만 Kernel Trick을 사용해서 이 데이터를 2차원으로 바꿀 수 있습니다. 이 처럼 2차곡선으로 바꿔주면, 직선 한 개에 의해서 완벽하게 분류가 됩니다. 생각해보면 정말 단순한 방법일 수 있습니다.. 이전 1 ··· 15 16 17 18 19 20 21 ··· 38 다음