본문 바로가기

분류 전체보기

(297)
[공간 통계] 10. Generalizd method of moments (GMM) Generalizd method of moments (GMM)을 배우기 앞서, 식 하나로 요약해서 정리하면 아래와 같다. 이 때, 함수 f는 moment condition을 나타낸다. ​ 그렇다면 우선, moment condition에 대해서 정의를 해야한다. 우리는 적률이 무엇인지를 안다는 전제하에 진행하도록 하겠다. moment condition이란 관측치 Y와 모수 theta에 대한 함수로써, 기댓값을 취하였을 때, 0을 가지는 조건을 만족한다. GMM의 기본적인 아이디어로, E를 표본평균으로 대체한다. ​ 대수의 법칙에 의해서 Sample size: T가 무한대로 커짐에 따라, 위 두식은 같아진다. 위 조건을 최대한 만족하기 위해서, moment condition을 최대한 0에 가깝에 만들어주는 ..
[공간 통계] 9. Spatial Autoregressive model Spatial Autoregressive model은 아래와 같이 정의된다. 이 때 rho는 y값에 대한 자기상관을 반영하는 coefficient이고, W1은 이에 대한 공간 가중 행렬, beta는 일반 회귀 계수와 같은 역할을 한다. Lambda는 오차항 내에서의 자기상관을 반영하는 coefficient이다. ​ 일반적으로, lambda = 0이라고 가정할 때, Spatial lag model이라고 정의하며, 반대로 rho = 0 이라고 가정할 때, Spatial Error model로 정의된다. ​ 이 때, 유의할 점은 공간 가중 행렬 W는 대각 원소가 모두 0이며, 각 행의 합은 1로 Normalize 되어 있어야 한다. ​ 이번 포스팅에서는 Spatial lag model에 대해서만 다뤄보도록 하..
[공간 통계] 8. 공간 회귀 분석 (Spatial regression) 안녕하세요. 이번 포스팅에서는 공간 회귀 분석에 대해서 간략하게 리뷰해보도록 하겠습니다. 공간 회귀 분석은 공간 상에서 회귀 모형을 적합할 때 사용됩니다. ​ 일반적인 회귀 분석은 모든 공간에 상관없이 데이터에 회귀 계수를 추정하게 됩니다. 하지만, 실제 공간 데이터에서 공간에 따라 변수들의 영향이 달라질 수 있습니다. ​ 쉽게 예를 들어서, 사람의 행복 지수를 회귀 분석한다고 했을 때, 두 가지 변수: 돈, 종교가 있을 수 있습니다. 종교 국가에서는 종교가 행복 지수에 더 큰 영향을 미치는 반면, 자본 주의 국가에서는 돈이 더 큰 영향을 미칩니다. 이 처럼, 공간 마다 변수들의 영향도에 차이를 줄 수 있는 방법이 공간 회귀입니다. ​ 이러한 공간 회귀 모델로는 GWR : Geographically We..
[공간 통계] 7. Heterogeneity 안녕하세요. 이번 포스팅에서는 Heterogeneity 라는 개념에 대해서 배워보도록 하겠습니다. Heterogeneity 의 공간의 의미에서는 공간에 따라 변화하는 것을 의미합니다. Heterogeneity의 반대말로는 Homogeneity 가 있습니다. ​ 회귀문제를 예시를 들어볼게요. Homogeneity에 따르면 모든 경우의 수에 대해서 회귀 계수 베타가 같은 경우입니다. 보통 일반적으로 만날 수 있는 경우죠. ​ 하지만 Heterogeneity는 회귀계수가 관측치에 따라 달라질 수 있다고 가정합니다. Extreme Heterogeneity 를 따른다면, 모든 관측치마다 고유한 회귀계수 베타를 가집니다. ​ 보통 Extreme Heterogeneity 까지는 아니라도, 공간 회귀 모형에서는 지역에..
[논문 리뷰] DeepWalk: Online Learning of Social Representations 원문 : Perozzi, B., Al-Rfou, R., & Skiena, S. (2014, August). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 701-710). ACM. ​ 안녕하세요. 이번에 리뷰해볼 paper는 "DeepWalk: Online Learning of Social Representations" 입니다. 이 논문은 Graph를 저차원으로 embedding 하는 아이디어를 최초로 반영한 논문입니다. ​ 위와 같은 4개의 Class (색깔)을 가지..
[Data] LendingClub (P2P Default 예측 데이터) 안녕하세요. 머신러닝 실습으로 좋은 데이터를 하나 찾아서 가져와보았습니다. https://www.kaggle.com/wendykan/lending-club-loan-data
[SQL] Having 절 SELECT [DISTINCT] 컬럼, 그룹 함수(컬럼) FROM 테이블명 [WHERE 조건] [GROUP BY Group대상] [HAVING Group조건] [ORDER BY 정렬대상 [ASC/DESC]] ​ Having 절은 이전 포스팅에서 배운 Group by 함수에 조건을 주는 기능을 가지고 있다. 이전 예제를 그대로 가져와보았다. '회사' 데이터 베이스에 'A', 'B', 'C', 'D' 부서에 소속된 직원이 각각 5명씩 있다고 가정하자. 그리고 총 20명에 대한 급여에 대한 정보가 주어진다. 우리는 부서별로 직원들의 급여의 평균을 Group by 절로 얻을 수 있다. 이 때, 계산된 평균에 조건을 주고 싶지만, WHERE 절로는 20명 각각의 급여에 조건을 줄 수 있지만, 계산된 평균에는 조건..
[SQL] Group by절 SELECT [DISTINCT] 컬럼, 그룹 함수(컬럼) FROM 테이블명 [WHERE 조건] [GROUP BY Group대상] [ORDER BY 정렬대상 [ASC/DESC]] ​ Group by 절은 SQL 데이터베이스에서 같은 값을 가지는 관측치를 종합하는 함수이다. 예를 들어서, '회사' 데이터 베이스에 'A', 'B', 'C', 'D' 부서에 소속된 직원이 각각 5명씩 있다고 가정하자. 그리고 총 20명에 대한 급여에 대한 정보가 주어진다. 우리는 부서별로 급여가 차이가 있는지를 알고 싶다. 이 경우, 각 부서마다 직원들의 급여 평균을 계산하면 된다. Group by 절을 사용하면 각 부서의 평균을 바로 알 수 있다. ​ SELECT 부서, AVG(급여) FROM 회사 GROUP BY 부서 ORD..