분류 전체보기 (297) 썸네일형 리스트형 [R] dplyr 패키지로 데이터 전처리하기 안녕하세요, 이번 포스팅에서는 dplyr 패키지에 대해서 배워보도록 하겠습니다. dplyr 패키지는 R에서 전처리를 할 때, 가장 많이 사용되는 패키지중에 하나입니다. 저도 실제로 가장 많이 사용한 패키지를 고르라고 한다면 이 패키지라고 단언할 수 있어요! 이 패키지에 있는 모든 함수를 알 필요는 없지만, 유용한 함수들은 익혀 두시는 것은 굉장한 이점이라고 생각합니다. 우선 dplyr 패키지를 설치하고 라이브러리에 불어오도록 하겠습니다. install.packages('dplyr') library('dplyr') 저번 포스팅에서 배웠다시피 정말 쉽죠?? 저희가 실습해볼 데이터는 R에서 기본으로 제공되는 iris 데이터입니다. iris 데이터를 간단하게 설명해드리면, 변수로 Sepal (꽃받침), .. [R] 패키지 설치하기 안녕하세요, 이번 포스팅에서는 R studio에 패키지를 설치하는 방법을 배워보도록 하겠습니다. R 이 다른 프로그래밍에 비해서 큰 장점 중 하나가 패키지 시스템이 굉장히 잘 되있다는 것입니다. install.packages('package 이름') library('package 이름') R에서 패키지를 불러오는 방법은 굉장히 단순합니다. install.packages 함수를 통해 원하는 패키지를 다운 받고, library 함수를 사용하여 패키지를 불러오는 것입니다. R 프로그래밍에서 데이터를 전처리하거나 머신러닝을 할 때, 패키지를 불러오는 것은 필수적입니다. 예를 들어서, 데이터를 전처리할 때, dplyr 이라는 패키지가 굉장히 유용하며 많이 쓰입니다. 머신러닝을 할 때는 로지스틱 회귀모형을 적합.. [공간 통계] 2. Spatial Autocorrelation 안녕하세요, 이번 포스팅에서는 공간 통계에서 가장 중요한 개념으로 다루어지는 공간자기상관계수에 대해서 배워보도록 하겠습니다. 자기상관계수(Autocorrelation)는 자기 자신과 근처에 있는 관측치와의 유사성(Similarity)를 나타내는 지표입니다. 일반적으로 자기상관성이 높은 관측치의 경우, 근처의 관측치들과 비슷한 값을 가지며, 자기상관성이 음수로 높게 나타나는 경우, 근처의 관측치와 상반된 값을 가집니다. 자기상관계수는 2가지 측면에서 볼 수 있습니다. 첫번째는 시계열 분석에서 쓰이는 Temporal Autocorrelation 입니다. Temporal Autocorrelation 시간적으로 자기상관관계가 어느 정도 존재하는지에 대한 지표입니다. 즉, 특정 시간에서의 관측치가 이전 시차의 관.. [수리통계학] 44. 균일최강력 검정법 [Ref] 수리통계학 (송명주, 전명식) 안녕하세요, 이번 포스팅에서는 저번 포스팅에서 배운 최강력 검정법과 비슷한 균일최강력 검정법에 대해서 배워보도록 하겠습니다. 최강력 검정법을 복합가설로 확장헀을 때, 균일최강력 검정법으로 될 수 있습니다. 최강력 검정법에 대한 문제를 풀 때, 네이만-피어슨 정리를 사용하면 대립가설의 모수의 값에 의존하지 않고, 단지 귀무가설의 모수보다 크거나 작거나 한 사실만 사용합니다. 즉, 귀무가설의 모수보다 클 경우, 어떠한 값을 가지던 최강력 검정법의 기각영역이 되는 것이지요. 이와 같이 어떤 검정밥법이 복한 대립가설하에서의 모든 가능한 모수의 값에 대하여 최강력 검정법이 되는 경우 이를 균일최강력 검정법이라고 합니다. 균일 최강력 검정법은 네이만-피어슨 정리를 사.. [수리통계학] 43. 최량검정법 [Ref] 수리통계학 (송명주, 전명식) 안녕하세요, 이번 포스팅부터는 다양한 검정법에 대해서 배워볼 예정입니다. 우선 가장 단순한 검정법인 최량검정법부터 배워보도록 하겠습니다. 일반적으로 항상 옳은 결과를 가져다주는 검정법이 가장 최선이지만, 실제로 표본에서 주어지는 정보만을 가지고는 모집단의 특성에 대한 완벽한 결과를 내기는 어렵습니다. 그렇기 때문에, 옳은 결과를 가져다주는 빈도가 가장 높은 검정법을 찾는것이 분석자의 목표입니다. 검정에 있어서 발생하는 2가지 오류인 제 1종오류와 제 2종오류는 Trade-off 관계를 가지고 있기 때문에, 한 쪽을 감소시키면 다른 쪽이 증가하게 됩니다. 따라서, 이 두 개의 오류를 가장 최소로 할 수 있는 타협점을 찾아야 합니다. 최량검정법은 검정력함수를 .. [수리통계학] 42. 가설검정 [Ref] 수리통계학 (송명주, 전명식) 안녕하세요, 이번 포스팅에서는 가설검정에 대해서 배워보도록 하겠습니다. 가설검정은 앞선 신뢰구간의 확장판이라고 보시면 됩니다. 가설검정에는 크게 어려운 계산과정이나 수식이 없기 때문에 용어의 정의에 대해서 명확하게 아는것이 매우 중요합니다. 단순 가설과 복합 가설의 차이를 한 눈에 보기 쉬운 예제를 들어보도록 하겠습니다. 예를 들어, 정규분포의 평균과 분산을 저희가 모르고 있는 상태입니다. 가설을 설정하되, 평균과 분산이 각각 0과 1이라고 가정할 때, 이는 분포를 N(0,1)로 완전히 결정하는 가설이므로 단순가설입니다. 반면에, 평균이 1보다 클것이다 라고 가정하는 것은 복합가설에 속한다고 할 수 있지요. 다음으로 배워볼 개념으로 귀무가설 (Null .. [수리통계학] 41. 구간 추정 [Ref] 수리통계학 (송명주, 전명식) 안녕하세요, 이번 포스팅에서는 구간 추정에 대해서 배워보도록 하겠습니다. 구간 추정은 고등학교 확률과 통계 부분에서도 배우기도 했을텐데, 깊게 공부해보지는 못하셨을것입니다. 구간 추정에서 바로, 신뢰 구간이라는 중요한 용어가 등장합니다. 신뢰 구간은 어찌보면 통계에서 굉장히 중요한 개념입니다. 어떤 추정량에 대해서, 신뢰도를 평가하기 위한 지표이기도 하죠. 그러면 본격적으로 신뢰구간의 정의에 대해서 배워보도록 하겠습니다. 즉, 정의를 쉽게 말씀드리자면, 모수 theta가 어떠한 하한과 상한 사이에 존재할 확률이 1-alpha 값을 가진다면 그 하한과 상한을 신뢰구간의 하한과 상한으로 정의하는 것입니다. 이처럼 신뢰구간은 상한과 하한의 사이로 정의되기도 하지.. [수리통계학] 40. 최대 가능도 추정량의 점근적 성질 [Ref] 수리통계학 (송명주, 전명식) 안녕하세요, 이번 포스팅에서는 최대 가능도 추정량의 점근적 성질에 대해서 배워보도록 하겠습니다. 지금 배울 정리는 굉장히 중요한 부분입니다. 이 정리가 시사하는 바가 무엇이냐면, 최대 가능도 추정량의 표본 N이 무한대로 커지면, 다음과 같이 형태의 정규 분포를 따른 다는 것입니다. 예제를 통해 보도록 할까요?? 이전 1 ··· 20 21 22 23 24 25 26 ··· 38 다음