본문 바로가기

분류 전체보기

(297)
[빅데이터 분석기사] 2. 분석 목적 설정 1. 빅데이터 분석 및 활용 빅데이터 분석의 목적은 기업 및 기관마다 서로 다르며, Gartner 그룹은 "The Big Data Value Model"을 통해 빅데이터 분석의 주요 목적을 여섯 개의 카테고리 (고객분석, 제품 및 처리과정의 효율성 제고, 디지털 제품 및 서비스 제공, 운영 효율성, 디지털 마케팅, 리스크 관리 및 운영)로 구분하였다. ​ ​ 2. 빅데이터의 특징 빅데이터 분석목표 정의서 ​ (1) 데이터 원천 파악 - 데이터 정보 조사 테이블 정보와 데이터 축적기간 및 획득주기 조사 문서화 적성 시 필수 고려요소 (테이블 정보, 메타정보) - 데이터 입수 난이도 조사 데이터 원천별로 데이터 수집이 용이한지 여부 조사 데이터 수집 및 정제 프로세스 확인 수집 시기, 방법 및 메타정보 조사..
[빅데이터 분석기사] 1. 빅데이터 개요 1. 빅데이터의 정의 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합까지 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술 ​ ​ 2. 빅데이터의 특징 3V 와 5V에 대해서만 외우도록 하자. ​ (1) 3V Volume (규모), Variety (다양성), Velocity (처리속도) ​ (2) 5V Value (가치), Veracity (정확성) ​ 추가적으로 데이터의 크기 단위에 대해서 알아두면 좋아보인다. ​ Byte < KB < MB < GB < TB < PB < EB < ZB < YB < BB < GeB 전부 다 외울 필요는 없고, 일반적으로 ZB까지만 외우면 될 것으로 보입니다. ​ 3. 빅데이터의 유형 ​ - 정형..
[빅데이터 분석기사] 교재 선택 안녕하세요. 오늘부터 빅데이터 분석기사 공부를 시작하면서, 포스팅을 할 계획이에요. ​ 공부할 교재는 시대고시기획 출판사에서 나온 책이에요. 꼭 열심히 공부해서 1회차 시험을 통과해보도록 하겠습니다. ​ 화이팅!!
[R을 활용한 시각화] 9. ggplot2 (ECDF: 경험적 누적 밀도 함수) ㄸ이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 ECDF: 경험적 누적 밀도 함수를 그려보도록 하겠습니다. ​ 1. 실습 데이터 정의 set.seed(1234) df height 1 42 2 64 3 76 4 25 5 66 6 68 이번에 사용할 데이터는 평균이 60, 표준편차가 15인 정규분포에서 200개를 샘플링해서 뽑았습니다. ​ 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. ​ 3. ECDF 꾸미기 ggplot(df, aes(height)) + stat_ecdf(geom = "point") ECDF는 stat_ecdf 함수를 통해 그릴 수 있습니다. geom 인자로 point를 주면 위와 같이 점으로 찍힙니다. ..
[R을 활용한 시각화] 8. ggplot2 (Violin plot) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Vilolin plot을 그려보도록 하겠습니다. ​ 1. 실습 데이터 정의 # Convert the variable dose from a numeric to a factor variable ToothGrowth$dose len supp dose 1 4.2 VC 0.5 2 11.5 VC 0.5 3 7.3 VC 0.5 4 5.8 VC 0.5 5 6.4 VC 0.5 6 10.0 VC 0.5 오늘 사용할 데이터는 내장 데이터인 ToothGrowth입니다. ​ 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. ​ 3. Violin plot 꾸미기 p
[R을 활용한 시각화] 7. ggplot2 (Histogram) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Histogram을 그려보도록 하겠습니다. ​ 1. 실습 데이터 정의 # Convert cyl column from a numeric to a factor variable set.seed(1234) df sex weight 1 F 49 2 F 56 3 F 60 4 F 43 5 F 57 6 F 58 이번에 사용할 데이터는 성별 별로, 각각 남성은 평균이 55, 표준편차가 5인 정규분포에서, 그리고 여성은 평균이 65, 표준편자차 5인 정규분포에서 200개씩 샘플링해서 뽑았습니다. ​ 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. ​ 3. Histogram 꾸미기 # Basic..
[R을 활용한 시각화] 6. ggplot2 (Pie Chart) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Pie chart을 그려보도록 하겠습니다. ​ 1. 실습 데이터 정의 df group value 1 Male 25 2 Female 25 3 Child 50 우선 단순한 데이터를 정의 하였습니다. ​ 2. 패키지 불러오기 library(ggplot2) ​library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. ​ ​ ​3. Pie chart 꾸미기 # Barplot bp
[R을 활용한 시각화] 5. ggplot2 (Area plot) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Area plot을 그려보도록 하겠습니다. ​ 1. 실습 데이터 정의 # Convert cyl column from a numeric to a factor variable set.seed(1234) df sex weight 1 F 49 2 F 56 3 F 60 4 F 43 5 F 57 6 F 58 이번에 사용할 데이터는 성별 별로, 각각 남성은 평균이 55, 표준편차가 5인 정규분포에서, 그리고 여성은 평균이 65, 표준편자차 5인 정규분포에서 200개씩 샘플링해서 뽑았습니다. ​ 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. 3. Area plot 꾸미기 p