분류 전체보기 (297) 썸네일형 리스트형 [빅데이터 분석기사] 2. 분석 목적 설정 1. 빅데이터 분석 및 활용 빅데이터 분석의 목적은 기업 및 기관마다 서로 다르며, Gartner 그룹은 "The Big Data Value Model"을 통해 빅데이터 분석의 주요 목적을 여섯 개의 카테고리 (고객분석, 제품 및 처리과정의 효율성 제고, 디지털 제품 및 서비스 제공, 운영 효율성, 디지털 마케팅, 리스크 관리 및 운영)로 구분하였다. 2. 빅데이터의 특징 빅데이터 분석목표 정의서 (1) 데이터 원천 파악 - 데이터 정보 조사 테이블 정보와 데이터 축적기간 및 획득주기 조사 문서화 적성 시 필수 고려요소 (테이블 정보, 메타정보) - 데이터 입수 난이도 조사 데이터 원천별로 데이터 수집이 용이한지 여부 조사 데이터 수집 및 정제 프로세스 확인 수집 시기, 방법 및 메타정보 조사.. [빅데이터 분석기사] 1. 빅데이터 개요 1. 빅데이터의 정의 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합까지 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술 2. 빅데이터의 특징 3V 와 5V에 대해서만 외우도록 하자. (1) 3V Volume (규모), Variety (다양성), Velocity (처리속도) (2) 5V Value (가치), Veracity (정확성) 추가적으로 데이터의 크기 단위에 대해서 알아두면 좋아보인다. Byte < KB < MB < GB < TB < PB < EB < ZB < YB < BB < GeB 전부 다 외울 필요는 없고, 일반적으로 ZB까지만 외우면 될 것으로 보입니다. 3. 빅데이터의 유형 - 정형.. [빅데이터 분석기사] 교재 선택 안녕하세요. 오늘부터 빅데이터 분석기사 공부를 시작하면서, 포스팅을 할 계획이에요. 공부할 교재는 시대고시기획 출판사에서 나온 책이에요. 꼭 열심히 공부해서 1회차 시험을 통과해보도록 하겠습니다. 화이팅!! [R을 활용한 시각화] 9. ggplot2 (ECDF: 경험적 누적 밀도 함수) ㄸ이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 ECDF: 경험적 누적 밀도 함수를 그려보도록 하겠습니다. 1. 실습 데이터 정의 set.seed(1234) df height 1 42 2 64 3 76 4 25 5 66 6 68 이번에 사용할 데이터는 평균이 60, 표준편차가 15인 정규분포에서 200개를 샘플링해서 뽑았습니다. 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. 3. ECDF 꾸미기 ggplot(df, aes(height)) + stat_ecdf(geom = "point") ECDF는 stat_ecdf 함수를 통해 그릴 수 있습니다. geom 인자로 point를 주면 위와 같이 점으로 찍힙니다. .. [R을 활용한 시각화] 8. ggplot2 (Violin plot) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Vilolin plot을 그려보도록 하겠습니다. 1. 실습 데이터 정의 # Convert the variable dose from a numeric to a factor variable ToothGrowth$dose len supp dose 1 4.2 VC 0.5 2 11.5 VC 0.5 3 7.3 VC 0.5 4 5.8 VC 0.5 5 6.4 VC 0.5 6 10.0 VC 0.5 오늘 사용할 데이터는 내장 데이터인 ToothGrowth입니다. 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. 3. Violin plot 꾸미기 p [R을 활용한 시각화] 7. ggplot2 (Histogram) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Histogram을 그려보도록 하겠습니다. 1. 실습 데이터 정의 # Convert cyl column from a numeric to a factor variable set.seed(1234) df sex weight 1 F 49 2 F 56 3 F 60 4 F 43 5 F 57 6 F 58 이번에 사용할 데이터는 성별 별로, 각각 남성은 평균이 55, 표준편차가 5인 정규분포에서, 그리고 여성은 평균이 65, 표준편자차 5인 정규분포에서 200개씩 샘플링해서 뽑았습니다. 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. 3. Histogram 꾸미기 # Basic.. [R을 활용한 시각화] 6. ggplot2 (Pie Chart) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Pie chart을 그려보도록 하겠습니다. 1. 실습 데이터 정의 df group value 1 Male 25 2 Female 25 3 Child 50 우선 단순한 데이터를 정의 하였습니다. 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. 3. Pie chart 꾸미기 # Barplot bp [R을 활용한 시각화] 5. ggplot2 (Area plot) 이번 포스팅에서는 ggplot2 패키지를 활용해서 다양한 Area plot을 그려보도록 하겠습니다. 1. 실습 데이터 정의 # Convert cyl column from a numeric to a factor variable set.seed(1234) df sex weight 1 F 49 2 F 56 3 F 60 4 F 43 5 F 57 6 F 58 이번에 사용할 데이터는 성별 별로, 각각 남성은 평균이 55, 표준편차가 5인 정규분포에서, 그리고 여성은 평균이 65, 표준편자차 5인 정규분포에서 200개씩 샘플링해서 뽑았습니다. 2. 패키지 불러오기 library(ggplot2) library 함수를 통해 먼저 ggplot2 패키지를 불러왔습니다. 3. Area plot 꾸미기 p 이전 1 ··· 4 5 6 7 8 9 10 ··· 38 다음