본문 바로가기

데이터 다루기/Base of R

변수 선언하기 & 데이터 타입 & 자료 구조

728x90
반응형

안녕하세요, 이번에는 변수를 선언해보고, 데이터 타입에 대해서 알아보도록 하겠습니다.

1. 변수의 선언

변수 (Variable): 데이터를 담는 공간으로 상황에 따라 값을 바꿀수 있음.

변수는 우선 상수와는 다르게 정해진 값이 아니라 데이터를 담고, 없애거나 다른 데이터로 대체할 수 있는 특징이 있습니다.

R에서의 변수의 할당은 총 3가지 방법으로 할 수 있습니다.

3가지 모두 x라는 변수에 3의 값을 할당하는 것을 의미합니다.

또한 rm 함수를 이용하여 지정된 변수를 제거할 수 있습니다.

2. 데이터 타입

R에서도 일반적인 프로그래밍 언어에서와 같이 숫자, 문자, 논리값, 결측값 등과 같이 다양한 유형의 데이터 타입이 존재합니다.

분석에 들어가기 앞서, 데이터와 변수들의 자료구조와 데이터 형태를 파악하는 것은 매우 기본적이면서 필수적인 사항입니다.

R에서 데이터 타입을 확인할 수 있는 함수로는 mode(), class() 함수가 있습니다.

가장 기본적인 데이터 타입들을 설명드리도록 하겠습니다.

1) Numeric : 숫자

Numeric 타입은 1,2,3 과 같은 integer 와 1.25 와 같은 실수를 모두 포함합니다.

2) Charecter : 문자

이처럼 charecter 타입은 "" 사이에 문자나 숫자를 넣음으로써 선언 가능합니다.

3) Logical : 논리형

Logical 타입에는 T(TRUE),F(FALSE)가 존재합니다.

4) Factor : 범주형

범주형 데이터란 데이터가 사전에 정해진 특정 유형으로만 분류되는 경우를 뜻합니다.

Factor를 선언할 때, levels에 범주를 정의해주어야 한다.

5) Date : 날짜형

2019/02/02 를 Date 변수에 할당하면 문자형으로 받아들이지만 as.Date 함수를 통해서 Date 타입으로 바꿀 수 있다.

이때 날짜의 표기 형태를 format으로 지정하여야 변환 가능하다.

6) NA (Not Available) : 결측값

값이 있어도 정해진 범위 안에 있는 값이 아니라서 사용 할 수 없는 경우 (ex: 나이가 -20살, 성별 구분이 중성인 경우)

7) NULL : 값이 없는 공백 상태

이 때 NA 와 NULL에는 연산에서 차이가 있는데, NA가 존재하면 연산이 불가능하지만 NULL의 경우 연산시 배제되고 연산이 됩니다.

3. 자료 구조

자료구조는 프로그래밍에서 자료를 처리하기 위해 필요한 데이터를 담아내는 공간의 형태입니다. R에서는 기본적으로 벡터, 행렬, 배열, 리스트, 데이터 프레 임의 다섯가지 자료구조가 제공되며, 각 자료구조가 가질 수 있는 차원과 포용할 수 있는 데이터 유형에 따라 구분됩니다.

1) 벡터

- R에서 가장 많이 이용되는 구조

- c() 를 이용하여 생성 가능하며, 이 때 c는 column의 약자로 사용된다고 합니다.

- 벡터는 같은 타입의 데이터들로만 정의되어야 합니다.

3번째 처럼 다른 타입의 데이터를 정의하면 숫자형인 2가 문자형으로 인식되게 됩니다.

- 인덱스 : 데이터에서 특정한 요소에 접근하기 위한 주소

1차원 벡터에서 특정 위치의 데이터 값에 접근하기 위해서는 데이터의 위치값 “인덱스”를 이용합니다.

2) 행렬

- 행렬은 R의 자료형태 중에서 행(Row)과 열 (Column)이 존재하는 2차원 매트릭스 구조를 가지고 있습니다.

- 1차원의 벡터가 층층이 쌓이게 되면 2차원의 행렬 구조로 변환된다고 생각하면 쉽게 이해하실 수 있습니다.

- 행렬 구조도 벡터와 마찬가지로 한가지 데이터 형만 다룰 수 있습니다.

- matrix() 함수로 생성이 가능하며, nrow()는 행의 수를 결정하며, ncol()은 열의 수를 결정합니다.

- 또한 일반적으로 세로부터 채워나가기 때문에 가로부터 채우고 싶다면 byrow = TRUE를 입력하면 됩니다.

- 행과 열의 이름을 부여할 수도 있습니다.

3) 리스트

- 리스트는 (키, 값)을 세트로 하여 여러 유형의 데이터를 저장할 수 있는 데이터 형태입니다.

- 하나의 키가 하나의 벡터가 되어 여러 개의 값을 저장하고 처리할 수 있습니다.

- [[]] 을 이용해 인덱스를 불러올 수 있다.

4) 데이터프레임

- 행렬과 비슷하지만 각 컬럼별로 다른 형태의 데이터를 가질 수 있습니다.

인덱스 설정은 [1,] : 첫번째 행만 출력, [,2:3] : 2,3번째 열을 출력, [-3,] 3번째 행만 제외하고 출력 등으로 나타낼 수 있습니다.

이렇게 오늘은 R에서 가장 중요한 변수를 선언하는 법과 데이터 타입, 자료 구조에 대하여 알아보았습니다.

반응형

'데이터 다루기 > Base of R' 카테고리의 다른 글

[R] apply 함수  (0) 2019.05.30
R에서의 데이터 프레임 다루기 (2)  (0) 2019.05.29
R에서의 데이터 프레임 다루기 (1)  (0) 2019.05.29
R의 기능 & 연산  (0) 2019.05.29
R에 대한 소개 & 설치  (0) 2019.05.29