본문 바로가기

데이터 다루기/Audio Mining

음성 데이터 (Audio Data)

728x90
반응형

Audio Data를 컴퓨터에서 처리하기 위해서는 일반적으로 두 가지 Process가 진행된다.

(1) Sampling

Sampling은 음성 데이터를 시간축으로부터 얼마나 쪼개서 볼 것인가를 의미한다.

이 때, 이 수치를 Sampling Rate라고 한다.

예를 들어서 Sampling Rate가 12,000 인 경우 1초 동안 발생한 파동을 12,000개의 점들로 구성된 것으로 컴퓨테어 받아들인다.

(2) Quantizing

Quantizing을 한글로 번역하면 양자화입니다.

Sampling이 음성 데이터를 시간 축에서 바라본 측면이라면 반대로, Quantizing은 음성 데이터를 진폭 측면에서 바라봅니다.

이 때, bit 단위로 수치가 정해집니다.

bit는 2의 제곱 측면으로 증가합니다.

컴퓨터에서 사용되는 수치로는 일반적으로 16 bit 입니다.

즉, 진폭이 2^16 = 65,536 단계로 표현됩니다.

반응형