KR0155798B1

KR0155798B1 - 음성신호 부호화 및 복호화 방법

Info

Publication number: KR0155798B1
Application number: KR1019950001575A
Authority: KR
Inventors: 김홍국; 하남규
Original assignee: 김광호; 삼성전자주식회사
Priority date: 1995-01-27
Filing date: 1995-01-27
Publication date: 1998-12-15
Anticipated expiration: 2015-01-27
Also published as: KR960030558A

Abstract

본 발명은 음성 부호화 및 복호화방법을 공개한다. 그 방법은 송신측에서 음성신호를 부호화하여 전송하고, 수신측에서 부호화된 음성신호를 복호화하여 원래의 음성신호로 출력하는 시스템에서, 음성신호의 포락을 구하고, 부프레임별 피치를 추출하여 현재 프레임의 실제 피치값을 추정하고, 유성 또는 무성을 판별하고, 선형예측부호화계수를 변환후 양자화하여 전송하는 음성부호화단계 및 양자화된 신호를 수신하여 역양자화하여 유·무성정보를 복원하고, 복원된 정보를 이용하여 다중 시·공간 스펙트럼을 만들어 유·무성을 합성하여 원래의 음성신호로 복호화하여 출력하는 음성복호화단계를 구비하는 것을 특징으로 하고, 피치 적응부를 독립적으로 음성의 피치 추출을 위해 응용할 수 있고, 음성합성 시스템(Text-to-Speech)의 개발에 기초로 활용할 수 있으며, 상용 디지탈 신호처리기(DSP:Digital Signal Processor 이하 DSP)의 구현 또는 DSP 중심을 이용한 칩화를 통해 통신망, 음성저장 시스템에 상용할 수 있는 효과가 있다.

Description

음성신호 부호화 및 복호화방법

제1도는 본 발명에 의한 음성부호화방법을 설명하기 위한 플로우차트이다.

제2도는 본 발명에 의한 음성복호화방법을 설명하기 위한 플로우차트이다.

제3a∼제3d도는 과학 기술은 경제 발전의 원동력이다.라는 음성을 컴퓨터 시뮬레이션에 의해 각 보코더에 적용하였을 경우에 나타나는 파형이다.

제4a∼4d도는 과학이라는 음성을 컴퓨터 시뮬레이션에 의해 각 보코더에 적용하였을 경우, 합성신호의 파형과 지연시간을 도시한 것이다.

본 발명은 음성신호 부호화 및 복호화방법에 관한 것으로서, 특히 음원부호화방법과 하이브리드형부호화방법의 장점만을 혼합한 음성 신호 부호화 및 복호화방법에 관한 것이다.

음성신호의 중복성을 제거하여 정보량을 줄이는 음성부호화방법은 음성신호의 전송시 전송효율을 높여주며, 음성정보를 저장할 때 기억용량을 줄여준다. 음성 부호화방법은 크게 파형부호화방법과 음원부호화방법 그리고 두가지의 방법을 혼합한 하이브리드형부호화방법으로 분류될 수 있다.

음원부호화의 채널 대역폭의 효율성과 파형부호화의 자연성 및 명료성을 유지하기 위해 이 두가지 부호화방법을 결합시킨 하이브리드형부호화방법에서, 포만트정보을 선형 예측부호화법으로 보통 부호화하고, 그 나머지 잔여신호를 어떻게 부호화 하느냐에 따라 잔여여기선형예측(RELP:Residual Excited Linear Prediction)법, 벡터합여기선형예측(VSLEP:Vector Sum Excited Linear Prediction)법, 다중펄스선형예측(MPLP:Multipulse-Excited Linear Prediction)법 및 부호여기선형예측(CELP:Code Excited Linear Prediction 이하 CELP)법 등이 제안되어져 있다. 하이브리드 부호화방법 중에서도 최근 이동통신용 부호화법으로 채택되고 있는 것은 CELP법이다. 이러한 부호화의 방법은 4.8kbps이상에서는 고품질의 음성압축을 달성할 수 있지만, 그 이하의 압축비에서는 그다지 좋은 합성음성을 얻을 수 없는 문제점이 있다.

반면에 음원 부호화방법중의 하나인 다중대역 여기 부호화방법은 기존의 음성 생성 모델들이 음성구간 전체를 유성음 혹은 무성음으로 구분하는 것과는 달리, 음성구간의 주파수 영역을 여러개의 대역으로 나누어, 각각의 대역에 대하여 유성음과 무성음으로 구분하는 다중대역 여기음성 생성 모델을 사용하며, 이러한 방법으로는 선형예측부호화(LPC:Linear Predictive Coding 이하 LPC), 부분상관관계(PARCOR:PARtial CORrelation), 선형스펙트럼 쌍(LSP:Line Spectrum Pairs 이하 LSP), 포만트부호화방법 및 다중대역여기(MBE:Multi band excitation 이하 MBE)등이 있고, 현재 연구되고 있는 부호화방법으로는 개선된 다중대역여기(IMBE:Improved multi band excitation 이하 IMBE) 보코더(VOCODER: Voice Coder)가 있으며, 4kbps이하의 전송률에서도 고품질의 합성음을 제공할 수 있고, 벡터여기부호화방법에 비하여 계산량이 적은 것으로 알려져 있다. 그러나 이러한 부호화방법에 의한 음질은 피치의 전송오차에 민감하게 영향을 받는 문제점이 있다.

IMBE는 분석부에서 음성신호를 각 주파수의 하모닉(Harmonic)에 해당하는 진폭과 수개의 하모닉을 한 단위로 한 주파수 대역의 유·무성음 정보 및 피치로 표현한다. 합성부에서는 상기 추출한 정보를 이용하여 삼각함수를 이용한 주기 신호들로서 신호를 합성한다.

IMBE는 실험결과에 의하면 피치에 상당히 민감하며 피치를 정교하게 찾을 것을 요구한다. 그 결과, 현재 프레임의 피치만이 아니라 그 전의 프레임의 피치와 그 후 프레임의 피치를 고려하여 피치를 추정해야 한다. 이는 IMBE 분석부의 계산량의 증가와 부호화장치의 지연(Algorithmic Delay)을 가져오는 결과를 초래한다. 따라서 저지연이나 저전송률이 요구되는 응용에 있어서는 정확히 피치를 찾기 어렵기 때문에 고품질을 유지하기가 힘든 문제점이 있다.

반면, CELP는 단구간 신호인 한 개의 프레임에 대하여 보통 10차의 LPC계수와 대표 전력을 구하고 한 개의 프레임을 N(보통 4)개의 부프레임으로 나누어서 각 부프레임에 대한 주기 성분을 제거한다. 주기성이 제거된 잔차신호(Residual Signal)를 코드북(Code Book)으로 모델링하기 위해 코드북에 있는 각 코드단어를 합성필터로 합성하여 최소오차를 갖는 코드단어를 전송한다. 따라서 오차를 가장 작게 만드는 잔차를 찾아 내기 위하여 코드북으로부터 찾는 과정에서 게속하여 합성필터를 동작시켜야 하기 때문에 상당히 많은 시간을 필요로 하는 문제점이 있다. 즉, CELP부호화방법은 음성신호를 합성하여 입력 음성신호와 비교하는 합성에 의한 분석법을 사용하고, 여기신호는 코드북의 인덱스만 전송하므로 낮은 전송율에서도 우수한 음질을 얻을 수 있고, 오류정정 코드를 같이 사용할 수 있기 때문에 잡음에 강인하지만, 매번 음성을 합성해서 비교해야 하므로 복잡한 구조를 갖는다. 따라서 방대한 계산량 때문에 실시간 구현이 어려운 문제점이 있고, 특히 복호화시 보다는 부호화시에 계산량을 많이 요구하며, 코드북에서 입력 여기신호를 찾는 과정과 피치필터의 계수를 구하는 과정에서 대부분의 시간을 소요하게 되는 문제가 있다.

본 발명의 목적은 상기의 문제점을 해결하기 위하여 삼각 함수를 이용한 음성 신호 부호화에 있어서, 스펙트럼을 선형 예측 부호화(LPC)로 표현함으로써 분석부의 계산량을 줄일 수 있을 뿐만 아니라 피치의 영향을 최소화하고, 삼각 함수를 이용한 음성 신호의 복호화에 있어서, 부프레임이 갖는 파라미터의 특성을 반영하여 프레임내의 각 부 프레임 사이의 피치 변화를 최대한 살릴 수 있는 시. 공간 스펙트럼 합성법인 음성 신호 부호화 및 복호화방법을 제공하는데 있다.

상기 목적을 달성하기 위하여 본 발명에 의한 음성신호 부호화 및 복호화방법은 송신측에서 음성신호를 부호화하여 전송하고, 수신측에서 부호화된 상기 음성신호를 복호화하여 원래의 상기 음성신호로 출력하는 시스템에서, 상기 음성신호의 포락을 구하고, 부프레임별 피치를 추출하여 현재 프레임의 실제 피치값을 추정하고, 유성음 및 무성음을 판별하고, 선형예측부호화계수를 선형스펙트럼 쌍계수로 변환후 양자화하여 전송하는 음성부호화단계 및 상기 양자화된 신호를 수신하여 역양자화하여 상기 유성음 및 무성음에 대한 정보를 복원하고, 상기 복원된 정보를 이용하여 다중 시·공간 스펙트럼을 만들어 상기 유성음 또는 무성음 대역별로 합성된 음성을 합쳐 원래의 상기 음성신호로 복호화하는 음성복호화단계를 구비하는 것을 특징으로 한다.

이하, 본 발명에 의한 음성신호 부호화 및 복호화방법을 도면 제1 및 제2도를 참조하여 다음과 같이 상세히 설명한다.

음성신호 부호화단계는 음성의 단구간 예측(Short-Term Prediction)을 통해 음성의 스펙트럼 포락을 구하고, 개구간 피치 추출(Open-Loop Pitch Detection)과 장구간 예측(Long-Term Prediction)으로부터 부프레임별로 피치를 추출하여 현재 프레임의 실제 피치 값을 추정해 낸다. 또한 피치의 하모닉에 맞는 음성 대역을 나누고, 각 대역에 대해서 유성음 및 무성음을 판단한다. 음성분석계수로부터 10차 선형예측부호화(LPC:Linear Predictive Coding 이하 LPC)계수는 전송 효율이 좋은 LSP계수로 변환되어 34비트로 양자화되고 평균 파워는 5비트, 피치는 9비트, 유성음 또는 무성음 대역은 7비트로 양자화된다. 즉 프레임당 55비트로 1프레임 간격이 20ms이므로 2.75kbps가 된다.

음성신호 복호화단계에서는 전송된 계수를 받아서 역양자화 과정을 통해 LPC계수, 평균파워, 피치 및 유성과 무성정보를 복원한다. 복원된 값을 이용하여 다중 시·공간 스펙트럼(MTF:Multi-Time and Frequency 이하 MTF)을 만들어 유성음 대역 또는 무성음 대역별로 음성을 재생하여 두 신호를 합쳐 출력한다.

제1도에 도시된 바와 같이 아날로그 음성신호는 디지탈 신호로 변환되고(제200단계), 제200단계후에 성도 특성정보는 자기상관 계수방법을 이용하여 10차의 LPC계수와 평균 파워로 표현되며, 양자화나 전송시의 효율을 높이기 위하여 10차 LPC계수는 LSP계수로 변환된다(제202단계).

제202단계후에 개방회로피치와 폐쇄회로피치(P^c _i)(i=1,2,3 및 4)를 자기 상관 계수와 적응 부호화 코드북을 이용하여 각각 1개와 4개의 초기피치를 구하고, 전 프레임의 피치와 개방회로의 피치를 이용하여 가장 적당하다고 생각되는 현재 프레임의 예측 피치를 구한 다음, 이 예측 피치 P'을 참조하여 폐쇄회로의 피치중에서 현재의 프레임을 가장 잘 표현할 수 있는 피치를 하나 선택한다(제204단계).

여기서 피치를 예측하는 방법은 선형 회귀법을 이용하는데, 이 선형회귀법은 전 프레임의 피치를 P_-1, 현재 프레임의 개방회로피치를 P⁰ ₀라 하면 (O,P_-1)과 (1,P⁰ ₀)을 잇는 직선상의 한 점(2,P')을 구하여 P^c ₀중에서 예측피치 P'에 가장 가가운 P^c _i중의 하나를 현재 프레임의 피치 후보로 정하고, 만약 이 범위를 벗어나면 피치가 정수배가 될 확률이 크므로 P'의 n정수배에 가까운 피치를 현재의 피치의 후보로 하여 피치오차 한계의 식을 만족하는지를 검사한다. 이 과정을 3정수배가 될때가지 계속한다. 역 정수배의 경우에도 또한 이와 같다.

제204단계후에 여기신호인 유성음 및 무성음 정보는 음성 프레임의 피치에 따라 9개에서 56개의 하모닉을 만들고 이 하모닉을 최대 12개의 대역으로 구성하며, 각 대역의 유성 및 무성음 정보는 스펙트럼을 비교하여 구한다.

여기서 유성 및 무성음 정보를 추정하기 위하여 다음과 같은 오차함수(D_k)를 정의한다.

식(1)에서는 예측된 피치를 적용하여 m번째 하모닉에서 합성된 주기적 스펙트럼이다. D_k가 현재 프레임의 파워와 k번째 대역의 파워와의 비로부터 얻어진 임계치보다 작으면 이 주파수 대역은 유성음으로 판별하고 D_k가 그 임계치보다 크면 해당 주파수 대역을 무성음으로 판별한다(제206단계).

제206단계후에 음성 계수는 이득 5비트, LSP 계수를 34비트로 선형양자화(제208단계)하되 피치는 20에서 122의 범위에서 4분의 1 샘플의 분해능을 갖는 프렉셔널(Fractional)피치로 하여 9비트가 할당되며 각 대역의 특징인 유성음 및 무성음은 7비트로 표현되고, 이는 표1과 같다.

이하, 음성복호화단계를 도면 제2도를 참조하여 다음과 같이 상세히 설명한다.

음성복호화단계에서, 양자화된 계수들-LSP계수, 이득계수, 피치계수 및 유성 무성계수-을 전송받아 이를 역양자화하여 원래의 값으로 복원한다(제300단계).

제300단계후에 MTF스펙트럼은 부프레임별로 음성을 생성하는 다중시간의 개념과 각 주파수 대역별로 음성을 생성하는 다중 스펙트럼의 개념을 혼용하여 생성된다(제302단계).

먼저, 다음과 같은 식(2)를 사용하여 각 부프레임에 해당하는 LSP계수를 추정한다. 각 부프레임의 LSP계수는 전 프레임의 LSP계수와 현재 프레임의 LSP계수를 선형 보간하여 구한다.

f^0k _i는 k번째 부프레임의 i번째 LSP계수이고, f^-1 _i와 f⁰ _i는 각각 전프레임과 현재 프레임의 i번째 LSP계수를 나타낸다. 이 LSP계수 f^ok _i(k-1, ----10)는 MTF스펙트럼을 구하기 위해 LPC계수로 변환되며 이를 a^ok _i라 한다. 또한 k번째 각 부프레임에 대한 파워(G^ok)는 다음 식(3)과 같이 보간된다.

스펙트럼은 각 부프레임에 대하여 계산하고, 계산에서 파워 G^ok와 LPC계수의 임펄스 응답을 푸리에 변환한 ｜H(e^jω)｜를 다음과 같은 식(4)를 사용하여 구한다.

식(4)에서 UV(ω)는 유·무성음을 나타내는 정보이며 유성음이며 1, 무성음이면 0의 값을 갖는다.

무성음 신호의 생성은 스펙트럼 포락으로 무성음 대역에 해당하는 포락의 정보를 구하고 잡음 신호열을 사용하여 푸리에 변환한 스펙트럼을 다음과 같은 식(5)를 사용하여 구한다.

식(5)에서 N(ω)는 잡음신호를 푸리에 변환한 값이다.

유성음은 하모닉에 해당하는 삼각함수를 이용하여 생성하고, 음성의 대역의 수가 L개 일 경우, 다음 식(6)을 이용하여 구한다.

여기서, 연산자는 R이 실수인 경우에, 소수점을 제외한 R의 정수만을 취하는 연산자이다.

식(6)에서 s_v(n)은 유성음이고, A^k _m은 부프레임 k의 앰프를 나타내며 식(4)로부터 다음 식(7)과 같이 구한다.

전프레임과 경계하는 부프레임은 합성시 전프레임의 유·무성정보와 현재 프레임의 유·무성음 정보를 이용하여 음성을 합성한다. 전 프레임과 경계를 갖지 않는 나머지 3개의 부프레임은 현재 프레임의 유·무성음 정보만을 이용하여 유성음을 생성한다.

무성음은 각 부프레임별로 ｜H_uv(ω)｜_k의 역푸리에 변환을 하여 구하고, 실제의 음성은 유성음 합성신호와 무성음 합성신호의 합으로 구한다(제304단계).

제304단계후에 합성된 디지탈 음성신호를 아날로그 음성신호로 변환한다(제306단계).

제3a∼제3d도는 과학 기술은 경제 발전의 원동력이다.라는 음성을 컴퓨터 시뮬레이션에 의해 각 보코더에 적용하였을 경우에 나타나는 파형으로서, 제3a도는 음성신호원의 파형을 나타내고, 제3b도는 본 발명에 의한 음성신호 부호화 및 복호화방법을 시뮬레이션 하였을 경우, 합성된 신호의 파형도이고, 제3c도는 종래의 CELP방법에 의해 복원된 음성합성신호의 파형도이고, 제3도는 IMBE방법에 의해 복원된 음성합성신호의 파형도이다.

제4a∼4d도는 과학이라는 음성을 컴퓨터 시뮬레이션에 의해 각 보코더에 적용하였을 경우, 합성신호의 파형과 지연시간을 도시한 것으로서, 제4a도는 음성신호원의 지연시간이고, 제4b도는 본 발명에 의한 음성신호 부호화 및 복호화방법에 의한 음성합성신호의 지연시간이고, 제4c도는 종래의 CELP를 시뮬레이션 한 것이고, 제4d도는 종래의 IMBE를 시뮬레이션 한 것이다.

이상에서 살펴본 바와 같이 본 발명에 의한 음성신호 부호화 및 복호화방법은 종래의 방법과 달리 분석부의 계산량을 줄임으로서 전체 계산량을 줄여 음성 신호의 부호화 및 복호화가 실시간으로 처리될 수 있도록 하고, CELP의 부 프레임이 갖는 파라미터의 특성을 반영하여 분석 프레임내의 피치 변화를 최대한 살릴 수 있도록 하고, 피치의 영향을 최소화시킬 수 있으며, 피치 적응부를 독립적으로 음성의 피치 추출을 위해 응용할 수 있고, 음성합성 시스템(Text-to-Speech)의 개발에 기초로 활용할 수 있으며, 상용 디지탈 신호처리기(DSP:Digital Signal Processor 이하 DSP)의 구현 또는 DSP 중심을 이용한 칩화를 통해 통신망, 음성저장 시스템에 상용할 수 있는 효과가 있다.

Claims

송신측에서 음성신호를 부호화하여 전송하고, 수신측에서 부호화된 상기 음성신호를 복호화하여 원래의 상기 음성신호로 출력하는 음성신호 부호화 및 복호화방법에서, 상기 음성신호의 포락을 구하고, 부프레임별 피치를 추출하여 현재 프레임의 실제 피치값을 추정하고, 유성음 또는 무성음을 판별한 후, 선형예측부호화계수를 선형스펙트럼 쌍계수로 변환후 양자화하여 상기 각 프레임의 상기 유성음 및 상기 무성음 정보를 함께 전송하는 음성부호화단계; 및 상기 유성음 및 상기 무성음을 수신후 역양자화하여 상기 유성음 및 무성음에 대한 정보를 복원하고, 상기 복원된 정보를 이용하고 선형 예측부호화 계수가 상기 부 프레임에서 갖는 특성을 이용하여 다중 시·공간 스펙트럼을 만들어 상기 유성음 또는 무성음 대역별로 합성된 각각의 음성을 합쳐 원래의 상기 음성신호로 복호화하는 음성복호화단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제1항에 있어서, 상기 음성부호화단계는 상기 음성신호를 입력하여 디지탈신호로 변환하는 A/D변환단계; 성도특성을 나타내는 성도 특성 정보를 추출하는 정보추출단계; 상기 음성신호의 피치의 주기를 추정하는 피치주기추정단계; 상기 음성신호가 유성음인가 또는 무성음인가를 판별하는 판별단계; 및 피치, 이득, 유·무성계수 및 선형스펙트럼 쌍계수들을 이용하여 상기 음성신호를 양자화하여 전송하는 양자화단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제2항에 있어서, 상기 정보추출단계는 자기상관 계수방법을 이용하여 상기 성도특성정보를 상기 선형예측부호화계수와 평균 전력으로 표현하고, 음성의 상호 관련성이 제거된 잔차신호를 만드는 단기예측단계; 및 상기 선형예측부호화계수를 상기 선형 스펙트럼 쌍계수들로 변환하여 상기 이득 및 선형스펙트럼 쌍계수들을 만드는 계수변환단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제3항에 있어서, 상기 피치주기추정단계는 적응코드북과 상기 잔차신호의 차가 최소로 되는 지연값인 폐쇄회로피치를 구하는 폐쇄피치검출단계; 상기 잔차신호의 자기상관계수를 이용하여 개방회로피치를 구하는 개방피치검출단계; 및 상기 개방회로피치 및 폐쇄회로피치를 이용하여 현재의 프레임을 가장 잘 표현하는 상기 피치계수를 예측 후 선택하는 피치적응단계를 구비하는 것을 특징으로 하는 음성 부호화 및 복호화방법.
제4항에 있어서, 상기 피치적응단계는 선형회귀법을 이용하여 상기 피치를 예측하는 피치예측단계; 및 상기 예측된 피치를 사용하여 상기 폐쇄회로피치중에서 현재의 프레임을 잘 표현하는 피치를 선택하는 피치선택단계를 구비하는 것을 특징으로 하는 음성 부호화 및 복호화방법.
제2항에 있어서, 상기 음성복호화단계는 전송받은 상기 이득, 상기 선형스펙트럼 쌍계수들, 상기 피치 및 상기 유·무성계수들을 역양자화하는 역양자화단계; 부프레임별로 음성을 생성하는 다중시간의 개념과 각 주파수 대역별로 음성을 생성하는 다중 스펙트럼의 개념을 혼용하여 상기 역양자화된 계수들로 상기 다중 시·공간 스펙트럼을 생성하는 다중 시·공간 스펙트럼생성단계; 원래의 상기 음성신호를 생성하기 위해 상기 유성음 합성신호와 무성음 합성신호를 합하는 신호생성단계; 및 합성된 신호를 아날로그 형태의 신호로 변환하는 D/A변환단계를 구비하는 것을 특징으로 하는 음성 부호화 및 복호화방법.
제6항에 있어서, 상기 다중 시·공간 스펙트럼생성단계는 이전 프레임의 상기 선형 스펙트럼쌍계수와 현재 프레임의 상기 선형 스펙트럼쌍계수를 선형 보간하여 각 부프레임의 상기 선형 스펙트럼쌍계수를 구하는 선형 스펙트럼쌍계수단계; 및 각 부프레임에 대하여 유성음 및 무성음 스펙트럼 포락을 계산하는 유·무성스펙트럼포락단계를 구비하는 것을 특징으로 하는 음성 부호화 및 복호화방법.
송신측에서 음성신호를 부호화하여 전송하고, 수신측에서 부호화된 상기 음성신호를 복호화하여 원래의 상기 음성신호로 출려하는 음성신호 부호화 및 복호화방법에서, 상기 음성신호 부호화방법은 상기 음성신호의 포락을 구하고, 부프레임별 피치를 추출하여 현재 프레임의 실제 피치값을 추정하고, 유성음 및 무성음을 판별한 후, 선형예측부호화계수를 선형스펙트럼 쌍계수로 변환후 양자화하여 상기 각 프레임의 상기 유성음 및 상기 무성음 정보를 함께 전송하는 음성부호화단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제8항에 있어서, 상기 음성부호화단계는 상기 음성신호를 입력하여 디지탈신호로 변환하는 A/D변환단계; 성도특성을 나타내는 성도 특성 정보를 추출하는 정보추출단계; 상기 음성신호의 피치의 주기를 추정하는 피치주기추정단계; 상기 음성신호가 유성음인가 또는 무성음인가를 판별하는 판별단계; 및 피치, 이득, 유·무성계수 및 선형스펙트럼 쌍계수들을 이용하여 상기 음성신호를 양자화하여 전송하는 양자화단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제9항에 있어서, 상기 정보추출단계는 자기상관 계수방법을 이용하여 상기 성도특성정보를 상기 선형예측부호화계수와 평균 전력으로 표현하고, 음성의 상호 관련성이 제거된 잔차신호를 만드는 단기예측단계; 및 상기 선형예측부호화계수를 상기 선형 스펙트럼 쌍계수들로 변환하여 상기 이득 및 선형스펙트럼 쌍계수들을 만드는 계수변환단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제10항에 있어서, 상기 피치주기추정단계는 적응코드북과 상기 잔차신호의 차가 최소로 되는 지연값인 폐쇄회로피치를 구하는 폐쇠피치검출단계; 상기 잔차신호의 자기상관계수를 이용하여 개방회로피치를 구하는 개방피치검출단계; 및 상기 개방회로피치 및 폐쇄회로피치를 이용하여 현재의 프레임을 가장 잘 표현하는 상기 피치계수를 예측 후 선택하는 피치적응단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제11항에 있어서, 상기 피치적응단계는 선형회귀법을 이용하여 상기 피치를 예측하는 피치예측단계; 및 상기 예측된 피치를 사용하여 상기 폐쇄회로피치중에서 현재의 프레임을 잘 표현하는 피치를 선택하는 피치선택단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
송신측에서 음성신호를 부호화하여 전송하고, 수신측에서 부호화된 상기 음성신호를 복호화하여 원래의 상기 음성신호로 출력하는 음성신호 부호화 및 복호화방법에서, 상기 음성신호의 복호화방법은 상기 수신측에서 부호화된 유성음 및 무성음을 수신후 역양자화하여 상기 음성신호의 유성음 및 무성음에 대한 정보를 복원하고, 상기 복원된 정보를 이용하고 선형 예측 부호화 계수가 상기 부 프레임에서 갖는 특성을 이용하여 다중 시·공간 스펙트럼을 만들어 상기 유성음 또는 무성음 대역별로 합성된 각각의 음성을 합쳐 원래의 상기 음성신호로 복호화하는 음성복호화단계를 구비하는 것을 특징으로 하는 음성신호 부호화 및 복호화방법.
제13항에 있어서, 상기 음성복호화단계는 상기 수신측으로부터 전송받은 이득, 선형스펙트럼 쌍계수들, 피치 및 유·무성계수를 역양자화하는 역양자화단계; 부프레임별로 음성을 생성하는 다중시간의 개념과각 주파수 대역별로 음성을 생성하는 다중 스펙트럼의 개념을 혼용하여 상기 역양자화된 계수들로 상기 다중 시·공간 스펙트럼을 생성하는 다중 시·공간 스펙트럼생성단계; 원래의 상기 음성신호를 생성하기 위해 상기 유성음 합성신호와 무성음 합성신호를 합하는 신호생성단계; 및 합성된 신호를 아날로그 형태의 신호로 변환하는 D/A변환단계를 구비하는 것을 특징으로 하는 음성 부호화 및 복호화방법.
제14항에 있어서, 상기 다중 시·공간 스텍트럼생성단계는 이전 프레임의 상기 선형 스펙트럼쌍계수들과 현재 프레임의 상기 선형 스펙트럼쌍계수들을 선형 보간하여 각 부프레임의 상기 선형 스펙트럼상계수들을 구하는 선형 스펙트럼쌍계수단계; 및 각 부프레임에 대하여 유성음 및 무성음 스펙트럼 포락을 계산하는 유·무성스펙트럼포락단계를 구비하는 것을 특징으로 하는 음성 부호화 및 복호화방법.