JP3348759B2 - Transform coding method and transform decoding method - Google Patents
Transform coding method and transform decoding methodInfo
- Publication number
- JP3348759B2 JP3348759B2 JP24814595A JP24814595A JP3348759B2 JP 3348759 B2 JP3348759 B2 JP 3348759B2 JP 24814595 A JP24814595 A JP 24814595A JP 24814595 A JP24814595 A JP 24814595A JP 3348759 B2 JP3348759 B2 JP 3348759B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency
- pitch
- quantized
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
【0001】[0001]
       【発明の属する技術分野】本発明は、楽音信号あるいは
音声信号等、ピッチ成分を含む信号の変換符号化方法お
よび変換復号化方法に関する。[0001] 1. Field of the Invention [0002] The present invention relates to a conversion encoding method and a conversion decoding method for a signal containing a pitch component, such as a tone signal or a voice signal.
    
【0002】[0002]
       【従来の技術】現在、楽音信号あるいは音声信号等のオ
ーディオ信号を高能率に符号化する方法として、該オー
ディオ信号をフレームと呼ばれる5〜50ms程度の一
定間隔の区間に分割し、この1フレームの信号に時間−
周波数変換を施して得られた周波数領域信号を、周波数
特性の包絡形状(周波数特性の概形)と、周波数領域信
号を周波数特性概形で平坦化して得られる残差信号の2
つの情報に分離し、それぞれを符号化することが提案さ
れている。2. Description of the Related Art At present, as a method for encoding an audio signal such as a tone signal or a voice signal with high efficiency, the audio signal is divided into frames, which are called frames and have a fixed interval of about 5 to 50 ms. Time to signal- 
 The frequency domain signal obtained by performing the frequency conversion is divided into an envelope shape of the frequency characteristic (an outline of the frequency characteristic) and a residual signal obtained by flattening the frequency domain signal with the outline of the frequency characteristic. 
 It has been proposed to separate the two pieces of information and encode each of them.
    
       【0003】また、このような符号化法の具体的な方法
として、適応スペクトル聴感制御エントロピー符号化法
(ASPEC,Adaptive Spectral Perceptual Entropy Codin
g)、重み付きベクトル量子化による変換符号化法(TCW
VQ,Transform Coding withWeighted Vector Quantizati
on)、およびエムペグ−オーディオ・レイヤ3方式(MP
EG-Audio Layer 3)等が提案されている。As a specific method of such an encoding method, an adaptive spectral perceptual entropy encoding method (ASPEC, Adaptive Spectral Perceptual Entropy Codin) is known. 
 g), transform coding method using weighted vector quantization (TCW 
 VQ, Transform Coding with Weighted Vector Quantizati 
 on), and MPeg-Audio Layer 3 (MP 
 EG-Audio Layer 3) and the like have been proposed.
    
       【0004】なお、これらの技術については、K.Brande
nburg, J.Herre, J.D.Johnston etal:"ASPEC:Adaptive 
spectral entropy coding of high quality music sign
als", Proc.AES'91 、T.Moriya, H.Suda:"An 8 Kbit/s 
transform coder for noisychannels", Proc.ICASSP'89
 pp.196--199 、および ISO/IEC標準 IS-11172-3 に詳
しく述べられている。[0004] These technologies are described in K. Brande 
 nburg, J. Herre, JDJohnston etal: "ASPEC: Adaptive 
 spectral entropy coding of high quality music sign 
 als ", Proc. AES'91, T. Moriya, H. Suda:" An 8 Kbit / s 
 transform coder for noisychannels ", Proc.ICASSP'89 
 pp.196--199 and ISO / IEC standard IS-11172-3.
    
       【0005】ここで、これらの符号化法によって高能率
な符号化を実現するためには、残差信号は、できるだけ
周波数特性が平坦であることが望ましい。このため、上
述の適応スペクトル聴感制御エントロピー符号化法(AS
PEC)あるいはエムペグ−オーディオ・レイヤ3方式(M
PEG-Audio Layer 3)では、図5に示すように、周波数
領域信号をいくつかの小帯域に分割し、各小帯域内の信
号を帯域の強さを表すスケーリングファクタと呼ばれる
値で除算して正規化することにより、残差信号の周波数
特性の平坦化を図っている。Here, in order to realize highly efficient encoding by these encoding methods, it is desirable that the residual signal has as flat a frequency characteristic as possible. For this reason, the adaptive spectral hearing control entropy coding method (AS 
 PEC) or MPeg-Audio Layer 3 (M 
 In PEG-Audio Layer 3), as shown in FIG. 5, a frequency domain signal is divided into several sub-bands, and a signal in each sub-band is divided by a value called a scaling factor representing the strength of the band. The frequency characteristics of the residual signal are flattened by normalization.
    
       【0006】一方、これらの方法よりも高能率な周波数
領域信号の平坦化方法として、図6に示すような線形予
測分析を用いる方法がある。この方法では、入力信号を
線形予測して得られた線形予測係数で線形予測分析フィ
ルタを駆動することにより周波数特性の平坦化を行う。
この方法は、上記 重み付きベクトル量子化による変換
符号化法(TCWVQ)で用いられている手法である。On the other hand, as a method of flattening a frequency domain signal with higher efficiency than these methods, there is a method using a linear prediction analysis as shown in FIG. In this method, a frequency characteristic is flattened by driving a linear prediction analysis filter with a linear prediction coefficient obtained by linearly predicting an input signal. 
 This method is a method used in the above-described transform coding method using weighted vector quantization (TCWVQ).
    
       【0007】なお、線形予測分析、離散コサイン変換
(DCT)、変形離散コサイン変換(MDCT)等の各関連各
技術については、斉藤、中田”音声情報処理の基礎”
(オーム社)の第6章、K.R.Rao,P.Yip 著、安田、藤原
訳”画像符号化技術−DCTとその国際標準”(オーム
社)の第2章、H.S.Malvar,"Signal Processing with L
apedTransforms,"Artech House 、および ISO/IEC 標
準 IS-11172-3 に記載されている。[0007] Regarding each related technology such as linear prediction analysis, discrete cosine transform (DCT), and modified discrete cosine transform (MDCT), Saito and Nakata, "Basics of speech information processing". 
 Chapter 6 of Ohmsha, KRRao, P. Yip, Translated by Yasuda and Fujiwara, "Image Coding Technology-DCT and Its International Standards", Chapter2, HSMalvar, "Signal Processing with L 
 apedTransforms, "Artech House, and ISO / IEC Standard IS-11172-3.
    
【0008】[0008]
       【発明が解決しようとする課題】しかし、これらの符号
化方法では、周波数特性の大局的な概形を正規化するに
とどまり、楽音や音声のピッチ成分による微視的な周波
数特性の凹凸を能率良く除去することができない。した
がって、このことが障害となり、上記従来の符号化方法
は、ピッチ成分の強いオーディオ信号を符号化する場合
に高能率化することが困難であった。However, these encoding methods only normalize the general outline of the frequency characteristics and efficiently remove microscopic irregularities in the frequency characteristics due to pitch components of musical sounds and voices. It cannot be removed well. Therefore, this is an obstacle, and it is difficult for the above-mentioned conventional encoding method to achieve high efficiency when encoding an audio signal having a strong pitch component.
    
       【0009】本発明は、上述する問題点に鑑みてなされ
たもので、ピッチ成分が含まれたオーディオ信号を能率
良く符号化することが可能な変換符号化方法および変換
復号化方法を提供することを目的としている。The present invention has been made in view of the above-mentioned problems, and provides a transform coding method and a transform decoding method capable of efficiently coding an audio signal containing a pitch component. It is an object.
    
【0010】[0010]
       【課題を解決するための手段】請求項1記載の発明は、
 楽音信号あるいは音声信号を一定時間間隔のフレームに 
 分割し、各フレームに時間−周波数変換を施して周波数 
 領域信号を生成する時間−周波数変換段階と、 周波数領 
 域信号の概形信号を生成し、当該概形信号を量子化して 
 量子化概形インデックスを出力する概形計算・量子化段 
 階と、 前記周波数領域信号を量子化された前記概形信号 
 により除算して平坦化信号を生成する平坦化段階と、 前 
 記平坦化信号からピッチ成分を検出して量子化し量子化 
 ピッチ成分インデックスを出力するピッチ符号化段階 
 と、 前記平坦化信号から量子化した前記ピッチ成分を除 
 去した平坦化信号の量子化平坦化信号インデックスを出 
 力する平坦化信号量子化段階と を有することを特徴とし
ている。According to the first aspect of the present invention, 
 Convert musical or audio signals into frames at fixed time intervals 
 Divide and perform time-frequency conversion on each frame to 
 Time generates area signals - a frequency conversion stage, frequency domain 
 Generates an approximate signal of the area signal and quantizes the approximate signal. 
 A rough calculation / quantization stage that outputs a quantized rough index 
 Floor and the generalized signal obtained by quantizing the frequency domain signal 
 And planarization generating a flattened signal by dividing by the previous 
 Detect and quantize pitch components from the flattened signal and quantize 
 Pitch encoding step to output pitch component index 
 If, dividing the pitch component obtained by quantizing from the flattened signal 
 Output the quantized flattened signal index of the flattened signal 
 It is characterized by having a  flattened signal quantization step of force. 
    
       【0011】請求項2記載の発明は、請求項1記載の発
明において、ピッチ符号化段階では、ピッチ成分の基本 
 周波数を求めて量子化し、 周波数領域信号から前記基本 
 周波数の自然数倍の周波数またはこの周波数に最も近い 
 周波数のサンプルをピッチ成分サンプルとして抽出して 
 量子化し、 このようにして得られた量子化ピッチ基本周 
 波数インデックスと量子化ピッチ成分サンプルインデッ 
 クスとを量子化ピッチ成分インデックスとして出力する 
ことを特徴としている。According to a second aspect of the present invention, in the first aspect of the invention, in the pitch encoding step, a basic 
 Quantized seeking frequency, the fundamental from the frequency domain signal 
 Frequency that is a natural number multiple of frequency or closest to this frequency 
 Extract frequency samples as pitch component samples 
 Quantized, the basic pitch of the quantized pitch thus obtained 
 Wave index and quantized pitch component sample index 
 Is output as a quantized pitch component index .
    
       【0012】請求項3記載の発明は、請求項2記載の発
明において、ピッチ符号化段階では、周波数領域信号か 
 ら基本周波数の自然数倍の周波数あるいはこの周波数に 
 最も近い周波数のサンプル及びこれを含めた連続する複 
 数のサンプルを1単位としてピッチ成分を抽出して量子 
 化することを特徴としている。According to a third aspect of the present invention, in the second aspect of the invention, in the pitch encoding step, the frequency domain signal 
 To a frequency that is a natural number multiple of the fundamental frequency or 
 The nearest frequency sample and the consecutive 
 Quantizing the pitch component by extracting the number of samples as one unit 
 Is characterized by
    
       【0013】請求項4記載の発明は、請求項2または3
記載の発明において、ピッチ符号化段階では、ピッチ成 
 分サンプルを一括または各単位毎にベクトル量子化する 
ことを特徴としている。The invention according to claim 4 is the invention according to claim 2 or 3. 
 In the described invention, in the pitch encoding step, the pitch component 
 It is characterized in that the minute samples are vector-quantized collectively or for each unit .
    
       【0014】請求項5記載の発明は、量子化平坦化信号 
 インデックスから平坦化信号を再生する平坦化信号再生 
 段階と、量子化ピッチ成分インデックスからピッチ成分 
 を再生するピッチ再生段階と、 量子化概形インデックス 
 から概形信号を再生する概形信号再生段階と、 前記平坦 
 化信号に前記ピッチ成分を加えた信号を前記概形信号で 
 逆平坦化して周波数領域信号を再生する逆平坦化段階 
 と、 前記周波数領域信号に時間−周波数逆変換を施して 
 時間領域の楽音信号あるいは音声信号を生成する時間− 
 周波数逆変換段階と を有することを特徴としている。According to a fifth aspect of the present invention, there is provided a quantized flattened signal. 
 Flattening signal regeneration that reproduces the flattening signal from the index 
 Step and pitch component from quantized pitch component index 
 Playback pitch and quantization rough index 
 And envelope signal reproducing step of reproducing the outline signal from the flat 
 The signal obtained by adding the pitch component to the digitized signal is 
 De-flattening step to reproduce the frequency domain signal by de-flattening 
 And performing a time-frequency inverse transform on the frequency domain signal. 
 Time to generate a tone signal or voice signal in the time domain- 
 It is characterized by having a  frequency inverse transform stage. 
    
       【0015】請求項6記載の発明は、請求項5記載の発
明において、ピッチ再生段階では、 ピッチ成分の基本周 
 波数を復号化し、 ピッチ成分として量子化ピッチ成分サ 
 ンプルインデックスから復号したピッチ成分サンプルを 
 前記基本周波数の自然数倍の周波数またはこの周波数に 
 最も近い周波数に周波数領域信号として配置することを
特徴としている。According to a sixth aspect of the present invention, in the fifth aspect of the invention, in the pitch reproducing step, the basic circumference of the pitch component is 
 The wave number is decoded, and the quantized pitch component 
 The pitch component sample decoded from the sample index 
 A frequency that is a natural number multiple of the fundamental frequency or this frequency 
 It is characterized by being arranged as a frequency domain signal at the closest frequency .
    
       【0016】請求項7記載の発明は、請求項6記載の発
明において、ピッチ再生段階では、ピッチ成分として量 
 子化ピッチ成分サンプルインデックスから復号したピッ 
 チ成分サンプルを基本周波数の自然数倍の周波数または 
 この周波数に最も近い周波数のサンプル及びこれを含め 
 た連続する複数のサンプルを1単位として周波数領域信 
 号として配置することを特徴としている。According to a seventh aspect of the present invention, in the invention according to the sixth aspect, at the pitch reproduction stage, a quantity is used as a pitch component. 
 The pitch decoded from the child pitch component sample index 
 Multiplied by a natural number multiple of the fundamental frequency or 
 Include the sample at the frequency closest to this frequency and 
 Frequency domain signal with multiple consecutive samples as one unit. 
 It is characterized by being arranged as a number .
    
       【0017】請求項8記載の発明は、請求項6または7
記載の発明において、ピッチ再生段階では、ピッチ成分 
 サンプルを一括または各単位毎に復号することを特徴と
している。The invention according to claim 8 is the invention according to claim 6 or 7. 
 In the described invention, in the pitch reproduction stage, the pitch component 
 It is characterized in that samples are decoded at once or for each unit .
    
【0018】[0018]
       【作用】楽音あるいは音声は、ピッチすなわち音程の高
/低を有する。この楽音あるいは音声を周波数変換して
得られる周波数領域信号には、一定の周波数間隔で並ぶ
ピッチ成分が含まれる。したがって、該周波数領域信号
を自らの周波数特性の概形で正規化して得られる残差信
号にも、上記ピッチ成分が含まれている。このピッチ成
分は、全体のパワーに対してエネルギーの大きいスパイ
クとなって現れるので、残差信号の平坦度を落として量
子化能率を悪化させる。しかし、本発明は、ピッチ成分
が周波数軸上で等間隔に並んでいる点に着目し、ピッチ
成分を残差信号から差し引くことにより、少ない付加情
報量で残差係数の平坦度を高める。The musical tone or voice has a pitch, that is, a high / low pitch. The frequency domain signal obtained by frequency-converting this musical tone or voice contains pitch components arranged at a constant frequency interval. Therefore, the above-mentioned pitch component is also included in the residual signal obtained by normalizing the frequency domain signal with the outline of its own frequency characteristic. Since this pitch component appears as a spike having a large energy with respect to the entire power, the flatness of the residual signal is reduced to deteriorate the quantization efficiency. However, the present invention focuses on the fact that pitch components are arranged at regular intervals on the frequency axis, and subtracts the pitch components from the residual signal, thereby increasing the flatness of the residual coefficient with a small amount of additional information.
    
【0019】[0019]
       【発明の実施の形態】以下、図面を参照して本発明の一
実施形態について説明する。図1は、本実施形態による
変換符号化方法および変換復号化方法を説明する図であ
り、符号Aは符号器、またBは復号器である。図示する
ように、符号器Aは、時間−周波数変換器1、大局的概
形計算・量子化器2、第1平坦化器3、ピッチ符号化器
4、加算器5、微細スペクトル概形計算・量子化器6、
第2平坦化器7、および量子化器8によって構成されて
いる。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram for explaining a transform coding method and a transform decoding method according to the present embodiment, where code A is an encoder, and B is a decoder. As shown, the encoder A includes a time-frequency converter 1, a global shape calculator / quantizer 2, a first flattener 3, a pitch encoder 4, an adder 5, and a fine spectrum shape calculator.・ Quantizer 6, 
 It comprises a second flattener 7 and a quantizer 8.
    
       【0020】時間−周波数変換器1は、時間領域の入力
信号(楽音信号あるいは音声信号等のオーディオ信号)
を一定時間間隔のフレームに分割し、各々のフレームに
時間−周波数変換を施して周波数領域信号を生成する。The time-frequency converter 1 is a time-domain input signal (music signal or audio signal such as a voice signal). 
 Is divided into frames at fixed time intervals, and time-frequency conversion is performed on each frame to generate a frequency domain signal.
    
       【0021】図2は、この周波数領域信号の周波数特性
を示したものである。この図に示すように、楽音信号あ
るいは音声信号の周波数領域信号は、一定周波数間隔p
で配列するピッチ成分が含まれている。なお、変換手法
としては、離散コサイン変換(Discrete Cosine Transf
ormation,DCT)や変形離散コサイン変換(Modified Dis
crete Cosine Transformation,MDCT)を用いることがで
きる。FIG. 2 shows the frequency characteristics of the frequency domain signal. As shown in this figure, the frequency domain signal of the tone signal or the audio signal has a constant frequency interval p. 
 The pitch components arranged in the order are included. As a conversion method, Discrete Cosine Transf 
 ormation, DCT) and modified discrete cosine transform (Modified Dis 
 crete Cosine Transformation, MDCT).
    
       【0022】大局的概形計算・量子化器2は、上記時間
−周波数変換器1から出力された周波数領域信号の大局
的な概形を示す信号を生成し、また量子化する。そし
て、この信号を上記第1平坦化器3に出力すると共に、
量子化大局的概形インデックスとして外部に出力する。
該大局的概形の算出手法としては、線形予測スペクト
ル、あるいは周波数領域信号を複数のサブバンドに分割
し、各バンドの代表値によって周波数領域信号全体の概
形を表現するスケールファクタを用いてもよい。The global shape calculator / quantizer 2 generates and quantizes a signal indicating a global shape of the frequency domain signal output from the time-frequency converter 1. Then, this signal is output to the first flattener 3 and 
 Output to the outside as a quantized global shape index. 
 As a method of calculating the general outline, a linear prediction spectrum or a scale factor that divides a frequency domain signal into a plurality of sub-bands and uses a representative value of each band to express an outline of the entire frequency domain signal may be used. Good.
    
       【0023】なお、線形予測スペクトルを量子化する場
合は、線形予測パラメータをLSPパラメータに変換し
て量子化する。またはKパラメータに変換して量子化す
る。When quantizing the linear prediction spectrum, the linear prediction parameters are converted into LSP parameters and quantized. Alternatively, it is converted into a K parameter and quantized.
    
       【0024】第1平坦化器3は、上記時間−周波数変換
器1から出力された周波数領域信号を大局的概形計算・
量子化器2から出力された上記大局的概形信号によって
除算することにより平坦化し、第1の平坦化信号を出力
する。The first flattener 3 calculates a global outline of the frequency domain signal output from the time-frequency converter 1. 
 The signal is flattened by being divided by the globally generalized signal output from the quantizer 2, and a first flattened signal is output.
    
       【0025】次に、ピッチ符号化器4は、上記第1の平
坦化信号からピッチ成分を検出して符号化する。また、
図3はピッチ符号化器4の詳細を示す図であり、上記第
1の平坦化信号は、図示するピッチ基本周波数抽出器4
aおよびピッチサンプル抽出器4bに入力される。Next, the pitch encoder 4 detects and encodes a pitch component from the first flattened signal. Also, 
 FIG. 3 is a diagram showing details of the pitch encoder 4. The first flattened signal is a pitch fundamental frequency extractor 4 shown in FIG. 
 a and pitch sample extractor 4b.
    
       【0026】このピッチ基本周波数抽出器4aは、第1
の平坦化信号を分析することによりピッチ成分の基本周
波数(ピッチ基本周波数)を求める。すなわち、ピッチ
基本周波数抽出器4aは、第1の平坦化係数のケプスト
ラムを計算し、その最大値をピッチ成分の基本周期とす
る。そして、該基本周期の逆数を演算することによりピ
ッチ基本周波数を求め、ピッチ基本周波数量子化器4c
に出力する。The pitch fundamental frequency extractor 4a has a first 
 The fundamental frequency of the pitch component (pitch fundamental frequency) is obtained by analyzing the flattened signal of That is, the pitch fundamental frequency extractor 4a calculates the cepstrum of the first flattening coefficient, and sets the maximum value as the fundamental period of the pitch component. Then, the pitch fundamental frequency is obtained by calculating the reciprocal of the fundamental period, and the pitch fundamental frequency quantizer 4c 
 Output to
    
       【0027】なお、ピッチ基本周波数をより正確にする
ために、求められたピッチ基本周波数の前後で、ピッチ
基本周波数ごとの第1の平坦化信号のサンプルのパワー
の総和が最大になる基本周波数を検索し、新たにこれを
ピッチ基本周波数としてもよい。In order to make the pitch fundamental frequency more accurate, the fundamental frequency at which the sum of the powers of the samples of the first flattened signal for each pitch fundamental frequency becomes maximum before and after the obtained pitch fundamental frequency is determined. A search may be made, and this may be newly set as the pitch fundamental frequency.
    
       【0028】ピッチ基本周波数量子化器4cは、このよ
うにして求められたピッチ基本周波数を量子化する。す
なわち、このピッチ基本周波数量子化器4cは、ピッチ
基本周波数の対数値をスカラ量子化し、量子化ピッチ基
本周波数インデックスとして外部に出力すると共に、こ
のスカラ量子化された信号を上記ピッチサンプル抽出器
4bに出力する。The pitch fundamental frequency quantizer 4c quantizes the pitch fundamental frequency thus obtained. That is, the pitch fundamental frequency quantizer 4c scalar-quantizes the logarithmic value of the pitch fundamental frequency, outputs the quantized pitch fundamental frequency index to the outside, and outputs the scalar-quantized signal to the pitch sample extractor 4b. Output to
    
       【0029】このピッチサンプル抽出器4bは、第1平
坦化器3から入力された第1の平坦化信号に対して、ピ
ッチ基本周波数量子化器4cから入力された量子化ピッ
チ基本周波数の自然数倍の周波数に最も近いサンプルを
中心として前後1サンプルを抽出し、この3サンプル一
組を一本のピッチ成分のサンプル群としてピッチサンプ
ル量子化器4dに出力する。なお、このピッチ成分のサ
ンプル群の数は、固定値でも良いし、可変としても良
い。The pitch sample extractor 4b converts the first flattened signal inputted from the first flattener 3 into a natural number of the quantized pitch fundamental frequency inputted from the pitch fundamental frequency quantizer 4c. One sample before and after the sample closest to the double frequency is extracted, and one set of these three samples is output to the pitch sample quantizer 4d as one pitch component sample group. Note that the number of the pitch component sample groups may be a fixed value or may be variable.
    
       【0030】ピッチサンプル量子化器4dは、上記ピッ
チ成分のサンプル群を量子化して量子化ピッチ成分イン
デックスとして外部に出力すると共に、この量子化ピッ
チ成分インデックスを復号した量子化ピッチ成分を上記
加算器5に出力する。なお、該サンプル群の量子化は、
スカラ量子化であっても良いし、3サンプルからなるサ
ンプル群ごとにベクトル量子化してもよい。また、全サ
ンプル群を一括でベクトル量子化しても良い。以上がピ
ッチ符号化器4において行われる処理である。The pitch sample quantizer 4d quantizes the sample group of pitch components and outputs the quantized pitch component index to the outside, and decodes the quantized pitch component index to the adder. 5 is output. The quantization of the sample group is 
 Scalar quantization may be used, or vector quantization may be performed for each sample group including three samples. Further, all the sample groups may be collectively vector-quantized. The above is the processing performed in the pitch encoder 4.
    
       【0031】次に、加算器5は、該ピッチ符号化器4か
ら入力されたピッチ成分の量子化信号を用いて、第1平
坦化器3から入力された第1の平坦化信号からピッチ成
分のみを差し引いて第2の平坦化信号を生成し、微細ス
ペクトル概形計算・量子化器6および第2平坦化器7に
出力する。Next, the adder 5 uses the quantized signal of the pitch component input from the pitch encoder 4 to calculate the pitch component from the first flattened signal input from the first flattener 3. A second flattened signal is generated by subtracting only the second flattened signal, and output to the fine spectrum rough shape calculator / quantizer 6 and the second flattener 7.
    
       【0032】ここで、図4は、この第2の平坦化信号の
周波数特性を示す図である。上記図2との比較でわかる
ように、第2の平坦化信号は、時間−周波数変換器1か
ら出力された周波数領域信号からピッチ成分を除去した
ものとなる。FIG. 4 is a diagram showing the frequency characteristics of the second flattened signal. As can be seen from a comparison with FIG. 2, the second flattened signal is obtained by removing the pitch component from the frequency domain signal output from the time-frequency converter 1.
    
       【0033】微細スペクトル概形計算・量子化器6は、
該第2の平坦化信号から微細なスペクトルの概形(微細
スペクトル概形)を計算し、これを量子化する。そし
て、この量子化した信号を量子化微細スペクトル概形イ
ンデックスとして外部に出力すると共に、第2平坦化器
7に出力する。The fine spectrum shape calculator / quantizer 6 comprises: 
 A fine spectral outline (fine spectral outline) is calculated from the second flattened signal and quantized. Then, the quantized signal is output to the outside as a quantized fine spectrum rough shape index and to the second flattener 7.
    
       【0034】この微細スペクトル概形は、微細スペクト
ル概形を直接量子化して求めてもよいし、過去のフレー
ムの微細スペクトル概形を線形合成して求めてもよい。
また、過去および現在のフレームの量子化された微細ス
ペクトル概形の情報を線形合成して求めてもよい。さら
に、この微細スペクトル概形は、例えば、第2の平坦化
信号の絶対値に3から5程度の幅の窓関数を畳み込んだ
ものを用いてもよいし、サブバンド分割した第2の平坦
化信号の振幅の代表値を各バンドごとに用意し、これを
概形としてもよい。The fine spectral outline may be obtained by directly quantizing the fine spectral outline or by linearly synthesizing the fine spectral outline of a past frame. 
 Alternatively, the information of the quantized fine spectral outline of the past and current frames may be obtained by linear synthesis. Further, the fine spectrum outline may be obtained by convolving the absolute value of the second flattened signal with a window function having a width of about 3 to 5 or using the second flattened signal obtained by subband division. A representative value of the amplitude of the digitized signal may be prepared for each band, and this may be used as an outline.
    
       【0035】第2平坦化器7は、加算器5から入力され
た第2の平坦化信号を微細スペクトル概形計算・量子化
器6で得られた微細スペクトル概形で除算して平坦化
し、第3の平坦化信号として量子化器8に出力する。こ
の量子化器8は、該第3の平坦化信号をスカラ量子化あ
るいはベクトル量子化し、量子化インデックスとして外
部に出力する。The second flattener 7 divides the second flattened signal input from the adder 5 by the fine spectral outline obtained by the fine spectral outline calculator / quantizer 6 to flatten it. The signal is output to the quantizer 8 as a third flattened signal. The quantizer 8 performs scalar quantization or vector quantization on the third flattened signal, and outputs it as a quantization index to the outside.
    
       【0036】なお、ベクトル量子化する場合は、フレー
ムの全サンプルを一括で量子化してもよいが、フレーム
のサンプル列を複数のサブベクトルに分割して、このサ
ブベクトルごとに量子化する方が演算量の面で現実的で
ある。また、分割の方法は、単純なサブバンド分割でも
よいし、サンプルをインタリーブしてから分割するイン
タリーブ分割でもよい。また、量子化の際必要な情報量
にあわせて適応的ビット割り当てをしてもよい。In the case of vector quantization, all samples of a frame may be quantized collectively. However, it is better to divide the sample sequence of a frame into a plurality of subvectors and quantize each subvector. It is realistic in terms of computational complexity. Further, the division method may be a simple subband division or an interleave division in which samples are interleaved and then divided. Also, adaptive bit allocation may be performed in accordance with the amount of information necessary for quantization.
    
       【0037】次に、復号器Bについて説明する。図1に
示すように、復号器Bは、再生器9、微細スペクトル概
形再生器10、第1逆平坦化器11、ピッチ再生器1
2、加算器13、大局的概形再生器14、第2逆平坦化
器15、および時間−周波数逆変換器16によって構成
されている。Next, the decoder B will be described. As shown in FIG. 1, the decoder B includes a regenerator 9, a fine spectrum rough shape regenerator 10, a first inverse flattener 11, and a pitch regenerator 1. 
 2, an adder 13, a global outline regenerator 14, a second inverse flattener 15, and an inverse time-frequency converter 16.
    
       【0038】このうち、再生器9は、上記符号器Aから
伝送されてきた量子化インデックスから上記第3の平坦
化信号を再生する。この再生器9は、上記量子化器8の
逆処理を行うことにより第3の平坦化信号を再生し、第
1逆平坦化器11に出力する。微細スペクトル概形再生
器10は、符号器Aから伝送されてきた微細スペクトル
概形量子化インデックスから微細スペクトル概形を再生
する。The regenerator 9 regenerates the third flattened signal from the quantization index transmitted from the encoder A. The regenerator 9 reproduces the third flattened signal by performing the inverse processing of the quantizer 8 and outputs the third flattened signal to the first inverse flattener 11. The fine-spectrum rough shape regenerator 10 recovers the fine-spectrum rough shape from the fine-spectrum rough shape quantization index transmitted from the encoder A.
    
       【0039】第1逆平坦化器11は、再生器9から入力
された第3の平坦化信号に微細スペクトル概形を付加し
て、上記第2の平坦化信号を再生して加算器13に出力
する。また、ピッチ再生器12は、符号器Aから伝送さ
れてきた量子化ピッチ成分インデックスおよび量子化ピ
ッチ基本周波数インデックスから上記ピッチ成分を再生
し、加算器13に出力する。The first inverse flattener 11 adds a fine spectral outline to the third flattened signal input from the regenerator 9 to regenerate the second flattened signal and sends the second flattened signal to the adder 13. Output. The pitch reproducer 12 reproduces the pitch component from the quantized pitch component index and the quantized pitch fundamental frequency index transmitted from the encoder A, and outputs the reproduced pitch component to the adder 13.
    
       【0040】加算器13は、第1逆平坦化器11から入
力された第2の平坦化信号に、ピッチ再生器12から入
力されたピッチ成分を加えて上記第1の平坦化信号を再
生し、第2逆平坦化器15に出力する。また、大局的概
形再生器14は、符号器Aから伝送されてきた量子化大
局的概形インデックスから上記大局的概形を再生し、第
2逆平坦化器15に出力する。The adder 13 reproduces the first flattened signal by adding the pitch component inputted from the pitch reproducer 12 to the second flattened signal inputted from the first inverse flattener 11. , To the second inverse flattener 15. Further, the global shape regenerator 14 regenerates the global shape from the quantized global shape index transmitted from the encoder A, and outputs it to the second inverse flattener 15.
    
       【0041】第2逆平坦化器15は、加算器13から入
力された第1の平坦化信号に、大局的概形再生器14か
ら入力された大局的概形を付加し、上記周波数領域信号
を生成する。そして、時間−周波数逆変換器16は、該
第2逆平坦化器15から入力された周波数領域信号に時
間−周波数逆変換を施して復号し、時間領域の音声信号
あるいは楽音信号を出力する。The second inverse flattener 15 adds the global shape input from the global shape regenerator 14 to the first flattened signal input from the adder 13, and Generate Then, the inverse time-frequency converter 16 performs inverse time-frequency conversion on the frequency-domain signal input from the second inverse flattener 15 and decodes the signal, and outputs a time-domain audio signal or tone signal.
    
【0042】[0042]
       【発明の効果】以上説明したように、本発明によれば、
ピッチ成分を有する楽音信号あるいは音声信号を符号化
するに際し、該信号を周波数領域に変換した周波数領域
信号に現れるスパイク状のピッチ成分のの規則性を利用
して、これを高能率に符号化する。したがって、より平
坦化された残差係数を得ることができ、符号化器全体の
能率を高めることが可能である。As described above, according to the present invention, 
 When encoding a tone signal or voice signal having a pitch component, the signal is efficiently encoded by utilizing the regularity of spike-like pitch components appearing in a frequency domain signal obtained by converting the signal into a frequency domain. . Therefore, a more flattened residual coefficient can be obtained, and the efficiency of the entire encoder can be increased.
    
       【図1】本発明の一実施形態を示す符号器および復号器
を説明する図である。FIG. 1 is a diagram illustrating an encoder and a decoder according to an embodiment of the present invention.
    
       【図2】本発明において時間−周波数変換器の出力信号
の周波数特性を示す図である。FIG. 2 is a diagram showing a frequency characteristic of an output signal of a time-frequency converter in the present invention.
    
       【図3】本発明においてピッチ符号化器の詳細構成を示
す図である。FIG. 3 is a diagram showing a detailed configuration of a pitch encoder in the present invention.
    
       【図4】本発明において第2平坦化信号の周波数特性を
示す図である。FIG. 4 is a diagram showing a frequency characteristic of a second flattened signal in the present invention.
    
       【図5】従来の変換符号化方法を説明する第1の図であ
る。FIG. 5 is a first diagram illustrating a conventional transform encoding method.
    
       【図6】従来の変換符号化方法を説明する第2の図であ
る。FIG. 6 is a second diagram illustrating a conventional transform encoding method.
    
1 時間−周波数変換器 2 大局的概形計算・量子化器 3 第1平坦化器 4 ピッチ符号化器 5、13 加算器 6 微細スペクトル概形計算・量子化器 7 第2平坦化器 8 量子化器 9 再生器 10 微細スペクトル概形再生器 11 第1逆平坦化器 12 ピッチ再生器 14 大局的概形再生器 15 第2逆平坦化器 16 時間−周波数逆変換器 DESCRIPTION OF SYMBOLS 1 Time-frequency converter 2 Global shape calculation / quantizer 3 First flattener 4 Pitch encoder 5, 13 Adder 6 Fine spectrum shape calculation / quantizer 7 Second flattener 8 Quantum Modifier 9 regenerator 10 fine spectrum rough shape regenerator 11 first inverse flattener 12 pitch regenerator 14 global shape regenerator 15 second inverse flattener 16 time-frequency inverse converter
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−239597(JP,A) 特開 昭57−62096(JP,A) 特開 昭57−161795(JP,A) 特開 昭63−37400(JP,A) 特開 平7−261800(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 11/04 G10L 19/00 - 19/02 G11B 20/10 H03M 7/30 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-1-239597 (JP, A) JP-A-57-62096 (JP, A) JP-A-57-161795 (JP, A) JP-A 63-209 37400 (JP, A) JP-A-7-261800 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 11/00-11/04 G10L 19/00-19/02 G11B 20/10 H03M 7/30
Claims (8)
隔のフレームに分割し、各フレームに時間−周波数変換
を施して周波数領域信号を生成する時間−周波数変換段
階と、 周波数領域信号の概形信号を生成し、当該概形信号を量
子化して量子化概形インデックスを出力する概形計算・
量子化段階と、 前記周波数領域信号を量子化された前記概形信号により
除算して平坦化信号を生成する平坦化段階と、 前記平坦化信号からピッチ成分を検出して量子化し量子
化ピッチ成分インデックスを出力するピッチ符号化段階
と、 前記平坦化信号から量子化した前記ピッチ成分を除去し
た平坦化信号の量子化平坦化信号インデックスを出力す
る平坦化信号量子化段階と を有する ことを特徴とする変
換符号化方法。1. A music signal or a voice signal for a certain period of time.
Divide into separate frames and convert each frame to time-frequency
Time-frequency conversion stage for generating a frequency domain signal
And generate an approximate signal of the frequency domain signal, and quantify the approximate signal.
Approximation calculation that outputs a quantized outline index
Quantizing the frequency domain signal with the quantized generalized signal;
A flattening step of generating a flattened signal by dividing, and detecting and quantizing a pitch component from the flattened signal to perform quantization.
Pitch encoding step that outputs a normalized pitch component index
If, removing the pitch component obtained by quantizing from the flattened signal
Output the quantized flattened signal index of the flattened signal
Transform coding method characterized by having a flattened signal quantization step that.
またはこの周波数に最も近い周波数のサンプルをピッチ
成分サンプルとして抽出して量子化し、 このようにして得られた量子化ピッチ基本周波数インデ
ックスと量子化ピッチ成分サンプルインデックスとを量
子化ピッチ成分インデックスとして出力する ことを特徴
とする請求項1記載の変換符号化方法。2. In the pitch encoding step, a fundamental frequency of a pitch component is obtained and quantized, and a frequency which is a natural number multiple of the fundamental frequency is obtained from a frequency domain signal.
Or pitch the sample at the frequency closest to this frequency
It is extracted as a component sample, quantized, and the quantized pitch fundamental frequency index obtained in this way is obtained.
And the quantized pitch component sample index
2. The transform encoding method according to claim 1 , wherein the output is output as a child pitch component index .
いはこの周波数に最も近い周波数のサンプル及びこれを
含めた連続する複数のサンプルを1単位としてピッチ成
分を抽出して量子化する ことを特徴とする請求項2記載
の変換符号化方法。3. In the pitch encoding step, a frequency which is a natural number multiple of the fundamental frequency is obtained from the frequency domain signal.
Or the sample at the frequency closest to this frequency and
The pitch formation is performed with multiple consecutive samples including
3. The method according to claim 2 , wherein the component is extracted and quantized .
プルを一括または各単位毎にベクトル量子化することを
特徴とする請求項2または3記載の変換符号化方法。4. A pitch encoding step, comprising the steps of :
4. The transform coding method according to claim 2, wherein the pull is vector-quantized collectively or for each unit .
化信号を再生する平 坦化信号再生段階と、量子化ピッチ成分インデックスからピッチ成分を再生す
るピッチ再生段階と、 量子化概形インデックスから概形信号を再生する概形信
号再生段階と、 前記平坦化信号に前記ピッチ成分を加えた信号を前記概
形信号で逆平坦化して周波数領域信号を再生する逆平坦
化段階と、 前記周波数領域信号に時間−周波数逆変換を施して時間
領域の楽音信号あるいは音声信号を生成する時間−周波
数逆変換段階と を有する ことを特徴とする変換復号化方
法。5. Flattening from a quantized flattened signal index
A flattening signal reproducing step of reproducing the signal, to reproduce a pitch component from the quantization pitch component index
Pitch reproduction step, and a rough signal for reproducing a rough signal from the quantized rough index.
Signal reproduction step, and the signal obtained by adding the pitch component to the flattened signal.
Inverse flattening to reproduce frequency domain signal by inverse flattening with shape signal
And performing time-frequency inverse transform on the frequency domain signal.
Time-frequency to generate a musical tone signal or audio signal in the area
Transform decoding method characterized by having a number inverse transformation stage.
スから復号したピッチ成分サンプルを前記基本周波数の
自然数倍の周波数またはこの周波数に最も近い周波数に
周波数領域信号として配置する ことを特徴とする請求項
5記載の変換復号化方法。6. A pitch reproducing step, wherein a fundamental frequency of a pitch component is decoded, and a quantized pitch component sample index is used as a pitch component.
Pitch component samples decoded from the
To a frequency that is a natural number times or the frequency closest to this frequency
The transform decoding method according to claim 5, wherein the signal is arranged as a frequency domain signal .
量子化ピッチ成分サンプルインデックスから復号したピ
ッチ成分サンプルを基本周波数の自然数倍の周波数また
はこの周波数に最も近い周波数のサンプル及びこれを含
めた連続する複数のサンプルを1単位として周波数領域
信号として配置することを特徴とする請求項6記載の変
換復号化方法。7. In the pitch reproduction stage, a pitch component
The pitch decoded from the quantized pitch component sample index
Switch component samples at natural frequency times the fundamental frequency or
Is the frequency sample closest to this frequency and contains
Frequency domain using multiple consecutive samples as one unit
7. The method according to claim 6, wherein the signal is arranged as a signal .
ルを一括または各単位毎に復号することを特徴とする請
求項6または7記載の変換復号化方法。8. A pitch component sampling step, wherein a pitch component sample is sampled.
8. The conversion decoding method according to claim 6 , wherein the decoding is performed in a batch or for each unit .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP24814595A JP3348759B2 (en) | 1995-09-26 | 1995-09-26 | Transform coding method and transform decoding method | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP24814595A JP3348759B2 (en) | 1995-09-26 | 1995-09-26 | Transform coding method and transform decoding method | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JPH0990989A JPH0990989A (en) | 1997-04-04 | 
| JP3348759B2 true JP3348759B2 (en) | 2002-11-20 | 
Family
ID=17173899
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP24814595A Expired - Lifetime JP3348759B2 (en) | 1995-09-26 | 1995-09-26 | Transform coding method and transform decoding method | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP3348759B2 (en) | 
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2001356799A (en) * | 2000-06-12 | 2001-12-26 | Toshiba Corp | Time / pitch conversion device and time / pitch conversion method | 
| JP4548444B2 (en) * | 2000-12-14 | 2010-09-22 | ソニー株式会社 | Encoding apparatus and method, decoding apparatus and method, and recording medium | 
| CN1965352B (en) * | 2004-06-08 | 2011-05-25 | 皇家飞利浦电子股份有限公司 | Audio encoding | 
| KR100713366B1 (en) * | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | Pitch information extraction method of audio signal using morphology and apparatus therefor | 
| KR100868763B1 (en) * | 2006-12-04 | 2008-11-13 | 삼성전자주식회사 | Method and apparatus for extracting important frequency components of audio signal and method and apparatus for encoding / decoding audio signal using same | 
| WO2010101446A2 (en) * | 2009-03-06 | 2010-09-10 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof | 
- 
        1995
        - 1995-09-26 JP JP24814595A patent/JP3348759B2/en not_active Expired - Lifetime
 
Also Published As
| Publication number | Publication date | 
|---|---|
| JPH0990989A (en) | 1997-04-04 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| CN103325377B (en) | audio coding method | |
| CN103106902B (en) | Low bit-rate audio signal coding/decoding method | |
| JP3747492B2 (en) | Audio signal reproduction method and apparatus | |
| JP3557662B2 (en) | Speech encoding method and speech decoding method, and speech encoding device and speech decoding device | |
| KR100566713B1 (en) | Acoustic parameter encoding, decoding method, apparatus and program, speech encoding, decoding method, apparatus and program | |
| US6678655B2 (en) | Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope | |
| JP2002372995A (en) | Encoding device and method, decoding device and method, encoding program and decoding program | |
| US20040002854A1 (en) | Audio coding method and apparatus using harmonic extraction | |
| JP3344962B2 (en) | Audio signal encoding device and audio signal decoding device | |
| KR100524065B1 (en) | Advanced method for encoding and/or decoding digital audio using time-frequency correlation and apparatus thereof | |
| KR101216098B1 (en) | A method and an apparatus for processing a signal | |
| JP3765171B2 (en) | Speech encoding / decoding system | |
| KR102052144B1 (en) | Method and device for quantizing voice signals in a band-selective manner | |
| JP4359949B2 (en) | Signal encoding apparatus and method, and signal decoding apparatus and method | |
| WO2002021091A1 (en) | Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method | |
| JP3348759B2 (en) | Transform coding method and transform decoding method | |
| JPH09106299A (en) | Acoustic signal conversion encoding method and decoding method | |
| JP4281131B2 (en) | Signal encoding apparatus and method, and signal decoding apparatus and method | |
| JP3297749B2 (en) | Encoding method | |
| JP3237178B2 (en) | Encoding method and decoding method | |
| CN100585700C (en) | Speech coding device and method thereof | |
| JP2004246038A (en) | Speech tone signal encoding method, decoding method, encoding device, decoding device, encoding program, and decoding program | |
| JP4618823B2 (en) | Signal encoding apparatus and method | |
| JP3916934B2 (en) | Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus | |
| KR100928966B1 (en) | Low bit rate encoding / decoding method and apparatus | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20070913 Year of fee payment: 5 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20080913 Year of fee payment: 6 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20080913 Year of fee payment: 6 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20090913 Year of fee payment: 7 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20090913 Year of fee payment: 7 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20100913 Year of fee payment: 8 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20100913 Year of fee payment: 8 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20110913 Year of fee payment: 9 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20120913 Year of fee payment: 10 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20130913 Year of fee payment: 11 | |
| S531 | Written request for registration of change of domicile | Free format text: JAPANESE INTERMEDIATE CODE: R313531 | |
| R350 | Written notification of registration of transfer | Free format text: JAPANESE INTERMEDIATE CODE: R350 | |
| EXPY | Cancellation because of completion of term |