JP2004302259A - Hierarchical encoding method and hierarchical decoding method for audio signal - Google Patents
Hierarchical encoding method and hierarchical decoding method for audio signal Download PDFInfo
- Publication number
- JP2004302259A JP2004302259A JP2003096640A JP2003096640A JP2004302259A JP 2004302259 A JP2004302259 A JP 2004302259A JP 2003096640 A JP2003096640 A JP 2003096640A JP 2003096640 A JP2003096640 A JP 2003096640A JP 2004302259 A JP2004302259 A JP 2004302259A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- decoding
- encoding
- hierarchical
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】低ビットレートで高品質な符号化を行うこと。
【解決手段】入力端子201から第nレイヤ残差信号が入力され、時間領域符号化部203と目標信号生成部204に与えられる。時間領域符号化部203は、前記第nレイヤ残差信号と入力端子202より入力される入力信号を用いて、第nレイヤ残差信号を時間領域にて符号化を行い、符号化コードを生成する。目標信号生成部204は、入力端子201より入力される入力信号と時間領域符号化部203で求められた符号化コードを使い、周波数領域符号化部205の入力信号を生成する。周波数領域符号化部205は、目標信号生成部204で生成される信号と入力端子202より入力される入力信号を用いて、周波数領域にて符号化して符号化コードを生成し、多重化部206に出力する。
【選択図】 図2To perform high-quality encoding at a low bit rate.
An n-th layer residual signal is input from an input terminal, and supplied to a time domain coding unit and a target signal generation unit. The time domain encoding unit 203 encodes the n-th layer residual signal in the time domain using the n-th layer residual signal and an input signal input from the input terminal 202 to generate an encoded code. I do. The target signal generation unit 204 generates an input signal of the frequency domain coding unit 205 using the input signal input from the input terminal 201 and the coded code obtained by the time domain coding unit 203. The frequency domain coding unit 205 generates a coded code by performing coding in the frequency domain using the signal generated by the target signal generation unit 204 and the input signal input from the input terminal 202. Output to
[Selection] Fig. 2
Description
【0001】
【発明の属する技術分野】
本発明は、音響信号の階層符号化方法および階層復号化方法に関し、特に楽音信号または音声信号などの音響信号を高能率に圧縮符号化に用いて好適な音響信号の階層符号化方法および階層復号化方法に関する。
【0002】
【従来の技術】
楽音信号または音声信号を低ビットレートで圧縮する音響符号化技術は、移動体通信における電波等の伝送路容量及び記録媒体の有効利用のために重要である。音声信号を符号化する音声符号化に、ITU(International Telecommunication Union)で規格化されているG726、G729などの方式が存在する。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sで高品質に符号化が行える。また、広帯域信号(50Hz〜7kHz)を対象とする標準方式としてITUのG722、G722.1や、3GPP(The 3rd Generation Partnership Project)のAMR−WBなどが存在する。これらの方式は、ビットレートが6.6kbit/s〜64kbit/sで広帯域音声信号を高品質に符号化できる。
【0003】
音声信号を低ビットレートで高能率に符号化を行う有効な方法に、CELP(Code Excited Linear Prediction)がある。CELPは、人間の音声生成モデルを工学的に模擬したモデルに基づき、乱数やパルス列で表される励振信号を周期性の強さに対応するピッチフィルタと声道特性に対応する合成フィルタに通し、その出力信号と入力信号の二乗誤差が聴覚特性の重み付けの下で最小になるよう符号化コードを決定する方法である(例えば、非特許文献1参照)。最近の標準音声符号化方式の多くがCELPに基づいており、例えばG729は8kbit/sで狭帯域信号の符号化が行え、AMR−WBは6.6kbit/s〜23.85kbit/sで広帯域信号を符号化できる。
【0004】
一方で、楽音信号を符号化する楽音符号化の場合は、MPEG(Moving Picture Expert Group)で規格化されているレイヤIII方式やAAC方式のように、楽音信号を周波数領域に変換し、聴覚心理モデルを利用して符号化を行う変換符号化が一般的である。これらの方式は、サンプリング周波数が44.1kHzの信号に対しチャネル当たり64kbit/s〜96kbit/sで聴感的な劣化がほとんど生じないことが知られている。
【0005】
しかしながら、音声信号が主体で、背景に音楽や環境音が重畳している信号を符号化する場合、音声符号化方式を適用すると背景部の音楽や環境音の影響で、背景部の信号のみならず音声信号も劣化してしまい全体的な品質が低下するという問題があった。これは、音声符号化方式が、CELPという音声モデルに特化した方式を基本にしているために生じる問題である。また、音声符号化方式が対応できる信号帯域は高々7kHzまでであり、それ以上の高域を持つ信号に対しては構成上十分に対応しきれないという問題があった。
【0006】
一方で、楽音符号化は音楽に対して高品質に符号化を行えるので、前述したような背景に音楽や環境音がある音声信号についても十分な品質を得ることができる。対象となる信号の帯域もCD品質である22kHz程度まで対応可能である。その反面、高品質な符号化を実現するためにはビットレートを高くして使用する必要があり、仮にビットレートを32kbit/s程度まで低く抑えると復号信号の品質が低下するという問題がある。そのため、伝送レートの低い通信網で使用できないという問題があった。
【0007】
上述した問題を回避するためにこれら技術を組み合わせて、最初に入力信号を第1レイヤにてCELPで符号化し、次にその復号信号を入力信号から減算して得られる残差信号を求め、この信号を第2レイヤ以降にて変換符号化を行う方法が考えられる。この方法では、第1レイヤはCELPを用いているため音声信号を高品質に符号化でき、かつ第2レイヤ以降では第1レイヤで表しきれない背景の音楽や環境音、第1レイヤでカバーする周波数帯よりも高い周波数成分の信号を効率よく符号化することができる。
【0008】
しかしながら、音声ではなく音楽を入力したときに十分な品質を確保するためには、第2レイヤ以降へのビット配分を多くする必要があり、その結果ビットレートが高くなってしまうという問題がある。これは第1レイヤにCELPのような音声に特化した符号化方式を適用しているために生じる問題である。つまり、音楽信号が入力されたとき、第1レイヤで用いられるCELPでは音楽に対する符号化効率が高くないので、入力信号と第1レイヤの復号信号との誤差信号(つまり第2レイヤの入力信号)のパワーが大きくなる。この結果、第2レイヤ以降のレイヤに多くのビットを配分して、最終的な復号信号の品質を上げる必要があった。
【0009】
【非特許文献1】
”Code−Excited Linear Prediction (CELP): high quality speech at very low bit rates”, Proc. ICASSP 85, pp.937−940, 1985.
【0010】
【発明が解決しようとする課題】
このように、従来の装置においては、低ビットレートで高品質な符号化を行うことが難しいという問題がある。
【0011】
本発明はかかる点に鑑みてなされたものであり、低ビットレートで高品質な符号化を行うことができる音響信号の階層符号化方法および階層復号化方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明の階層符号化方法は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化方法であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化工程と、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化工程と、を具備し、前記第2符号化工程では、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域の双方で符号化するようにした。
【0013】
この方法によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0014】
本発明の階層符号化方法は、前記第2符号化工程は、上位レイヤで符号化された信号を復号して復号信号を生成する階層復号工程と、前記復号信号のサンプリング周波数を上げるアップサンプリング工程と、入力音響信号から前記復号信号を減算して差分信号を生成する階層減算工程と、前記差分信号を符号化する階層符号化工程とを具備するようにした。
【0015】
この方法によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0016】
本発明の階層符号化方法は、前記階層符号化工程は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化する時間領域符号化工程と、前記時間領域符号化工程で符号化された信号を復号して復号信号を生成する時間領域信号復号工程と、差分信号から前記復号信号を減算して第2差分信号を生成する時間領域信号減算工程と、前記第2差分信号を周波数領域で符号化する周波数領域符号化工程と、を具備するようにした。
【0017】
この方法によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0018】
本発明の階層符号化方法は、前記時間領域符号化工程は、上位レイヤで求められたピッチ周期から符号化で用いる適応ベクトルを限定する探索候補決定工程と、限定された適応ベクトルから入力音声信号と差が最も小さい適応ベクトルを探索する探索工程とを具備するようにした。
【0019】
この方法によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから探索の対象となる適応ベクトルの候補を限定し、限定した適応ベクトルを用いて符号化を行うことにより、時間領域符号化のピッチ周期の符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0020】
本発明の階層符号化方法は、前記時間領域符号化工程は、ピッチ周期を量子化する量子化工程を具備し、前記探索候補決定工程は、上位レイヤで求められたピッチ周期を当該レイヤのサンプリング周波数に適合するよう修正を加え、前記量子化工程は、修正後のピッチ周期を用いて当該レイヤのピッチ周期を量子化するようにした。
【0021】
この方法によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0022】
本発明の階層符号化方法は、前記時間領域符号化工程は、上位レイヤで求められた符号化のパラメータと当該レイヤの探索候補であるパラメータとを加算する加算工程と、前記加算工程の結果と入力音声信号から得られるパラメータと差が最も小さいパラメータを探索する探索工程とを具備するようにした。
【0023】
本発明の階層符号化方法は、前記時間領域符号化工程は、上位レイヤで求められたLPC係数をLSF係数に変換する変換工程と、を具備し、前記加算工程は、前記変換工程で変換されたLSF係数とLSF符号帳が保持するLSF係数とを加算し、前記探索工程は、加算されたLSF係数と入力音声信号から求められるLSF係数との差を最小とするLSF係数を探索するようにした。
【0024】
これらの方法によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を考慮して探索した最適な適応ベクトルを利用して復号化することにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0025】
本発明の階層符号化方法は、入力音響信号から聴覚マスキングを算出する聴覚マスキング工程を具備し、前記周波数領域符号化工程は、前記聴覚マスキングを用いたマスキング後の信号を用いて符号化するようにした。
【0026】
この方法によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0027】
本発明の階層復号化方法は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化された信号を復号する階層復号化方法であって、第1レイヤの符号化コードを復号する第1復号工程と、第2レイヤより下位のレイヤの符号化コードを時間領域と周波数領域の双方で復号する第2復号工程と、前記第1復号工程と前記第2復号工程の復号結果を加算する加算工程と、を具備するようにした。
【0028】
この方法によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0029】
本発明の階層復号化方法は、前記第1復号工程の復号結果のサンプリング周波数を前記第2復号工程の復号結果のサンプリング周波数にアップサンプリングするアップサンプリング工程を具備し、前記加算工程は、アップサンプリング後の前記第1復号工程と前記第2復号工程の復号結果を加算するようにした。
【0030】
この方法によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0031】
本発明の階層復号化方法は、前記第2復号工程は、時間領域の復号において、上位レイヤのピッチ周期またはLPC係数を用いて当該レイヤの復号を行う時間領域復号工程を具備するようにした。
【0032】
この方法によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0033】
また、この方法によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0034】
本発明の階層復号化方法は、前記第2復号工程は、聴覚マスキングを用いて周波数領域の係数を符号化して得られる符号化コードを復号する周波数領域復号工程を具備するようにした。
【0035】
この方法によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0036】
本発明の階層符号化装置は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化装置であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化手段と、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化手段と、を具備し、前記第2符号化手段は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域の双方で符号化する構成を採る。
【0037】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0038】
本発明の階層符号化装置は、前記第2符号化手段は、上位レイヤで符号化された信号を復号して復号信号を生成する階層復号手段と、前記復号信号のサンプリング周波数を上げるアップサンプリング手段と、入力音響信号から前記復号信号を減算して差分信号を生成する階層減算手段と、前記差分信号を符号化する階層符号化手段とを具備する構成を採る。
【0039】
この構成よれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0040】
本発明の階層符号化装置は、前記階層符号化手段は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化する時間領域符号化手段と、前記時間領域符号化手段で符号化された信号を復号して復号信号を生成する時間領域信号復号手段と、差分信号から前記復号信号を減算して第2差分信号を生成する時間領域信号減算手段と、前記第2差分信号を周波数領域で符号化する周波数領域符号化手段と、を具備する構成を採る。
【0041】
この構成によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0042】
本発明の階層符号化装置は、前記時間領域符号化手段は、過去に生成した適応ベクトルを保持する符号帳と、上位レイヤで求められたピッチ周期から符号化で用いる適応ベクトルを限定する探索候補決定手段と、限定された適応ベクトルから入力音声信号と聴感的な差が最も小さい適応ベクトルを探索する探索手段とを具備する構成を採る。
【0043】
この構成によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから探索の対象となる適応ベクトルの候補を限定し、限定した適応ベクトルを用いて符号化を行うことにより、時間領域符号化のピッチ周期の符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0044】
本発明の階層符号化装置は、前記時間領域符号化手段は、ピッチ周期を量子化する量子化手段を具備し、探索候補決定手段は、上位レイヤで求められたピッチ周期を当該レイヤのサンプリング周波数に適合するよう修正を加え、前記量子化手段は、修正後のピッチ周期を用いて当該レイヤのピッチ周期を量子化する構成を採る。
【0045】
この構成によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0046】
本発明の階層符号化装置は、前記時間領域符号化手段は、上位レイヤで求められた符号化のパラメータと当該レイヤの探索候補であるパラメータとを加算する加算手段と、前記加算手段の結果と入力音声信号と差が最も小さいパラメータを探索する探索手段とを具備する構成を採る。
【0047】
本発明の階層符号化装置は、前記時間領域符号化手段は、LSF係数を保持するLSF符号帳と、上位レイヤで求められたLPC係数をLSF係数に変換する変換手段とを具備し、前記加算手段は、前記変換手段で変換されたLSF係数とLSF符号帳が保持するLSF係数とを加算し、前記探索手段は、加算されたLSF係数と入力音声信号から求められるLSF係数との聴感的な差を最小とするLSF係数を探索する構成を採る。
【0048】
これらの構成によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を考慮して探索した最適な適応ベクトルを利用して復号化することにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0049】
本発明の階層符号化装置は、入力音響信号から聴覚マスキングを算出する聴覚マスキング手段を具備し、前記周波数領域符号化手段は、前記聴覚マスキングを用いたマスキング後の信号を用いて符号化する構成を採る。
【0050】
この構成によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0051】
本発明の階層復号化装置は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化された信号を復号する階層復号化装置であって、第1レイヤの符号化コードを復号する第1復号手段と、第2レイヤより下位のレイヤの符号化コードを時間領域と周波数領域の双方で復号する第2復号手段と、前記第1復号手段と前記第2復号手段の復号結果を加算する加算手段と、を具備する構成を採る。
【0052】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0053】
本発明の階層復号化装置は、前記第1復号手段の復号結果のサンプリング周波数を前記第2復号手段の復号結果のサンプリング周波数にアップサンプリングするアップサンプリング手段を具備し、前記加算手段は、アップサンプリング後の前記第1復号手段と前記第2復号手段の復号結果を加算する構成を採る。
【0054】
この構成によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0055】
本発明の階層復号化装置は、前記第2復号手段は、時間領域の復号において、上位レイヤのピッチ周期またはLPC係数を用いて当該レイヤの復号を行う時間領域復号手段を具備する構成を採る。
【0056】
この構成によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0057】
また、この構成によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0058】
本発明の階層復号化装置は、前記第2復号手段は、聴覚マスキングを用いて周波数領域の係数を符号化して得られる符号化コードを復号する周波数領域復号手段を具備する構成を採る。
【0059】
この構成によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0060】
本発明の音響信号送信装置は、音響信号を電気的信号に変換する音響入力手段と、この音響入力手段から出力された信号をディジタル信号に変換するA/D変換手段と、このA/D変換手段から出力されたディジタル信号を符号化する上記階層符号化装置と、この符号化装置から出力された符号化コードを無線周波数の信号に変調するRF変調手段と、このRF変調手段から出力された信号を電波に変換して送信する送信アンテナと、を具備する構成を採る。
【0061】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0062】
本発明の音響信号受信装置は、電波を受信する受信アンテナと、この受信アンテナに受信された信号を復調するRF復調手段と、このRF復調手段にて得られた情報を復号する上記階層復号化装置と、この復号化装置から出力された信号をアナログ信号に変換するD/A変換手段と、このD/A変換手段から出力された電気的信号を音響信号に変換する音響出力手段と、を具備する構成を採る。
【0063】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0064】
本発明の通信端末装置は、上記音響信号送信装置あるいは上記音響信号受信装置の少なくとも一方を具備する構成を採る。本発明の基地局装置は、上記音響信号送信装置あるいは上記音響信号受信装置の少なくとも一方を具備する構成を採る。
【0065】
これらの構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0066】
また、この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0067】
【発明の実施の形態】
本発明者は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分には、周期性のある信号と周期性のない信号の両方が存在することに着目し、本発明をするに至った。
【0068】
すなわち、本発明の骨子は、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、時間領域の符号化で符号化できない残差信号、すなわち差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことである。
【0069】
以下、本発明の実施の形態について図面を参照して詳細に説明する。以降の実施の形態の説明ではレイヤ数Nを3にした場合について説明するが、本発明はこの数値に限定されるものではなく、Nは、自然数であり、N≧2の条件を満たす構成に適用することが可能である。
【0070】
(実施の形態1)
図1は、本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図である。図1の階層符号化装置100は、入力端子101と、DS1部102と、第1レイヤ符号化部103と、第1レイヤ復号化部104と、US1部105と、DS2部106と、遅延器107と、減算器108と、第2レイヤ符号化部109と、第2レイヤ復号化部110と、加算器111と、US2部112と、遅延器113と、減算器114と、第3レイヤ符号化部115と、多重化部118と、出力端子119と、とから主に構成される。
【0071】
本実施の形態では、各レイヤに入力される信号のサンプリング周波数には次の式(1)に示す関係がある点に特徴がある。
【数1】
ここで、Fs(n)は第nレイヤの信号のサンプリング周波数を表す。本実施の形態によれば、複数のサンプリング周波数に対応した符号化を行うことが可能となる。
【0072】
入力端子101から、サンプリング周波数Fs(3)の音響信号が入力されDS1部102に与えられる。
【0073】
DS1部102は、入力音響信号をダウンサンプリングし、この入力音響信号のサンプリング周波数をFs(3)からFs(1)に下げる。そして、DS1部102は、サンプリング周波数Fs(1)の入力信号を第1レイヤ符号化部103に出力する。
【0074】
第1レイヤ符号化部103は、過去に生成した駆動音源信号を内部状態として保持している適応符号帳を有し、適応符号帳を用いることで周期性の強い信号を効率的に符号化することができる。第1レイヤ符号化部103は、入力音響信号と符号化後に生成される復号信号との間の聴感的な歪が最小となるように第1符号化コードを決定する。第1レイヤ符号化部103に適用される代表的な方法として符号励信線形予測法(CELP)がある。
【0075】
そして、第1レイヤ符号化部103は、得られた第1符号化コードを第1レイヤ復号化部104及び多重化部118に出力する。第1レイヤ復号化部104は、第1符号化コードを用いて第1レイヤ復号信号を生成し、この第1レイヤ復号信号をUS1部105に出力する。
【0076】
US1部105は、第1レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(1)からFs(2)に上げる。そして、US1部105は、サンプリング周波数Fs(2)の第1レイヤ復号信号を減算器108と加算器111に出力する。
【0077】
次に、入力端子101から入力される音響信号がDS2部106に与えられる。DS2部106は、入力音響信号をダウンサンプリングし、この入力音響信号のサンプリング周波数をFs(3)からFs(2)に下げる。そして、DS2部106は、サンプリング周波数Fs(2)の入力信号を遅延器107に出力する。
【0078】
遅延器107は、入力端子101から入力される音響信号を所定の時間長だけ遅延して減算器108に出力する。すなわち、DS1部102、第1レイヤ符号化部103、第1レイヤ復号化部104、US1部105およびDS2部106にて生じる遅延を補正する役割を持つ。
【0079】
減算器108は、遅延器107の出力信号と前述の第1レイヤ復号信号との差をとり第2レイヤ残差信号を生成する。そして、減算器108は、第2レイヤ残差信号を第2レイヤ符号化部109に出力する。
【0080】
第2レイヤ符号化部109は、第2レイヤ残差信号を聴感的に品質改善が成されるように符号化を行い、第2符号化コードを決定する。そして、第2レイヤ符号化部109は、第2レイヤ復号化部110と第2符号化コードを多重化部118に出力する。第2レイヤ復号化部110は、第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成し、この第2レイヤ復号残差信号を加算器111に出力する。
【0081】
加算器111は、第1レイヤ復号信号と第2レイヤ復号残差信号の和をとり、第2レイヤ復号信号を生成する。そして、加算器111は、この第2レイヤ復号信号をUS2部112に出力する。
【0082】
US2部112は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部112は、サンプリング周波数Fs(3)の第1レイヤ復号信号を減算器114に出力する。
【0083】
次に、遅延器113は、入力端子101から入力される音響信号を所定の時間長だけ遅延した後、この音響信号を減算器114に出力する。すなわち、遅延器113は、前段までの符号化部と復号化部で生じる遅延、具体的にはDS1部102からUS2部112までの信号処理で生じる遅延を補正する役割を持つ。
【0084】
減算器114は、遅延器113の出力信号と前述の第2レイヤ復号信号との差をとり第3レイヤ残差信号を生成する。そして、減算器114は、この第3レイヤ残差信号を第3レイヤ符号化部115に出力する。
【0085】
第3レイヤ符号化部115は、第3レイヤ残差信号を聴感的に品質改善が成されるように符号化して第3符号化コードを決定し、この第3符号化コードを多重化部118に出力する。
【0086】
多重化部118は、第1符号化コード、第2符号化コードおよび第3符号化コードを所定の手段によって多重化を行い、符号化ビット列を生成する。そして、多重化部118は、この符号化ビット列を出力端子119より出力する。
【0087】
次に、第2レイヤ以降の符号化の詳細について説明する。本実施の形態の階層符号化装置は、第2レイヤ以降の符号化において、入力音響信号と前段の符号化信号を復号化した信号との差分から残差信号を生成し、この残差信号を時間領域符号化部と周波数領域符号化部により符号化を行う点に特徴がある。
【0088】
次に、第nレイヤ(2≦n≦N)符号化部について説明を行う。図2は、本実施の形態の階層符号化装置の第nレイヤ(2≦n≦N)符号化部の構成を示すブロック図である。
【0089】
入力音響信号と第nレイヤ(2≦n≦N)符号化信号を復号化した信号との差分である第nレイヤ残差信号には、上位層までの符号化ノイズとサンプリング周波数が高くなったことによる高周波成分とが含まれる。
【0090】
第nレイヤ残差信号には時間領域で処理した場合に効率的に符号化できる成分と周波数領域で処理した場合に効率的に符号化できる成分とが混在している。そのため時間領域および周波数領域の2つの領域で符号化を行うことにより効率的な符号化が実現できるという効果が得られる。また、時間領域符号化部と周波数領域符号化部の両者には、入力信号がそれぞれ与えられている。この入力信号は、聴覚的に高品質な符号化を実現するために聴覚マスキングの算出などに利用される。以下、図2を用いて詳細な説明を行う。
【0091】
入力端子201から第nレイヤ残差信号が入力され、時間領域符号化部203と目標信号生成部204に与えられる。時間領域符号化部203は、前記第nレイヤ残差信号と入力端子202より入力される入力信号を用いて、第nレイヤ残差信号を時間領域にて符号化を行い、符号化コードを生成する。そして、時間領域符号化部203は、符号化コードを目標信号生成部204と多重化部206に出力する。時間領域符号化部203の詳細については図3を用いて後述する。
【0092】
次に、目標信号生成部204は、入力端子201より入力される入力信号と時間領域符号化部203で求められた符号化コードを使い、周波数領域符号化部205の入力信号を生成する。目標信号生成部204の詳細については図4を用いて後述する。
【0093】
次に、周波数領域符号化部205は、目標信号生成部204で生成される信号と入力端子202より入力される入力信号を用いて、周波数領域にて符号化して符号化コードを生成し、多重化部206に出力する。周波数領域符号化部205の詳細については図5を用いて後述する。
【0094】
以下、各ブロックの詳細について説明する。図3は、本実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図である。図3の時間領域符号化部203は、入力端子301と、LPC分析器302と、LPC量子化器303と、LPC復号器304と、聴感重みフィルタ305と、合成フィルタ306と、適応符号帳307と、雑音符号帳308と、乗算器309と、乗算器310と、ゲイン符号帳311と、加算器312と、減算器313と、探索器314と、多重化部315と、出力端子316とから主に構成される。
【0095】
LPC分析器302は、入力端子301から入力されたサンプリングレートFs(n)の音響信号からLPC係数を求める。このLPC係数は、聴感的な品質向上のために利用される係数である。LPC分析器302は、このLPC係数を聴感重みフィルタ305とLPC量子化器303に出力する。
【0096】
LPC量子化器303は、LPC係数をLSF係数などの量子化に適したパラメータに変換し、量子化を行う。そして、LPC量子化器303は、この量子化で得られる符号化コードを多重化部315とLPC復号器304に出力する。
【0097】
LPC復号器304は、符号化コードから量子化後のLSF係数を算出し、このLSF係数をLPC係数に変換する。この処理により、量子化後のLPC係数が求められる。そして、LPC復号器304は、この量子化後のLPC係数を合成フィルタ306に出力する。
【0098】
合成フィルタ306は、この量子化後のLPC係数を用いて適応ベクトル、適応ゲイン、雑音ベクトルおよび雑音ゲインの探索を行う。次に、適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの探索方法について説明する。
【0099】
適応符号帳307は、過去に生成した駆動音源信号を内部状態として保持しており、この内部状態を所望のピッチ周期で繰り返すことにより適応ベクトルを生成する。ピッチ周期の取る範囲は60Hz〜400Hzの間が適当である。また、雑音符号帳308は、あらかじめ記憶領域に格納されている雑音ベクトル、もしくは代数(algebraic)構造のように記憶領域を持たずにルールに従い生成される雑音ベクトルを出力する。
【0100】
ゲイン符号帳311は、適応ベクトルに乗じられる適応ベクトルゲインを乗算器309に出力し、雑音ベクトルに乗じられる雑音ベクトルゲインを乗算器310に出力する。
【0101】
乗算器309は、適応ベクトルに適応ベクトルゲインを乗算して加算器312に出力する。乗算器310は、雑音ベクトルに雑音ベクトルゲインを乗算して加算器312に出力する。
【0102】
加算器312は、適応ベクトルゲインが乗じられた適応ベクトルと雑音ベクトルゲインが乗じられた雑音ベクトルとを加算して駆動音源信号を生成する。そして、加算器312は、この駆動音源信号を合成フィルタ306に出力する。
【0103】
合成フィルタ306は、駆動音源信号を合成フィルタに通して合成信号を生成し、この合成信号を減算器313に出力する。
【0104】
減算器313は、入力端子317から入力される第nレイヤ予測残差信号から合成信号を減算し、聴感重みフィルタ305に減算後の信号を出力する。
【0105】
聴感重みフィルタ305は、LPC分析器302で求められたLPC係数を基に減算器313で求められる信号に重み付けを行う。これは、量子化歪のスペクトルを入力信号のスペクトル包絡にマスクされるようスペクトル整形を行うことを目的として行われる。
【0106】
探索器314では、減算後の信号から定義される歪が最小となる適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの組み合わせを効率よく探索し、それら符号化コードを多重化部315に送る。
【0107】
探索器314では、以下の式(2)または式(3)で定義される歪を最小とする符号化コードi、j、mまたはi、j、m、nを決定してそれらを多重化部315に送ることになる。
【数2】
【数3】
ここで、t(k)は第nレイヤ残差信号、qi(k)は第i番目の適応ベクトル、cj(k)は第j番目の雑音ベクトル、βとγはそれぞれ適応ベクトルゲインと雑音ベクトルゲインを表す。
【0108】
式(2)と式(3)とではゲイン符号帳の構成が異なる。式(2)の場合、ゲイン符号帳は適応ベクトルゲインβmと雑音ベクトルゲインγmを要素として持つベクトルとして表されており、ベクトルを特定するための符号化コードmが決定されることになる。式(3)の場合、ゲイン符号帳は適応ベクトルゲインβmと雑音ベクトルゲインγnをそれぞれ独立に有しており、それぞれの符号化コードm、nが独立に決定されることになる。また、h(l)は聴感重みフィルタのインパルス応答を表す。
は畳み込みを表す演算子である。
【0109】
全ての符号化コードが決定された後に、多重化部315は、符号化コードを一つにまとめて出力端子316より出力する。そして、次のフレーム(もしくはサブフレーム)での復号化処理に備えて、選択された適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインを用いて表される駆動音源信号を用いて適応符号帳の内部状態を更新する。
【0110】
次に、目標信号生成部204の詳細につい説明する。図4は、本実施の形態の階層符号化装置の目標信号生成部の構成を示すブロック図である。図4の目標信号生成部204は、入力端子401と、入力端子402と、復号部403と、遅延器404と、減算器405と、出力端子406とから主に構成される。
【0111】
入力端子401から時間領域符号化部203で得られる符号化コードが入力される。復号部403は、この符号化コードの情報に従い復号信号を生成する。
【0112】
遅延器404は、入力端子402から入力される第2レイヤ残差信号に時間領域符号化部203および復号部403で生じる遅延を補正するように遅延を与えた後、減算器405に出力する。
【0113】
減算器405は、遅延器404の出力信号から復号部403で得られる復号信号を減算して周波数領域符号化部205の目標信号を生成し、減算した信号を出力端子406から出力する。
【0114】
次に、周波数領域符号化部205の詳細について説明する。図5は、本実施の形態の階層符号化装置の周波数領域符号化部の構成を示すブロック図である。図5の周波数領域符号化部205は、入力端子501と、入力端子502と、周波数領域変換部503と、聴覚マスキング算出部504と、量子化部505と、出力端子506とから主に構成される。
【0115】
入力端子501から周波数領域符号化部205に入力される信号は、目標信号生成部204で求められた目標信号である。
【0116】
周波数領域変換部503は、目標信号に分析窓を乗じた後に周波数変換が行われ、この周波数変換で得られる変換係数が量子化部505に出力される。ここでの周波数変換の方法としては、変形離散コサイン変換(MDCT)や離散フーリエ変換(DFT)などを用いることができる。
【0117】
入力端子502からはサンプリング周波数Fs(n)の音響信号が与えられ、聴覚マスキング算出部504に入力される。聴覚マスキング算出部504は、人間には知覚されないノイズパワーの閾値を表す聴覚マスキングを算出し、量子化部505に聴覚マスキングを出力する。
【0118】
量子化部505は、聴覚マスキングを利用して周波数領域変換部503で求められた変換係数を量子化し、そのとき得られる符号化コードを出力端子506より出力する。
【0119】
次に聴覚マスキングの算出法を、図6を用いて詳細に説明する。図6は、本実施の形態の階層符号化装置の聴覚マスキング算出部の構成を示すブロック図である。人間の聴覚特性には、ある信号が与えられたとき、その信号の周波数の近傍に位置する信号が聞こえ難くなるというマスキング効果がある。この特性を利用して、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0120】
入力端子601から入力信号が与えられ、周波数変換部602にて周波数領域への変換が行われ変換係数が算出される。周波数領域への変換の方法として、前述のように変形離散コサイン変換(MDCT)や離散フーリエ変換(DFT)などを用いることが可能である。ここでは、DFTを用いる場合について説明することとし、DFTにより求められたフーリエ係数を{Re(m),Im(m)}と表すものとする。
【0121】
図6において、周波数変換部602は、遅延器107から出力された入力信号をフーリエ変換し、フーリエ係数{Re(m),Im(m)}を算出する。ここでmは周波数を表す。
【0122】
バークスペクトル算出部603は、以下の式(4)を用いてバークスペクトルB(k)を算出する。
【数4】
ここで、P(m)はパワースペクトルを表し、以下の式(5)より求められる。
【数5】
また、kはバークスペクトルの番号に対応し、FL(k)、FH(k)はそれぞれ第kバークスペクトルの最低周波数(Hz)、最高周波数(Hz)を表す。バークスペクトルB(k)はバークスケール上で等間隔に帯域分割されたときのスペクトル強度を表す。ヘルツスケールをf、バークスケールをBと表したとき、ヘルツスケールとバークスケールの関係は以下の式(6)で表される。
【数6】
【0123】
スプレッド関数畳み込み部604は、以下に示す式(7)を用いてバークスペクトルB(k)にスプレッド関数SF(k)を畳み込み、C(k)を算出する。
【数7】
【0124】
トーナリティ算出部605は、以下の式(8)を用い、パワースペクトルP(m)から各バークスペクトルのスペクトル平坦度SFM(k)を求める。
【数8】
ここで、μg(k)は第kバークスペクトルの幾何平均、μa(k)は第kバークスペクトルの算術平均を表す。そして、トーナリティ算出部605は、以下の式(9)を用いてスペクトル平坦度SFM(k)のデシベル値SFMdB(k)からトーナリティ係数α(k)を算出する。
【数9】
【0125】
聴覚マスキング算出部606は、以下の式(10)を用いてトーナリティ算出部605で算出したトーナリティ係数α(k)から各バークスケールのオフセットO(k)を求める。
【数10】
【0126】
そして、聴覚マスキング算出部606は、以下の式(11)を用いてスプレッド関数畳み込み部604で求めたC(k)からオフセットO(k)を減算して聴覚マスキングT(k)を算出する。
【数11】
ここで、Tq(k)は絶対閾値を表す。絶対閾値は、人間の聴覚特性として観測される聴覚マスキングの最小値を表す。そして、聴覚マスキング算出部606は、バークスケールで表される聴覚マスキングT(k)をヘルツスケールM(m)に変換して出力する。
【0127】
このように、本実施の形態の階層符号化装置によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0128】
特に、本実施の形態の階層符号化装置によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、前記差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0129】
また、本実施の形態の階層符号化装置によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0130】
(実施の形態2)
本実施の形態では、実施の形態1の階層符号化装置で符号化された信号を復号する例について説明する。本実施の形態の特徴は、実施の形態1で説明された階層符号化法の符号化コードを復号することができ、その結果高品質な音響信号を復号することが可能になる点にある。
【0131】
図7は、本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図である。図7の階層復号化装置700は、入力端子701と、分離部702と、第1レイヤ復号化部703と、US1部704と、加算器705と、第2レイヤ復号化部706と、US2部707と、第3レイヤ復号化部708と、加算器709と出力端子710とから主に構成される。
【0132】
入力端子701から図1の階層符号化装置にて符号化された符号化ビット列が入力される。
【0133】
分離部702は、符号化ビット列を分離し、第1レイヤ符号化で得られる第1符号化コード、第2レイヤ符号化で得られる第2符号化コードおよび第3レイヤ符号化で得られる第3符号化コードを生成する。そして、分離部702は、第1符号化コードを第1レイヤ復号化部703に出力し、第2符号化コードを第2レイヤ復号化部706に出力し、第3符号化コードを第3レイヤ復号化部708に出力する。
【0134】
第1レイヤ復号化部703は、分離部702で得られた第1符号化コードを用いて復号処理を行い、第1レイヤ復号信号を生成する。
【0135】
US1部704は、第1レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(1)からFs(2)に上げる。そして、US1部704は、サンプリング周波数Fs(2)の第1レイヤ復号信号を加算器705に出力する。
【0136】
次に、第2レイヤ復号化部706は、分離部702で得られた第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成する。加算器705では、前述の第1レイヤ復号信号と第2レイヤ復号残差信号とを加算し、第2レイヤ復号信号を生成する。そして、加算器705は、第2レイヤ復号信号をUS2部707に出力する。
【0137】
US2部707は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部707は、サンプリング周波数Fs(3)の第1レイヤ復号信号を加算器709に出力する。
【0138】
次に、第3レイヤ復号化部708は、分離部702で得られた第3符号化コードを用いて復号処理を行い、第3レイヤ復号残差信号を生成する。加算器709は、前述の第2レイヤ復号信号と第3レイヤ復号残差信号とを加算し、第3レイヤ復号信号を生成する。加算器709は、第3レイヤ復号信号を出力端子710に出力する。
【0139】
次に、第nレイヤ(2≦n≦N)復号化部について説明を行う。図8は、本実施の形態の階層復号化装置の第2レイヤ以降の復号化部の構成を示すブロック図である。
【0140】
入力端子801より第nレイヤ(2≦n≦N)符号化コードが入力される。分離部802は、第nレイヤ(2≦n≦N)符号化コードを時間領域符号化コードと周波数領域符号化コードに分離する。そして、分離部802は、時間領域符号化コードを時間領域復号化部803に出力し、周波数領域符号化コードを周波数領域復号化部804に出力する。
【0141】
時間領域復号化部803は、時間領域符号化コードを用いて時間領域復号信号を生成し、時間領域復号信号を加算器805に出力する。時間領域復号化部803の詳細については図9を用いて後述する。
【0142】
同様に、周波数領域復号化部804は、周波数領域符号化コードを用いて周波数領域復号信号を生成し、加算器805に出力する。周波数領域復号化部804の詳細については図10を用いて後述する。加算器805は、時間領域復号信号と周波数領域復号信号との加算を行い、出力端子806より出力する。
【0143】
次に、図9を用いて時間領域復号化部803の説明を行う。図9は、本実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図である。
【0144】
図9において、分離部902は、入力端子901より入力される時間領域符号化コードから符号化コードを分離し、適応符号帳903、雑音符号帳904、ゲイン符号帳905、及びLPC復号器909にそれぞれ出力する。LPC復号器909は、与えられる符号化コードを用いてLPC係数を復号し、合成フィルタ910に出力する。
【0145】
次に、適応符号帳903、雑音符号帳904およびゲイン符号帳905は、符号化コードを利用してそれぞれ適応ベクトルq(k)、雑音ベクトルc(k)、適応ベクトルゲインβqおよび雑音ベクトルゲインγqをそれぞれ復号する。
【0146】
乗算器906は、適応ベクトルに適応ベクトルゲインを乗じて加算器908に出力する。同様に、乗算器907は、雑音ベクトルに雑音ベクトルゲインを乗じて加算器908に出力する。加算器908は、乗算後の適応ベクトルと雑音ベクトルとを加算して駆動音源信号を生成する。駆動音源信号をex(k)と表すと、駆動音源信号ex(k)は次の式(12)のように求められる。
【数12】
【0147】
次に、復号されたLPC係数と駆動音源信号ex(k)を用いて合成フィルタ910にて合成信号syn(k)を次の式(13)に従い生成する。
【数13】
ここで、αqは復号されたLPC係数、NPはLPC係数の次数を表す。このように復号された復号信号syn(n)は出力端子911より出力される。上記復号化処理が終了した後に、次のフレーム(もしくはサブフレーム)での復号化処理に備えて、適応符号帳の内部状態を最新の駆動音源信号を用いて更新する。
【0148】
次に図10を用いて周波数領域復号化部804の説明を行う。図10は、本実施の形態の階層復号化装置の周波数領域復号化部の構成を示すブロック図である。変換係数復号化部1002は、入力端子1001から入力される周波数領域符号化コードから量子化された変換係数を復号する。次に時間領域変換部1003は、変換係数復号化部1002から得られる変換係数に時間領域変換処理を施し、時間領域の信号を生成する。時間領域の信号にはフレーム(またはサブフレーム)間の不連続が生じないように重ね合わせ加算などの処理が施される。そして、時間領域変換部1003は、この出力信号を出力端子1004より出力する。
【0149】
このように、本実施の形態の階層復号化装置によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0150】
また、本実施の形態の階層復号化装置によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0151】
(実施の形態3)
図11は、本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図である。本実施の形態では、第nレイヤ(2≦n≦N)符号化部が時間領域符号化部と周波数領域符号化部で構成される音響信号符号化方式において、上位レイヤにて求められたピッチ周期を利用して符号化を行う時間領域符号化部を有する点に特徴がある。
【0152】
本実施の形態によれば、上位レイヤで求めたピッチ周期を利用することにより、時間領域符号化部のピッチ周期の符号化をより効率的に行うことが可能となり、その結果として低ビットレートで高品質に符号化を行うことができる。図11において、図2と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0153】
入力端子1108から、上位レイヤにて求められたピッチ周期Tが入力される。時間領域符号化部1103は、入力された上位レイヤのピッチ周期を利用して符号化を行う。この場合の時間領域符号化部1103の構成を図12に示す。図12は、本実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図である。図12において、図3と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0154】
入力端子1218から入力される下位レイヤのピッチ周期Tは探索候補決定部1219に与えられる。探索候補決定部1219は、上位レイヤのピッチ周期Tを基に適応符号帳1207に含まれる探索の対象となる適応ベクトルの候補を限定する。
【0155】
上記限定により、適応符号帳1207に含まれる全ての候補を探索の対象とする場合に比べ、この方法によれば探索の対象となる適応ベクトルの候補が少なくなるために当該レイヤのピッチ周期を表すための符号量を少なくできる。さらに適応符号帳の探索に必要な演算量が削減できるなどの効果が得られる。
【0156】
探索候補決定部1219は、上位レイヤのピッチ周期Tを使用して次の式(14)で示される範囲に含まれるピッチ周期に対応する適応ベクトルを探索の対象とすることができる。ただし、上位レイヤのサンプリング周波数と当該レイヤのサンプリング周波数が異なる場合、当該レイヤのサンプリング周波数に適合するように上位レイヤのピッチ周期Tを修正して使用するものとする。
【数14】
ここで、T(n)は当該レイヤ(第nレイヤ)のピッチ周期を表す。T(m)は上位レイヤのピッチ周期を表し、mの範囲は、1≦m<nと表される。また、ΔT1とΔT2はピッチ周期の範囲を決定する定数を表す。適応ベクトルの探索は式(14)に含まれるピッチ周期T(n)に対応する適応ベクトルについてのみ行われることになり、探索の結果、相対ピッチ周期ΔTが決定され、この情報が符号化コードとして多重化部1215に与えられる。
【0157】
また、上位レイヤのピッチ周期が倍ピッチもしくは半ピッチになっている場合を考慮して、次に示す式(15)に従い適応符号帳1207に含まれる適応ベクトルの探索候補を決定しても良い。
【数15】
ここで、kはk={…,1/4,1/3,1/2,1,2,3,4,…}のように整数倍もしくは整数分の1を表す変数である。またΔT1(k)およびΔT2(k)と表記しているのは、kの値に依存してピッチ周期の探索範囲が異なることがある場合を示している。
【0158】
このように、本実施の形態の階層符号化装置によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから探索の対象となる適応ベクトルの候補を限定し、限定した適応ベクトルを用いて符号化を行うことにより、時間領域符号化のピッチ周期の符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0159】
(実施の形態4)
図13は、本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図である。本実施の形態では、第nレイヤ(2≦n≦N)符号化部が時間領域符号化部と周波数領域符号化部で構成される階層符号化方式において、上位レイヤにて求められたピッチ周期を利用して符号化を行う時間領域符号化部により生成された符号化コードを復号できる点に特徴がある。
【0160】
本実施の形態によれば、上位レイヤで求めたピッチ周期を利用することにより、時間領域符号化部のピッチ周期の符号化がより効率的に行うことが可能となり、その結果として低ビットレートで高品質に符号化を行うことができる階層符号化方式の符号化コードを復号することにより、高品質な復号信号を得ることができるという効果が得られる。
【0161】
図13において、図8と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。入力端子1307から、上位レイヤにて復号されたピッチ周期Tが入力され、時間領域復号化部1303に与えられる。
【0162】
時間領域符号化部1303は、入力された上位レイヤのピッチ周期を利用して復号化を行う。この時間領域復号化部1303の構成を図14に示す。図14は、本実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図である。図14において、図9と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0163】
入力端子1412から入力される上位レイヤにて復号されたピッチ周期Tは適応ベクトル決定部1413に与えられる。さらに、分離部1402にて相対ピッチ周期ΔTが復号され適応ベクトル決定部1413に与えられる。
【0164】
適応ベクトル決定部1413は、下位レイヤのピッチ周期Tおよび相対ピッチ周期ΔTを用いて、次の式(16)に従い当該レイヤのピッチ周期Tを算出する。
【数16】
ここで、T(n)は当該レイヤ(第nレイヤ)のピッチ周期を表し、T(m)は上位レイヤ(1≦m<n)のピッチ周期を表す。式(15)に従い適応ベクトルの探索候補が決定されている場合には、当該レイヤのピッチ周期は次の式(17)に従い算出される。
【数17】
ここで、kはk={…,1/4,1/3,1/2,1,2,3,4,…}のように整数倍もしくは整数分の1を表す変数である。このようにして復号した当該レイヤのピッチ周期を適応符号帳1403に与える。適応符号帳1403では、復号したピッチ周期に対応した適応ベクトルを出力することになる。
【0165】
このように、本実施の形態の音声復号化装置によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0166】
(実施の形態5)
実施の形態5では、実施の形態3の入力端子1108から入力されるパラメータが異なる例について説明する。実施の形態3では上位レイヤで求められたピッチ周期が入力されていたが、本実施の形態では上位レイヤにて求められたLPC係数が入力される。
【0167】
本実施の形態では、第nレイヤ(2≦n≦N)符号化部が時間領域符号化部と周波数領域符号化部で構成される階層符号化方式において、上位レイヤにて求められたLPC係数を利用して符号化を行う時間領域符号化部を有する点に特徴がある。本実施の形態によれば、上位レイヤで求めたLPC係数を利用することにより、時間領域符号化部のLPC係数の符号化がより効率的に行うことが可能となり、その結果として低ビットレートで高品質に符号化を行うことができる。図11において、図2と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0168】
図11において、入力端子1108から、上位レイヤにて求められたLPC係数が入力され、時間領域符号化部1103に与えられる。時間領域符号化部1103は、入力された下位レイヤのLPC係数を利用して符号化を行う。この場合の時間領域符号化部1103の構成を図15に示す。図15は、本実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図である。図15において、図3と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0169】
入力端子1518から入力される上位レイヤのLPC係数は、LPC量子化器1503に与えられる。LPC量子化器1503は、LPC分析器1502から与えられる当該レイヤのLPC係数を上位レイヤのLPC係数を利用して効率的に符号化を行う。LPC量子化器1503の構成を、図16を用いて説明する。図16は、本実施の形態の階層符号化装置のLPC量子化器の構成を示すブロック図である。
【0170】
入力端子1609からここでは図示されないLPC分析器1502で求められた当該レイヤのLPC係数が入力される。当該レイヤのLPC係数を{αp; p=1〜NP(n)}と表す。ここでNP(n)は当該レイヤ(第nレイヤ)のLPC係数の次数を表す。
【0171】
次に、LSF変換部1606は、当該フレームのLPC係数をLSF係数に変換する。LSF係数は、LPC係数と相互に変換可能なパラメータで、フィルタの安定条件判定が容易、パラメータの補間特性が良い、スペクトル歪に対するパラメータの感度がほぼ一定などの利点があり、音声符号化の分野では広く利用されている。
【0172】
ここでLSF係数を{Fp; p=1〜NP(n)}と表すと、LSF係数は0〜1の間の値を取り、かつFp<Fp+1の関係がある。同様に入力端子1601から入力される上位レイヤのLPC係数を{βp; p=1〜NP(m)}と表す。ここでNP(m)は上位レイヤ(第mレイヤ、m<n)のLPC係数の次数を表す。
【0173】
次に、LSF変換部1602は、上位レイヤのLPC係数{βp; p=1〜NP(m)}をLSF係数{Gp; p=1〜NP(m)}に変換する。次に、修正部1603は、当該レイヤのサンプリング周波数に適合するように下位レイヤのLSF係数に定数を乗じる。この定数は、Fs(m)/Fs(n)で表される。
【0174】
加算器1605は、修正部1603から与えられる変換後の下位レイヤのLSF係数とデルタLSF符号帳1604に格納されているデルタLSFベクトルとを加算する。減算器1607は、当該レイヤのLSF係数から加算器1605の出力ベクトルを減じ、その誤差信号を探索器1608に出力する。
【0175】
探索器1608は、前記誤差信号のエネルギーまたは聴感的に重み付けされたエネルギーを最小にするデルタLSF符号帳1604に格納されているデルタLSFベクトルを効率的に探索し、そのインデックスを符号化コードとして出力端子1610より出力する。
【0176】
このように、本実施の形態の階層符号化装置によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたLPC係数(またはLSF係数)と当該レイヤのLPC係数(またはLSF係数)を用いて最適なデルタLSFベクトルを探索することにより、上位レイヤにて求められたLPC係数を考慮して最適なデルタLSFベクトルを探索することができ、時間領域符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0177】
(実施の形態6)
実施の形態6では、実施の形態4の入力端子1307から入力されるパラメータが異なる例について説明する。実施の形態4では上位レイヤで求められたピッチ周期が入力されていたが、実施の形態6では上位レイヤにて求められたLPC係数が入力される。
【0178】
本実施の形態では、第nレイヤ(2≦n≦N)復号化部が時間領域復号化部と周波数領域復号化部で構成される音響信号復号化方式において、上位レイヤにて復号されたLPC係数を利用して当該レイヤのLPC係数の復号化を行う時間領域復号化部を有する点に特徴がある。本実施の形態によれば、下位レイヤで復号化されたLPC係数を利用することにより、LPC係数の符号化を効率的に行う時間領域符号化部の符号化コードを復号することが可能となり、その結果として低ビットレートで高品質な復号信号を生成することができる。図13において、図8と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0179】
入力端子1307から、上位レイヤにて復号されたLPC係数が入力され、時間領域復号化部1303に与えられる。時間領域復号化部1303は、入力された上位レイヤのLPC係数を利用して復号化を行う。この場合の時間領域復号化部1303の構成を図17に示す。図17は、本実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図である。図17において、図9と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0180】
入力端子1712から入力される上位レイヤのLPC係数はLPC復号器1709に与えられる。LPC復号器1709は、当該レイヤのLPC係数を上位レイヤのLPC係数を利用して復号する。LPC復号器1709の構成を、図18を用いて説明する。図18は、本実施の形態の階層復号化装置のLPC復号器の構成を示すブロック図である。
【0181】
入力端子1801から上位レイヤのLPC係数{βp; p=1〜NP(m)}が入力される。LSF変換部1807は、上位レイヤのLSF係数{Gp; p=1〜NP(m)}に変換する。修正部1803は、上位レイヤのサンプリング周波数Fs(m)と当該レイヤのサンプリング周波数Fs(n)で規定される定数Fs(m)/Fs(n)を上位レイヤのLSF係数{Gp; p=1〜NP(m)}に乗じ、加算器1805に与える。
【0182】
入力端子1802からはデルタLSFベクトルを表す符号化コードが入力される。デルタLSF符号帳1804は、この符号化コードを用いてデルタLSFベクトルを復号し、加算器1805に与える。加算器1805は、修正後の上位レイヤLSF係数と復号されたデルタLSFベクトルとを加算し、加算後のLSFベクトルをLPC変換部1808に与える。LPC変換部1808は、LSFベクトルからLPC係数に変換し、出力端子1806から出力する。
【0183】
このように、本実施の形態の音声復号化装置によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を考慮して探索した最適なデルタLSFベクトルを利用して復号化することにより、時間領域符号化のLPC係数の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0184】
(実施の形態7)
次に、本発明の実施の形態7について、図面を参照して説明する。図19は、本発明の実施の形態7に係る通信装置の構成を示すブロック図である。図19における信号処理装置1903は前述した実施の形態1から実施の形態6に示した階層符号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0185】
図19に示すように、本発明の実施の形態7に係る通信装置1900は、入力装置1901、A/D変換装置1902及びネットワーク1904に接続されている信号処理装置1903を具備している。
【0186】
A/D変換装置1902は、入力装置1901の出力端子に接続されている。信号処理装置1903の入力端子は、A/D変換装置1902の出力端子に接続されている。信号処理装置1903の出力端子はネットワーク1904に接続されている。
【0187】
入力装置1901は、人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置1902に与える。A/D変換装置1902はアナログ信号をディジタル信号に変換して信号処理装置1903に与える。信号処理装置1903は入力されてくるディジタル信号を符号化してコードを生成し、ネットワーク1904に出力する。
【0188】
このように、本発明の実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化する階層符号化装置を提供することができる。
【0189】
(実施の形態8)
次に、本発明の実施の形態8について、図面を参照して説明する。図20は、本発明の実施の形態8に係る通信装置の構成を示すブロック図である。図20における信号処理装置2003は前述した実施の形態1から実施の形態6に示した階層復号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0190】
図20に示すように、本発明の実施の形態8に係る通信装置2000は、ネットワーク2001に接続されている受信装置2002、信号処理装置2003、及びD/A変換装置2004及び出力装置2005を具備している。
【0191】
受信装置2002の入力端子は、ネットワーク2001に接続されている。信号処理装置2003の入力端子は、受信装置2002の出力端子に接続されている。D/A変換装置2004の入力端子は、信号処理装置2003の出力端子に接続されている。出力装置2005の入力端子は、D/A変換装置2004の出力端子に接続されている。
【0192】
受信装置2002は、ネットワーク2001からのディジタルの符号化音響信号を受けてディジタルの受信音響信号を生成して信号処理装置2003に与える。信号処理装置2003は、受信装置2002からの受信音響信号を受けてこの受信音響信号に復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置2004に与える。D/A変換装置2004は、信号処理装置2003からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置2005に与える。出力装置2005は、電気的信号であるアナログの復号化音響信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0193】
このように、本実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0194】
(実施の形態9)
次に、本発明の実施の形態9について、図面を参照して説明する。図21は、本発明の実施の形態9に係る通信装置の構成を示すブロック図である。本発明の実施の形態9において、図21における信号処理装置2103は、前述した実施の形態1から実施の形態6に示した音響符号化手段の中の1つによって構成されている点に本実施の形態の特徴がある。
【0195】
図21に示すように、本発明の実施の形態9に係る通信装置2100は、入力装置2101、A/D変換装置2102、信号処理装置2103、RF変調装置2104及びアンテナ2105を具備している。
【0196】
入力装置2101は人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置2102に与える。A/D変換装置2102はアナログ信号をディジタル信号に変換して信号処理装置2103に与える。信号処理装置2103は入力されてくるディジタル信号を符号化して符号化音響信号を生成し、RF変調装置2104に与える。RF変調装置2104は、符号化音響信号を変調して変調符号化音響信号を生成し、アンテナ2105に与える。アンテナ2105は、変調符号化音響信号を電波として送信する。
【0197】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化することができる。
【0198】
なお、本発明は、オーディオ信号を用いる送信装置、送信符号化装置又は音響信号符号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0199】
(実施の形態10)
次に、本発明の実施の形態10について、図面を参照して説明する。図22は、本発明の実施の形態10に係る通信装置の構成を示すブロック図である。本発明の実施の形態10において、図22における信号処理装置2203は、前述した実施の形態1から実施の形態6に示した音響復号化手段の中の1つによって構成されている点に本実施の形態の特徴がある。
【0200】
図22に示すように、本発明の実施の形態10に係る通信装置2200は、アンテナ2201、RF復調装置2202、信号処理装置2203、D/A変換装置2204及び出力装置2205を具備している。
【0201】
アンテナ2201は、電波としてのディジタルの符号化音響信号を受けて電気信号のディジタルの受信符号化音響信号を生成してRF復調装置2202に与える。RF復調装置2202は、アンテナ2201からの受信符号化音響信号を復調して復調符号化音響信号を生成して信号処理装置2203に与える。
【0202】
信号処理装置2203は、RF復調装置2202からのディジタルの復調符号化音響信号を受けて復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置2204に与える。D/A変換装置2204は、信号処理装置2203からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置2205に与える。出力装置2205は、電気的信号であるアナログの復号化音声信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0203】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0204】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0205】
また、本発明は上記実施の形態に限定されず、種々変更して実施することが可能である。例えば、上記実施の形態では、信号処理装置として行う場合について説明しているが、これに限られるものではなく、この信号処理方法をソフトウェアとして行うことも可能である。
【0206】
例えば、上記信号処理方法を実行するプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作させるようにしても良い。
【0207】
また、上記信号処理方法を実行するプログラムをコンピュータで読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access memory)に記録して、コンピュータをそのプログラムにしたがって動作させるようにしても良い。
【0208】
なお、上記説明では、時間領域から周波数領域への変換法に離散フーリエ変換を用いる場合について説明を行っているがこれに限定されず直交変換であればいずれも適用できる。例えば、離散コサイン変換またはMDCT(変形離散コサイン変換)等を適用することもできる。
【0209】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0210】
【発明の効果】
以上説明したように、本発明の音響信号の階層符号化方法および階層復号化方法によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、時間領域の符号化で符号化できない残差信号、すなわち差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、低ビットレートで高品質な符号化を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図
【図2】上記実施の形態の階層符号化装置の第nレイヤ(2≦n≦N)符号化部の構成を示すブロック図
【図3】上記実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図
【図4】上記本実施の形態の階層符号化装置の目標信号生成部の構成を示すブロック図
【図5】上記実施の形態の階層符号化装置の周波数領域符号化部の構成を示すブロック図
【図6】上記実施の形態の階層符号化装置の聴覚マスキング算出部の構成を示すブロック図
【図7】本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図
【図8】上記実施の形態の階層復号化装置の第2レイヤ以降の復号化部の構成を示すブロック図
【図9】上記実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図
【図10】上記実施の形態の階層復号化装置の周波数領域復号化部の構成を示すブロック図
【図11】本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図
【図12】上記実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図
【図13】本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図
【図14】上記実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図
【図15】本発明の実施の形態5に係る階層符号化装置の時間領域符号化部の構成を示すブロック図
【図16】上記実施の形態の階層符号化装置のLPC量子化器の構成を示すブロック図
【図17】本発明の実施の形態6に係る階層復号化装置の時間領域復号化部の構成を示すブロック図
【図18】上記実施の形態の階層復号化装置のLPC復号器の構成を示すブロック図
【図19】本発明の実施の形態7に係る通信装置の構成を示すブロック図
【図20】本発明の実施の形態8に係る通信装置の構成を示すブロック図
【図21】本発明の実施の形態9に係る通信装置の構成を示すブロック図
【図22】本発明の実施の形態10に係る通信装置の構成を示すブロック図
【符号の説明】
102 DS1部
103 第1レイヤ符号化部
104、703 第1レイヤ復号化部
107、113、404 遅延器
105、704 US1部
106 DS2部
108、114、405 減算器
109 第2レイヤ符号化部
110、704 第2レイヤ復号化部
111、705、709、805、1305 加算器
112、707 US2部
115 第3レイヤ符号化部
203 時間領域符号化部
204 目標信号生成部
205 周波数領域符号化部
403 復号部
503 周波数領域変換部
504 聴覚マスキング算出部
505 量子化部
708 第3レイヤ復号化部
803、1303 時間領域復号化部
804、1304 周波数領域復号化部
1002 変換係数復号化部
1003 時間領域変換部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a hierarchical encoding method and a hierarchical decoding method for an audio signal, and more particularly, to a hierarchical encoding method and a hierarchical decoding method suitable for efficiently using an audio signal such as a musical sound signal or an audio signal for compression encoding. About the method of conversion.
[0002]
[Prior art]
An acoustic coding technique for compressing a tone signal or a voice signal at a low bit rate is important for effective use of a transmission path capacity of radio waves and the like and a recording medium in mobile communication. There are G726 and G729 standardized by ITU (International Telecommunication Union) for audio coding for encoding an audio signal. These systems target narrowband signals (300 Hz to 3.4 kHz) and can perform high-quality encoding at 8 kbit / s to 32 kbit / s. In addition, there are ITU G722, G722.1, 3GPP (The 3rd Generation Partnership Project) AMR-WB, and the like as standard systems for wideband signals (50 Hz to 7 kHz). These methods can code a wideband audio signal with high quality at a bit rate of 6.6 kbit / s to 64 kbit / s.
[0003]
An effective method of encoding a speech signal at a low bit rate with high efficiency is CELP (Code Excited Linear Prediction). CELP is based on a model that simulates a human voice generation model by engineering, and passes an excitation signal represented by a random number or a pulse train through a pitch filter corresponding to the strength of the periodicity and a synthesis filter corresponding to the vocal tract characteristics, This is a method of determining an encoding code such that the square error between the output signal and the input signal is minimized under the weighting of auditory characteristics (for example, see Non-Patent Document 1). Many of the recent standard audio coding systems are based on CELP. For example, G729 can perform narrowband signal coding at 8 kbit / s, and AMR-WB can perform wideband signal coding at 6.6 kbit / s to 23.85 kbit / s. Can be encoded.
[0004]
On the other hand, in the case of musical sound encoding for encoding a musical sound signal, a musical sound signal is converted into a frequency domain like a layer III system or an AAC system standardized by MPEG (Moving Picture Expert Group), and the psychoacoustic is used. Transform coding in which coding is performed using a model is general. In these systems, it is known that a signal having a sampling frequency of 44.1 kHz has 64 kbit / s to 96 kbit / s per channel and hardly causes audible deterioration.
[0005]
However, when encoding a signal mainly composed of audio signals and having music or environmental sound superimposed on the background, if the audio encoding method is applied, the effect of the music or environmental sound in the background will cause the signal to be encoded only in the background. In addition, there is a problem that the audio signal is deteriorated and the overall quality is reduced. This is a problem that occurs because the speech coding system is based on a CELP-based system specialized for a speech model. In addition, the signal band that can be supported by the audio coding system is up to 7 kHz at most, and there is a problem that a signal having a higher band than that can not be sufficiently supported due to its configuration.
[0006]
On the other hand, music encoding can perform high-quality encoding on music, so that sufficient quality can be obtained even for audio signals having music and environmental sounds in the background as described above. The band of the target signal can be handled up to the CD quality of about 22 kHz. On the other hand, in order to realize high-quality encoding, it is necessary to use a high bit rate, and if the bit rate is suppressed to about 32 kbit / s, there is a problem that the quality of a decoded signal is reduced. For this reason, there is a problem that it cannot be used in a communication network having a low transmission rate.
[0007]
Combining these techniques to avoid the problems described above, the input signal is first coded by CELP in the first layer, and then the decoded signal is subtracted from the input signal to obtain a residual signal. A method of transform-encoding a signal in the second and subsequent layers can be considered. In this method, since the first layer uses CELP, the audio signal can be encoded with high quality, and the second layer and the subsequent layers cover the background music and environmental sound that cannot be expressed by the first layer, and the first layer. A signal having a frequency component higher than the frequency band can be efficiently encoded.
[0008]
However, in order to secure sufficient quality when music is input instead of voice, it is necessary to increase the bit allocation to the second and subsequent layers, resulting in a problem that the bit rate increases. This is a problem that arises because a speech-specific coding scheme such as CELP is applied to the first layer. That is, when a music signal is input, the CELP used in the first layer does not have high coding efficiency for music, so an error signal between the input signal and the decoded signal of the first layer (that is, the input signal of the second layer) Power is increased. As a result, it is necessary to allocate many bits to the second and subsequent layers to improve the quality of the final decoded signal.
[0009]
[Non-patent document 1]
"Code-Excited Linear Prediction (CELP): high quality speech at very low bit rates", Proc. ICASSP 85, pp. 937-940, 1985.
[0010]
[Problems to be solved by the invention]
As described above, the conventional apparatus has a problem that it is difficult to perform high-quality encoding at a low bit rate.
[0011]
The present invention has been made in view of such a point, and an object of the present invention is to provide a hierarchical encoding method and a hierarchical decoding method of an audio signal capable of performing high-quality encoding at a low bit rate.
[0012]
[Means for Solving the Problems]
A hierarchical encoding method according to the present invention is a hierarchical encoding method for encoding an input audio signal, decoding a signal encoded in an upper layer, and encoding a difference between the decoded signal and the input signal. A first encoding step of encoding an input audio signal in frame units of a length, and a second encoding step of encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in one or more stages. Encoding step, wherein in the second encoding step, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in both the time domain and the frequency domain. .
[0013]
According to this method, a signal having a periodicity is encoded in the time domain by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, and A signal having no characteristic can be encoded in the frequency domain, and the encoded signal can be encoded at low bit rate and high quality.
[0014]
In the hierarchical encoding method according to the present invention, the second encoding step includes a hierarchical decoding step of decoding a signal encoded in an upper layer to generate a decoded signal, and an upsampling step of increasing a sampling frequency of the decoded signal. And a hierarchical subtraction step of subtracting the decoded signal from the input audio signal to generate a difference signal, and a hierarchical encoding step of encoding the difference signal.
[0015]
According to this method, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer. .
[0016]
In the hierarchical encoding method of the present invention, the hierarchical encoding step includes a time domain encoding step of encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in a time domain; A time domain signal decoding step of decoding the signal encoded in the domain encoding step to generate a decoded signal, and a time domain signal subtracting step of subtracting the decoded signal from the difference signal to generate a second difference signal; A frequency domain encoding step of encoding the second difference signal in a frequency domain.
[0017]
According to this method, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, and the difference signal is encoded in the time domain. By encoding the difference between the decoded signal and the decoded signal in the frequency domain, a periodic signal can be encoded in the time domain, and a non-periodic signal can be encoded in the frequency domain. High quality encoding can be performed at a low bit rate.
[0018]
In the hierarchical encoding method according to the present invention, the time domain encoding step includes a search candidate determining step of limiting an adaptive vector to be used in encoding from a pitch period obtained in an upper layer, and an input speech signal from the limited adaptive vector. And a search step of searching for an adaptive vector having the smallest difference.
[0019]
According to this method, in the time domain coding lower than the second layer, the candidate of the adaptive vector to be searched is limited from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer. By performing coding using a limited adaptive vector, coding of a pitch period of time domain coding can be performed more efficiently, and high quality coding can be performed at a low bit rate.
[0020]
In the hierarchical encoding method according to the present invention, the time domain encoding step includes a quantization step of quantizing a pitch period, and the search candidate determining step includes a step of sampling a pitch period obtained in an upper layer by the layer. A modification is made to match the frequency, and the quantization step quantizes the pitch period of the layer using the modified pitch period.
[0021]
According to this method, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer. .
[0022]
In the hierarchical encoding method according to the present invention, in the time domain encoding step, an addition step of adding a parameter of an encoding obtained in an upper layer and a parameter that is a search candidate of the layer, and a result of the addition step A search step of searching for a parameter having the smallest difference from a parameter obtained from the input voice signal.
[0023]
In the hierarchical encoding method according to the present invention, the time domain encoding step includes a conversion step of converting an LPC coefficient obtained in an upper layer into an LSF coefficient, and the adding step is performed in the conversion step. The LSF coefficient added to the LSF coefficient held by the LSF codebook is added, and the searching step searches for an LSF coefficient that minimizes the difference between the added LSF coefficient and the LSF coefficient obtained from the input audio signal. did.
[0024]
According to these methods, in time domain decoding lower than the second layer, decoding is performed using the optimal adaptive vector searched in consideration of the LPC coefficient obtained in the upper layer on the encoding side. Accordingly, encoding and decoding of the pitch period of time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0025]
The hierarchical encoding method of the present invention includes an auditory masking step of calculating auditory masking from an input audio signal, and the frequency domain encoding step performs encoding using a signal after masking using the auditory masking. I made it.
[0026]
According to this method, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0027]
A hierarchical decoding method according to the present invention is a hierarchical decoding method for encoding an input audio signal, decoding a signal encoded in an upper layer, and decoding a signal obtained by encoding a difference between the decoded signal and the input signal. A first decoding step of decoding an encoded code of a first layer; a second decoding step of decoding an encoded code of a layer lower than the second layer in both a time domain and a frequency domain; A decoding step and an adding step of adding the decoding result of the second decoding step are provided.
[0028]
According to this method, an encoded signal obtained by encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in a time domain and a frequency domain is converted into a signal having periodicity in a time domain and a periodic signal. By decoding a signal having no characteristics in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0029]
The hierarchical decoding method of the present invention includes an upsampling step of upsampling a sampling frequency of a decoding result of the first decoding step to a sampling frequency of a decoding result of the second decoding step, and the adding step includes an upsampling step. The decoding results of the later first decoding step and the second decoding step are added.
[0030]
According to this method, by making the sampling frequency of the signal to be decoded in the lower layer higher than the sampling frequency of the signal to be decoded in the upper layer, it is possible to decode the signal obtained by encoding the signal corresponding to various sampling frequencies. it can.
[0031]
In the hierarchical decoding method according to the present invention, the second decoding step includes a time domain decoding step of decoding the layer using a pitch cycle or an LPC coefficient of an upper layer in the time domain decoding.
[0032]
According to this method, in time domain decoding lower than the second layer, a candidate adaptive vector to be used for decoding is obtained from an adaptive vector of an adaptive codebook using a pitch period obtained in an upper layer on the encoding side. , The encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0033]
According to this method, in the time domain decoding lower than the second layer, the adaptive vector used for decoding is obtained from the adaptive vector of the adaptive codebook using the LPC coefficient obtained in the upper layer on the encoding side. By limiting the candidates, the encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0034]
In the hierarchical decoding method according to the present invention, the second decoding step includes a frequency domain decoding step of decoding an encoded code obtained by encoding a frequency domain coefficient using auditory masking.
[0035]
According to this method, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0036]
A hierarchical encoding device of the present invention is a hierarchical encoding device that encodes an input audio signal, decodes a signal encoded in an upper layer, and encodes a difference between the decoded signal and the input signal. A first encoding unit that encodes an input audio signal in frame units of a length, and a second encoding unit that encodes a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in one or more stages. Encoding means, wherein the second encoding means encodes the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in both the time domain and the frequency domain. .
[0037]
According to this configuration, by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, a periodic signal is encoded in the time domain, A signal having no characteristic can be encoded in the frequency domain, and the encoded signal can be encoded at low bit rate and high quality.
[0038]
In the hierarchical encoding device according to the present invention, the second encoding means decodes a signal encoded in an upper layer to generate a decoded signal, and an upsampling means for increasing a sampling frequency of the decoded signal. And a hierarchical subtraction means for subtracting the decoded signal from the input audio signal to generate a difference signal, and a hierarchical encoding means for encoding the difference signal.
[0039]
According to this configuration, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer.
[0040]
The hierarchical encoding device according to the present invention, wherein the hierarchical encoding means includes a time domain encoding means for encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in a time domain; A time-domain signal decoding unit that decodes the signal encoded by the region encoding unit to generate a decoded signal, a time-domain signal subtraction unit that subtracts the decoded signal from the difference signal to generate a second difference signal, Frequency domain encoding means for encoding the second differential signal in the frequency domain.
[0041]
According to this configuration, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, and the difference signal is encoded in the time domain. By encoding the difference between the decoded signal and the decoded signal in the frequency domain, a periodic signal can be encoded in the time domain, and a non-periodic signal can be encoded in the frequency domain. High quality encoding can be performed at a low bit rate.
[0042]
In the hierarchical coding apparatus according to the present invention, the time domain coding means may include a codebook holding an adaptive vector generated in the past, and a search candidate for limiting an adaptive vector used in coding from a pitch period obtained in an upper layer. A configuration including a determination unit and a search unit that searches for an adaptation vector having the smallest audible difference from the input speech signal from the limited adaptation vector is adopted.
[0043]
According to this configuration, in the time domain coding lower than the second layer, the candidate of the adaptive vector to be searched is limited from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer. By performing coding using a limited adaptive vector, coding of a pitch period of time domain coding can be performed more efficiently, and high quality coding can be performed at a low bit rate.
[0044]
In the hierarchical coding apparatus according to the present invention, the time domain coding means includes quantization means for quantizing a pitch cycle, and the search candidate determining means determines a pitch cycle obtained in an upper layer by a sampling frequency of the layer. The quantization means adopts a configuration in which the pitch period of the layer is quantized using the corrected pitch period.
[0045]
According to this configuration, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer. .
[0046]
In the hierarchical coding apparatus according to the present invention, the time domain coding unit may include an addition unit that adds a coding parameter obtained in an upper layer and a parameter that is a search candidate of the layer, and a result of the addition unit. A configuration including a search unit that searches for a parameter having the smallest difference from the input voice signal is adopted.
[0047]
In the hierarchical coding apparatus according to the present invention, the time domain coding means includes an LSF codebook for holding LSF coefficients, and a conversion means for converting LPC coefficients obtained in an upper layer into LSF coefficients, The means adds the LSF coefficient converted by the conversion means and the LSF coefficient held by the LSF codebook, and the search means generates an audible difference between the added LSF coefficient and the LSF coefficient obtained from the input audio signal. A configuration for searching for an LSF coefficient that minimizes the difference is employed.
[0048]
According to these configurations, in time domain decoding lower than the second layer, decoding is performed using the optimal adaptive vector searched in consideration of the LPC coefficient obtained in the upper layer on the encoding side. Accordingly, encoding and decoding of the pitch period of time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0049]
The hierarchical encoding device of the present invention includes an auditory masking unit that calculates auditory masking from an input audio signal, and the frequency domain encoding unit encodes using the signal after the masking using the auditory masking. Take.
[0050]
According to this configuration, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0051]
A hierarchical decoding device of the present invention encodes an input audio signal, decodes a signal encoded in an upper layer, and decodes a signal obtained by encoding a difference between the decoded signal and the input signal. A first decoding unit that decodes an encoded code of a first layer; a second decoding unit that decodes an encoded code of a layer lower than a second layer in both a time domain and a frequency domain; A configuration including a decoding unit and an adding unit for adding the decoding result of the second decoding unit is adopted.
[0052]
According to this configuration, an encoded signal obtained by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain is converted into a signal having periodicity in the time domain, By decoding a signal having no characteristics in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0053]
The hierarchical decoding apparatus according to the present invention includes up-sampling means for up-sampling a sampling frequency of a decoding result of the first decoding means to a sampling frequency of a decoding result of the second decoding means. A configuration is adopted in which the decoding results of the later first decoding means and the second decoding means are added.
[0054]
According to this configuration, by setting the sampling frequency of the signal to be decoded in the lower layer higher than the sampling frequency of the signal to be decoded in the upper layer, it is possible to decode a signal obtained by encoding a signal corresponding to various sampling frequencies. it can.
[0055]
The hierarchical decoding device of the present invention employs a configuration in which the second decoding means includes a time-domain decoding means for decoding a layer using a pitch cycle or an LPC coefficient of an upper layer in time-domain decoding.
[0056]
According to this configuration, in time domain decoding lower than the second layer, a candidate adaptive vector to be used for decoding is obtained from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer on the encoding side. , The encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0057]
According to this configuration, in the time domain decoding lower than the second layer, the adaptive vector used for decoding is obtained from the adaptive vector of the adaptive codebook using the LPC coefficient obtained in the upper layer on the encoding side. By limiting the candidates, the encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0058]
The hierarchical decoding apparatus according to the present invention employs a configuration in which the second decoding unit includes a frequency domain decoding unit that decodes an encoded code obtained by encoding a frequency domain coefficient using auditory masking.
[0059]
According to this configuration, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0060]
An audio signal transmitting apparatus according to the present invention includes an audio input unit for converting an audio signal into an electric signal, an A / D conversion unit for converting a signal output from the audio input unit into a digital signal, and an A / D converter. Means for encoding the digital signal output from the means, RF modulation means for modulating the coded code output from the coding apparatus into a radio frequency signal, and output from the RF modulation means. And a transmission antenna that converts a signal into a radio wave and transmits the radio wave.
[0061]
According to this configuration, by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, a periodic signal is encoded in the time domain, A signal having no characteristic can be encoded in the frequency domain, and the encoded signal can be encoded at low bit rate and high quality.
[0062]
The acoustic signal receiving apparatus according to the present invention includes a receiving antenna for receiving a radio wave, an RF demodulating means for demodulating a signal received by the receiving antenna, and the hierarchical decoding for decoding information obtained by the RF demodulating means. A D / A converter for converting a signal output from the decoding device into an analog signal, and an audio output unit for converting an electric signal output from the D / A converter into an audio signal. The configuration provided is adopted.
[0063]
According to this configuration, an encoded signal obtained by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain is converted into a signal having periodicity in the time domain, By decoding a signal having no characteristics in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0064]
The communication terminal device of the present invention employs a configuration including at least one of the above-described acoustic signal transmitting device and the above-described acoustic signal receiving device. The base station apparatus of the present invention employs a configuration including at least one of the above-described acoustic signal transmitting apparatus and the above-described acoustic signal receiving apparatus.
[0065]
According to these configurations, a signal having a periodicity is encoded in the time domain by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, Non-periodic signals can be coded in the frequency domain, and can be coded to perform high-quality coding at a low bit rate.
[0066]
Further, according to this configuration, an encoded signal obtained by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain is referred to as a signal having periodicity in the time domain. By decoding a signal having no periodicity in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0067]
BEST MODE FOR CARRYING OUT THE INVENTION
The present inventor has focused on the fact that the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal includes both a periodic signal and a non-periodic signal. I came to.
[0068]
That is, the gist of the present invention is that, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, and the encoding is performed in the time domain. By encoding in the frequency domain the difference between the impossible residual signal, that is, the difference signal and the decoded signal obtained by decoding the encoded signal in the time domain, a periodic signal is encoded in the time domain, A non-existent signal can be coded in the frequency domain, and is coded to perform high-quality coding at a low bit rate.
[0069]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the following description of the embodiment, the case where the number of layers N is set to 3 will be described. However, the present invention is not limited to this numerical value, and N is a natural number and a configuration satisfying the condition of N ≧ 2 It is possible to apply.
[0070]
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 1 of the present invention. 1 includes an
[0071]
The present embodiment is characterized in that the sampling frequency of a signal input to each layer has a relationship represented by the following equation (1).
(Equation 1)
Here, Fs (n) represents the sampling frequency of the signal of the n-th layer. According to the present embodiment, it is possible to perform encoding corresponding to a plurality of sampling frequencies.
[0072]
From the
[0073]
The
[0074]
First
[0075]
Then, first
[0076]
US1
[0077]
Next, an audio signal input from the
[0078]
The
[0079]
The
[0080]
Second
[0081]
The
[0082]
US2
[0083]
Next, the
[0084]
The
[0085]
Third
[0086]
The
[0087]
Next, details of the encoding of the second and subsequent layers will be described. The hierarchical coding apparatus according to the present embodiment generates a residual signal from a difference between an input audio signal and a signal obtained by decoding a previous-stage encoded signal in encoding of a second layer or later, and generates the residual signal. A feature is that encoding is performed by a time domain encoding unit and a frequency domain encoding unit.
[0088]
Next, the n-th layer (2 ≦ n ≦ N) encoder will be described. FIG. 2 is a block diagram illustrating a configuration of an n-th layer (2 ≦ n ≦ N) encoding unit of the hierarchical encoding device according to the present embodiment.
[0089]
In the n-th layer residual signal, which is the difference between the input audio signal and the signal obtained by decoding the n-th layer (2 ≦ n ≦ N) encoded signal, the encoding noise up to the upper layer and the sampling frequency are higher. And high-frequency components due to this.
[0090]
The n-th layer residual signal contains both components that can be efficiently coded when processed in the time domain and components that can be coded efficiently when processed in the frequency domain. Therefore, there is an effect that efficient encoding can be realized by performing encoding in two regions, a time domain and a frequency domain. An input signal is provided to both the time domain coding unit and the frequency domain coding unit. This input signal is used for calculation of auditory masking and the like in order to realize audio quality of high quality. Hereinafter, a detailed description will be given with reference to FIG.
[0091]
An n-th layer residual signal is input from an
[0092]
Next, the target
[0093]
Next, the frequency
[0094]
Hereinafter, details of each block will be described. FIG. 3 is a block diagram illustrating a configuration of the time domain encoding unit of the hierarchical encoding device according to the present embodiment. 3 includes an
[0095]
The
[0096]
The LPC quantizer 303 converts the LPC coefficients into parameters suitable for quantization such as LSF coefficients and performs quantization. Then, LPC quantizer 303 outputs the encoded code obtained by the quantization to
[0097]
[0098]
The
[0099]
[0100]
[0101]
The
[0102]
The
[0103]
The
[0104]
The
[0105]
The
[0106]
The
[0107]
The
(Equation 2)
[Equation 3]
Here, t (k) is the n-th layer residual signal, q i (K) is the ith adaptation vector, c j (K) indicates the j-th noise vector, and β and γ indicate the adaptive vector gain and the noise vector gain, respectively.
[0108]
Equations (2) and (3) differ in the configuration of the gain codebook. In the case of equation (2), the gain codebook is the adaptive vector gain β m And noise vector gain γ m As an element, and an encoded code m for specifying the vector is determined. In the case of equation (3), the gain codebook is the adaptive vector gain β m And noise vector gain γ n Respectively, and the respective encoded codes m and n are determined independently. H (l) represents an impulse response of the audibility weighting filter.
Is an operator representing convolution.
[0109]
After all the encoded codes are determined, the
[0110]
Next, details of the target
[0111]
An encoded code obtained by the time
[0112]
[0113]
The
[0114]
Next, the details of the frequency
[0115]
The signal input from the
[0116]
The frequency
[0117]
An audio signal of the sampling frequency Fs (n) is provided from the
[0118]
The
[0119]
Next, a method of calculating auditory masking will be described in detail with reference to FIG. FIG. 6 is a block diagram illustrating a configuration of the auditory masking calculation unit of the hierarchical encoding device according to the present embodiment. The human auditory characteristic has a masking effect that, when a certain signal is given, a signal located near the frequency of the signal becomes difficult to hear. By utilizing this characteristic, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, so that the transform coefficients can be efficiently quantized at a small bit rate. Can be
[0120]
An input signal is provided from an
[0121]
In FIG. 6,
[0122]
The
(Equation 4)
Here, P (m) represents a power spectrum and is obtained from the following equation (5).
(Equation 5)
K corresponds to the number of the bark spectrum, and FL (k) and FH (k) represent the lowest frequency (Hz) and the highest frequency (Hz) of the k-th bark spectrum, respectively. The bark spectrum B (k) represents the spectrum intensity when band-divided at equal intervals on the bark scale. When the Hertz scale is represented by f and the Bark scale is represented by B, the relationship between the Hertz scale and the Bark scale is represented by the following equation (6).
(Equation 6)
[0123]
The spread
(Equation 7)
[0124]
The
(Equation 8)
Here, μg (k) represents the geometric mean of the k-th bark spectrum, and μa (k) represents the arithmetic mean of the k-th bark spectrum. Then, the
(Equation 9)
[0125]
The auditory
(Equation 10)
[0126]
Then, the auditory
[Equation 11]
Where T q (K) represents an absolute threshold. The absolute threshold represents the minimum value of auditory masking observed as a human auditory characteristic. Then, the auditory
[0127]
As described above, according to the hierarchical coding device of the present embodiment, the difference between the signal obtained by decoding the coding result of the upper layer and the input audio signal is coded in the time domain and the frequency domain, and thereby the periodicity is reduced. It is possible to encode a signal having a frequency in the time domain, and to encode a signal having no periodicity in the frequency domain, and to perform high-quality encoding at a low bit rate.
[0128]
In particular, according to the hierarchical encoding device of the present embodiment, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, By encoding in the frequency domain the difference between the difference signal and the decoded signal obtained by decoding the encoded signal in the time domain, a periodic signal is encoded in the time domain, and a non-periodic signal is encoded in the frequency domain. It can be coded and can be coded to perform high quality coding at a low bit rate.
[0129]
Further, according to the hierarchical encoding device of the present embodiment, by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer, it is possible to cope with various sampling frequencies. The input signal can be encoded.
[0130]
(Embodiment 2)
In the present embodiment, an example in which a signal encoded by the hierarchical encoding device of Embodiment 1 is decoded will be described. A feature of the present embodiment is that the encoded code of the hierarchical encoding method described in the first embodiment can be decoded, and as a result, a high-quality audio signal can be decoded.
[0131]
FIG. 7 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 2 of the present invention. 7 includes an
[0132]
A coded bit sequence coded by the hierarchical coding device of FIG. 1 is input from an
[0133]
Separating
[0134]
First
[0135]
US1
[0136]
Next, second
[0137]
US2
[0138]
Next, third
[0139]
Next, the n-th layer (2 ≦ n ≦ N) decoding unit will be described. FIG. 8 is a block diagram illustrating a configuration of a decoding unit of the second layer and subsequent layers of the hierarchical decoding device according to the present embodiment.
[0140]
An n-th layer (2 ≦ n ≦ N) encoded code is input from an
[0141]
Time
[0142]
Similarly, frequency
[0143]
Next, the time
[0144]
In FIG. 9,
[0145]
Next, the
[0146]
The
(Equation 12)
[0147]
Next, a synthesized signal syn (k) is generated by the
(Equation 13)
Where α q Represents the decoded LPC coefficient, and NP represents the order of the LPC coefficient. The decoded signal syn (n) thus decoded is output from the
[0148]
Next, the frequency
[0149]
As described above, according to the hierarchical decoding device of the present embodiment, a coded signal obtained by coding the difference between the signal obtained by decoding the coding result of the upper layer and the input audio signal in the time domain and the frequency domain, By decoding a periodic signal in the time domain and a non-periodic signal in the frequency domain, it is possible to perform high-quality encoding and decoding at a low bit rate.
[0150]
Further, according to the hierarchical decoding device of the present embodiment, by setting the sampling frequency of the signal to be decoded in the lower layer higher than the sampling frequency of the signal to be decoded in the upper layer, the signal is made to correspond to various sampling frequencies. The encoded signal can be decoded.
[0151]
(Embodiment 3)
FIG. 11 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 3 of the present invention. In the present embodiment, in an audio signal encoding method in which an n-th layer (2 ≦ n ≦ N) encoding unit is composed of a time-domain encoding unit and a frequency-domain encoding unit, a pitch determined by an upper layer It is characterized in that it has a time domain encoding unit that performs encoding using a cycle.
[0152]
According to the present embodiment, by using the pitch period obtained in the upper layer, it is possible to more efficiently encode the pitch period of the time domain encoding unit, and as a result, at a low bit rate Encoding can be performed with high quality. In FIG. 11, components having the same names as those in FIG. 2 have the same functions, and thus detailed description of such components will be omitted.
[0153]
From the
[0154]
The pitch period T of the lower layer input from the
[0155]
Due to the above limitation, compared to the case where all the candidates included in the
[0156]
The search
[Equation 14]
Here, T (n) represents the pitch cycle of the layer (n-th layer). T (m) represents the pitch period of the upper layer, and the range of m is represented by 1 ≦ m <n. ΔT1 and ΔT2 represent constants that determine the range of the pitch period. The search for the adaptive vector is performed only for the adaptive vector corresponding to the pitch period T (n) included in Expression (14). As a result of the search, the relative pitch period ΔT is determined, and this information is used as an encoded code. It is provided to the
[0157]
Further, in consideration of the case where the pitch period of the upper layer is double pitch or half pitch, a search candidate for an adaptive vector included in
(Equation 15)
Here, k is a variable that represents an integer multiple or a fraction of an integer, such as k = {..., 1/4, 1/3, 1/2, 1, 2, 3, 4,. The notations ΔT1 (k) and ΔT2 (k) indicate cases where the search range of the pitch cycle may be different depending on the value of k.
[0158]
As described above, according to the hierarchical coding apparatus of the present embodiment, in time domain coding lower than the second layer, the search is performed from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer. By limiting the candidates of the adaptive vector to be subjected to, and performing encoding using the limited adaptive vector, the encoding of the pitch period of the time domain encoding can be performed more efficiently, and at a low bit rate. Can be encoded with high quality.
[0159]
(Embodiment 4)
FIG. 13 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 4 of the present invention. In the present embodiment, in a hierarchical coding scheme in which an n-th layer (2 ≦ n ≦ N) coding section is composed of a time domain coding section and a frequency domain coding section, a pitch period determined in an upper layer It is characterized in that the coded code generated by the time domain coding unit that performs coding by using coded data can be decoded.
[0160]
According to the present embodiment, by using the pitch period obtained in the upper layer, it is possible to more efficiently encode the pitch period of the time domain coding unit, and as a result, at a low bit rate By decoding a coded code of a hierarchical coding method capable of performing high-quality coding, an effect that a high-quality decoded signal can be obtained can be obtained.
[0161]
In FIG. 13, components having the same names as those in FIG. 8 have the same functions, and thus detailed description of such components is omitted. The pitch period T decoded in the upper layer is input from the
[0162]
Time
[0163]
The pitch period T decoded in the upper layer input from the
[0164]
Using the pitch cycle T and the relative pitch cycle ΔT of the lower layer, the adaptive
(Equation 16)
Here, T (n) represents the pitch period of the layer (n-th layer), and T (m) represents the pitch period of the upper layer (1 ≦ m <n). When the search candidate of the adaptive vector is determined according to the equation (15), the pitch period of the layer is calculated according to the following equation (17).
[Equation 17]
Here, k is a variable that represents an integer multiple or a fraction of an integer, such as k = {..., 1/4, 1/3, 1/2, 1, 2, 3, 4,. The pitch cycle of the layer decoded in this way is provided to
[0165]
As described above, according to the speech decoding apparatus of the present embodiment, in the time domain decoding lower than the second layer, the adaptive codebook of the adaptive codebook is utilized by using the pitch period obtained in the upper layer on the encoding side. By performing the decoding while limiting the candidates of the adaptive vector used for the decoding from the adaptive vector, the encoding and the decoding of the pitch period of the time domain encoding can be performed more efficiently, and the encoding can be performed at a low bit rate and at a high bit rate. Can be encoded to quality.
[0166]
(Embodiment 5)
In the fifth embodiment, an example in which parameters input from the
[0167]
In the present embodiment, in a hierarchical coding scheme in which an n-th layer (2 ≦ n ≦ N) coding section is composed of a time-domain coding section and a frequency-domain coding section, LPC coefficients obtained in an upper layer It is characterized in that it has a time-domain coding unit that performs coding by using. According to the present embodiment, by using the LPC coefficient obtained in the upper layer, it is possible to more efficiently perform encoding of the LPC coefficient of the time domain encoding unit, and as a result, at a low bit rate. Encoding can be performed with high quality. In FIG. 11, components having the same names as those in FIG. 2 have the same functions, and thus detailed description of such components will be omitted.
[0168]
In FIG. 11, LPC coefficients obtained in an upper layer are input from an
[0169]
The upper layer LPC coefficients input from
[0170]
From the
[0171]
Next,
[0172]
Here, when the LSF coefficient is expressed as {Fp; p = 1 to NP (n)}, the LSF coefficient takes a value between 0 and 1 and has a relationship of Fp <Fp + 1. Similarly, the LPC coefficient of the upper layer input from the
[0173]
Next,
[0174]
The
[0175]
The
[0176]
Thus, according to the hierarchical coding apparatus of the present embodiment, in the time domain coding lower than the second layer, the LPC coefficient (or LSF coefficient) obtained in the upper layer and the LPC coefficient ( Or LSF coefficient), the optimum delta LSF vector can be searched for in consideration of the LPC coefficient obtained in the upper layer, and time domain coding can be performed more efficiently. And high quality coding at a low bit rate.
[0177]
(Embodiment 6)
In the sixth embodiment, an example in which parameters input from the
[0178]
In the present embodiment, in an audio signal decoding method in which an n-th layer (2 ≦ n ≦ N) decoding unit includes a time-domain decoding unit and a frequency-domain decoding unit, LPC decoded by an upper layer It is characterized in that it has a time domain decoding unit that decodes the LPC coefficients of the layer using the coefficients. According to the present embodiment, by using the LPC coefficient decoded in the lower layer, it becomes possible to decode the encoded code of the time domain encoding unit that efficiently encodes the LPC coefficient, As a result, a high-quality decoded signal can be generated at a low bit rate. In FIG. 13, components having the same names as those in FIG. 8 have the same functions, and thus detailed description of such components is omitted.
[0179]
The LPC coefficient decoded in the upper layer is input from
[0180]
The LPC coefficient of the upper layer input from
[0181]
An LPC coefficient {βp; p = 1 to NP (m)} of an upper layer is input from an
[0182]
From an
[0183]
As described above, according to the speech decoding apparatus of the present embodiment, in time domain decoding lower than the second layer, the optimal search performed in consideration of the LPC coefficient obtained in the upper layer on the encoding side is considered. By decoding using the delta LSF vector, LPC coefficients of time domain coding can be more efficiently encoded and decoded, and high-quality encoding can be performed at a low bit rate.
[0184]
(Embodiment 7)
Next, a seventh embodiment of the present invention will be described with reference to the drawings. FIG. 19 is a block diagram showing a configuration of a communication device according to Embodiment 7 of the present invention. The feature of this embodiment is that the
[0185]
As shown in FIG. 19, a communication device 1900 according to Embodiment 7 of the present invention includes an
[0186]
The A /
[0187]
The
[0188]
As described above, according to the communication apparatus of the embodiment of the present invention, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in communication, and to efficiently encode an audio signal with a small number of bits. An encoding device can be provided.
[0189]
(Embodiment 8)
Next, an eighth embodiment of the present invention will be described with reference to the drawings. FIG. 20 is a block diagram showing a configuration of a communication device according to Embodiment 8 of the present invention. The feature of this embodiment is that the
[0190]
As shown in FIG. 20, a communication device 2000 according to Embodiment 8 of the present invention includes a
[0191]
The input terminal of the
[0192]
[0193]
As described above, according to the communication device of the present embodiment, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in communication, and to efficiently decode an encoded audio signal with a small number of bits. Therefore, a good acoustic signal can be output.
[0194]
(Embodiment 9)
Next, a ninth embodiment of the present invention will be described with reference to the drawings. FIG. 21 is a block diagram showing a configuration of a communication device according to Embodiment 9 of the present invention. In the ninth embodiment of the present invention, the
[0195]
As shown in FIG. 21, a communication device 2100 according to Embodiment 9 of the present invention includes an
[0196]
The
[0197]
As described above, according to the communication apparatus of the present embodiment, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in wireless communication, and to efficiently encode an audio signal with a small number of bits. it can.
[0198]
Note that the present invention can be applied to a transmission device, a transmission encoding device, or an audio signal encoding device that uses an audio signal. Further, the present invention can be applied to a mobile station device or a base station device.
[0199]
(Embodiment 10)
Next, a tenth embodiment of the present invention will be described with reference to the drawings. FIG. 22 is a block diagram showing a configuration of a communication device according to Embodiment 10 of the present invention. The tenth embodiment of the present invention is characterized in that the
[0200]
As shown in FIG. 22, a communication device 2200 according to Embodiment 10 of the present invention includes an
[0201]
The
[0202]
The
[0203]
As described above, according to the communication apparatus of the present embodiment, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in wireless communication, and to decode an audio signal efficiently encoded with a small number of bits. Therefore, a good acoustic signal can be output.
[0204]
Note that the present invention can be applied to a receiving device, a receiving decoding device, or an audio signal decoding device that uses an audio signal. Further, the present invention can be applied to a mobile station device or a base station device.
[0205]
Further, the present invention is not limited to the above embodiment, and can be implemented with various modifications. For example, in the above-described embodiment, the case where the processing is performed as a signal processing apparatus is described. However, the present invention is not limited to this, and the signal processing method can be performed as software.
[0206]
For example, a program for executing the signal processing method may be stored in a ROM (Read Only Memory) in advance, and the program may be operated by a CPU (Central Processor Unit).
[0207]
Further, a program for executing the above signal processing method is stored in a computer-readable storage medium, and the program stored in the storage medium is recorded in a RAM (Random Access Memory) of the computer, and the computer is operated according to the program. You may make it do.
[0208]
In the above description, a case is described in which the discrete Fourier transform is used for the method of transforming from the time domain to the frequency domain. However, the present invention is not limited to this, and any orthogonal transform can be applied. For example, discrete cosine transform or MDCT (modified discrete cosine transform) can be applied.
[0209]
Note that the present invention can be applied to a receiving device, a receiving decoding device, or an audio signal decoding device that uses an audio signal. Further, the present invention can be applied to a mobile station device or a base station device.
[0210]
【The invention's effect】
As described above, according to the hierarchical encoding method and the hierarchical decoding method of the audio signal of the present invention, in the encoding of the second layer or lower, the signal obtained by decoding the encoding result of the upper layer and the input audio signal Is encoded in the time domain, and the difference between the residual signal that cannot be encoded by encoding in the time domain, that is, the difference between the difference signal and the decoded signal obtained by decoding the encoded signal in the time domain is encoded in the frequency domain. Accordingly, a signal having periodicity can be encoded in the time domain, and a signal having no periodicity can be encoded in the frequency domain, and high-quality encoding can be performed at a low bit rate.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 1 of the present invention.
FIG. 2 is a block diagram showing a configuration of an n-th layer (2 ≦ n ≦ N) encoding unit of the hierarchical encoding device according to the embodiment.
FIG. 3 is a block diagram showing a configuration of a time domain coding unit of the hierarchical coding device according to the embodiment.
FIG. 4 is a block diagram illustrating a configuration of a target signal generation unit of the hierarchical encoding device according to the present embodiment.
FIG. 5 is a block diagram showing a configuration of a frequency domain encoding unit of the hierarchical encoding device according to the embodiment.
FIG. 6 is a block diagram showing a configuration of an auditory masking calculation unit of the hierarchical encoding device according to the embodiment.
FIG. 7 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 2 of the present invention.
FIG. 8 is a block diagram showing a configuration of a decoding unit of the second layer and subsequent layers of the hierarchical decoding device according to the embodiment.
FIG. 9 is a block diagram illustrating a configuration of a time domain decoding unit of the hierarchical decoding device according to the above embodiment.
FIG. 10 is a block diagram illustrating a configuration of a frequency domain decoding unit of the hierarchical decoding device according to the above embodiment.
FIG. 11 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 3 of the present invention.
FIG. 12 is a block diagram showing a configuration of a time-domain coding unit of the hierarchical coding device according to the embodiment.
FIG. 13 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 4 of the present invention.
FIG. 14 is a block diagram showing a configuration of a time-domain decoding unit of the hierarchical decoding device according to the embodiment.
FIG. 15 is a block diagram showing a configuration of a time-domain coding unit of a hierarchical coding device according to Embodiment 5 of the present invention.
FIG. 16 is a block diagram showing a configuration of an LPC quantizer of the hierarchical encoding device according to the embodiment.
FIG. 17 is a block diagram showing a configuration of a time-domain decoding unit of the hierarchical decoding device according to Embodiment 6 in the present invention.
FIG. 18 is a block diagram illustrating a configuration of an LPC decoder of the hierarchical decoding device according to the above embodiment.
FIG. 19 is a block diagram showing a configuration of a communication device according to a seventh embodiment of the present invention.
FIG. 20 is a block diagram showing a configuration of a communication device according to an eighth embodiment of the present invention.
FIG. 21 is a block diagram showing a configuration of a communication device according to Embodiment 9 of the present invention.
FIG. 22 is a block diagram showing a configuration of a communication device according to a tenth embodiment of the present invention.
[Explanation of symbols]
102 DS1 part
103 first layer encoding section
104, 703 First layer decoding section
107, 113, 404 delay unit
105, 704 US1
106 DS2 part
108, 114, 405 Subtractor
109 second layer encoding section
110, 704 Second layer decoding section
111, 705, 709, 805, 1305 Adder
112,707 US2
115 third layer encoding section
203 time domain coding unit
204 Target signal generator
205 frequency domain coding unit
403 decryption unit
503 Frequency domain transform unit
504 Auditory masking calculation unit
505 Quantization unit
708 Third layer decoding unit
803, 1303 time domain decoding unit
804, 1304 frequency domain decoding unit
1002 Transform coefficient decoding unit
1003 Time domain converter
Claims (28)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003096640A JP2004302259A (en) | 2003-03-31 | 2003-03-31 | Hierarchical encoding method and hierarchical decoding method for audio signal |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003096640A JP2004302259A (en) | 2003-03-31 | 2003-03-31 | Hierarchical encoding method and hierarchical decoding method for audio signal |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2004302259A true JP2004302259A (en) | 2004-10-28 |
Family
ID=33408636
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003096640A Pending JP2004302259A (en) | 2003-03-31 | 2003-03-31 | Hierarchical encoding method and hierarchical decoding method for audio signal |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2004302259A (en) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006090852A1 (en) * | 2005-02-24 | 2006-08-31 | Matsushita Electric Industrial Co., Ltd. | Data regeneration device |
| WO2007026763A1 (en) * | 2005-08-31 | 2007-03-08 | Matsushita Electric Industrial Co., Ltd. | Stereo encoding device, stereo decoding device, and stereo encoding method |
| WO2008084688A1 (en) * | 2006-12-27 | 2008-07-17 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
| JP2008533522A (en) * | 2005-03-09 | 2008-08-21 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Low complexity code-excited linear predictive coding |
| WO2008120440A1 (en) * | 2007-03-02 | 2008-10-09 | Panasonic Corporation | Encoding device and encoding method |
| JP2009538460A (en) * | 2007-09-15 | 2009-11-05 | ▲ホア▼▲ウェイ▼技術有限公司 | Method and apparatus for concealing frame loss on high band signals |
| JP2010510540A (en) * | 2006-11-17 | 2010-04-02 | サムスン エレクトロニクス カンパニー リミテッド | Audio and / or speech signal encoding and / or decoding method and apparatus |
| JP2010512550A (en) * | 2006-12-12 | 2010-04-22 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Encoder, decoder and method for encoding and decoding representing a time-domain data stream |
| US8000967B2 (en) | 2005-03-09 | 2011-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Low-complexity code excited linear prediction encoding |
-
2003
- 2003-03-31 JP JP2003096640A patent/JP2004302259A/en active Pending
Cited By (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006090852A1 (en) * | 2005-02-24 | 2006-08-31 | Matsushita Electric Industrial Co., Ltd. | Data regeneration device |
| US7970602B2 (en) | 2005-02-24 | 2011-06-28 | Panasonic Corporation | Data reproduction device |
| KR101194902B1 (en) | 2005-02-24 | 2012-10-25 | 파나소닉 주식회사 | Data reproduction device |
| JP2008533522A (en) * | 2005-03-09 | 2008-08-21 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Low complexity code-excited linear predictive coding |
| US8000967B2 (en) | 2005-03-09 | 2011-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Low-complexity code excited linear prediction encoding |
| US8457319B2 (en) | 2005-08-31 | 2013-06-04 | Panasonic Corporation | Stereo encoding device, stereo decoding device, and stereo encoding method |
| JP5171256B2 (en) * | 2005-08-31 | 2013-03-27 | パナソニック株式会社 | Stereo encoding apparatus, stereo decoding apparatus, and stereo encoding method |
| WO2007026763A1 (en) * | 2005-08-31 | 2007-03-08 | Matsushita Electric Industrial Co., Ltd. | Stereo encoding device, stereo decoding device, and stereo encoding method |
| JP2010510540A (en) * | 2006-11-17 | 2010-04-02 | サムスン エレクトロニクス カンパニー リミテッド | Audio and / or speech signal encoding and / or decoding method and apparatus |
| US11581001B2 (en) | 2006-12-12 | 2023-02-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| US10714110B2 (en) | 2006-12-12 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Decoding data segments representing a time-domain data stream |
| JP2010512550A (en) * | 2006-12-12 | 2010-04-22 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Encoder, decoder and method for encoding and decoding representing a time-domain data stream |
| US9043202B2 (en) | 2006-12-12 | 2015-05-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| US11961530B2 (en) | 2006-12-12 | 2024-04-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| US9653089B2 (en) | 2006-12-12 | 2017-05-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| US8812305B2 (en) | 2006-12-12 | 2014-08-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| US8818796B2 (en) | 2006-12-12 | 2014-08-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| US9355647B2 (en) | 2006-12-12 | 2016-05-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
| WO2008084688A1 (en) * | 2006-12-27 | 2008-07-17 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
| AU2008233888B2 (en) * | 2007-03-02 | 2013-01-31 | Panasonic Intellectual Property Corporation Of America | Encoding device and encoding method |
| US8918314B2 (en) | 2007-03-02 | 2014-12-23 | Panasonic Intellectual Property Corporation Of America | Encoding apparatus, decoding apparatus, encoding method and decoding method |
| US8918315B2 (en) | 2007-03-02 | 2014-12-23 | Panasonic Intellectual Property Corporation Of America | Encoding apparatus, decoding apparatus, encoding method and decoding method |
| US8554549B2 (en) | 2007-03-02 | 2013-10-08 | Panasonic Corporation | Encoding device and method including encoding of error transform coefficients |
| WO2008120440A1 (en) * | 2007-03-02 | 2008-10-09 | Panasonic Corporation | Encoding device and encoding method |
| US8200481B2 (en) | 2007-09-15 | 2012-06-12 | Huawei Technologies Co., Ltd. | Method and device for performing frame erasure concealment to higher-band signal |
| JP2009538460A (en) * | 2007-09-15 | 2009-11-05 | ▲ホア▼▲ウェイ▼技術有限公司 | Method and apparatus for concealing frame loss on high band signals |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3881943B2 (en) | Acoustic encoding apparatus and acoustic encoding method | |
| US8209188B2 (en) | Scalable coding/decoding apparatus and method based on quantization precision in bands | |
| JP3881946B2 (en) | Acoustic encoding apparatus and acoustic encoding method | |
| US7599833B2 (en) | Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same | |
| JP4958780B2 (en) | Encoding device, decoding device and methods thereof | |
| JP2003323199A (en) | Encoding device, decoding device, encoding method, and decoding method | |
| JP4302978B2 (en) | Pseudo high-bandwidth signal estimation system for speech codec | |
| WO2004097796A1 (en) | Audio encoding device, audio decoding device, audio encoding method, and audio decoding method | |
| JP2001222297A (en) | Multi-band harmonic transform coder | |
| CN1334952A (en) | Encoding Enhancement Features for Improving Performance of Encoded Communication Signals | |
| KR20060135699A (en) | Signal decoding apparatus and signal decoding method | |
| WO2005027095A1 (en) | Encoder apparatus and decoder apparatus | |
| JP4603485B2 (en) | Speech / musical sound encoding apparatus and speech / musical sound encoding method | |
| US20090210219A1 (en) | Apparatus and method for coding and decoding residual signal | |
| JP2004302259A (en) | Hierarchical encoding method and hierarchical decoding method for audio signal | |
| JPWO2004097798A1 (en) | Speech decoding apparatus, speech decoding method, program, and recording medium | |
| CN100585700C (en) | Speech coding device and method thereof | |
| JP4373693B2 (en) | Hierarchical encoding method and hierarchical decoding method for acoustic signals | |
| JP4578145B2 (en) | Speech coding apparatus, speech decoding apparatus, and methods thereof | |
| JP4287840B2 (en) | Encoder | |
| JP2002169595A (en) | Fixed excitation codebook and speech encoding / decoding device | |
| KR20080034817A (en) | Encoding / Decoding Apparatus and Method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060303 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090507 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090706 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091009 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091104 |