[go: up one dir, main page]

JP2004302259A - Hierarchical encoding method and hierarchical decoding method for audio signal - Google Patents

Hierarchical encoding method and hierarchical decoding method for audio signal Download PDF

Info

Publication number
JP2004302259A
JP2004302259A JP2003096640A JP2003096640A JP2004302259A JP 2004302259 A JP2004302259 A JP 2004302259A JP 2003096640 A JP2003096640 A JP 2003096640A JP 2003096640 A JP2003096640 A JP 2003096640A JP 2004302259 A JP2004302259 A JP 2004302259A
Authority
JP
Japan
Prior art keywords
signal
decoding
encoding
hierarchical
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003096640A
Other languages
Japanese (ja)
Inventor
Masahiro Oshikiri
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003096640A priority Critical patent/JP2004302259A/en
Publication of JP2004302259A publication Critical patent/JP2004302259A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】低ビットレートで高品質な符号化を行うこと。
【解決手段】入力端子201から第nレイヤ残差信号が入力され、時間領域符号化部203と目標信号生成部204に与えられる。時間領域符号化部203は、前記第nレイヤ残差信号と入力端子202より入力される入力信号を用いて、第nレイヤ残差信号を時間領域にて符号化を行い、符号化コードを生成する。目標信号生成部204は、入力端子201より入力される入力信号と時間領域符号化部203で求められた符号化コードを使い、周波数領域符号化部205の入力信号を生成する。周波数領域符号化部205は、目標信号生成部204で生成される信号と入力端子202より入力される入力信号を用いて、周波数領域にて符号化して符号化コードを生成し、多重化部206に出力する。
【選択図】 図2
To perform high-quality encoding at a low bit rate.
An n-th layer residual signal is input from an input terminal, and supplied to a time domain coding unit and a target signal generation unit. The time domain encoding unit 203 encodes the n-th layer residual signal in the time domain using the n-th layer residual signal and an input signal input from the input terminal 202 to generate an encoded code. I do. The target signal generation unit 204 generates an input signal of the frequency domain coding unit 205 using the input signal input from the input terminal 201 and the coded code obtained by the time domain coding unit 203. The frequency domain coding unit 205 generates a coded code by performing coding in the frequency domain using the signal generated by the target signal generation unit 204 and the input signal input from the input terminal 202. Output to
[Selection] Fig. 2

Description

【0001】
【発明の属する技術分野】
本発明は、音響信号の階層符号化方法および階層復号化方法に関し、特に楽音信号または音声信号などの音響信号を高能率に圧縮符号化に用いて好適な音響信号の階層符号化方法および階層復号化方法に関する。
【0002】
【従来の技術】
楽音信号または音声信号を低ビットレートで圧縮する音響符号化技術は、移動体通信における電波等の伝送路容量及び記録媒体の有効利用のために重要である。音声信号を符号化する音声符号化に、ITU(International Telecommunication Union)で規格化されているG726、G729などの方式が存在する。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sで高品質に符号化が行える。また、広帯域信号(50Hz〜7kHz)を対象とする標準方式としてITUのG722、G722.1や、3GPP(The 3rd Generation Partnership Project)のAMR−WBなどが存在する。これらの方式は、ビットレートが6.6kbit/s〜64kbit/sで広帯域音声信号を高品質に符号化できる。
【0003】
音声信号を低ビットレートで高能率に符号化を行う有効な方法に、CELP(Code Excited Linear Prediction)がある。CELPは、人間の音声生成モデルを工学的に模擬したモデルに基づき、乱数やパルス列で表される励振信号を周期性の強さに対応するピッチフィルタと声道特性に対応する合成フィルタに通し、その出力信号と入力信号の二乗誤差が聴覚特性の重み付けの下で最小になるよう符号化コードを決定する方法である(例えば、非特許文献1参照)。最近の標準音声符号化方式の多くがCELPに基づいており、例えばG729は8kbit/sで狭帯域信号の符号化が行え、AMR−WBは6.6kbit/s〜23.85kbit/sで広帯域信号を符号化できる。
【0004】
一方で、楽音信号を符号化する楽音符号化の場合は、MPEG(Moving Picture Expert Group)で規格化されているレイヤIII方式やAAC方式のように、楽音信号を周波数領域に変換し、聴覚心理モデルを利用して符号化を行う変換符号化が一般的である。これらの方式は、サンプリング周波数が44.1kHzの信号に対しチャネル当たり64kbit/s〜96kbit/sで聴感的な劣化がほとんど生じないことが知られている。
【0005】
しかしながら、音声信号が主体で、背景に音楽や環境音が重畳している信号を符号化する場合、音声符号化方式を適用すると背景部の音楽や環境音の影響で、背景部の信号のみならず音声信号も劣化してしまい全体的な品質が低下するという問題があった。これは、音声符号化方式が、CELPという音声モデルに特化した方式を基本にしているために生じる問題である。また、音声符号化方式が対応できる信号帯域は高々7kHzまでであり、それ以上の高域を持つ信号に対しては構成上十分に対応しきれないという問題があった。
【0006】
一方で、楽音符号化は音楽に対して高品質に符号化を行えるので、前述したような背景に音楽や環境音がある音声信号についても十分な品質を得ることができる。対象となる信号の帯域もCD品質である22kHz程度まで対応可能である。その反面、高品質な符号化を実現するためにはビットレートを高くして使用する必要があり、仮にビットレートを32kbit/s程度まで低く抑えると復号信号の品質が低下するという問題がある。そのため、伝送レートの低い通信網で使用できないという問題があった。
【0007】
上述した問題を回避するためにこれら技術を組み合わせて、最初に入力信号を第1レイヤにてCELPで符号化し、次にその復号信号を入力信号から減算して得られる残差信号を求め、この信号を第2レイヤ以降にて変換符号化を行う方法が考えられる。この方法では、第1レイヤはCELPを用いているため音声信号を高品質に符号化でき、かつ第2レイヤ以降では第1レイヤで表しきれない背景の音楽や環境音、第1レイヤでカバーする周波数帯よりも高い周波数成分の信号を効率よく符号化することができる。
【0008】
しかしながら、音声ではなく音楽を入力したときに十分な品質を確保するためには、第2レイヤ以降へのビット配分を多くする必要があり、その結果ビットレートが高くなってしまうという問題がある。これは第1レイヤにCELPのような音声に特化した符号化方式を適用しているために生じる問題である。つまり、音楽信号が入力されたとき、第1レイヤで用いられるCELPでは音楽に対する符号化効率が高くないので、入力信号と第1レイヤの復号信号との誤差信号(つまり第2レイヤの入力信号)のパワーが大きくなる。この結果、第2レイヤ以降のレイヤに多くのビットを配分して、最終的な復号信号の品質を上げる必要があった。
【0009】
【非特許文献1】
”Code−Excited Linear Prediction (CELP): high quality speech at very low bit rates”, Proc. ICASSP 85, pp.937−940, 1985.
【0010】
【発明が解決しようとする課題】
このように、従来の装置においては、低ビットレートで高品質な符号化を行うことが難しいという問題がある。
【0011】
本発明はかかる点に鑑みてなされたものであり、低ビットレートで高品質な符号化を行うことができる音響信号の階層符号化方法および階層復号化方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明の階層符号化方法は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化方法であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化工程と、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化工程と、を具備し、前記第2符号化工程では、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域の双方で符号化するようにした。
【0013】
この方法によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0014】
本発明の階層符号化方法は、前記第2符号化工程は、上位レイヤで符号化された信号を復号して復号信号を生成する階層復号工程と、前記復号信号のサンプリング周波数を上げるアップサンプリング工程と、入力音響信号から前記復号信号を減算して差分信号を生成する階層減算工程と、前記差分信号を符号化する階層符号化工程とを具備するようにした。
【0015】
この方法によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0016】
本発明の階層符号化方法は、前記階層符号化工程は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化する時間領域符号化工程と、前記時間領域符号化工程で符号化された信号を復号して復号信号を生成する時間領域信号復号工程と、差分信号から前記復号信号を減算して第2差分信号を生成する時間領域信号減算工程と、前記第2差分信号を周波数領域で符号化する周波数領域符号化工程と、を具備するようにした。
【0017】
この方法によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0018】
本発明の階層符号化方法は、前記時間領域符号化工程は、上位レイヤで求められたピッチ周期から符号化で用いる適応ベクトルを限定する探索候補決定工程と、限定された適応ベクトルから入力音声信号と差が最も小さい適応ベクトルを探索する探索工程とを具備するようにした。
【0019】
この方法によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから探索の対象となる適応ベクトルの候補を限定し、限定した適応ベクトルを用いて符号化を行うことにより、時間領域符号化のピッチ周期の符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0020】
本発明の階層符号化方法は、前記時間領域符号化工程は、ピッチ周期を量子化する量子化工程を具備し、前記探索候補決定工程は、上位レイヤで求められたピッチ周期を当該レイヤのサンプリング周波数に適合するよう修正を加え、前記量子化工程は、修正後のピッチ周期を用いて当該レイヤのピッチ周期を量子化するようにした。
【0021】
この方法によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0022】
本発明の階層符号化方法は、前記時間領域符号化工程は、上位レイヤで求められた符号化のパラメータと当該レイヤの探索候補であるパラメータとを加算する加算工程と、前記加算工程の結果と入力音声信号から得られるパラメータと差が最も小さいパラメータを探索する探索工程とを具備するようにした。
【0023】
本発明の階層符号化方法は、前記時間領域符号化工程は、上位レイヤで求められたLPC係数をLSF係数に変換する変換工程と、を具備し、前記加算工程は、前記変換工程で変換されたLSF係数とLSF符号帳が保持するLSF係数とを加算し、前記探索工程は、加算されたLSF係数と入力音声信号から求められるLSF係数との差を最小とするLSF係数を探索するようにした。
【0024】
これらの方法によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を考慮して探索した最適な適応ベクトルを利用して復号化することにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0025】
本発明の階層符号化方法は、入力音響信号から聴覚マスキングを算出する聴覚マスキング工程を具備し、前記周波数領域符号化工程は、前記聴覚マスキングを用いたマスキング後の信号を用いて符号化するようにした。
【0026】
この方法によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0027】
本発明の階層復号化方法は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化された信号を復号する階層復号化方法であって、第1レイヤの符号化コードを復号する第1復号工程と、第2レイヤより下位のレイヤの符号化コードを時間領域と周波数領域の双方で復号する第2復号工程と、前記第1復号工程と前記第2復号工程の復号結果を加算する加算工程と、を具備するようにした。
【0028】
この方法によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0029】
本発明の階層復号化方法は、前記第1復号工程の復号結果のサンプリング周波数を前記第2復号工程の復号結果のサンプリング周波数にアップサンプリングするアップサンプリング工程を具備し、前記加算工程は、アップサンプリング後の前記第1復号工程と前記第2復号工程の復号結果を加算するようにした。
【0030】
この方法によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0031】
本発明の階層復号化方法は、前記第2復号工程は、時間領域の復号において、上位レイヤのピッチ周期またはLPC係数を用いて当該レイヤの復号を行う時間領域復号工程を具備するようにした。
【0032】
この方法によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0033】
また、この方法によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0034】
本発明の階層復号化方法は、前記第2復号工程は、聴覚マスキングを用いて周波数領域の係数を符号化して得られる符号化コードを復号する周波数領域復号工程を具備するようにした。
【0035】
この方法によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0036】
本発明の階層符号化装置は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化装置であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化手段と、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化手段と、を具備し、前記第2符号化手段は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域の双方で符号化する構成を採る。
【0037】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0038】
本発明の階層符号化装置は、前記第2符号化手段は、上位レイヤで符号化された信号を復号して復号信号を生成する階層復号手段と、前記復号信号のサンプリング周波数を上げるアップサンプリング手段と、入力音響信号から前記復号信号を減算して差分信号を生成する階層減算手段と、前記差分信号を符号化する階層符号化手段とを具備する構成を採る。
【0039】
この構成よれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0040】
本発明の階層符号化装置は、前記階層符号化手段は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化する時間領域符号化手段と、前記時間領域符号化手段で符号化された信号を復号して復号信号を生成する時間領域信号復号手段と、差分信号から前記復号信号を減算して第2差分信号を生成する時間領域信号減算手段と、前記第2差分信号を周波数領域で符号化する周波数領域符号化手段と、を具備する構成を採る。
【0041】
この構成によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0042】
本発明の階層符号化装置は、前記時間領域符号化手段は、過去に生成した適応ベクトルを保持する符号帳と、上位レイヤで求められたピッチ周期から符号化で用いる適応ベクトルを限定する探索候補決定手段と、限定された適応ベクトルから入力音声信号と聴感的な差が最も小さい適応ベクトルを探索する探索手段とを具備する構成を採る。
【0043】
この構成によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから探索の対象となる適応ベクトルの候補を限定し、限定した適応ベクトルを用いて符号化を行うことにより、時間領域符号化のピッチ周期の符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0044】
本発明の階層符号化装置は、前記時間領域符号化手段は、ピッチ周期を量子化する量子化手段を具備し、探索候補決定手段は、上位レイヤで求められたピッチ周期を当該レイヤのサンプリング周波数に適合するよう修正を加え、前記量子化手段は、修正後のピッチ周期を用いて当該レイヤのピッチ周期を量子化する構成を採る。
【0045】
この構成によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0046】
本発明の階層符号化装置は、前記時間領域符号化手段は、上位レイヤで求められた符号化のパラメータと当該レイヤの探索候補であるパラメータとを加算する加算手段と、前記加算手段の結果と入力音声信号と差が最も小さいパラメータを探索する探索手段とを具備する構成を採る。
【0047】
本発明の階層符号化装置は、前記時間領域符号化手段は、LSF係数を保持するLSF符号帳と、上位レイヤで求められたLPC係数をLSF係数に変換する変換手段とを具備し、前記加算手段は、前記変換手段で変換されたLSF係数とLSF符号帳が保持するLSF係数とを加算し、前記探索手段は、加算されたLSF係数と入力音声信号から求められるLSF係数との聴感的な差を最小とするLSF係数を探索する構成を採る。
【0048】
これらの構成によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を考慮して探索した最適な適応ベクトルを利用して復号化することにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0049】
本発明の階層符号化装置は、入力音響信号から聴覚マスキングを算出する聴覚マスキング手段を具備し、前記周波数領域符号化手段は、前記聴覚マスキングを用いたマスキング後の信号を用いて符号化する構成を採る。
【0050】
この構成によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0051】
本発明の階層復号化装置は、入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化された信号を復号する階層復号化装置であって、第1レイヤの符号化コードを復号する第1復号手段と、第2レイヤより下位のレイヤの符号化コードを時間領域と周波数領域の双方で復号する第2復号手段と、前記第1復号手段と前記第2復号手段の復号結果を加算する加算手段と、を具備する構成を採る。
【0052】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0053】
本発明の階層復号化装置は、前記第1復号手段の復号結果のサンプリング周波数を前記第2復号手段の復号結果のサンプリング周波数にアップサンプリングするアップサンプリング手段を具備し、前記加算手段は、アップサンプリング後の前記第1復号手段と前記第2復号手段の復号結果を加算する構成を採る。
【0054】
この構成によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0055】
本発明の階層復号化装置は、前記第2復号手段は、時間領域の復号において、上位レイヤのピッチ周期またはLPC係数を用いて当該レイヤの復号を行う時間領域復号手段を具備する構成を採る。
【0056】
この構成によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0057】
また、この構成によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0058】
本発明の階層復号化装置は、前記第2復号手段は、聴覚マスキングを用いて周波数領域の係数を符号化して得られる符号化コードを復号する周波数領域復号手段を具備する構成を採る。
【0059】
この構成によれば、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0060】
本発明の音響信号送信装置は、音響信号を電気的信号に変換する音響入力手段と、この音響入力手段から出力された信号をディジタル信号に変換するA/D変換手段と、このA/D変換手段から出力されたディジタル信号を符号化する上記階層符号化装置と、この符号化装置から出力された符号化コードを無線周波数の信号に変調するRF変調手段と、このRF変調手段から出力された信号を電波に変換して送信する送信アンテナと、を具備する構成を採る。
【0061】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0062】
本発明の音響信号受信装置は、電波を受信する受信アンテナと、この受信アンテナに受信された信号を復調するRF復調手段と、このRF復調手段にて得られた情報を復号する上記階層復号化装置と、この復号化装置から出力された信号をアナログ信号に変換するD/A変換手段と、このD/A変換手段から出力された電気的信号を音響信号に変換する音響出力手段と、を具備する構成を採る。
【0063】
この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0064】
本発明の通信端末装置は、上記音響信号送信装置あるいは上記音響信号受信装置の少なくとも一方を具備する構成を採る。本発明の基地局装置は、上記音響信号送信装置あるいは上記音響信号受信装置の少なくとも一方を具備する構成を採る。
【0065】
これらの構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0066】
また、この構成によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0067】
【発明の実施の形態】
本発明者は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分には、周期性のある信号と周期性のない信号の両方が存在することに着目し、本発明をするに至った。
【0068】
すなわち、本発明の骨子は、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、時間領域の符号化で符号化できない残差信号、すなわち差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことである。
【0069】
以下、本発明の実施の形態について図面を参照して詳細に説明する。以降の実施の形態の説明ではレイヤ数Nを3にした場合について説明するが、本発明はこの数値に限定されるものではなく、Nは、自然数であり、N≧2の条件を満たす構成に適用することが可能である。
【0070】
(実施の形態1)
図1は、本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図である。図1の階層符号化装置100は、入力端子101と、DS1部102と、第1レイヤ符号化部103と、第1レイヤ復号化部104と、US1部105と、DS2部106と、遅延器107と、減算器108と、第2レイヤ符号化部109と、第2レイヤ復号化部110と、加算器111と、US2部112と、遅延器113と、減算器114と、第3レイヤ符号化部115と、多重化部118と、出力端子119と、とから主に構成される。
【0071】
本実施の形態では、各レイヤに入力される信号のサンプリング周波数には次の式(1)に示す関係がある点に特徴がある。
【数1】

Figure 2004302259
ここで、Fs(n)は第nレイヤの信号のサンプリング周波数を表す。本実施の形態によれば、複数のサンプリング周波数に対応した符号化を行うことが可能となる。
【0072】
入力端子101から、サンプリング周波数Fs(3)の音響信号が入力されDS1部102に与えられる。
【0073】
DS1部102は、入力音響信号をダウンサンプリングし、この入力音響信号のサンプリング周波数をFs(3)からFs(1)に下げる。そして、DS1部102は、サンプリング周波数Fs(1)の入力信号を第1レイヤ符号化部103に出力する。
【0074】
第1レイヤ符号化部103は、過去に生成した駆動音源信号を内部状態として保持している適応符号帳を有し、適応符号帳を用いることで周期性の強い信号を効率的に符号化することができる。第1レイヤ符号化部103は、入力音響信号と符号化後に生成される復号信号との間の聴感的な歪が最小となるように第1符号化コードを決定する。第1レイヤ符号化部103に適用される代表的な方法として符号励信線形予測法(CELP)がある。
【0075】
そして、第1レイヤ符号化部103は、得られた第1符号化コードを第1レイヤ復号化部104及び多重化部118に出力する。第1レイヤ復号化部104は、第1符号化コードを用いて第1レイヤ復号信号を生成し、この第1レイヤ復号信号をUS1部105に出力する。
【0076】
US1部105は、第1レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(1)からFs(2)に上げる。そして、US1部105は、サンプリング周波数Fs(2)の第1レイヤ復号信号を減算器108と加算器111に出力する。
【0077】
次に、入力端子101から入力される音響信号がDS2部106に与えられる。DS2部106は、入力音響信号をダウンサンプリングし、この入力音響信号のサンプリング周波数をFs(3)からFs(2)に下げる。そして、DS2部106は、サンプリング周波数Fs(2)の入力信号を遅延器107に出力する。
【0078】
遅延器107は、入力端子101から入力される音響信号を所定の時間長だけ遅延して減算器108に出力する。すなわち、DS1部102、第1レイヤ符号化部103、第1レイヤ復号化部104、US1部105およびDS2部106にて生じる遅延を補正する役割を持つ。
【0079】
減算器108は、遅延器107の出力信号と前述の第1レイヤ復号信号との差をとり第2レイヤ残差信号を生成する。そして、減算器108は、第2レイヤ残差信号を第2レイヤ符号化部109に出力する。
【0080】
第2レイヤ符号化部109は、第2レイヤ残差信号を聴感的に品質改善が成されるように符号化を行い、第2符号化コードを決定する。そして、第2レイヤ符号化部109は、第2レイヤ復号化部110と第2符号化コードを多重化部118に出力する。第2レイヤ復号化部110は、第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成し、この第2レイヤ復号残差信号を加算器111に出力する。
【0081】
加算器111は、第1レイヤ復号信号と第2レイヤ復号残差信号の和をとり、第2レイヤ復号信号を生成する。そして、加算器111は、この第2レイヤ復号信号をUS2部112に出力する。
【0082】
US2部112は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部112は、サンプリング周波数Fs(3)の第1レイヤ復号信号を減算器114に出力する。
【0083】
次に、遅延器113は、入力端子101から入力される音響信号を所定の時間長だけ遅延した後、この音響信号を減算器114に出力する。すなわち、遅延器113は、前段までの符号化部と復号化部で生じる遅延、具体的にはDS1部102からUS2部112までの信号処理で生じる遅延を補正する役割を持つ。
【0084】
減算器114は、遅延器113の出力信号と前述の第2レイヤ復号信号との差をとり第3レイヤ残差信号を生成する。そして、減算器114は、この第3レイヤ残差信号を第3レイヤ符号化部115に出力する。
【0085】
第3レイヤ符号化部115は、第3レイヤ残差信号を聴感的に品質改善が成されるように符号化して第3符号化コードを決定し、この第3符号化コードを多重化部118に出力する。
【0086】
多重化部118は、第1符号化コード、第2符号化コードおよび第3符号化コードを所定の手段によって多重化を行い、符号化ビット列を生成する。そして、多重化部118は、この符号化ビット列を出力端子119より出力する。
【0087】
次に、第2レイヤ以降の符号化の詳細について説明する。本実施の形態の階層符号化装置は、第2レイヤ以降の符号化において、入力音響信号と前段の符号化信号を復号化した信号との差分から残差信号を生成し、この残差信号を時間領域符号化部と周波数領域符号化部により符号化を行う点に特徴がある。
【0088】
次に、第nレイヤ(2≦n≦N)符号化部について説明を行う。図2は、本実施の形態の階層符号化装置の第nレイヤ(2≦n≦N)符号化部の構成を示すブロック図である。
【0089】
入力音響信号と第nレイヤ(2≦n≦N)符号化信号を復号化した信号との差分である第nレイヤ残差信号には、上位層までの符号化ノイズとサンプリング周波数が高くなったことによる高周波成分とが含まれる。
【0090】
第nレイヤ残差信号には時間領域で処理した場合に効率的に符号化できる成分と周波数領域で処理した場合に効率的に符号化できる成分とが混在している。そのため時間領域および周波数領域の2つの領域で符号化を行うことにより効率的な符号化が実現できるという効果が得られる。また、時間領域符号化部と周波数領域符号化部の両者には、入力信号がそれぞれ与えられている。この入力信号は、聴覚的に高品質な符号化を実現するために聴覚マスキングの算出などに利用される。以下、図2を用いて詳細な説明を行う。
【0091】
入力端子201から第nレイヤ残差信号が入力され、時間領域符号化部203と目標信号生成部204に与えられる。時間領域符号化部203は、前記第nレイヤ残差信号と入力端子202より入力される入力信号を用いて、第nレイヤ残差信号を時間領域にて符号化を行い、符号化コードを生成する。そして、時間領域符号化部203は、符号化コードを目標信号生成部204と多重化部206に出力する。時間領域符号化部203の詳細については図3を用いて後述する。
【0092】
次に、目標信号生成部204は、入力端子201より入力される入力信号と時間領域符号化部203で求められた符号化コードを使い、周波数領域符号化部205の入力信号を生成する。目標信号生成部204の詳細については図4を用いて後述する。
【0093】
次に、周波数領域符号化部205は、目標信号生成部204で生成される信号と入力端子202より入力される入力信号を用いて、周波数領域にて符号化して符号化コードを生成し、多重化部206に出力する。周波数領域符号化部205の詳細については図5を用いて後述する。
【0094】
以下、各ブロックの詳細について説明する。図3は、本実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図である。図3の時間領域符号化部203は、入力端子301と、LPC分析器302と、LPC量子化器303と、LPC復号器304と、聴感重みフィルタ305と、合成フィルタ306と、適応符号帳307と、雑音符号帳308と、乗算器309と、乗算器310と、ゲイン符号帳311と、加算器312と、減算器313と、探索器314と、多重化部315と、出力端子316とから主に構成される。
【0095】
LPC分析器302は、入力端子301から入力されたサンプリングレートFs(n)の音響信号からLPC係数を求める。このLPC係数は、聴感的な品質向上のために利用される係数である。LPC分析器302は、このLPC係数を聴感重みフィルタ305とLPC量子化器303に出力する。
【0096】
LPC量子化器303は、LPC係数をLSF係数などの量子化に適したパラメータに変換し、量子化を行う。そして、LPC量子化器303は、この量子化で得られる符号化コードを多重化部315とLPC復号器304に出力する。
【0097】
LPC復号器304は、符号化コードから量子化後のLSF係数を算出し、このLSF係数をLPC係数に変換する。この処理により、量子化後のLPC係数が求められる。そして、LPC復号器304は、この量子化後のLPC係数を合成フィルタ306に出力する。
【0098】
合成フィルタ306は、この量子化後のLPC係数を用いて適応ベクトル、適応ゲイン、雑音ベクトルおよび雑音ゲインの探索を行う。次に、適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの探索方法について説明する。
【0099】
適応符号帳307は、過去に生成した駆動音源信号を内部状態として保持しており、この内部状態を所望のピッチ周期で繰り返すことにより適応ベクトルを生成する。ピッチ周期の取る範囲は60Hz〜400Hzの間が適当である。また、雑音符号帳308は、あらかじめ記憶領域に格納されている雑音ベクトル、もしくは代数(algebraic)構造のように記憶領域を持たずにルールに従い生成される雑音ベクトルを出力する。
【0100】
ゲイン符号帳311は、適応ベクトルに乗じられる適応ベクトルゲインを乗算器309に出力し、雑音ベクトルに乗じられる雑音ベクトルゲインを乗算器310に出力する。
【0101】
乗算器309は、適応ベクトルに適応ベクトルゲインを乗算して加算器312に出力する。乗算器310は、雑音ベクトルに雑音ベクトルゲインを乗算して加算器312に出力する。
【0102】
加算器312は、適応ベクトルゲインが乗じられた適応ベクトルと雑音ベクトルゲインが乗じられた雑音ベクトルとを加算して駆動音源信号を生成する。そして、加算器312は、この駆動音源信号を合成フィルタ306に出力する。
【0103】
合成フィルタ306は、駆動音源信号を合成フィルタに通して合成信号を生成し、この合成信号を減算器313に出力する。
【0104】
減算器313は、入力端子317から入力される第nレイヤ予測残差信号から合成信号を減算し、聴感重みフィルタ305に減算後の信号を出力する。
【0105】
聴感重みフィルタ305は、LPC分析器302で求められたLPC係数を基に減算器313で求められる信号に重み付けを行う。これは、量子化歪のスペクトルを入力信号のスペクトル包絡にマスクされるようスペクトル整形を行うことを目的として行われる。
【0106】
探索器314では、減算後の信号から定義される歪が最小となる適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの組み合わせを効率よく探索し、それら符号化コードを多重化部315に送る。
【0107】
探索器314では、以下の式(2)または式(3)で定義される歪を最小とする符号化コードi、j、mまたはi、j、m、nを決定してそれらを多重化部315に送ることになる。
【数2】
Figure 2004302259
【数3】
Figure 2004302259
ここで、t(k)は第nレイヤ残差信号、q(k)は第i番目の適応ベクトル、c(k)は第j番目の雑音ベクトル、βとγはそれぞれ適応ベクトルゲインと雑音ベクトルゲインを表す。
【0108】
式(2)と式(3)とではゲイン符号帳の構成が異なる。式(2)の場合、ゲイン符号帳は適応ベクトルゲインβと雑音ベクトルゲインγを要素として持つベクトルとして表されており、ベクトルを特定するための符号化コードmが決定されることになる。式(3)の場合、ゲイン符号帳は適応ベクトルゲインβと雑音ベクトルゲインγをそれぞれ独立に有しており、それぞれの符号化コードm、nが独立に決定されることになる。また、h(l)は聴感重みフィルタのインパルス応答を表す。
Figure 2004302259
は畳み込みを表す演算子である。
【0109】
全ての符号化コードが決定された後に、多重化部315は、符号化コードを一つにまとめて出力端子316より出力する。そして、次のフレーム(もしくはサブフレーム)での復号化処理に備えて、選択された適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインを用いて表される駆動音源信号を用いて適応符号帳の内部状態を更新する。
【0110】
次に、目標信号生成部204の詳細につい説明する。図4は、本実施の形態の階層符号化装置の目標信号生成部の構成を示すブロック図である。図4の目標信号生成部204は、入力端子401と、入力端子402と、復号部403と、遅延器404と、減算器405と、出力端子406とから主に構成される。
【0111】
入力端子401から時間領域符号化部203で得られる符号化コードが入力される。復号部403は、この符号化コードの情報に従い復号信号を生成する。
【0112】
遅延器404は、入力端子402から入力される第2レイヤ残差信号に時間領域符号化部203および復号部403で生じる遅延を補正するように遅延を与えた後、減算器405に出力する。
【0113】
減算器405は、遅延器404の出力信号から復号部403で得られる復号信号を減算して周波数領域符号化部205の目標信号を生成し、減算した信号を出力端子406から出力する。
【0114】
次に、周波数領域符号化部205の詳細について説明する。図5は、本実施の形態の階層符号化装置の周波数領域符号化部の構成を示すブロック図である。図5の周波数領域符号化部205は、入力端子501と、入力端子502と、周波数領域変換部503と、聴覚マスキング算出部504と、量子化部505と、出力端子506とから主に構成される。
【0115】
入力端子501から周波数領域符号化部205に入力される信号は、目標信号生成部204で求められた目標信号である。
【0116】
周波数領域変換部503は、目標信号に分析窓を乗じた後に周波数変換が行われ、この周波数変換で得られる変換係数が量子化部505に出力される。ここでの周波数変換の方法としては、変形離散コサイン変換(MDCT)や離散フーリエ変換(DFT)などを用いることができる。
【0117】
入力端子502からはサンプリング周波数Fs(n)の音響信号が与えられ、聴覚マスキング算出部504に入力される。聴覚マスキング算出部504は、人間には知覚されないノイズパワーの閾値を表す聴覚マスキングを算出し、量子化部505に聴覚マスキングを出力する。
【0118】
量子化部505は、聴覚マスキングを利用して周波数領域変換部503で求められた変換係数を量子化し、そのとき得られる符号化コードを出力端子506より出力する。
【0119】
次に聴覚マスキングの算出法を、図6を用いて詳細に説明する。図6は、本実施の形態の階層符号化装置の聴覚マスキング算出部の構成を示すブロック図である。人間の聴覚特性には、ある信号が与えられたとき、その信号の周波数の近傍に位置する信号が聞こえ難くなるというマスキング効果がある。この特性を利用して、入力信号のスペクトルから聴覚マスキングを算出し、量子化歪をこのマスキング値以下になるように変換係数の量子化を行うことにより、少ないビットレートで効率よく変換係数を量子化することができる。
【0120】
入力端子601から入力信号が与えられ、周波数変換部602にて周波数領域への変換が行われ変換係数が算出される。周波数領域への変換の方法として、前述のように変形離散コサイン変換(MDCT)や離散フーリエ変換(DFT)などを用いることが可能である。ここでは、DFTを用いる場合について説明することとし、DFTにより求められたフーリエ係数を{Re(m),Im(m)}と表すものとする。
【0121】
図6において、周波数変換部602は、遅延器107から出力された入力信号をフーリエ変換し、フーリエ係数{Re(m),Im(m)}を算出する。ここでmは周波数を表す。
【0122】
バークスペクトル算出部603は、以下の式(4)を用いてバークスペクトルB(k)を算出する。
【数4】
Figure 2004302259
ここで、P(m)はパワースペクトルを表し、以下の式(5)より求められる。
【数5】
Figure 2004302259
また、kはバークスペクトルの番号に対応し、FL(k)、FH(k)はそれぞれ第kバークスペクトルの最低周波数(Hz)、最高周波数(Hz)を表す。バークスペクトルB(k)はバークスケール上で等間隔に帯域分割されたときのスペクトル強度を表す。ヘルツスケールをf、バークスケールをBと表したとき、ヘルツスケールとバークスケールの関係は以下の式(6)で表される。
【数6】
Figure 2004302259
【0123】
スプレッド関数畳み込み部604は、以下に示す式(7)を用いてバークスペクトルB(k)にスプレッド関数SF(k)を畳み込み、C(k)を算出する。
【数7】
Figure 2004302259
【0124】
トーナリティ算出部605は、以下の式(8)を用い、パワースペクトルP(m)から各バークスペクトルのスペクトル平坦度SFM(k)を求める。
【数8】
Figure 2004302259
ここで、μg(k)は第kバークスペクトルの幾何平均、μa(k)は第kバークスペクトルの算術平均を表す。そして、トーナリティ算出部605は、以下の式(9)を用いてスペクトル平坦度SFM(k)のデシベル値SFMdB(k)からトーナリティ係数α(k)を算出する。
【数9】
Figure 2004302259
【0125】
聴覚マスキング算出部606は、以下の式(10)を用いてトーナリティ算出部605で算出したトーナリティ係数α(k)から各バークスケールのオフセットO(k)を求める。
【数10】
Figure 2004302259
【0126】
そして、聴覚マスキング算出部606は、以下の式(11)を用いてスプレッド関数畳み込み部604で求めたC(k)からオフセットO(k)を減算して聴覚マスキングT(k)を算出する。
【数11】
Figure 2004302259
ここで、T(k)は絶対閾値を表す。絶対閾値は、人間の聴覚特性として観測される聴覚マスキングの最小値を表す。そして、聴覚マスキング算出部606は、バークスケールで表される聴覚マスキングT(k)をヘルツスケールM(m)に変換して出力する。
【0127】
このように、本実施の形態の階層符号化装置によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0128】
特に、本実施の形態の階層符号化装置によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、前記差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、符号化して低ビットレートで高品質な符号化を行うことができる。
【0129】
また、本実施の形態の階層符号化装置によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0130】
(実施の形態2)
本実施の形態では、実施の形態1の階層符号化装置で符号化された信号を復号する例について説明する。本実施の形態の特徴は、実施の形態1で説明された階層符号化法の符号化コードを復号することができ、その結果高品質な音響信号を復号することが可能になる点にある。
【0131】
図7は、本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図である。図7の階層復号化装置700は、入力端子701と、分離部702と、第1レイヤ復号化部703と、US1部704と、加算器705と、第2レイヤ復号化部706と、US2部707と、第3レイヤ復号化部708と、加算器709と出力端子710とから主に構成される。
【0132】
入力端子701から図1の階層符号化装置にて符号化された符号化ビット列が入力される。
【0133】
分離部702は、符号化ビット列を分離し、第1レイヤ符号化で得られる第1符号化コード、第2レイヤ符号化で得られる第2符号化コードおよび第3レイヤ符号化で得られる第3符号化コードを生成する。そして、分離部702は、第1符号化コードを第1レイヤ復号化部703に出力し、第2符号化コードを第2レイヤ復号化部706に出力し、第3符号化コードを第3レイヤ復号化部708に出力する。
【0134】
第1レイヤ復号化部703は、分離部702で得られた第1符号化コードを用いて復号処理を行い、第1レイヤ復号信号を生成する。
【0135】
US1部704は、第1レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(1)からFs(2)に上げる。そして、US1部704は、サンプリング周波数Fs(2)の第1レイヤ復号信号を加算器705に出力する。
【0136】
次に、第2レイヤ復号化部706は、分離部702で得られた第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成する。加算器705では、前述の第1レイヤ復号信号と第2レイヤ復号残差信号とを加算し、第2レイヤ復号信号を生成する。そして、加算器705は、第2レイヤ復号信号をUS2部707に出力する。
【0137】
US2部707は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部707は、サンプリング周波数Fs(3)の第1レイヤ復号信号を加算器709に出力する。
【0138】
次に、第3レイヤ復号化部708は、分離部702で得られた第3符号化コードを用いて復号処理を行い、第3レイヤ復号残差信号を生成する。加算器709は、前述の第2レイヤ復号信号と第3レイヤ復号残差信号とを加算し、第3レイヤ復号信号を生成する。加算器709は、第3レイヤ復号信号を出力端子710に出力する。
【0139】
次に、第nレイヤ(2≦n≦N)復号化部について説明を行う。図8は、本実施の形態の階層復号化装置の第2レイヤ以降の復号化部の構成を示すブロック図である。
【0140】
入力端子801より第nレイヤ(2≦n≦N)符号化コードが入力される。分離部802は、第nレイヤ(2≦n≦N)符号化コードを時間領域符号化コードと周波数領域符号化コードに分離する。そして、分離部802は、時間領域符号化コードを時間領域復号化部803に出力し、周波数領域符号化コードを周波数領域復号化部804に出力する。
【0141】
時間領域復号化部803は、時間領域符号化コードを用いて時間領域復号信号を生成し、時間領域復号信号を加算器805に出力する。時間領域復号化部803の詳細については図9を用いて後述する。
【0142】
同様に、周波数領域復号化部804は、周波数領域符号化コードを用いて周波数領域復号信号を生成し、加算器805に出力する。周波数領域復号化部804の詳細については図10を用いて後述する。加算器805は、時間領域復号信号と周波数領域復号信号との加算を行い、出力端子806より出力する。
【0143】
次に、図9を用いて時間領域復号化部803の説明を行う。図9は、本実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図である。
【0144】
図9において、分離部902は、入力端子901より入力される時間領域符号化コードから符号化コードを分離し、適応符号帳903、雑音符号帳904、ゲイン符号帳905、及びLPC復号器909にそれぞれ出力する。LPC復号器909は、与えられる符号化コードを用いてLPC係数を復号し、合成フィルタ910に出力する。
【0145】
次に、適応符号帳903、雑音符号帳904およびゲイン符号帳905は、符号化コードを利用してそれぞれ適応ベクトルq(k)、雑音ベクトルc(k)、適応ベクトルゲインβおよび雑音ベクトルゲインγをそれぞれ復号する。
【0146】
乗算器906は、適応ベクトルに適応ベクトルゲインを乗じて加算器908に出力する。同様に、乗算器907は、雑音ベクトルに雑音ベクトルゲインを乗じて加算器908に出力する。加算器908は、乗算後の適応ベクトルと雑音ベクトルとを加算して駆動音源信号を生成する。駆動音源信号をex(k)と表すと、駆動音源信号ex(k)は次の式(12)のように求められる。
【数12】
Figure 2004302259
【0147】
次に、復号されたLPC係数と駆動音源信号ex(k)を用いて合成フィルタ910にて合成信号syn(k)を次の式(13)に従い生成する。
【数13】
Figure 2004302259
ここで、αは復号されたLPC係数、NPはLPC係数の次数を表す。このように復号された復号信号syn(n)は出力端子911より出力される。上記復号化処理が終了した後に、次のフレーム(もしくはサブフレーム)での復号化処理に備えて、適応符号帳の内部状態を最新の駆動音源信号を用いて更新する。
【0148】
次に図10を用いて周波数領域復号化部804の説明を行う。図10は、本実施の形態の階層復号化装置の周波数領域復号化部の構成を示すブロック図である。変換係数復号化部1002は、入力端子1001から入力される周波数領域符号化コードから量子化された変換係数を復号する。次に時間領域変換部1003は、変換係数復号化部1002から得られる変換係数に時間領域変換処理を施し、時間領域の信号を生成する。時間領域の信号にはフレーム(またはサブフレーム)間の不連続が生じないように重ね合わせ加算などの処理が施される。そして、時間領域変換部1003は、この出力信号を出力端子1004より出力する。
【0149】
このように、本実施の形態の階層復号化装置によれば、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域で符号化した符号化信号を、周期性のある信号を時間領域と、周期性のない信号を周波数領域とで復号することにより、低ビットレートで高品質な符号化及び復号化を行うことができる。
【0150】
また、本実施の形態の階層復号化装置によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0151】
(実施の形態3)
図11は、本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図である。本実施の形態では、第nレイヤ(2≦n≦N)符号化部が時間領域符号化部と周波数領域符号化部で構成される音響信号符号化方式において、上位レイヤにて求められたピッチ周期を利用して符号化を行う時間領域符号化部を有する点に特徴がある。
【0152】
本実施の形態によれば、上位レイヤで求めたピッチ周期を利用することにより、時間領域符号化部のピッチ周期の符号化をより効率的に行うことが可能となり、その結果として低ビットレートで高品質に符号化を行うことができる。図11において、図2と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0153】
入力端子1108から、上位レイヤにて求められたピッチ周期Tが入力される。時間領域符号化部1103は、入力された上位レイヤのピッチ周期を利用して符号化を行う。この場合の時間領域符号化部1103の構成を図12に示す。図12は、本実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図である。図12において、図3と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0154】
入力端子1218から入力される下位レイヤのピッチ周期Tは探索候補決定部1219に与えられる。探索候補決定部1219は、上位レイヤのピッチ周期Tを基に適応符号帳1207に含まれる探索の対象となる適応ベクトルの候補を限定する。
【0155】
上記限定により、適応符号帳1207に含まれる全ての候補を探索の対象とする場合に比べ、この方法によれば探索の対象となる適応ベクトルの候補が少なくなるために当該レイヤのピッチ周期を表すための符号量を少なくできる。さらに適応符号帳の探索に必要な演算量が削減できるなどの効果が得られる。
【0156】
探索候補決定部1219は、上位レイヤのピッチ周期Tを使用して次の式(14)で示される範囲に含まれるピッチ周期に対応する適応ベクトルを探索の対象とすることができる。ただし、上位レイヤのサンプリング周波数と当該レイヤのサンプリング周波数が異なる場合、当該レイヤのサンプリング周波数に適合するように上位レイヤのピッチ周期Tを修正して使用するものとする。
【数14】
Figure 2004302259
ここで、T(n)は当該レイヤ(第nレイヤ)のピッチ周期を表す。T(m)は上位レイヤのピッチ周期を表し、mの範囲は、1≦m<nと表される。また、ΔT1とΔT2はピッチ周期の範囲を決定する定数を表す。適応ベクトルの探索は式(14)に含まれるピッチ周期T(n)に対応する適応ベクトルについてのみ行われることになり、探索の結果、相対ピッチ周期ΔTが決定され、この情報が符号化コードとして多重化部1215に与えられる。
【0157】
また、上位レイヤのピッチ周期が倍ピッチもしくは半ピッチになっている場合を考慮して、次に示す式(15)に従い適応符号帳1207に含まれる適応ベクトルの探索候補を決定しても良い。
【数15】
Figure 2004302259
ここで、kはk={…,1/4,1/3,1/2,1,2,3,4,…}のように整数倍もしくは整数分の1を表す変数である。またΔT1(k)およびΔT2(k)と表記しているのは、kの値に依存してピッチ周期の探索範囲が異なることがある場合を示している。
【0158】
このように、本実施の形態の階層符号化装置によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから探索の対象となる適応ベクトルの候補を限定し、限定した適応ベクトルを用いて符号化を行うことにより、時間領域符号化のピッチ周期の符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0159】
(実施の形態4)
図13は、本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図である。本実施の形態では、第nレイヤ(2≦n≦N)符号化部が時間領域符号化部と周波数領域符号化部で構成される階層符号化方式において、上位レイヤにて求められたピッチ周期を利用して符号化を行う時間領域符号化部により生成された符号化コードを復号できる点に特徴がある。
【0160】
本実施の形態によれば、上位レイヤで求めたピッチ周期を利用することにより、時間領域符号化部のピッチ周期の符号化がより効率的に行うことが可能となり、その結果として低ビットレートで高品質に符号化を行うことができる階層符号化方式の符号化コードを復号することにより、高品質な復号信号を得ることができるという効果が得られる。
【0161】
図13において、図8と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。入力端子1307から、上位レイヤにて復号されたピッチ周期Tが入力され、時間領域復号化部1303に与えられる。
【0162】
時間領域符号化部1303は、入力された上位レイヤのピッチ周期を利用して復号化を行う。この時間領域復号化部1303の構成を図14に示す。図14は、本実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図である。図14において、図9と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0163】
入力端子1412から入力される上位レイヤにて復号されたピッチ周期Tは適応ベクトル決定部1413に与えられる。さらに、分離部1402にて相対ピッチ周期ΔTが復号され適応ベクトル決定部1413に与えられる。
【0164】
適応ベクトル決定部1413は、下位レイヤのピッチ周期Tおよび相対ピッチ周期ΔTを用いて、次の式(16)に従い当該レイヤのピッチ周期Tを算出する。
【数16】
Figure 2004302259
ここで、T(n)は当該レイヤ(第nレイヤ)のピッチ周期を表し、T(m)は上位レイヤ(1≦m<n)のピッチ周期を表す。式(15)に従い適応ベクトルの探索候補が決定されている場合には、当該レイヤのピッチ周期は次の式(17)に従い算出される。
【数17】
Figure 2004302259
ここで、kはk={…,1/4,1/3,1/2,1,2,3,4,…}のように整数倍もしくは整数分の1を表す変数である。このようにして復号した当該レイヤのピッチ周期を適応符号帳1403に与える。適応符号帳1403では、復号したピッチ周期に対応した適応ベクトルを出力することになる。
【0165】
このように、本実施の形態の音声復号化装置によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたピッチ周期を利用して適応符号帳の適応ベクトルから復号化に用いる適応ベクトルの候補を限定して復号化を行うことにより、時間領域符号化のピッチ周期の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0166】
(実施の形態5)
実施の形態5では、実施の形態3の入力端子1108から入力されるパラメータが異なる例について説明する。実施の形態3では上位レイヤで求められたピッチ周期が入力されていたが、本実施の形態では上位レイヤにて求められたLPC係数が入力される。
【0167】
本実施の形態では、第nレイヤ(2≦n≦N)符号化部が時間領域符号化部と周波数領域符号化部で構成される階層符号化方式において、上位レイヤにて求められたLPC係数を利用して符号化を行う時間領域符号化部を有する点に特徴がある。本実施の形態によれば、上位レイヤで求めたLPC係数を利用することにより、時間領域符号化部のLPC係数の符号化がより効率的に行うことが可能となり、その結果として低ビットレートで高品質に符号化を行うことができる。図11において、図2と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0168】
図11において、入力端子1108から、上位レイヤにて求められたLPC係数が入力され、時間領域符号化部1103に与えられる。時間領域符号化部1103は、入力された下位レイヤのLPC係数を利用して符号化を行う。この場合の時間領域符号化部1103の構成を図15に示す。図15は、本実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図である。図15において、図3と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0169】
入力端子1518から入力される上位レイヤのLPC係数は、LPC量子化器1503に与えられる。LPC量子化器1503は、LPC分析器1502から与えられる当該レイヤのLPC係数を上位レイヤのLPC係数を利用して効率的に符号化を行う。LPC量子化器1503の構成を、図16を用いて説明する。図16は、本実施の形態の階層符号化装置のLPC量子化器の構成を示すブロック図である。
【0170】
入力端子1609からここでは図示されないLPC分析器1502で求められた当該レイヤのLPC係数が入力される。当該レイヤのLPC係数を{αp; p=1〜NP(n)}と表す。ここでNP(n)は当該レイヤ(第nレイヤ)のLPC係数の次数を表す。
【0171】
次に、LSF変換部1606は、当該フレームのLPC係数をLSF係数に変換する。LSF係数は、LPC係数と相互に変換可能なパラメータで、フィルタの安定条件判定が容易、パラメータの補間特性が良い、スペクトル歪に対するパラメータの感度がほぼ一定などの利点があり、音声符号化の分野では広く利用されている。
【0172】
ここでLSF係数を{Fp; p=1〜NP(n)}と表すと、LSF係数は0〜1の間の値を取り、かつFp<Fp+1の関係がある。同様に入力端子1601から入力される上位レイヤのLPC係数を{βp; p=1〜NP(m)}と表す。ここでNP(m)は上位レイヤ(第mレイヤ、m<n)のLPC係数の次数を表す。
【0173】
次に、LSF変換部1602は、上位レイヤのLPC係数{βp; p=1〜NP(m)}をLSF係数{Gp; p=1〜NP(m)}に変換する。次に、修正部1603は、当該レイヤのサンプリング周波数に適合するように下位レイヤのLSF係数に定数を乗じる。この定数は、Fs(m)/Fs(n)で表される。
【0174】
加算器1605は、修正部1603から与えられる変換後の下位レイヤのLSF係数とデルタLSF符号帳1604に格納されているデルタLSFベクトルとを加算する。減算器1607は、当該レイヤのLSF係数から加算器1605の出力ベクトルを減じ、その誤差信号を探索器1608に出力する。
【0175】
探索器1608は、前記誤差信号のエネルギーまたは聴感的に重み付けされたエネルギーを最小にするデルタLSF符号帳1604に格納されているデルタLSFベクトルを効率的に探索し、そのインデックスを符号化コードとして出力端子1610より出力する。
【0176】
このように、本実施の形態の階層符号化装置によれば、第2レイヤより下位の時間領域符号化において、上位レイヤにて求められたLPC係数(またはLSF係数)と当該レイヤのLPC係数(またはLSF係数)を用いて最適なデルタLSFベクトルを探索することにより、上位レイヤにて求められたLPC係数を考慮して最適なデルタLSFベクトルを探索することができ、時間領域符号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0177】
(実施の形態6)
実施の形態6では、実施の形態4の入力端子1307から入力されるパラメータが異なる例について説明する。実施の形態4では上位レイヤで求められたピッチ周期が入力されていたが、実施の形態6では上位レイヤにて求められたLPC係数が入力される。
【0178】
本実施の形態では、第nレイヤ(2≦n≦N)復号化部が時間領域復号化部と周波数領域復号化部で構成される音響信号復号化方式において、上位レイヤにて復号されたLPC係数を利用して当該レイヤのLPC係数の復号化を行う時間領域復号化部を有する点に特徴がある。本実施の形態によれば、下位レイヤで復号化されたLPC係数を利用することにより、LPC係数の符号化を効率的に行う時間領域符号化部の符号化コードを復号することが可能となり、その結果として低ビットレートで高品質な復号信号を生成することができる。図13において、図8と同じ名称を持つ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0179】
入力端子1307から、上位レイヤにて復号されたLPC係数が入力され、時間領域復号化部1303に与えられる。時間領域復号化部1303は、入力された上位レイヤのLPC係数を利用して復号化を行う。この場合の時間領域復号化部1303の構成を図17に示す。図17は、本実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図である。図17において、図9と同じ名称をもつ構成要素は同一の機能を有するため、そのような構成要素についての詳細な説明は省略する。
【0180】
入力端子1712から入力される上位レイヤのLPC係数はLPC復号器1709に与えられる。LPC復号器1709は、当該レイヤのLPC係数を上位レイヤのLPC係数を利用して復号する。LPC復号器1709の構成を、図18を用いて説明する。図18は、本実施の形態の階層復号化装置のLPC復号器の構成を示すブロック図である。
【0181】
入力端子1801から上位レイヤのLPC係数{βp; p=1〜NP(m)}が入力される。LSF変換部1807は、上位レイヤのLSF係数{Gp; p=1〜NP(m)}に変換する。修正部1803は、上位レイヤのサンプリング周波数Fs(m)と当該レイヤのサンプリング周波数Fs(n)で規定される定数Fs(m)/Fs(n)を上位レイヤのLSF係数{Gp; p=1〜NP(m)}に乗じ、加算器1805に与える。
【0182】
入力端子1802からはデルタLSFベクトルを表す符号化コードが入力される。デルタLSF符号帳1804は、この符号化コードを用いてデルタLSFベクトルを復号し、加算器1805に与える。加算器1805は、修正後の上位レイヤLSF係数と復号されたデルタLSFベクトルとを加算し、加算後のLSFベクトルをLPC変換部1808に与える。LPC変換部1808は、LSFベクトルからLPC係数に変換し、出力端子1806から出力する。
【0183】
このように、本実施の形態の音声復号化装置によれば、第2レイヤより下位の時間領域復号化において、符号化側の上位レイヤにて求められたLPC係数を考慮して探索した最適なデルタLSFベクトルを利用して復号化することにより、時間領域符号化のLPC係数の符号化及び復号化をより効率的に行うことができ、低ビットレートで高品質に符号化できる。
【0184】
(実施の形態7)
次に、本発明の実施の形態7について、図面を参照して説明する。図19は、本発明の実施の形態7に係る通信装置の構成を示すブロック図である。図19における信号処理装置1903は前述した実施の形態1から実施の形態6に示した階層符号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0185】
図19に示すように、本発明の実施の形態7に係る通信装置1900は、入力装置1901、A/D変換装置1902及びネットワーク1904に接続されている信号処理装置1903を具備している。
【0186】
A/D変換装置1902は、入力装置1901の出力端子に接続されている。信号処理装置1903の入力端子は、A/D変換装置1902の出力端子に接続されている。信号処理装置1903の出力端子はネットワーク1904に接続されている。
【0187】
入力装置1901は、人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置1902に与える。A/D変換装置1902はアナログ信号をディジタル信号に変換して信号処理装置1903に与える。信号処理装置1903は入力されてくるディジタル信号を符号化してコードを生成し、ネットワーク1904に出力する。
【0188】
このように、本発明の実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化する階層符号化装置を提供することができる。
【0189】
(実施の形態8)
次に、本発明の実施の形態8について、図面を参照して説明する。図20は、本発明の実施の形態8に係る通信装置の構成を示すブロック図である。図20における信号処理装置2003は前述した実施の形態1から実施の形態6に示した階層復号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0190】
図20に示すように、本発明の実施の形態8に係る通信装置2000は、ネットワーク2001に接続されている受信装置2002、信号処理装置2003、及びD/A変換装置2004及び出力装置2005を具備している。
【0191】
受信装置2002の入力端子は、ネットワーク2001に接続されている。信号処理装置2003の入力端子は、受信装置2002の出力端子に接続されている。D/A変換装置2004の入力端子は、信号処理装置2003の出力端子に接続されている。出力装置2005の入力端子は、D/A変換装置2004の出力端子に接続されている。
【0192】
受信装置2002は、ネットワーク2001からのディジタルの符号化音響信号を受けてディジタルの受信音響信号を生成して信号処理装置2003に与える。信号処理装置2003は、受信装置2002からの受信音響信号を受けてこの受信音響信号に復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置2004に与える。D/A変換装置2004は、信号処理装置2003からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置2005に与える。出力装置2005は、電気的信号であるアナログの復号化音響信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0193】
このように、本実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0194】
(実施の形態9)
次に、本発明の実施の形態9について、図面を参照して説明する。図21は、本発明の実施の形態9に係る通信装置の構成を示すブロック図である。本発明の実施の形態9において、図21における信号処理装置2103は、前述した実施の形態1から実施の形態6に示した音響符号化手段の中の1つによって構成されている点に本実施の形態の特徴がある。
【0195】
図21に示すように、本発明の実施の形態9に係る通信装置2100は、入力装置2101、A/D変換装置2102、信号処理装置2103、RF変調装置2104及びアンテナ2105を具備している。
【0196】
入力装置2101は人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置2102に与える。A/D変換装置2102はアナログ信号をディジタル信号に変換して信号処理装置2103に与える。信号処理装置2103は入力されてくるディジタル信号を符号化して符号化音響信号を生成し、RF変調装置2104に与える。RF変調装置2104は、符号化音響信号を変調して変調符号化音響信号を生成し、アンテナ2105に与える。アンテナ2105は、変調符号化音響信号を電波として送信する。
【0197】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化することができる。
【0198】
なお、本発明は、オーディオ信号を用いる送信装置、送信符号化装置又は音響信号符号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0199】
(実施の形態10)
次に、本発明の実施の形態10について、図面を参照して説明する。図22は、本発明の実施の形態10に係る通信装置の構成を示すブロック図である。本発明の実施の形態10において、図22における信号処理装置2203は、前述した実施の形態1から実施の形態6に示した音響復号化手段の中の1つによって構成されている点に本実施の形態の特徴がある。
【0200】
図22に示すように、本発明の実施の形態10に係る通信装置2200は、アンテナ2201、RF復調装置2202、信号処理装置2203、D/A変換装置2204及び出力装置2205を具備している。
【0201】
アンテナ2201は、電波としてのディジタルの符号化音響信号を受けて電気信号のディジタルの受信符号化音響信号を生成してRF復調装置2202に与える。RF復調装置2202は、アンテナ2201からの受信符号化音響信号を復調して復調符号化音響信号を生成して信号処理装置2203に与える。
【0202】
信号処理装置2203は、RF復調装置2202からのディジタルの復調符号化音響信号を受けて復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置2204に与える。D/A変換装置2204は、信号処理装置2203からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置2205に与える。出力装置2205は、電気的信号であるアナログの復号化音声信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0203】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0204】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0205】
また、本発明は上記実施の形態に限定されず、種々変更して実施することが可能である。例えば、上記実施の形態では、信号処理装置として行う場合について説明しているが、これに限られるものではなく、この信号処理方法をソフトウェアとして行うことも可能である。
【0206】
例えば、上記信号処理方法を実行するプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作させるようにしても良い。
【0207】
また、上記信号処理方法を実行するプログラムをコンピュータで読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access memory)に記録して、コンピュータをそのプログラムにしたがって動作させるようにしても良い。
【0208】
なお、上記説明では、時間領域から周波数領域への変換法に離散フーリエ変換を用いる場合について説明を行っているがこれに限定されず直交変換であればいずれも適用できる。例えば、離散コサイン変換またはMDCT(変形離散コサイン変換)等を適用することもできる。
【0209】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0210】
【発明の効果】
以上説明したように、本発明の音響信号の階層符号化方法および階層復号化方法によれば、第2レイヤ以下の符号化において、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化し、時間領域の符号化で符号化できない残差信号、すなわち差分信号と時間領域での符号化した信号を復号した復号信号との差分を周波数領域で符号化することにより、周期性のある信号を時間領域の符号化し、周期性のない信号を周波数領域の符号化することができ、低ビットレートで高品質な符号化を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図
【図2】上記実施の形態の階層符号化装置の第nレイヤ(2≦n≦N)符号化部の構成を示すブロック図
【図3】上記実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図
【図4】上記本実施の形態の階層符号化装置の目標信号生成部の構成を示すブロック図
【図5】上記実施の形態の階層符号化装置の周波数領域符号化部の構成を示すブロック図
【図6】上記実施の形態の階層符号化装置の聴覚マスキング算出部の構成を示すブロック図
【図7】本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図
【図8】上記実施の形態の階層復号化装置の第2レイヤ以降の復号化部の構成を示すブロック図
【図9】上記実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図
【図10】上記実施の形態の階層復号化装置の周波数領域復号化部の構成を示すブロック図
【図11】本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図
【図12】上記実施の形態の階層符号化装置の時間領域符号化部の構成を示すブロック図
【図13】本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図
【図14】上記実施の形態の階層復号化装置の時間領域復号化部の構成を示すブロック図
【図15】本発明の実施の形態5に係る階層符号化装置の時間領域符号化部の構成を示すブロック図
【図16】上記実施の形態の階層符号化装置のLPC量子化器の構成を示すブロック図
【図17】本発明の実施の形態6に係る階層復号化装置の時間領域復号化部の構成を示すブロック図
【図18】上記実施の形態の階層復号化装置のLPC復号器の構成を示すブロック図
【図19】本発明の実施の形態7に係る通信装置の構成を示すブロック図
【図20】本発明の実施の形態8に係る通信装置の構成を示すブロック図
【図21】本発明の実施の形態9に係る通信装置の構成を示すブロック図
【図22】本発明の実施の形態10に係る通信装置の構成を示すブロック図
【符号の説明】
102 DS1部
103 第1レイヤ符号化部
104、703 第1レイヤ復号化部
107、113、404 遅延器
105、704 US1部
106 DS2部
108、114、405 減算器
109 第2レイヤ符号化部
110、704 第2レイヤ復号化部
111、705、709、805、1305 加算器
112、707 US2部
115 第3レイヤ符号化部
203 時間領域符号化部
204 目標信号生成部
205 周波数領域符号化部
403 復号部
503 周波数領域変換部
504 聴覚マスキング算出部
505 量子化部
708 第3レイヤ復号化部
803、1303 時間領域復号化部
804、1304 周波数領域復号化部
1002 変換係数復号化部
1003 時間領域変換部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a hierarchical encoding method and a hierarchical decoding method for an audio signal, and more particularly, to a hierarchical encoding method and a hierarchical decoding method suitable for efficiently using an audio signal such as a musical sound signal or an audio signal for compression encoding. About the method of conversion.
[0002]
[Prior art]
An acoustic coding technique for compressing a tone signal or a voice signal at a low bit rate is important for effective use of a transmission path capacity of radio waves and the like and a recording medium in mobile communication. There are G726 and G729 standardized by ITU (International Telecommunication Union) for audio coding for encoding an audio signal. These systems target narrowband signals (300 Hz to 3.4 kHz) and can perform high-quality encoding at 8 kbit / s to 32 kbit / s. In addition, there are ITU G722, G722.1, 3GPP (The 3rd Generation Partnership Project) AMR-WB, and the like as standard systems for wideband signals (50 Hz to 7 kHz). These methods can code a wideband audio signal with high quality at a bit rate of 6.6 kbit / s to 64 kbit / s.
[0003]
An effective method of encoding a speech signal at a low bit rate with high efficiency is CELP (Code Excited Linear Prediction). CELP is based on a model that simulates a human voice generation model by engineering, and passes an excitation signal represented by a random number or a pulse train through a pitch filter corresponding to the strength of the periodicity and a synthesis filter corresponding to the vocal tract characteristics, This is a method of determining an encoding code such that the square error between the output signal and the input signal is minimized under the weighting of auditory characteristics (for example, see Non-Patent Document 1). Many of the recent standard audio coding systems are based on CELP. For example, G729 can perform narrowband signal coding at 8 kbit / s, and AMR-WB can perform wideband signal coding at 6.6 kbit / s to 23.85 kbit / s. Can be encoded.
[0004]
On the other hand, in the case of musical sound encoding for encoding a musical sound signal, a musical sound signal is converted into a frequency domain like a layer III system or an AAC system standardized by MPEG (Moving Picture Expert Group), and the psychoacoustic is used. Transform coding in which coding is performed using a model is general. In these systems, it is known that a signal having a sampling frequency of 44.1 kHz has 64 kbit / s to 96 kbit / s per channel and hardly causes audible deterioration.
[0005]
However, when encoding a signal mainly composed of audio signals and having music or environmental sound superimposed on the background, if the audio encoding method is applied, the effect of the music or environmental sound in the background will cause the signal to be encoded only in the background. In addition, there is a problem that the audio signal is deteriorated and the overall quality is reduced. This is a problem that occurs because the speech coding system is based on a CELP-based system specialized for a speech model. In addition, the signal band that can be supported by the audio coding system is up to 7 kHz at most, and there is a problem that a signal having a higher band than that can not be sufficiently supported due to its configuration.
[0006]
On the other hand, music encoding can perform high-quality encoding on music, so that sufficient quality can be obtained even for audio signals having music and environmental sounds in the background as described above. The band of the target signal can be handled up to the CD quality of about 22 kHz. On the other hand, in order to realize high-quality encoding, it is necessary to use a high bit rate, and if the bit rate is suppressed to about 32 kbit / s, there is a problem that the quality of a decoded signal is reduced. For this reason, there is a problem that it cannot be used in a communication network having a low transmission rate.
[0007]
Combining these techniques to avoid the problems described above, the input signal is first coded by CELP in the first layer, and then the decoded signal is subtracted from the input signal to obtain a residual signal. A method of transform-encoding a signal in the second and subsequent layers can be considered. In this method, since the first layer uses CELP, the audio signal can be encoded with high quality, and the second layer and the subsequent layers cover the background music and environmental sound that cannot be expressed by the first layer, and the first layer. A signal having a frequency component higher than the frequency band can be efficiently encoded.
[0008]
However, in order to secure sufficient quality when music is input instead of voice, it is necessary to increase the bit allocation to the second and subsequent layers, resulting in a problem that the bit rate increases. This is a problem that arises because a speech-specific coding scheme such as CELP is applied to the first layer. That is, when a music signal is input, the CELP used in the first layer does not have high coding efficiency for music, so an error signal between the input signal and the decoded signal of the first layer (that is, the input signal of the second layer) Power is increased. As a result, it is necessary to allocate many bits to the second and subsequent layers to improve the quality of the final decoded signal.
[0009]
[Non-patent document 1]
"Code-Excited Linear Prediction (CELP): high quality speech at very low bit rates", Proc. ICASSP 85, pp. 937-940, 1985.
[0010]
[Problems to be solved by the invention]
As described above, the conventional apparatus has a problem that it is difficult to perform high-quality encoding at a low bit rate.
[0011]
The present invention has been made in view of such a point, and an object of the present invention is to provide a hierarchical encoding method and a hierarchical decoding method of an audio signal capable of performing high-quality encoding at a low bit rate.
[0012]
[Means for Solving the Problems]
A hierarchical encoding method according to the present invention is a hierarchical encoding method for encoding an input audio signal, decoding a signal encoded in an upper layer, and encoding a difference between the decoded signal and the input signal. A first encoding step of encoding an input audio signal in frame units of a length, and a second encoding step of encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in one or more stages. Encoding step, wherein in the second encoding step, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in both the time domain and the frequency domain. .
[0013]
According to this method, a signal having a periodicity is encoded in the time domain by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, and A signal having no characteristic can be encoded in the frequency domain, and the encoded signal can be encoded at low bit rate and high quality.
[0014]
In the hierarchical encoding method according to the present invention, the second encoding step includes a hierarchical decoding step of decoding a signal encoded in an upper layer to generate a decoded signal, and an upsampling step of increasing a sampling frequency of the decoded signal. And a hierarchical subtraction step of subtracting the decoded signal from the input audio signal to generate a difference signal, and a hierarchical encoding step of encoding the difference signal.
[0015]
According to this method, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer. .
[0016]
In the hierarchical encoding method of the present invention, the hierarchical encoding step includes a time domain encoding step of encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in a time domain; A time domain signal decoding step of decoding the signal encoded in the domain encoding step to generate a decoded signal, and a time domain signal subtracting step of subtracting the decoded signal from the difference signal to generate a second difference signal; A frequency domain encoding step of encoding the second difference signal in a frequency domain.
[0017]
According to this method, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, and the difference signal is encoded in the time domain. By encoding the difference between the decoded signal and the decoded signal in the frequency domain, a periodic signal can be encoded in the time domain, and a non-periodic signal can be encoded in the frequency domain. High quality encoding can be performed at a low bit rate.
[0018]
In the hierarchical encoding method according to the present invention, the time domain encoding step includes a search candidate determining step of limiting an adaptive vector to be used in encoding from a pitch period obtained in an upper layer, and an input speech signal from the limited adaptive vector. And a search step of searching for an adaptive vector having the smallest difference.
[0019]
According to this method, in the time domain coding lower than the second layer, the candidate of the adaptive vector to be searched is limited from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer. By performing coding using a limited adaptive vector, coding of a pitch period of time domain coding can be performed more efficiently, and high quality coding can be performed at a low bit rate.
[0020]
In the hierarchical encoding method according to the present invention, the time domain encoding step includes a quantization step of quantizing a pitch period, and the search candidate determining step includes a step of sampling a pitch period obtained in an upper layer by the layer. A modification is made to match the frequency, and the quantization step quantizes the pitch period of the layer using the modified pitch period.
[0021]
According to this method, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer. .
[0022]
In the hierarchical encoding method according to the present invention, in the time domain encoding step, an addition step of adding a parameter of an encoding obtained in an upper layer and a parameter that is a search candidate of the layer, and a result of the addition step A search step of searching for a parameter having the smallest difference from a parameter obtained from the input voice signal.
[0023]
In the hierarchical encoding method according to the present invention, the time domain encoding step includes a conversion step of converting an LPC coefficient obtained in an upper layer into an LSF coefficient, and the adding step is performed in the conversion step. The LSF coefficient added to the LSF coefficient held by the LSF codebook is added, and the searching step searches for an LSF coefficient that minimizes the difference between the added LSF coefficient and the LSF coefficient obtained from the input audio signal. did.
[0024]
According to these methods, in time domain decoding lower than the second layer, decoding is performed using the optimal adaptive vector searched in consideration of the LPC coefficient obtained in the upper layer on the encoding side. Accordingly, encoding and decoding of the pitch period of time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0025]
The hierarchical encoding method of the present invention includes an auditory masking step of calculating auditory masking from an input audio signal, and the frequency domain encoding step performs encoding using a signal after masking using the auditory masking. I made it.
[0026]
According to this method, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0027]
A hierarchical decoding method according to the present invention is a hierarchical decoding method for encoding an input audio signal, decoding a signal encoded in an upper layer, and decoding a signal obtained by encoding a difference between the decoded signal and the input signal. A first decoding step of decoding an encoded code of a first layer; a second decoding step of decoding an encoded code of a layer lower than the second layer in both a time domain and a frequency domain; A decoding step and an adding step of adding the decoding result of the second decoding step are provided.
[0028]
According to this method, an encoded signal obtained by encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in a time domain and a frequency domain is converted into a signal having periodicity in a time domain and a periodic signal. By decoding a signal having no characteristics in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0029]
The hierarchical decoding method of the present invention includes an upsampling step of upsampling a sampling frequency of a decoding result of the first decoding step to a sampling frequency of a decoding result of the second decoding step, and the adding step includes an upsampling step. The decoding results of the later first decoding step and the second decoding step are added.
[0030]
According to this method, by making the sampling frequency of the signal to be decoded in the lower layer higher than the sampling frequency of the signal to be decoded in the upper layer, it is possible to decode the signal obtained by encoding the signal corresponding to various sampling frequencies. it can.
[0031]
In the hierarchical decoding method according to the present invention, the second decoding step includes a time domain decoding step of decoding the layer using a pitch cycle or an LPC coefficient of an upper layer in the time domain decoding.
[0032]
According to this method, in time domain decoding lower than the second layer, a candidate adaptive vector to be used for decoding is obtained from an adaptive vector of an adaptive codebook using a pitch period obtained in an upper layer on the encoding side. , The encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0033]
According to this method, in the time domain decoding lower than the second layer, the adaptive vector used for decoding is obtained from the adaptive vector of the adaptive codebook using the LPC coefficient obtained in the upper layer on the encoding side. By limiting the candidates, the encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0034]
In the hierarchical decoding method according to the present invention, the second decoding step includes a frequency domain decoding step of decoding an encoded code obtained by encoding a frequency domain coefficient using auditory masking.
[0035]
According to this method, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0036]
A hierarchical encoding device of the present invention is a hierarchical encoding device that encodes an input audio signal, decodes a signal encoded in an upper layer, and encodes a difference between the decoded signal and the input signal. A first encoding unit that encodes an input audio signal in frame units of a length, and a second encoding unit that encodes a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in one or more stages. Encoding means, wherein the second encoding means encodes the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in both the time domain and the frequency domain. .
[0037]
According to this configuration, by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, a periodic signal is encoded in the time domain, A signal having no characteristic can be encoded in the frequency domain, and the encoded signal can be encoded at low bit rate and high quality.
[0038]
In the hierarchical encoding device according to the present invention, the second encoding means decodes a signal encoded in an upper layer to generate a decoded signal, and an upsampling means for increasing a sampling frequency of the decoded signal. And a hierarchical subtraction means for subtracting the decoded signal from the input audio signal to generate a difference signal, and a hierarchical encoding means for encoding the difference signal.
[0039]
According to this configuration, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer.
[0040]
The hierarchical encoding device according to the present invention, wherein the hierarchical encoding means includes a time domain encoding means for encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in a time domain; A time-domain signal decoding unit that decodes the signal encoded by the region encoding unit to generate a decoded signal, a time-domain signal subtraction unit that subtracts the decoded signal from the difference signal to generate a second difference signal, Frequency domain encoding means for encoding the second differential signal in the frequency domain.
[0041]
According to this configuration, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, and the difference signal is encoded in the time domain. By encoding the difference between the decoded signal and the decoded signal in the frequency domain, a periodic signal can be encoded in the time domain, and a non-periodic signal can be encoded in the frequency domain. High quality encoding can be performed at a low bit rate.
[0042]
In the hierarchical coding apparatus according to the present invention, the time domain coding means may include a codebook holding an adaptive vector generated in the past, and a search candidate for limiting an adaptive vector used in coding from a pitch period obtained in an upper layer. A configuration including a determination unit and a search unit that searches for an adaptation vector having the smallest audible difference from the input speech signal from the limited adaptation vector is adopted.
[0043]
According to this configuration, in the time domain coding lower than the second layer, the candidate of the adaptive vector to be searched is limited from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer. By performing coding using a limited adaptive vector, coding of a pitch period of time domain coding can be performed more efficiently, and high quality coding can be performed at a low bit rate.
[0044]
In the hierarchical coding apparatus according to the present invention, the time domain coding means includes quantization means for quantizing a pitch cycle, and the search candidate determining means determines a pitch cycle obtained in an upper layer by a sampling frequency of the layer. The quantization means adopts a configuration in which the pitch period of the layer is quantized using the corrected pitch period.
[0045]
According to this configuration, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer. .
[0046]
In the hierarchical coding apparatus according to the present invention, the time domain coding unit may include an addition unit that adds a coding parameter obtained in an upper layer and a parameter that is a search candidate of the layer, and a result of the addition unit. A configuration including a search unit that searches for a parameter having the smallest difference from the input voice signal is adopted.
[0047]
In the hierarchical coding apparatus according to the present invention, the time domain coding means includes an LSF codebook for holding LSF coefficients, and a conversion means for converting LPC coefficients obtained in an upper layer into LSF coefficients, The means adds the LSF coefficient converted by the conversion means and the LSF coefficient held by the LSF codebook, and the search means generates an audible difference between the added LSF coefficient and the LSF coefficient obtained from the input audio signal. A configuration for searching for an LSF coefficient that minimizes the difference is employed.
[0048]
According to these configurations, in time domain decoding lower than the second layer, decoding is performed using the optimal adaptive vector searched in consideration of the LPC coefficient obtained in the upper layer on the encoding side. Accordingly, encoding and decoding of the pitch period of time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0049]
The hierarchical encoding device of the present invention includes an auditory masking unit that calculates auditory masking from an input audio signal, and the frequency domain encoding unit encodes using the signal after the masking using the auditory masking. Take.
[0050]
According to this configuration, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0051]
A hierarchical decoding device of the present invention encodes an input audio signal, decodes a signal encoded in an upper layer, and decodes a signal obtained by encoding a difference between the decoded signal and the input signal. A first decoding unit that decodes an encoded code of a first layer; a second decoding unit that decodes an encoded code of a layer lower than a second layer in both a time domain and a frequency domain; A configuration including a decoding unit and an adding unit for adding the decoding result of the second decoding unit is adopted.
[0052]
According to this configuration, an encoded signal obtained by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain is converted into a signal having periodicity in the time domain, By decoding a signal having no characteristics in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0053]
The hierarchical decoding apparatus according to the present invention includes up-sampling means for up-sampling a sampling frequency of a decoding result of the first decoding means to a sampling frequency of a decoding result of the second decoding means. A configuration is adopted in which the decoding results of the later first decoding means and the second decoding means are added.
[0054]
According to this configuration, by setting the sampling frequency of the signal to be decoded in the lower layer higher than the sampling frequency of the signal to be decoded in the upper layer, it is possible to decode a signal obtained by encoding a signal corresponding to various sampling frequencies. it can.
[0055]
The hierarchical decoding device of the present invention employs a configuration in which the second decoding means includes a time-domain decoding means for decoding a layer using a pitch cycle or an LPC coefficient of an upper layer in time-domain decoding.
[0056]
According to this configuration, in time domain decoding lower than the second layer, a candidate adaptive vector to be used for decoding is obtained from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer on the encoding side. , The encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0057]
According to this configuration, in the time domain decoding lower than the second layer, the adaptive vector used for decoding is obtained from the adaptive vector of the adaptive codebook using the LPC coefficient obtained in the upper layer on the encoding side. By limiting the candidates, the encoding and decoding of the pitch period of the time domain encoding can be performed more efficiently, and high-quality encoding can be performed at a low bit rate.
[0058]
The hierarchical decoding apparatus according to the present invention employs a configuration in which the second decoding unit includes a frequency domain decoding unit that decodes an encoded code obtained by encoding a frequency domain coefficient using auditory masking.
[0059]
According to this configuration, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, thereby efficiently quantizing the transform coefficients at a small bit rate. can do.
[0060]
An audio signal transmitting apparatus according to the present invention includes an audio input unit for converting an audio signal into an electric signal, an A / D conversion unit for converting a signal output from the audio input unit into a digital signal, and an A / D converter. Means for encoding the digital signal output from the means, RF modulation means for modulating the coded code output from the coding apparatus into a radio frequency signal, and output from the RF modulation means. And a transmission antenna that converts a signal into a radio wave and transmits the radio wave.
[0061]
According to this configuration, by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, a periodic signal is encoded in the time domain, A signal having no characteristic can be encoded in the frequency domain, and the encoded signal can be encoded at low bit rate and high quality.
[0062]
The acoustic signal receiving apparatus according to the present invention includes a receiving antenna for receiving a radio wave, an RF demodulating means for demodulating a signal received by the receiving antenna, and the hierarchical decoding for decoding information obtained by the RF demodulating means. A D / A converter for converting a signal output from the decoding device into an analog signal, and an audio output unit for converting an electric signal output from the D / A converter into an audio signal. The configuration provided is adopted.
[0063]
According to this configuration, an encoded signal obtained by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain is converted into a signal having periodicity in the time domain, By decoding a signal having no characteristics in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0064]
The communication terminal device of the present invention employs a configuration including at least one of the above-described acoustic signal transmitting device and the above-described acoustic signal receiving device. The base station apparatus of the present invention employs a configuration including at least one of the above-described acoustic signal transmitting apparatus and the above-described acoustic signal receiving apparatus.
[0065]
According to these configurations, a signal having a periodicity is encoded in the time domain by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain, Non-periodic signals can be coded in the frequency domain, and can be coded to perform high-quality coding at a low bit rate.
[0066]
Further, according to this configuration, an encoded signal obtained by encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in the time domain and the frequency domain is referred to as a signal having periodicity in the time domain. By decoding a signal having no periodicity in the frequency domain, high-quality encoding and decoding can be performed at a low bit rate.
[0067]
BEST MODE FOR CARRYING OUT THE INVENTION
The present inventor has focused on the fact that the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal includes both a periodic signal and a non-periodic signal. I came to.
[0068]
That is, the gist of the present invention is that, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, and the encoding is performed in the time domain. By encoding in the frequency domain the difference between the impossible residual signal, that is, the difference signal and the decoded signal obtained by decoding the encoded signal in the time domain, a periodic signal is encoded in the time domain, A non-existent signal can be coded in the frequency domain, and is coded to perform high-quality coding at a low bit rate.
[0069]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the following description of the embodiment, the case where the number of layers N is set to 3 will be described. However, the present invention is not limited to this numerical value, and N is a natural number and a configuration satisfying the condition of N ≧ 2 It is possible to apply.
[0070]
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 1 of the present invention. 1 includes an input terminal 101, a DS1 unit 102, a first layer encoding unit 103, a first layer decoding unit 104, a US1 unit 105, a DS2 unit 106, a delay unit 107, a subtractor 108, a second layer encoding unit 109, a second layer decoding unit 110, an adder 111, a US2 unit 112, a delay unit 113, a subtractor 114, and a third layer code. Multiplexing section 115, multiplexing section 118, and output terminal 119.
[0071]
The present embodiment is characterized in that the sampling frequency of a signal input to each layer has a relationship represented by the following equation (1).
(Equation 1)
Figure 2004302259
Here, Fs (n) represents the sampling frequency of the signal of the n-th layer. According to the present embodiment, it is possible to perform encoding corresponding to a plurality of sampling frequencies.
[0072]
From the input terminal 101, an acoustic signal of the sampling frequency Fs (3) is input and given to the DS1 unit 102.
[0073]
The DS1 unit 102 downsamples the input audio signal and reduces the sampling frequency of the input audio signal from Fs (3) to Fs (1). Then, DS1 section 102 outputs an input signal of sampling frequency Fs (1) to first layer encoding section 103.
[0074]
First layer coding section 103 has an adaptive codebook that holds a previously generated driving excitation signal as an internal state, and efficiently codes a signal having a high periodicity by using the adaptive codebook. be able to. First layer encoding section 103 determines the first encoded code such that the perceptual distortion between the input audio signal and the decoded signal generated after encoding is minimized. A typical method applied to the first layer encoding section 103 is a code excitation linear prediction method (CELP).
[0075]
Then, first layer encoding section 103 outputs the obtained first encoded code to first layer decoding section 104 and multiplexing section 118. First layer decoding section 104 generates a first layer decoded signal using the first encoded code, and outputs the first layer decoded signal to US1 section 105.
[0076]
US1 section 105 upsamples the first layer decoded signal and increases the sampling frequency from Fs (1) to Fs (2). Then, US1 section 105 outputs the first layer decoded signal of sampling frequency Fs (2) to subtractor 108 and adder 111.
[0077]
Next, an audio signal input from the input terminal 101 is provided to the DS2 unit 106. The DS2 unit 106 downsamples the input audio signal and reduces the sampling frequency of the input audio signal from Fs (3) to Fs (2). Then, DS2 section 106 outputs an input signal of sampling frequency Fs (2) to delay device 107.
[0078]
The delay unit 107 delays the acoustic signal input from the input terminal 101 by a predetermined time length and outputs the delayed audio signal to the subtracter 108. That is, it has a role of correcting a delay generated in the DS1 unit 102, the first layer encoding unit 103, the first layer decoding unit 104, the US1 unit 105, and the DS2 unit 106.
[0079]
The subtractor 108 calculates a difference between the output signal of the delay unit 107 and the above-described first layer decoded signal to generate a second layer residual signal. Then, subtracter 108 outputs the second layer residual signal to second layer encoding section 109.
[0080]
Second layer encoding section 109 encodes the second layer residual signal so that quality is perceptually improved, and determines a second encoded code. Then, second layer encoding section 109 outputs second layer decoding section 110 and the second encoded code to multiplexing section 118. Second layer decoding section 110 performs a decoding process using the second encoded code, generates a second layer decoded residual signal, and outputs the second layer decoded residual signal to adder 111.
[0081]
The adder 111 takes the sum of the first layer decoded signal and the second layer decoded residual signal to generate a second layer decoded signal. Then, adder 111 outputs the second layer decoded signal to US2 section 112.
[0082]
US2 section 112 up-samples the second layer decoded signal and increases the sampling frequency from Fs (2) to Fs (3). Then, US2 section 112 outputs the first layer decoded signal of sampling frequency Fs (3) to subtractor 114.
[0083]
Next, the delay unit 113 outputs the acoustic signal to the subtractor 114 after delaying the acoustic signal input from the input terminal 101 by a predetermined time length. That is, the delay unit 113 has a role of correcting a delay generated in the encoding unit and the decoding unit up to the previous stage, specifically, a delay generated in the signal processing from the DS1 unit 102 to the US2 unit 112.
[0084]
The subtractor 114 calculates a difference between the output signal of the delay unit 113 and the above-described second layer decoded signal to generate a third layer residual signal. Then, subtracter 114 outputs the third layer residual signal to third layer encoding section 115.
[0085]
Third layer encoding section 115 determines a third encoded code by encoding the third layer residual signal such that the quality is improved audibly, and multiplexes this third encoded code into multiplexing section 118. Output to
[0086]
The multiplexing unit 118 multiplexes the first coded code, the second coded code, and the third coded code by predetermined means, and generates a coded bit sequence. Then, the multiplexing unit 118 outputs the encoded bit sequence from the output terminal 119.
[0087]
Next, details of the encoding of the second and subsequent layers will be described. The hierarchical coding apparatus according to the present embodiment generates a residual signal from a difference between an input audio signal and a signal obtained by decoding a previous-stage encoded signal in encoding of a second layer or later, and generates the residual signal. A feature is that encoding is performed by a time domain encoding unit and a frequency domain encoding unit.
[0088]
Next, the n-th layer (2 ≦ n ≦ N) encoder will be described. FIG. 2 is a block diagram illustrating a configuration of an n-th layer (2 ≦ n ≦ N) encoding unit of the hierarchical encoding device according to the present embodiment.
[0089]
In the n-th layer residual signal, which is the difference between the input audio signal and the signal obtained by decoding the n-th layer (2 ≦ n ≦ N) encoded signal, the encoding noise up to the upper layer and the sampling frequency are higher. And high-frequency components due to this.
[0090]
The n-th layer residual signal contains both components that can be efficiently coded when processed in the time domain and components that can be coded efficiently when processed in the frequency domain. Therefore, there is an effect that efficient encoding can be realized by performing encoding in two regions, a time domain and a frequency domain. An input signal is provided to both the time domain coding unit and the frequency domain coding unit. This input signal is used for calculation of auditory masking and the like in order to realize audio quality of high quality. Hereinafter, a detailed description will be given with reference to FIG.
[0091]
An n-th layer residual signal is input from an input terminal 201 and provided to a time domain coding unit 203 and a target signal generation unit 204. The time domain encoding unit 203 encodes the n-th layer residual signal in the time domain using the n-th layer residual signal and an input signal input from the input terminal 202 to generate an encoded code. I do. Then, time domain encoding section 203 outputs the encoded code to target signal generating section 204 and multiplexing section 206. The details of the time domain coding unit 203 will be described later with reference to FIG.
[0092]
Next, the target signal generation unit 204 generates an input signal of the frequency domain encoding unit 205 using the input signal input from the input terminal 201 and the encoded code obtained by the time domain encoding unit 203. Details of the target signal generation unit 204 will be described later with reference to FIG.
[0093]
Next, the frequency domain encoding unit 205 performs encoding in the frequency domain using the signal generated by the target signal generation unit 204 and the input signal input from the input terminal 202 to generate an encoded code, Output to the conversion unit 206. The details of the frequency domain coding unit 205 will be described later with reference to FIG.
[0094]
Hereinafter, details of each block will be described. FIG. 3 is a block diagram illustrating a configuration of the time domain encoding unit of the hierarchical encoding device according to the present embodiment. 3 includes an input terminal 301, an LPC analyzer 302, an LPC quantizer 303, an LPC decoder 304, an auditory weighting filter 305, a synthesis filter 306, and an adaptive codebook 307. , Noise codebook 308, multiplier 309, multiplier 310, gain codebook 311, adder 312, subtractor 313, searcher 314, multiplexing section 315, and output terminal 316. Mainly composed.
[0095]
The LPC analyzer 302 calculates an LPC coefficient from the acoustic signal of the sampling rate Fs (n) input from the input terminal 301. The LPC coefficient is a coefficient used for improving the perceptual quality. LPC analyzer 302 outputs the LPC coefficient to perceptual weight filter 305 and LPC quantizer 303.
[0096]
The LPC quantizer 303 converts the LPC coefficients into parameters suitable for quantization such as LSF coefficients and performs quantization. Then, LPC quantizer 303 outputs the encoded code obtained by the quantization to multiplexing section 315 and LPC decoder 304.
[0097]
LPC decoder 304 calculates an LSF coefficient after quantization from the encoded code, and converts the LSF coefficient into an LPC coefficient. With this processing, the quantized LPC coefficient is obtained. Then, LPC decoder 304 outputs the quantized LPC coefficients to synthesis filter 306.
[0098]
The synthesis filter 306 searches for an adaptive vector, an adaptive gain, a noise vector, and a noise gain by using the quantized LPC coefficients. Next, an adaptive vector, an adaptive vector gain, a noise vector, and a method of searching for a noise vector gain will be described.
[0099]
Adaptive codebook 307 holds a previously generated drive excitation signal as an internal state, and generates an adaptive vector by repeating this internal state at a desired pitch cycle. An appropriate range of the pitch period is between 60 Hz and 400 Hz. The noise codebook 308 outputs a noise vector stored in a storage area in advance or a noise vector generated according to a rule without having a storage area like an algebraic structure.
[0100]
Gain codebook 311 outputs an adaptive vector gain multiplied by the adaptive vector to multiplier 309, and outputs a noise vector gain multiplied by the noise vector to multiplier 310.
[0101]
The multiplier 309 multiplies the adaptive vector by the adaptive vector gain and outputs the result to the adder 312. The multiplier 310 multiplies the noise vector by the noise vector gain and outputs the result to the adder 312.
[0102]
The adder 312 adds the adaptive vector multiplied by the adaptive vector gain and the noise vector multiplied by the noise vector gain to generate a drive excitation signal. Then, the adder 312 outputs the driving sound source signal to the synthesis filter 306.
[0103]
The synthesis filter 306 passes the driving sound source signal through the synthesis filter to generate a synthesized signal, and outputs the synthesized signal to the subtractor 313.
[0104]
The subtractor 313 subtracts the synthesized signal from the n-th layer prediction residual signal input from the input terminal 317, and outputs the signal after the subtraction to the audibility weighting filter 305.
[0105]
The auditory weight filter 305 weights the signal obtained by the subtractor 313 based on the LPC coefficient obtained by the LPC analyzer 302. This is performed for the purpose of performing spectrum shaping so that the spectrum of the quantization distortion is masked by the spectrum envelope of the input signal.
[0106]
The searcher 314 efficiently searches for a combination of an adaptive vector, an adaptive vector gain, a noise vector, and a noise vector gain that minimizes the distortion defined from the signal after the subtraction, and sends the encoded codes to the multiplexing unit 315. .
[0107]
The searcher 314 determines an encoded code i, j, m or i, j, m, n that minimizes the distortion defined by the following equation (2) or (3), and multiplexes them. 315.
(Equation 2)
Figure 2004302259
[Equation 3]
Figure 2004302259
Here, t (k) is the n-th layer residual signal, q i (K) is the ith adaptation vector, c j (K) indicates the j-th noise vector, and β and γ indicate the adaptive vector gain and the noise vector gain, respectively.
[0108]
Equations (2) and (3) differ in the configuration of the gain codebook. In the case of equation (2), the gain codebook is the adaptive vector gain β m And noise vector gain γ m As an element, and an encoded code m for specifying the vector is determined. In the case of equation (3), the gain codebook is the adaptive vector gain β m And noise vector gain γ n Respectively, and the respective encoded codes m and n are determined independently. H (l) represents an impulse response of the audibility weighting filter.
Figure 2004302259
Is an operator representing convolution.
[0109]
After all the encoded codes are determined, the multiplexing unit 315 combines the encoded codes into one and outputs it from the output terminal 316. Then, in preparation for the decoding process in the next frame (or subframe), the adaptive codebook is selected by using the selected adaptive vector, adaptive vector gain, noise vector, and driving excitation signal represented by using the noise vector gain. Update the internal state of.
[0110]
Next, details of the target signal generation unit 204 will be described. FIG. 4 is a block diagram illustrating a configuration of the target signal generation unit of the hierarchical encoding device according to the present embodiment. 4 mainly includes an input terminal 401, an input terminal 402, a decoding unit 403, a delay unit 404, a subtractor 405, and an output terminal 406.
[0111]
An encoded code obtained by the time domain encoding unit 203 is input from an input terminal 401. The decoding unit 403 generates a decoded signal according to the information of the encoded code.
[0112]
Delay device 404 gives a delay to the second layer residual signal input from input terminal 402 so as to correct the delay generated in time domain encoding section 203 and decoding section 403, and outputs the result to subtractor 405.
[0113]
The subtracter 405 subtracts the decoded signal obtained by the decoding unit 403 from the output signal of the delay unit 404 to generate a target signal of the frequency domain encoding unit 205, and outputs the subtracted signal from an output terminal 406.
[0114]
Next, the details of the frequency domain coding unit 205 will be described. FIG. 5 is a block diagram illustrating a configuration of the frequency domain encoding unit of the hierarchical encoding device according to the present embodiment. 5 mainly includes an input terminal 501, an input terminal 502, a frequency domain transformation unit 503, an auditory masking calculation unit 504, a quantization unit 505, and an output terminal 506. You.
[0115]
The signal input from the input terminal 501 to the frequency domain coding unit 205 is the target signal obtained by the target signal generation unit 204.
[0116]
The frequency domain transform unit 503 performs frequency transform after multiplying the target signal by the analysis window, and outputs a transform coefficient obtained by the frequency transform to the quantization unit 505. As a method of the frequency conversion here, a modified discrete cosine transform (MDCT), a discrete Fourier transform (DFT), or the like can be used.
[0117]
An audio signal of the sampling frequency Fs (n) is provided from the input terminal 502 and input to the auditory masking calculation unit 504. The auditory masking calculation unit 504 calculates an auditory masking representing a threshold value of noise power that is not perceived by a human, and outputs the auditory masking to the quantization unit 505.
[0118]
The quantization unit 505 quantizes the transform coefficient obtained by the frequency domain transform unit 503 using auditory masking, and outputs an encoded code obtained at that time from an output terminal 506.
[0119]
Next, a method of calculating auditory masking will be described in detail with reference to FIG. FIG. 6 is a block diagram illustrating a configuration of the auditory masking calculation unit of the hierarchical encoding device according to the present embodiment. The human auditory characteristic has a masking effect that, when a certain signal is given, a signal located near the frequency of the signal becomes difficult to hear. By utilizing this characteristic, the auditory masking is calculated from the spectrum of the input signal, and the transform coefficients are quantized so that the quantization distortion is equal to or less than the masking value, so that the transform coefficients can be efficiently quantized at a small bit rate. Can be
[0120]
An input signal is provided from an input terminal 601, and the signal is converted into a frequency domain by a frequency conversion unit 602 to calculate a conversion coefficient. As a method of converting to the frequency domain, it is possible to use a modified discrete cosine transform (MDCT), a discrete Fourier transform (DFT), or the like as described above. Here, the case where DFT is used will be described, and the Fourier coefficient obtained by DFT is represented as {Re (m), Im (m)}.
[0121]
In FIG. 6, frequency conversion section 602 performs a Fourier transform on the input signal output from delay unit 107, and calculates a Fourier coefficient {Re (m), Im (m)}. Here, m represents a frequency.
[0122]
The bark spectrum calculator 603 calculates the bark spectrum B (k) using the following equation (4).
(Equation 4)
Figure 2004302259
Here, P (m) represents a power spectrum and is obtained from the following equation (5).
(Equation 5)
Figure 2004302259
K corresponds to the number of the bark spectrum, and FL (k) and FH (k) represent the lowest frequency (Hz) and the highest frequency (Hz) of the k-th bark spectrum, respectively. The bark spectrum B (k) represents the spectrum intensity when band-divided at equal intervals on the bark scale. When the Hertz scale is represented by f and the Bark scale is represented by B, the relationship between the Hertz scale and the Bark scale is represented by the following equation (6).
(Equation 6)
Figure 2004302259
[0123]
The spread function convolution unit 604 convolves the spread function SF (k) with the bark spectrum B (k) using the following equation (7) to calculate C (k).
(Equation 7)
Figure 2004302259
[0124]
The tonality calculation unit 605 calculates the spectrum flatness SFM (k) of each bark spectrum from the power spectrum P (m) using the following equation (8).
(Equation 8)
Figure 2004302259
Here, μg (k) represents the geometric mean of the k-th bark spectrum, and μa (k) represents the arithmetic mean of the k-th bark spectrum. Then, the tonality calculation unit 605 calculates the tonality coefficient α (k) from the decibel value SFMdB (k) of the spectrum flatness SFM (k) using the following equation (9).
(Equation 9)
Figure 2004302259
[0125]
The auditory masking calculation unit 606 calculates the offset O (k) of each bark scale from the tonality coefficient α (k) calculated by the tonality calculation unit 605 using the following equation (10).
(Equation 10)
Figure 2004302259
[0126]
Then, the auditory masking calculation unit 606 calculates the auditory masking T (k) by subtracting the offset O (k) from C (k) obtained by the spread function convolution unit 604 using the following equation (11).
[Equation 11]
Figure 2004302259
Where T q (K) represents an absolute threshold. The absolute threshold represents the minimum value of auditory masking observed as a human auditory characteristic. Then, the auditory masking calculation unit 606 converts the auditory masking T (k) represented by the Bark scale into the Hertz scale M (m) and outputs the result.
[0127]
As described above, according to the hierarchical coding device of the present embodiment, the difference between the signal obtained by decoding the coding result of the upper layer and the input audio signal is coded in the time domain and the frequency domain, and thereby the periodicity is reduced. It is possible to encode a signal having a frequency in the time domain, and to encode a signal having no periodicity in the frequency domain, and to perform high-quality encoding at a low bit rate.
[0128]
In particular, according to the hierarchical encoding device of the present embodiment, in the encoding of the second layer or lower, the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal is encoded in the time domain, By encoding in the frequency domain the difference between the difference signal and the decoded signal obtained by decoding the encoded signal in the time domain, a periodic signal is encoded in the time domain, and a non-periodic signal is encoded in the frequency domain. It can be coded and can be coded to perform high quality coding at a low bit rate.
[0129]
Further, according to the hierarchical encoding device of the present embodiment, by setting the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer, it is possible to cope with various sampling frequencies. The input signal can be encoded.
[0130]
(Embodiment 2)
In the present embodiment, an example in which a signal encoded by the hierarchical encoding device of Embodiment 1 is decoded will be described. A feature of the present embodiment is that the encoded code of the hierarchical encoding method described in the first embodiment can be decoded, and as a result, a high-quality audio signal can be decoded.
[0131]
FIG. 7 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 2 of the present invention. 7 includes an input terminal 701, a separating unit 702, a first layer decoding unit 703, a US1 unit 704, an adder 705, a second layer decoding unit 706, and a US2 unit. 707, a third layer decoding section 708, an adder 709 and an output terminal 710.
[0132]
A coded bit sequence coded by the hierarchical coding device of FIG. 1 is input from an input terminal 701.
[0133]
Separating section 702 separates the coded bit string, and outputs a first coded code obtained by first layer coding, a second coded code obtained by second layer coding, and a third coded code obtained by third layer coding. Generate an encoded code. Then, separating section 702 outputs the first encoded code to first layer decoding section 703, outputs the second encoded code to second layer decoding section 706, and outputs the third encoded code to the third layer decoding section. Output to the decoding unit 708.
[0134]
First layer decoding section 703 performs a decoding process using the first encoded code obtained in separation section 702, and generates a first layer decoded signal.
[0135]
US1 section 704 up-samples the first layer decoded signal and increases the sampling frequency from Fs (1) to Fs (2). Then, US1 section 704 outputs the first layer decoded signal of sampling frequency Fs (2) to adder 705.
[0136]
Next, second layer decoding section 706 performs a decoding process using the second encoded code obtained in separation section 702, and generates a second layer decoded residual signal. The adder 705 adds the first layer decoded signal and the second layer decoded residual signal to generate a second layer decoded signal. Then, adder 705 outputs the second layer decoded signal to US2 section 707.
[0137]
US2 section 707 upsamples the second layer decoded signal and increases the sampling frequency from Fs (2) to Fs (3). Then, US2 section 707 outputs the first layer decoded signal of sampling frequency Fs (3) to adder 709.
[0138]
Next, third layer decoding section 708 performs a decoding process using the third encoded code obtained in separation section 702, and generates a third layer decoded residual signal. Adder 709 adds the above-described second layer decoded signal and third layer decoded residual signal to generate a third layer decoded signal. Adder 709 outputs the third layer decoded signal to output terminal 710.
[0139]
Next, the n-th layer (2 ≦ n ≦ N) decoding unit will be described. FIG. 8 is a block diagram illustrating a configuration of a decoding unit of the second layer and subsequent layers of the hierarchical decoding device according to the present embodiment.
[0140]
An n-th layer (2 ≦ n ≦ N) encoded code is input from an input terminal 801. Separating section 802 separates the n-th layer (2 ≦ n ≦ N) encoded code into a time-domain encoded code and a frequency-domain encoded code. Then, demultiplexing section 802 outputs the time domain encoded code to time domain decoding section 803, and outputs the frequency domain encoded code to frequency domain decoding section 804.
[0141]
Time domain decoding section 803 generates a time domain decoded signal using the time domain encoded code, and outputs the time domain decoded signal to adder 805. The details of the time domain decoding unit 803 will be described later with reference to FIG.
[0142]
Similarly, frequency domain decoding section 804 generates a frequency domain decoded signal using the frequency domain encoded code, and outputs it to adder 805. The details of the frequency domain decoding unit 804 will be described later with reference to FIG. Adder 805 performs addition of the time domain decoded signal and the frequency domain decoded signal, and outputs the result from output terminal 806.
[0143]
Next, the time domain decoding unit 803 will be described with reference to FIG. FIG. 9 is a block diagram showing a configuration of the time domain decoding unit of the hierarchical decoding device according to the present embodiment.
[0144]
In FIG. 9, separation section 902 separates the coded code from the time-domain coded code input from input terminal 901 and outputs the coded code to adaptive codebook 903, noise codebook 904, gain codebook 905, and LPC decoder 909. Output each. LPC decoder 909 decodes the LPC coefficient using the given encoded code, and outputs the result to synthesis filter 910.
[0145]
Next, the adaptive codebook 903, the noise codebook 904, and the gain codebook 905 use an encoded code to generate an adaptive vector q (k), a noise vector c (k), and an adaptive vector gain β, respectively. q And noise vector gain γ q Are respectively decoded.
[0146]
The multiplier 906 multiplies the adaptive vector by the adaptive vector gain and outputs the result to the adder 908. Similarly, multiplier 907 multiplies the noise vector by the noise vector gain and outputs the result to adder 908. The adder 908 adds the multiplied adaptive vector and the noise vector to generate a driving excitation signal. When the driving sound source signal is expressed as ex (k), the driving sound source signal ex (k) is obtained as in the following equation (12).
(Equation 12)
Figure 2004302259
[0147]
Next, a synthesized signal syn (k) is generated by the synthesis filter 910 using the decoded LPC coefficients and the drive excitation signal ex (k) according to the following equation (13).
(Equation 13)
Figure 2004302259
Where α q Represents the decoded LPC coefficient, and NP represents the order of the LPC coefficient. The decoded signal syn (n) thus decoded is output from the output terminal 911. After the above-described decoding processing is completed, the internal state of the adaptive codebook is updated using the latest driving excitation signal in preparation for the decoding processing in the next frame (or subframe).
[0148]
Next, the frequency domain decoding unit 804 will be described with reference to FIG. FIG. 10 is a block diagram illustrating a configuration of the frequency domain decoding unit of the hierarchical decoding device according to the present embodiment. Transform coefficient decoding section 1002 decodes the quantized transform coefficients from the frequency domain coded code input from input terminal 1001. Next, time domain transform section 1003 performs time domain transform processing on the transform coefficients obtained from transform coefficient decoding section 1002 to generate a signal in the time domain. The signal in the time domain is subjected to processing such as superposition addition so as to prevent discontinuity between frames (or subframes). Then, time domain conversion section 1003 outputs this output signal from output terminal 1004.
[0149]
As described above, according to the hierarchical decoding device of the present embodiment, a coded signal obtained by coding the difference between the signal obtained by decoding the coding result of the upper layer and the input audio signal in the time domain and the frequency domain, By decoding a periodic signal in the time domain and a non-periodic signal in the frequency domain, it is possible to perform high-quality encoding and decoding at a low bit rate.
[0150]
Further, according to the hierarchical decoding device of the present embodiment, by setting the sampling frequency of the signal to be decoded in the lower layer higher than the sampling frequency of the signal to be decoded in the upper layer, the signal is made to correspond to various sampling frequencies. The encoded signal can be decoded.
[0151]
(Embodiment 3)
FIG. 11 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 3 of the present invention. In the present embodiment, in an audio signal encoding method in which an n-th layer (2 ≦ n ≦ N) encoding unit is composed of a time-domain encoding unit and a frequency-domain encoding unit, a pitch determined by an upper layer It is characterized in that it has a time domain encoding unit that performs encoding using a cycle.
[0152]
According to the present embodiment, by using the pitch period obtained in the upper layer, it is possible to more efficiently encode the pitch period of the time domain encoding unit, and as a result, at a low bit rate Encoding can be performed with high quality. In FIG. 11, components having the same names as those in FIG. 2 have the same functions, and thus detailed description of such components will be omitted.
[0153]
From the input terminal 1108, the pitch period T obtained in the upper layer is input. Time domain coding section 1103 performs coding using the input pitch cycle of the upper layer. FIG. 12 shows the configuration of time domain encoding section 1103 in this case. FIG. 12 is a block diagram illustrating a configuration of the time domain encoding unit of the hierarchical encoding device according to the present embodiment. In FIG. 12, components having the same names as those in FIG. 3 have the same functions, and thus detailed description of such components will be omitted.
[0154]
The pitch period T of the lower layer input from the input terminal 1218 is provided to the search candidate determining unit 1219. The search candidate determination unit 1219 limits the candidates of the adaptive vector to be searched included in the adaptive codebook 1207 based on the pitch period T of the upper layer.
[0155]
Due to the above limitation, compared to the case where all the candidates included in the adaptive codebook 1207 are to be searched, according to this method, the number of candidates for the adaptive vector to be searched is reduced. Code amount can be reduced. Further, there can be obtained an advantage that the amount of calculation required for searching the adaptive codebook can be reduced.
[0156]
The search candidate determination unit 1219 can use the pitch period T of the upper layer to search for an adaptation vector corresponding to the pitch period included in the range represented by the following equation (14). However, when the sampling frequency of the upper layer is different from the sampling frequency of the layer, the pitch period T of the upper layer is corrected and used so as to be compatible with the sampling frequency of the layer.
[Equation 14]
Figure 2004302259
Here, T (n) represents the pitch cycle of the layer (n-th layer). T (m) represents the pitch period of the upper layer, and the range of m is represented by 1 ≦ m <n. ΔT1 and ΔT2 represent constants that determine the range of the pitch period. The search for the adaptive vector is performed only for the adaptive vector corresponding to the pitch period T (n) included in Expression (14). As a result of the search, the relative pitch period ΔT is determined, and this information is used as an encoded code. It is provided to the multiplexing unit 1215.
[0157]
Further, in consideration of the case where the pitch period of the upper layer is double pitch or half pitch, a search candidate for an adaptive vector included in adaptive codebook 1207 may be determined according to the following equation (15).
(Equation 15)
Figure 2004302259
Here, k is a variable that represents an integer multiple or a fraction of an integer, such as k = {..., 1/4, 1/3, 1/2, 1, 2, 3, 4,. The notations ΔT1 (k) and ΔT2 (k) indicate cases where the search range of the pitch cycle may be different depending on the value of k.
[0158]
As described above, according to the hierarchical coding apparatus of the present embodiment, in time domain coding lower than the second layer, the search is performed from the adaptive vector of the adaptive codebook using the pitch period obtained in the upper layer. By limiting the candidates of the adaptive vector to be subjected to, and performing encoding using the limited adaptive vector, the encoding of the pitch period of the time domain encoding can be performed more efficiently, and at a low bit rate. Can be encoded with high quality.
[0159]
(Embodiment 4)
FIG. 13 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 4 of the present invention. In the present embodiment, in a hierarchical coding scheme in which an n-th layer (2 ≦ n ≦ N) coding section is composed of a time domain coding section and a frequency domain coding section, a pitch period determined in an upper layer It is characterized in that the coded code generated by the time domain coding unit that performs coding by using coded data can be decoded.
[0160]
According to the present embodiment, by using the pitch period obtained in the upper layer, it is possible to more efficiently encode the pitch period of the time domain coding unit, and as a result, at a low bit rate By decoding a coded code of a hierarchical coding method capable of performing high-quality coding, an effect that a high-quality decoded signal can be obtained can be obtained.
[0161]
In FIG. 13, components having the same names as those in FIG. 8 have the same functions, and thus detailed description of such components is omitted. The pitch period T decoded in the upper layer is input from the input terminal 1307 and is provided to the time domain decoding unit 1303.
[0162]
Time domain coding section 1303 performs decoding using the input pitch cycle of the upper layer. FIG. 14 shows the configuration of time domain decoding section 1303. FIG. 14 is a block diagram showing a configuration of the time domain decoding unit of the hierarchical decoding device according to the present embodiment. In FIG. 14, components having the same names as those in FIG. 9 have the same functions, and thus detailed descriptions of such components will be omitted.
[0163]
The pitch period T decoded in the upper layer input from the input terminal 1412 is provided to the adaptive vector determination unit 1413. Further, the relative pitch period ΔT is decoded by separation section 1402 and provided to adaptive vector determination section 1413.
[0164]
Using the pitch cycle T and the relative pitch cycle ΔT of the lower layer, the adaptive vector determination unit 1413 calculates the pitch cycle T of the layer according to the following equation (16).
(Equation 16)
Figure 2004302259
Here, T (n) represents the pitch period of the layer (n-th layer), and T (m) represents the pitch period of the upper layer (1 ≦ m <n). When the search candidate of the adaptive vector is determined according to the equation (15), the pitch period of the layer is calculated according to the following equation (17).
[Equation 17]
Figure 2004302259
Here, k is a variable that represents an integer multiple or a fraction of an integer, such as k = {..., 1/4, 1/3, 1/2, 1, 2, 3, 4,. The pitch cycle of the layer decoded in this way is provided to adaptive codebook 1403. The adaptive codebook 1403 outputs an adaptive vector corresponding to the decoded pitch period.
[0165]
As described above, according to the speech decoding apparatus of the present embodiment, in the time domain decoding lower than the second layer, the adaptive codebook of the adaptive codebook is utilized by using the pitch period obtained in the upper layer on the encoding side. By performing the decoding while limiting the candidates of the adaptive vector used for the decoding from the adaptive vector, the encoding and the decoding of the pitch period of the time domain encoding can be performed more efficiently, and the encoding can be performed at a low bit rate and at a high bit rate. Can be encoded to quality.
[0166]
(Embodiment 5)
In the fifth embodiment, an example in which parameters input from the input terminal 1108 of the third embodiment are different will be described. In the third embodiment, the pitch period obtained in the upper layer is input, but in the present embodiment, the LPC coefficient obtained in the upper layer is input.
[0167]
In the present embodiment, in a hierarchical coding scheme in which an n-th layer (2 ≦ n ≦ N) coding section is composed of a time-domain coding section and a frequency-domain coding section, LPC coefficients obtained in an upper layer It is characterized in that it has a time-domain coding unit that performs coding by using. According to the present embodiment, by using the LPC coefficient obtained in the upper layer, it is possible to more efficiently perform encoding of the LPC coefficient of the time domain encoding unit, and as a result, at a low bit rate. Encoding can be performed with high quality. In FIG. 11, components having the same names as those in FIG. 2 have the same functions, and thus detailed description of such components will be omitted.
[0168]
In FIG. 11, LPC coefficients obtained in an upper layer are input from an input terminal 1108 and provided to a time-domain coding unit 1103. Time domain coding section 1103 performs coding using the input lower layer LPC coefficients. FIG. 15 shows the configuration of time domain encoding section 1103 in this case. FIG. 15 is a block diagram illustrating a configuration of a time-domain coding unit of the hierarchical coding device according to the present embodiment. In FIG. 15, components having the same names as those in FIG. 3 have the same functions, and thus detailed description of such components is omitted.
[0169]
The upper layer LPC coefficients input from input terminal 1518 are provided to LPC quantizer 1503. The LPC quantizer 1503 efficiently encodes the LPC coefficient of the layer given from the LPC analyzer 1502 using the LPC coefficient of the upper layer. The configuration of LPC quantizer 1503 will be described with reference to FIG. FIG. 16 is a block diagram illustrating a configuration of an LPC quantizer of the hierarchical encoding device according to the present embodiment.
[0170]
From the input terminal 1609, the LPC coefficient of the layer determined by the LPC analyzer 1502 (not shown) is input. The LPC coefficient of the layer is expressed as {αp; p = 1 to NP (n)}. Here, NP (n) represents the order of the LPC coefficient of the layer (n-th layer).
[0171]
Next, LSF conversion section 1606 converts the LPC coefficients of the frame into LSF coefficients. The LSF coefficient is a parameter that can be mutually converted with the LPC coefficient, and has advantages such as easy determination of filter stability conditions, good parameter interpolation characteristics, and substantially constant parameter sensitivity to spectral distortion. Is widely used.
[0172]
Here, when the LSF coefficient is expressed as {Fp; p = 1 to NP (n)}, the LSF coefficient takes a value between 0 and 1 and has a relationship of Fp <Fp + 1. Similarly, the LPC coefficient of the upper layer input from the input terminal 1601 is represented as {βp; p = 1 to NP (m)}. Here, NP (m) represents the order of the LPC coefficient of the upper layer (m-th layer, m <n).
[0173]
Next, LSF conversion section 1602 converts the LPC coefficient {βp; p = 1 to NP (m)} of the upper layer into LSF coefficient {Gp; p = 1 to NP (m)}. Next, the correction unit 1603 multiplies the LSF coefficient of the lower layer by a constant so as to match the sampling frequency of the layer. This constant is represented by Fs (m) / Fs (n).
[0174]
The adder 1605 adds the LSF coefficient of the lower layer after conversion given from the correction unit 1603 and the delta LSF vector stored in the delta LSF codebook 1604. Subtractor 1607 subtracts the output vector of adder 1605 from the LSF coefficient of the layer, and outputs the error signal to searcher 1608.
[0175]
The searcher 1608 efficiently searches for the delta LSF vector stored in the delta LSF codebook 1604 that minimizes the energy of the error signal or the perceptually weighted energy, and outputs the index as an encoded code. Output from terminal 1610.
[0176]
Thus, according to the hierarchical coding apparatus of the present embodiment, in the time domain coding lower than the second layer, the LPC coefficient (or LSF coefficient) obtained in the upper layer and the LPC coefficient ( Or LSF coefficient), the optimum delta LSF vector can be searched for in consideration of the LPC coefficient obtained in the upper layer, and time domain coding can be performed more efficiently. And high quality coding at a low bit rate.
[0177]
(Embodiment 6)
In the sixth embodiment, an example in which parameters input from the input terminal 1307 of the fourth embodiment are different will be described. In the fourth embodiment, the pitch period obtained in the upper layer is input, whereas in the sixth embodiment, the LPC coefficient obtained in the upper layer is input.
[0178]
In the present embodiment, in an audio signal decoding method in which an n-th layer (2 ≦ n ≦ N) decoding unit includes a time-domain decoding unit and a frequency-domain decoding unit, LPC decoded by an upper layer It is characterized in that it has a time domain decoding unit that decodes the LPC coefficients of the layer using the coefficients. According to the present embodiment, by using the LPC coefficient decoded in the lower layer, it becomes possible to decode the encoded code of the time domain encoding unit that efficiently encodes the LPC coefficient, As a result, a high-quality decoded signal can be generated at a low bit rate. In FIG. 13, components having the same names as those in FIG. 8 have the same functions, and thus detailed description of such components is omitted.
[0179]
The LPC coefficient decoded in the upper layer is input from input terminal 1307 and provided to time domain decoding section 1303. Time domain decoding section 1303 performs decoding using the input LPC coefficients of the upper layer. FIG. 17 shows the configuration of time domain decoding section 1303 in this case. FIG. 17 is a block diagram illustrating a configuration of a time domain decoding unit of the hierarchical decoding device according to the present embodiment. In FIG. 17, components having the same names as those in FIG. 9 have the same functions, and thus detailed description of such components will be omitted.
[0180]
The LPC coefficient of the upper layer input from input terminal 1712 is provided to LPC decoder 1709. The LPC decoder 1709 decodes the LPC coefficient of the layer using the LPC coefficient of the upper layer. The configuration of LPC decoder 1709 will be described with reference to FIG. FIG. 18 is a block diagram illustrating a configuration of an LPC decoder of the hierarchical decoding device according to the present embodiment.
[0181]
An LPC coefficient {βp; p = 1 to NP (m)} of an upper layer is input from an input terminal 1801. The LSF conversion unit 1807 converts the LSF coefficient of the upper layer into {Gp; p = 1 to NP (m)}. The correction unit 1803 converts the sampling frequency Fs (m) of the upper layer and the constant Fs (m) / Fs (n) defined by the sampling frequency Fs (n) of the layer into the LSF coefficient of the upper layer {Gp; p = 1 NNP (m)}, and the result is given to the adder 1805.
[0182]
From an input terminal 1802, an encoded code representing a delta LSF vector is input. The delta LSF codebook 1804 decodes the delta LSF vector using the encoded code and supplies the decoded delta LSF vector to the adder 1805. Adder 1805 adds the corrected upper layer LSF coefficient and the decoded delta LSF vector, and provides the LSF vector after addition to LPC conversion section 1808. LPC conversion section 1808 converts the LSF vector into LPC coefficients, and outputs the result from output terminal 1806.
[0183]
As described above, according to the speech decoding apparatus of the present embodiment, in time domain decoding lower than the second layer, the optimal search performed in consideration of the LPC coefficient obtained in the upper layer on the encoding side is considered. By decoding using the delta LSF vector, LPC coefficients of time domain coding can be more efficiently encoded and decoded, and high-quality encoding can be performed at a low bit rate.
[0184]
(Embodiment 7)
Next, a seventh embodiment of the present invention will be described with reference to the drawings. FIG. 19 is a block diagram showing a configuration of a communication device according to Embodiment 7 of the present invention. The feature of this embodiment is that the signal processing apparatus 1903 in FIG. 19 is configured by one of the hierarchical coding apparatuses shown in the above-described first to sixth embodiments.
[0185]
As shown in FIG. 19, a communication device 1900 according to Embodiment 7 of the present invention includes an input device 1901, an A / D conversion device 1902, and a signal processing device 1903 connected to a network 1904.
[0186]
The A / D converter 1902 is connected to the output terminal of the input device 1901. An input terminal of the signal processing device 1903 is connected to an output terminal of the A / D conversion device 1902. The output terminal of the signal processing device 1903 is connected to the network 1904.
[0187]
The input device 1901 converts a sound wave that can be heard by a human ear into an analog signal that is an electric signal, and supplies the analog signal to the A / D converter 1902. An A / D converter 1902 converts an analog signal into a digital signal and provides the digital signal to a signal processor 1903. The signal processing device 1903 encodes the input digital signal to generate a code, and outputs the code to the network 1904.
[0188]
As described above, according to the communication apparatus of the embodiment of the present invention, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in communication, and to efficiently encode an audio signal with a small number of bits. An encoding device can be provided.
[0189]
(Embodiment 8)
Next, an eighth embodiment of the present invention will be described with reference to the drawings. FIG. 20 is a block diagram showing a configuration of a communication device according to Embodiment 8 of the present invention. The feature of this embodiment is that the signal processing device 2003 in FIG. 20 is configured by one of the hierarchical decoding devices shown in the above-described first to sixth embodiments.
[0190]
As shown in FIG. 20, a communication device 2000 according to Embodiment 8 of the present invention includes a receiving device 2002, a signal processing device 2003, a D / A conversion device 2004, and an output device 2005 connected to a network 2001. are doing.
[0191]
The input terminal of the receiving device 2002 is connected to the network 2001. An input terminal of the signal processing device 2003 is connected to an output terminal of the receiving device 2002. The input terminal of the D / A conversion device 2004 is connected to the output terminal of the signal processing device 2003. The input terminal of the output device 2005 is connected to the output terminal of the D / A converter 2004.
[0192]
Receiving apparatus 2002 receives a digital coded acoustic signal from network 2001, generates a digital received acoustic signal, and provides the signal to signal processing apparatus 2003. The signal processing device 2003 receives the received audio signal from the receiving device 2002, performs a decoding process on the received audio signal, generates a digital decoded audio signal, and supplies the digital decoded audio signal to the D / A conversion device 2004. The D / A conversion device 2004 converts the digital decoded audio signal from the signal processing device 2003 to generate an analog decoded audio signal, and supplies the analog decoded audio signal to the output device 2005. The output device 2005 converts an analog decoded sound signal, which is an electric signal, into vibration of air and outputs the sound as a sound wave so that the sound can be heard by a human ear.
[0193]
As described above, according to the communication device of the present embodiment, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in communication, and to efficiently decode an encoded audio signal with a small number of bits. Therefore, a good acoustic signal can be output.
[0194]
(Embodiment 9)
Next, a ninth embodiment of the present invention will be described with reference to the drawings. FIG. 21 is a block diagram showing a configuration of a communication device according to Embodiment 9 of the present invention. In the ninth embodiment of the present invention, the signal processing apparatus 2103 in FIG. 21 is configured by one of the acoustic encoding units shown in the first to sixth embodiments. There is a feature of the form.
[0195]
As shown in FIG. 21, a communication device 2100 according to Embodiment 9 of the present invention includes an input device 2101, an A / D conversion device 2102, a signal processing device 2103, an RF modulation device 2104, and an antenna 2105.
[0196]
The input device 2101 converts a sound wave that can be heard by a human ear into an analog signal, which is an electric signal, and supplies the analog signal to the A / D converter 2102. The A / D converter 2102 converts an analog signal into a digital signal and supplies the digital signal to the signal processor 2103. The signal processing device 2103 encodes the input digital signal to generate an encoded audio signal, and supplies the encoded audio signal to the RF modulation device 2104. The RF modulator 2104 modulates the coded audio signal to generate a modulated coded audio signal, and provides the modulated coded audio signal to the antenna 2105. The antenna 2105 transmits the modulated and coded acoustic signal as a radio wave.
[0197]
As described above, according to the communication apparatus of the present embodiment, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in wireless communication, and to efficiently encode an audio signal with a small number of bits. it can.
[0198]
Note that the present invention can be applied to a transmission device, a transmission encoding device, or an audio signal encoding device that uses an audio signal. Further, the present invention can be applied to a mobile station device or a base station device.
[0199]
(Embodiment 10)
Next, a tenth embodiment of the present invention will be described with reference to the drawings. FIG. 22 is a block diagram showing a configuration of a communication device according to Embodiment 10 of the present invention. The tenth embodiment of the present invention is characterized in that the signal processing device 2203 in FIG. 22 is configured by one of the audio decoding units shown in the first to sixth embodiments. There is a feature of the form.
[0200]
As shown in FIG. 22, a communication device 2200 according to Embodiment 10 of the present invention includes an antenna 2201, an RF demodulation device 2202, a signal processing device 2203, a D / A conversion device 2204, and an output device 2205.
[0201]
The antenna 2201 receives a digital coded acoustic signal as a radio wave, generates a digital reception coded acoustic signal of an electric signal, and supplies the generated signal to the RF demodulation device 2202. The RF demodulation device 2202 demodulates the coded audio signal received from the antenna 2201, generates a demodulated coded audio signal, and provides the demodulated coded audio signal to the signal processing device 2203.
[0202]
The signal processing device 2203 receives the digital demodulated coded audio signal from the RF demodulation device 2202, performs a decoding process, generates a digital decoded audio signal, and supplies the digital decoded audio signal to the D / A conversion device 2204. The D / A converter 2204 converts the digital decoded audio signal from the signal processor 2203 to generate an analog decoded audio signal, and supplies the analog decoded audio signal to the output device 2205. The output device 2205 converts an analog decoded audio signal, which is an electric signal, into air vibration and outputs the sound as a sound wave so that it can be heard by human ears.
[0203]
As described above, according to the communication apparatus of the present embodiment, it is possible to enjoy the effects shown in the above-described first to sixth embodiments in wireless communication, and to decode an audio signal efficiently encoded with a small number of bits. Therefore, a good acoustic signal can be output.
[0204]
Note that the present invention can be applied to a receiving device, a receiving decoding device, or an audio signal decoding device that uses an audio signal. Further, the present invention can be applied to a mobile station device or a base station device.
[0205]
Further, the present invention is not limited to the above embodiment, and can be implemented with various modifications. For example, in the above-described embodiment, the case where the processing is performed as a signal processing apparatus is described. However, the present invention is not limited to this, and the signal processing method can be performed as software.
[0206]
For example, a program for executing the signal processing method may be stored in a ROM (Read Only Memory) in advance, and the program may be operated by a CPU (Central Processor Unit).
[0207]
Further, a program for executing the above signal processing method is stored in a computer-readable storage medium, and the program stored in the storage medium is recorded in a RAM (Random Access Memory) of the computer, and the computer is operated according to the program. You may make it do.
[0208]
In the above description, a case is described in which the discrete Fourier transform is used for the method of transforming from the time domain to the frequency domain. However, the present invention is not limited to this, and any orthogonal transform can be applied. For example, discrete cosine transform or MDCT (modified discrete cosine transform) can be applied.
[0209]
Note that the present invention can be applied to a receiving device, a receiving decoding device, or an audio signal decoding device that uses an audio signal. Further, the present invention can be applied to a mobile station device or a base station device.
[0210]
【The invention's effect】
As described above, according to the hierarchical encoding method and the hierarchical decoding method of the audio signal of the present invention, in the encoding of the second layer or lower, the signal obtained by decoding the encoding result of the upper layer and the input audio signal Is encoded in the time domain, and the difference between the residual signal that cannot be encoded by encoding in the time domain, that is, the difference between the difference signal and the decoded signal obtained by decoding the encoded signal in the time domain is encoded in the frequency domain. Accordingly, a signal having periodicity can be encoded in the time domain, and a signal having no periodicity can be encoded in the frequency domain, and high-quality encoding can be performed at a low bit rate.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 1 of the present invention.
FIG. 2 is a block diagram showing a configuration of an n-th layer (2 ≦ n ≦ N) encoding unit of the hierarchical encoding device according to the embodiment.
FIG. 3 is a block diagram showing a configuration of a time domain coding unit of the hierarchical coding device according to the embodiment.
FIG. 4 is a block diagram illustrating a configuration of a target signal generation unit of the hierarchical encoding device according to the present embodiment.
FIG. 5 is a block diagram showing a configuration of a frequency domain encoding unit of the hierarchical encoding device according to the embodiment.
FIG. 6 is a block diagram showing a configuration of an auditory masking calculation unit of the hierarchical encoding device according to the embodiment.
FIG. 7 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 2 of the present invention.
FIG. 8 is a block diagram showing a configuration of a decoding unit of the second layer and subsequent layers of the hierarchical decoding device according to the embodiment.
FIG. 9 is a block diagram illustrating a configuration of a time domain decoding unit of the hierarchical decoding device according to the above embodiment.
FIG. 10 is a block diagram illustrating a configuration of a frequency domain decoding unit of the hierarchical decoding device according to the above embodiment.
FIG. 11 is a block diagram showing a configuration of a hierarchical encoding device according to Embodiment 3 of the present invention.
FIG. 12 is a block diagram showing a configuration of a time-domain coding unit of the hierarchical coding device according to the embodiment.
FIG. 13 is a block diagram showing a configuration of a hierarchical decoding device according to Embodiment 4 of the present invention.
FIG. 14 is a block diagram showing a configuration of a time-domain decoding unit of the hierarchical decoding device according to the embodiment.
FIG. 15 is a block diagram showing a configuration of a time-domain coding unit of a hierarchical coding device according to Embodiment 5 of the present invention.
FIG. 16 is a block diagram showing a configuration of an LPC quantizer of the hierarchical encoding device according to the embodiment.
FIG. 17 is a block diagram showing a configuration of a time-domain decoding unit of the hierarchical decoding device according to Embodiment 6 in the present invention.
FIG. 18 is a block diagram illustrating a configuration of an LPC decoder of the hierarchical decoding device according to the above embodiment.
FIG. 19 is a block diagram showing a configuration of a communication device according to a seventh embodiment of the present invention.
FIG. 20 is a block diagram showing a configuration of a communication device according to an eighth embodiment of the present invention.
FIG. 21 is a block diagram showing a configuration of a communication device according to Embodiment 9 of the present invention.
FIG. 22 is a block diagram showing a configuration of a communication device according to a tenth embodiment of the present invention.
[Explanation of symbols]
102 DS1 part
103 first layer encoding section
104, 703 First layer decoding section
107, 113, 404 delay unit
105, 704 US1
106 DS2 part
108, 114, 405 Subtractor
109 second layer encoding section
110, 704 Second layer decoding section
111, 705, 709, 805, 1305 Adder
112,707 US2
115 third layer encoding section
203 time domain coding unit
204 Target signal generator
205 frequency domain coding unit
403 decryption unit
503 Frequency domain transform unit
504 Auditory masking calculation unit
505 Quantization unit
708 Third layer decoding unit
803, 1303 time domain decoding unit
804, 1304 frequency domain decoding unit
1002 Transform coefficient decoding unit
1003 Time domain converter

Claims (28)

入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化方法であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化工程と、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化工程と、を具備し、前記第2符号化工程では、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域の双方で符号化することを特徴とする階層符号化方法。A hierarchical encoding method for encoding an input audio signal, decoding a signal encoded in an upper layer, and encoding a difference between the decoded signal and the input signal, wherein the input audio signal is a frame unit having a predetermined length. And a second encoding step of encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in one or more stages, In the second encoding step, a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal is encoded in both a time domain and a frequency domain. 前記第2符号化工程は、上位レイヤで符号化された信号を復号して復号信号を生成する階層復号工程と、前記復号信号のサンプリング周波数を上げるアップサンプリング工程と、入力音響信号から前記復号信号を減算して差分信号を生成する階層減算工程と、前記差分信号を符号化する階層符号化工程とを具備することを特徴とする請求項1に記載の階層符号化方法。The second encoding step includes a hierarchical decoding step of decoding a signal encoded in an upper layer to generate a decoded signal; an upsampling step of increasing a sampling frequency of the decoded signal; 2. The hierarchical encoding method according to claim 1, further comprising: a hierarchical subtraction step of generating a difference signal by subtracting the difference signal; and a hierarchical encoding step of encoding the difference signal. 前記階層符号化工程は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化する時間領域符号化工程と、前記時間領域符号化工程で符号化された信号を復号して復号信号を生成する時間領域信号復号工程と、差分信号から前記復号信号を減算して第2差分信号を生成する時間領域信号減算工程と、前記第2差分信号を周波数領域で符号化する周波数領域符号化工程と、を具備することを特徴とする請求項2に記載の階層符号化方法。The hierarchical encoding step is a time-domain encoding step of encoding a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in a time domain, and the time-domain encoding step A time domain signal decoding step of decoding a signal to generate a decoded signal; a time domain signal subtracting step of subtracting the decoded signal from the difference signal to generate a second difference signal; 3. The hierarchical encoding method according to claim 2, further comprising a frequency domain encoding step of encoding. 前記時間領域符号化工程は、上位レイヤで求められたピッチ周期から符号化で用いる適応ベクトルを限定する探索候補決定工程と、限定された適応ベクトルから入力音声信号と差が最も小さい適応ベクトルを探索する探索工程とを具備することを特徴とする請求項3に記載の階層符号化方法。The time domain encoding step includes a search candidate determining step of limiting an adaptive vector to be used in encoding from a pitch period obtained in an upper layer, and searching an adaptive vector having the smallest difference from an input speech signal from the limited adaptive vector. 4. The hierarchical encoding method according to claim 3, further comprising: 前記時間領域符号化工程は、ピッチ周期を量子化する量子化工程を具備し、前記探索候補決定工程は、上位レイヤで求められたピッチ周期を当該レイヤのサンプリング周波数に適合するよう修正を加え、前記量子化工程は、修正後のピッチ周期を用いて当該レイヤのピッチ周期を量子化することを特徴とする請求項4に記載の階層符号化方法。The time domain encoding step includes a quantization step of quantizing a pitch cycle, and the search candidate determining step modifies the pitch cycle obtained in an upper layer so as to match the sampling frequency of the layer, The hierarchical encoding method according to claim 4, wherein the quantization step quantizes a pitch period of the layer using the corrected pitch period. 前記時間領域符号化工程は、上位レイヤで求められた符号化のパラメータと当該レイヤの探索候補であるパラメータとを加算する加算工程と、前記加算工程の結果と入力音声信号と差が最も小さいパラメータを探索する探索工程とを具備することを特徴とする請求項3に記載の階層符号化方法。The time domain coding step includes an addition step of adding a parameter of the coding obtained in an upper layer and a parameter that is a search candidate of the layer, and a parameter having a smallest difference between a result of the addition step and an input audio signal. 4. The hierarchical encoding method according to claim 3, further comprising a search step of searching for 前記時間領域符号化工程は、上位レイヤで求められたLPC係数をLSF係数に変換する変換工程と、を具備し、前記加算工程は、前記変換工程で変換されたLSF係数とLSF符号帳が保持するLSF係数とを加算し、前記探索工程は、加算されたLSF係数と入力音声信号から求められるLSF係数との差を最小とするLSF係数を探索することを特徴とする請求項6に記載の階層符号化方法。The time domain coding step includes a conversion step of converting LPC coefficients obtained in an upper layer into LSF coefficients, and the adding step holds the LSF coefficient and the LSF codebook converted in the conversion step. The LSF coefficient that minimizes the difference between the added LSF coefficient and the LSF coefficient obtained from the input audio signal is searched for in the search step, wherein the LSF coefficient is determined. Hierarchical encoding method. 入力音響信号から聴覚マスキングを算出する聴覚マスキング工程を具備し、前記周波数領域符号化工程は、前記聴覚マスキングを用いたマスキング後の信号を用いて第2差分信号を符号化することを特徴とする請求項3から請求項7のいずれかに記載の階層符号化方法。An auditory masking step of calculating an auditory masking from an input acoustic signal, wherein the frequency domain encoding step encodes a second differential signal using a signal after the masking using the auditory masking. The hierarchical encoding method according to claim 3. 入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化された信号を復号する階層復号化方法であって、第1レイヤの符号化コードを復号する第1復号工程と、第2レイヤより下位のレイヤの符号化コードを時間領域と周波数領域の双方で復号する第2復号工程と、前記第1復号工程と前記第2復号工程の復号結果を加算する加算工程と、を具備することを特徴とする階層復号化方法。A hierarchical decoding method for encoding an input audio signal, decoding a signal encoded in an upper layer, and decoding a signal in which a difference between the decoded signal and the input signal is encoded, comprising: A first decoding step of decoding a code, a second decoding step of decoding a coded code of a layer lower than a second layer in both a time domain and a frequency domain, and the first decoding step and the second decoding step. An addition step of adding a decoding result. 前記第1復号工程の復号結果のサンプリング周波数を前記第2復号工程の復号結果のサンプリング周波数にアップサンプリングするアップサンプリング工程を具備し、前記加算工程は、アップサンプリング後の前記第1復号工程と前記第2復号工程の復号結果を加算することを特徴とする請求項9に記載の階層復号化方法。An up-sampling step of up-sampling a sampling frequency of a decoding result of the first decoding step to a sampling frequency of a decoding result of the second decoding step, wherein the adding step includes the steps of: The hierarchical decoding method according to claim 9, wherein the decoding result of the second decoding step is added. 前記第2復号工程は、時間領域の復号において、上位レイヤのピッチ周期またはLPC係数を用いて当該レイヤの復号を行う時間領域復号工程を具備することを特徴とする請求項9または請求項10に記載の階層復号化方法。11. The method according to claim 9, wherein the second decoding step includes a time domain decoding step of decoding the layer using a pitch cycle or an LPC coefficient of an upper layer in time domain decoding. The hierarchical decoding method described in the above. 前記第2復号工程は、聴覚マスキングを用いて周波数領域の係数を符号化して得られる符号化コードを復号する周波数領域復号工程を具備することを特徴とする請求項9から請求項11のいずれかに記載の階層復号化方法。12. The method according to claim 9, wherein the second decoding step includes a frequency domain decoding step of decoding an encoded code obtained by encoding a frequency domain coefficient using auditory masking. 2. The hierarchical decoding method according to item 1. 入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化装置であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化手段と、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化手段と、を具備し、前記第2符号化手段は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域と周波数領域の双方で符号化することを特徴とする階層符号化装置。A hierarchical encoding device that encodes an input audio signal, decodes a signal encoded by an upper layer, and encodes a difference between the decoded signal and the input signal, wherein the input audio signal is a frame unit having a predetermined length. And a second encoder for encoding the difference between the signal obtained by decoding the encoding result of the upper layer and the input audio signal in one or more stages, The hierarchical encoding device according to claim 2, wherein the second encoding unit encodes a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal in both a time domain and a frequency domain. 前記第2符号化手段は、上位レイヤで符号化された信号を復号して復号信号を生成する階層復号手段と、前記復号信号のサンプリング周波数を上げるアップサンプリング手段と、入力音響信号から前記復号信号を減算して差分信号を生成する階層減算手段と、前記差分信号を符号化する階層符号化手段とを具備することを特徴とする請求項13に記載の階層符号化装置。The second encoding means decodes a signal encoded in an upper layer to generate a decoded signal; a hierarchical decoding means for increasing a sampling frequency of the decoded signal; an upsampling means for increasing a sampling frequency of the decoded signal; 14. The hierarchical encoding apparatus according to claim 13, further comprising: a hierarchical subtraction unit that generates a difference signal by subtracting the difference signal from the input signal; and a hierarchical encoding unit that encodes the difference signal. 前記階層符号化手段は、上位レイヤの符号化結果を復号化した信号と入力音響信号との差分を時間領域で符号化する時間領域符号化手段と、前記時間領域符号化手段で符号化された信号を復号して復号信号を生成する時間領域信号復号手段と、差分信号から前記復号信号を減算して第2差分信号を生成する時間領域信号減算手段と、前記第2差分信号を周波数領域で符号化する周波数領域符号化手段と、を具備することを特徴とする請求項14に記載の階層符号化装置。The hierarchical encoding unit includes a time domain encoding unit that encodes, in a time domain, a difference between a signal obtained by decoding an encoding result of an upper layer and an input audio signal, and a time domain encoding unit that encodes the difference. A time-domain signal decoding unit that decodes the signal to generate a decoded signal; a time-domain signal subtraction unit that subtracts the decoded signal from the difference signal to generate a second difference signal; 15. The hierarchical coding apparatus according to claim 14, further comprising: frequency domain coding means for coding. 前記時間領域符号化手段は、過去に生成した適応ベクトルを保持する符号帳と、上位レイヤで求められたピッチ周期から符号化で用いる適応ベクトルを限定する探索候補決定手段と、限定された適応ベクトルから入力音声信号と差が最も小さい適応ベクトルを探索する探索手段とを具備することを特徴とする請求項15に記載の階層符号化装置。The time domain encoding means includes: a codebook for holding adaptive vectors generated in the past; a search candidate determining means for limiting adaptive vectors to be used in encoding from a pitch period obtained in an upper layer; and a limited adaptive vector. 16. The hierarchical coding apparatus according to claim 15, further comprising: searching means for searching for an adaptive vector having the smallest difference from the input speech signal. 前記時間領域符号化手段は、ピッチ周期を量子化する量子化手段を具備し、探索候補決定手段は、上位レイヤで求められたピッチ周期を当該レイヤのサンプリング周波数に適合するよう修正を加え、前記量子化手段は、修正後のピッチ周期を用いて当該レイヤのピッチ周期を量子化することを特徴とする請求項16に記載の階層符号化装置。The time domain encoding means includes a quantization means for quantizing a pitch cycle, and the search candidate determining means modifies the pitch cycle obtained in an upper layer so as to match a sampling frequency of the layer, 17. The hierarchical coding apparatus according to claim 16, wherein the quantization means quantizes the pitch cycle of the layer using the corrected pitch cycle. 前記時間領域符号化手段は、上位レイヤで求められた符号化のパラメータと当該レイヤの探索候補であるパラメータとを加算する加算手段と、前記加算手段の結果と入力音声信号と差が最も小さいパラメータを探索する探索手段とを具備することを特徴とする請求項15に記載の階層符号化装置。The time domain encoding means includes an adding means for adding a parameter for encoding obtained in an upper layer and a parameter which is a search candidate for the layer, and a parameter having a smallest difference between a result of the adding means and an input audio signal. 16. The hierarchical encoding apparatus according to claim 15, further comprising: a search unit that searches for. 前記時間領域符号化手段は、LSF係数を保持するLSF符号帳と、上位レイヤで求められたLPC係数をLSF係数に変換する変換手段とを具備し、前記加算手段は、前記変換手段で変換されたLSF係数とLSF符号帳が保持するLSF係数とを加算し、前記探索手段は、加算されたLSF係数と入力音声信号から求められるLSF係数との差を最小とするLSF係数を探索することを特徴とする請求項18に記載の階層符号化装置。The time domain coding unit includes an LSF codebook that holds LSF coefficients, and a conversion unit that converts LPC coefficients obtained in an upper layer into LSF coefficients, and the adding unit converts the LPC coefficients obtained by the conversion unit. The LSF coefficient added to the LSF coefficient held by the LSF codebook is added to the LSF coefficient, and the search means searches for an LSF coefficient that minimizes the difference between the added LSF coefficient and the LSF coefficient obtained from the input audio signal. 19. The hierarchical encoding device according to claim 18, wherein: 入力音響信号から聴覚マスキングを算出する聴覚マスキング手段を具備し、前記周波数領域符号化手段は、前記聴覚マスキングを用いたマスキング後の信号を用いて第2差分信号を符号化することを特徴とする請求項15から請求項19のいずれかに記載の階層符号化装置。An audio masking means for calculating an audio masking from an input audio signal, wherein the frequency domain encoding means encodes a second difference signal using a signal after the audio masking using the audio masking. 20. The hierarchical encoding device according to claim 15. 入力音声信号を符号化し、上位レイヤで符号化した信号を復号し、この復号信号と入力信号との差分を符号化された信号を復号する階層復号化装置であって、第1レイヤの符号化コードを復号する第1復号手段と、第2レイヤより下位のレイヤの符号化コードを時間領域と周波数領域の双方で復号する第2復号手段と、前記第1復号手段と前記第2復号手段の復号結果を加算する加算手段と、を具備することを特徴とする階層復号化装置。A hierarchical decoding device that encodes an input audio signal, decodes a signal encoded in an upper layer, and decodes a signal obtained by encoding a difference between the decoded signal and the input signal. A first decoding unit that decodes a code, a second decoding unit that decodes an encoded code of a layer lower than a second layer in both a time domain and a frequency domain, and the first decoding unit and the second decoding unit. A hierarchical decoding device comprising: an adding unit that adds a decoding result. 前記第1復号手段の復号結果のサンプリング周波数を前記第2復号手段の復号結果のサンプリング周波数にアップサンプリングするアップサンプリング手段を具備し、前記加算手段は、アップサンプリング後の前記第1復号手段と前記第2復号手段の復号結果を加算することを特徴とする請求項21に記載の階層復号化装置。Up-sampling means for up-sampling the sampling frequency of the decoding result of the first decoding means to the sampling frequency of the decoding result of the second decoding means, wherein the adding means includes the first decoding means after up-sampling and the 22. The hierarchical decoding device according to claim 21, wherein the decoding result of the second decoding means is added. 前記第2復号手段は、時間領域の復号において、上位レイヤのピッチ周期またはLPC係数を用いて当該レイヤの復号を行う時間領域復号手段を具備することを特徴とする請求項21または請求項22に記載の階層復号化装置。23. The method according to claim 21, wherein the second decoding unit includes a time-domain decoding unit that decodes the layer using a pitch cycle or an LPC coefficient of an upper layer in the decoding of the time domain. A hierarchical decoding device according to claim 1. 前記第2復号手段は、聴覚マスキングを用いて周波数領域の係数を符号化して得られる符号化コードを復号する周波数領域復号手段を具備することを特徴とする請求項21から請求項23のいずれかに記載の階層復号化装置。24. The apparatus according to claim 21, wherein the second decoding unit includes a frequency domain decoding unit that decodes an encoded code obtained by encoding a frequency domain coefficient using auditory masking. 2. The hierarchical decoding device according to item 1. 音響信号を電気的信号に変換する音響入力手段と、この音響入力手段から出力された信号をディジタル信号に変換するA/D変換手段と、このA/D変換手段から出力されたディジタル信号を符号化する請求項13から請求項20のいずれかに記載の階層符号化装置と、この符号化装置から出力された符号化コードを無線周波数の信号に変調するRF変調手段と、このRF変調手段から出力された信号を電波に変換して送信する送信アンテナと、を具備することを特徴とする音響信号送信装置。Audio input means for converting an audio signal into an electrical signal, A / D conversion means for converting a signal output from the audio input means into a digital signal, and encoding a digital signal output from the A / D conversion means 21. A hierarchical encoding device according to claim 13, wherein said encoding device outputs an encoded code output from said encoding device to a radio frequency signal. A transmitting antenna for converting an output signal into a radio wave and transmitting the radio wave; 電波を受信する受信アンテナと、この受信アンテナに受信された信号を復調するRF復調手段と、このRF復調手段にて得られた情報を復号する請求項21から請求項24のいずれかに記載の階層復号化装置と、この復号化装置から出力された信号をアナログ信号に変換するD/A変換手段と、このD/A変換手段から出力された電気的信号を音響信号に変換する音響出力手段と、を具備することを特徴とする音響信号受信装置。The receiving antenna according to any one of claims 21 to 24, wherein the receiving antenna receives a radio wave, RF demodulating means demodulates a signal received by the receiving antenna, and information obtained by the RF demodulating means is decoded. Hierarchical decoding device, D / A conversion means for converting a signal output from the decoding device into an analog signal, and audio output means for converting an electric signal output from the D / A conversion means into an audio signal And a sound signal receiving device. 請求項25記載の音響信号送信装置あるいは請求項26記載の音響信号受信装置の少なくとも一方を具備することを特徴とする通信端末装置。27. A communication terminal device comprising at least one of the acoustic signal transmitting device according to claim 25 and the acoustic signal receiving device according to claim 26. 請求項25記載の音響信号送信装置あるいは請求項26記載の音響信号受信装置の少なくとも一方を具備することを特徴とする基地局装置。A base station device comprising at least one of the acoustic signal transmitting device according to claim 25 and the acoustic signal receiving device according to claim 26.
JP2003096640A 2003-03-31 2003-03-31 Hierarchical encoding method and hierarchical decoding method for audio signal Pending JP2004302259A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003096640A JP2004302259A (en) 2003-03-31 2003-03-31 Hierarchical encoding method and hierarchical decoding method for audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003096640A JP2004302259A (en) 2003-03-31 2003-03-31 Hierarchical encoding method and hierarchical decoding method for audio signal

Publications (1)

Publication Number Publication Date
JP2004302259A true JP2004302259A (en) 2004-10-28

Family

ID=33408636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003096640A Pending JP2004302259A (en) 2003-03-31 2003-03-31 Hierarchical encoding method and hierarchical decoding method for audio signal

Country Status (1)

Country Link
JP (1) JP2004302259A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090852A1 (en) * 2005-02-24 2006-08-31 Matsushita Electric Industrial Co., Ltd. Data regeneration device
WO2007026763A1 (en) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. Stereo encoding device, stereo decoding device, and stereo encoding method
WO2008084688A1 (en) * 2006-12-27 2008-07-17 Panasonic Corporation Encoding device, decoding device, and method thereof
JP2008533522A (en) * 2005-03-09 2008-08-21 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Low complexity code-excited linear predictive coding
WO2008120440A1 (en) * 2007-03-02 2008-10-09 Panasonic Corporation Encoding device and encoding method
JP2009538460A (en) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 Method and apparatus for concealing frame loss on high band signals
JP2010510540A (en) * 2006-11-17 2010-04-02 サムスン エレクトロニクス カンパニー リミテッド Audio and / or speech signal encoding and / or decoding method and apparatus
JP2010512550A (en) * 2006-12-12 2010-04-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Encoder, decoder and method for encoding and decoding representing a time-domain data stream
US8000967B2 (en) 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090852A1 (en) * 2005-02-24 2006-08-31 Matsushita Electric Industrial Co., Ltd. Data regeneration device
US7970602B2 (en) 2005-02-24 2011-06-28 Panasonic Corporation Data reproduction device
KR101194902B1 (en) 2005-02-24 2012-10-25 파나소닉 주식회사 Data reproduction device
JP2008533522A (en) * 2005-03-09 2008-08-21 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Low complexity code-excited linear predictive coding
US8000967B2 (en) 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding
US8457319B2 (en) 2005-08-31 2013-06-04 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
JP5171256B2 (en) * 2005-08-31 2013-03-27 パナソニック株式会社 Stereo encoding apparatus, stereo decoding apparatus, and stereo encoding method
WO2007026763A1 (en) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. Stereo encoding device, stereo decoding device, and stereo encoding method
JP2010510540A (en) * 2006-11-17 2010-04-02 サムスン エレクトロニクス カンパニー リミテッド Audio and / or speech signal encoding and / or decoding method and apparatus
US11581001B2 (en) 2006-12-12 2023-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
US10714110B2 (en) 2006-12-12 2020-07-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoding data segments representing a time-domain data stream
JP2010512550A (en) * 2006-12-12 2010-04-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Encoder, decoder and method for encoding and decoding representing a time-domain data stream
US9043202B2 (en) 2006-12-12 2015-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
US11961530B2 (en) 2006-12-12 2024-04-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
US9653089B2 (en) 2006-12-12 2017-05-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
US8812305B2 (en) 2006-12-12 2014-08-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
US8818796B2 (en) 2006-12-12 2014-08-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
US9355647B2 (en) 2006-12-12 2016-05-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
WO2008084688A1 (en) * 2006-12-27 2008-07-17 Panasonic Corporation Encoding device, decoding device, and method thereof
AU2008233888B2 (en) * 2007-03-02 2013-01-31 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method
US8918314B2 (en) 2007-03-02 2014-12-23 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method and decoding method
US8918315B2 (en) 2007-03-02 2014-12-23 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method and decoding method
US8554549B2 (en) 2007-03-02 2013-10-08 Panasonic Corporation Encoding device and method including encoding of error transform coefficients
WO2008120440A1 (en) * 2007-03-02 2008-10-09 Panasonic Corporation Encoding device and encoding method
US8200481B2 (en) 2007-09-15 2012-06-12 Huawei Technologies Co., Ltd. Method and device for performing frame erasure concealment to higher-band signal
JP2009538460A (en) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 Method and apparatus for concealing frame loss on high band signals

Similar Documents

Publication Publication Date Title
JP3881943B2 (en) Acoustic encoding apparatus and acoustic encoding method
US8209188B2 (en) Scalable coding/decoding apparatus and method based on quantization precision in bands
JP3881946B2 (en) Acoustic encoding apparatus and acoustic encoding method
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
JP4958780B2 (en) Encoding device, decoding device and methods thereof
JP2003323199A (en) Encoding device, decoding device, encoding method, and decoding method
JP4302978B2 (en) Pseudo high-bandwidth signal estimation system for speech codec
WO2004097796A1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
JP2001222297A (en) Multi-band harmonic transform coder
CN1334952A (en) Encoding Enhancement Features for Improving Performance of Encoded Communication Signals
KR20060135699A (en) Signal decoding apparatus and signal decoding method
WO2005027095A1 (en) Encoder apparatus and decoder apparatus
JP4603485B2 (en) Speech / musical sound encoding apparatus and speech / musical sound encoding method
US20090210219A1 (en) Apparatus and method for coding and decoding residual signal
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for audio signal
JPWO2004097798A1 (en) Speech decoding apparatus, speech decoding method, program, and recording medium
CN100585700C (en) Speech coding device and method thereof
JP4373693B2 (en) Hierarchical encoding method and hierarchical decoding method for acoustic signals
JP4578145B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP4287840B2 (en) Encoder
JP2002169595A (en) Fixed excitation codebook and speech encoding / decoding device
KR20080034817A (en) Encoding / Decoding Apparatus and Method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091009

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091104