本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオ音声のための音声符号化装置および音声符号化方法に関する。
移動体通信やIP通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号化が必須となる。
また、IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化方式が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。スケーラブルな構成を有する音声符号化方式における符号化処理は、階層化されており、コアレイヤに対応するものと拡張レイヤに対応するものとを含む。したがって、その符号化処理によって生成される符号化データも、コアレイヤの符号化データと拡張レイヤの符号化データとを含む。
ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号化データの一部を用いたモノラル信号の復号とを受信側において選択可能な、モノラル−ステレオ間でのスケーラブル構成(モノラル−ステレオ・スケーラブル構成)を有する音声符号化方式が望まれる。
このような音声符号化方式に基づく音声符号化方法としては、例えば、チャネル(以下、「ch」と略記することがある)間の信号の予測(第1ch信号から第2ch信号の予測、または、第2ch信号から第1ch信号の予測)を、チャネル相互間のピッチ予測により行う、すなわち、2チャネル間の相関を利用して符号化を行うものがある(非特許文献1参照)。
Ramprashad,S.A.,"Stereophonic CELP Coding using cross channel prediction",Proc.IEEE Workshop on Speech Coding,pp.136−138,Sep.2000
しかしながら、上記従来の音声符号化方法では、双方のチャネル間の相関が小さい場合、十分な予測性能(予測ゲイン)が得られず符号化効率が劣化することがある。
本発明の目的は、双方のチャネル間の相関が小さい場合でも効率的にステレオ音声を符号化することができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、第1チャネル信号および第2チャネル信号を含むステレオ信号を符号化する音声符号化装置において、前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、前記第1チャネル信号および前記第2チャネル信号の一方を選択する選択手段と、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化手段と、を有する構成を採る。
本発明の音声符号化方法は、第1チャネル信号および第2チャネル信号を含むステレオ信号を符号化する音声符号化方法において、前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成し、前記第1チャネル信号および前記第2チャネル信号の一方を選択し、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得るようにした。
本発明によれば、ステレオ信号の複数チャネル信号間の相関が小さい場合でも効率的にステレオ音声を符号化することができる。
本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態1に係る音声復号化装置の構成を示すブロック図
本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態3に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態3に係る符号化チャネル選択部の構成を示すブロック図
本発明の実施の形態3に係る第Ach符号化部の構成を示すブロック図
本発明の実施の形態3に係る第Aチャネルのチャネル内予測バッファの更新動作の一例を説明するための図
本発明の実施の形態3に係る第Bチャネルのチャネル内予測バッファの更新動作の一例を説明するための図
本発明の実施の形態4に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態4に係る第AchCELP符号化部の構成を示すブロック図
本発明の実施の形態4に係る適応符号帳更新動作の一例を示すフロー図
本発明の実施の形態4に係る第Ach適応符号帳の更新動作の一例を説明するための図
本発明の実施の形態4に係る第Bch適応符号帳の更新動作の一例を説明するための図
以下、モノラル−ステレオ・スケーラブル構成を有する音声符号化に関する本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図である。図1の音声符号化装置100は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ符号化部102と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ符号化部104と、を有する。以下、各構成要素はフレーム単位で動作することを前提として説明する。
コアレイヤ符号化部102は、モノラル信号生成部110およびモノラル信号符号化部112を有する。また、拡張レイヤ符号化部104は、符号化チャネル選択部120、第1ch符号化部122、第2ch符号化部124およびスイッチ部126を有する。
コアレイヤ符号化部102において、モノラル信号生成部110は、ステレオ入力音声信号に含まれる第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)(但し、n=0〜NF−1;NFはフレーム長)から、式(1)に示す関係に基づいてモノラル信号s_mono(n)を生成し、モノラル信号符号化部112に出力する。ここで、本実施の形態で説明するステレオ信号は、2つのチャネルの信号、すなわち第1チャネルの信号および第2チャネルの信号から成る。
モノラル信号符号化部112は、モノラル信号s_mono(n)をフレーム毎に符号化する。符号化には任意の符号化方式が用いられて良い。モノラル信号s_mono(n)の符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。より具体的には、コアレイヤ符号化データは、後述の拡張レイヤ符号化データおよび符号化チャネル選択情報と多重され、送信符号化データとして音声符号化装置100から出力される。
また、モノラル信号符号化部112は、モノラル信号s_mono(n)を復号し、それによって得られるモノラル復号音声信号を拡張レイヤ符号化部104の第1ch符号化部122および第2ch符号化部124に出力する。
拡張レイヤ符号化部104において、符号化チャネル選択部120は、第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)を用いて、第1チャネルおよび第2チャネルのうち、拡張レイヤでの符号化の対象のチャネルとして最適なチャネルを、所定の選択基準に基づき選択する。最適なチャネルは、フレーム毎に選択される。ここで、所定の選択基準は、拡張レイヤ符号化を高効率にまたは高音質(低符号化歪み)に実現できるための基準である。符号化チャネル選択部120は、選択されたチャネルを示す符号化チャネル選択情報を生成する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、前述のコアレイヤ符号化データおよび後述の拡張レイヤ符号化データと多重される。
なお、符号化チャネル選択部120は、第1入力音声信号s_ch1(n)および第2入力音声信号s_ch2(n)を用いる代わりに、第1ch符号化部122および第2ch符号化部124での符号化の過程で得られる任意のパラメータまたは信号もしくは符号化の結果(すなわち、後述の第1ch符号化データおよび第2ch符号化データ)を用いても良い。
第1ch符号化部122は、第1ch入力音声信号およびモノラル復号音声信号を用いて第1ch入力音声信号をフレーム毎に符号化し、それによって得られた第1ch符号化データをスイッチ部126に出力する。
また、第1ch符号化部122は、第1ch符号化データを復号して、第1ch復号音声信号を得る。但し、本実施の形態では、第1ch符号化部122で得られる第1ch復号音声信号は、図示を省略する。
第2ch符号化部124は、第2ch入力音声信号およびモノラル復号音声信号を用いて第2ch入力音声信号をフレーム毎に符号化し、それによって得られた第2ch符号化データをスイッチ部126に出力する。
また、第2ch符号化部124は、第2ch符号化データを復号して、第2ch復号音声信号を得る。但し、本実施の形態では、第2ch符号化部124で得られる第2ch復号音声信号は、図示を省略する。
スイッチ部126は、符号化チャネル選択情報に従って、第1ch符号化データおよび第2ch符号化データのうちいずれか一方をフレーム毎に選択的に出力する。出力される符号化データは、符号化チャネル選択部120によって選択されたチャネルの符号化データである。よって、選択されたチャネルが、第1チャネルから第2チャネルに、あるいは、第2チャネルから第1チャネルに切り替わったとき、スイッチ部126から出力される符号化データも、第1ch符号化データから第2ch符号化データに、あるいは、第2ch符号化データから第1ch符号化データに切り替わる。
ここで、前述したモノラル信号符号化部112、第1ch符号化部122、第2ch符号化部124およびスイッチ部126の組み合わせは、モノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化してコアレイヤ符号化データに対応する拡張レイヤ符号化データを得る、符号化部を構成する。
図2は、音声符号化装置100から出力された送信符号化データを受信符号化データとして受信し復号してモノラル復号音声信号およびステレオ復号音声信号を得ることができる音声復号化装置の構成を示すブロック図である。図2の音声復号化装置150は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ復号部152と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ復号部154と、を有する。
コアレイヤ復号部152は、モノラル信号復号部160を有する。モノラル信号復号部160は、受信した受信符号化データに含まれるコアレイヤ符号化データを復号して、モノラル復号音声信号sd_mono(n)を得る。モノラル復号音声信号sd_mono(n)は、後段の音声出力部(図示せず)、第1ch復号部172、第2ch復号部174、第1ch復号信号生成部176および第2ch復号信号生成部178に出力される。
拡張レイヤ復号部154は、スイッチ部170、第1ch復号部172、第2ch復号部174、第1ch復号信号生成部176、第2ch復号信号生成部178およびスイッチ部180、182を有する。
スイッチ部170は、受信符号化データに含まれる符号化チャネル選択情報を参照し、受信符号化データに含まれる拡張レイヤ符号化データを、選択されたチャネルに対応する復号部に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、拡張レイヤ符号化データは第1ch復号部172に出力され、選択されたチャネルが第2チャネルの場合は、拡張レイヤ符号化データは第2ch復号部174に出力される。
第1ch復号部172は、スイッチ部170から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第1ch復号音声信号sd_ch1(n)を復号し、第1ch復号音声信号sd_ch1(n)をスイッチ部180および第2ch復号信号生成部178に出力する。
第2ch復号部174は、スイッチ部170から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第2ch復号音声信号sd_ch2(n)を復号し、第2ch復号音声信号sd_ch2(n)をスイッチ部182および第1ch復号信号生成部176に出力する。
第1ch復号信号生成部176は、第2ch復号部174から第2ch復号音声信号sd_ch2(n)が入力されたとき、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式(2)に示す関係に基づいて、第1ch復号音声信号sd_ch1(n)を生成する。生成された第1ch復号音声信号sd_ch1(n)はスイッチ部180に出力される。
第2ch復号信号生成部178は、第1ch復号部172から第1ch復号音声信号sd_ch1(n)が入力されたとき、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式(3)に示す関係に基づいて、第2ch復号音声信号sd_ch2(n)を生成する。生成された第2ch復号音声信号sd_ch2(n)はスイッチ部182に出力される。
スイッチ部180は、符号化チャネル選択情報に従って、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)および第1ch復号信号生成部176から入力された第1ch復号音声信号sd_ch1(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)が選択され出力される。一方、選択されたチャネルが第2チャネルの場合は、第1ch復号信号生成部176から入力された第1ch復号音声信号sd_ch1(n)が選択され出力される。
スイッチ部182は、符号化チャネル選択情報に従って、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)および第2ch復号信号生成部178から入力された第2ch復号音声信号sd_ch2(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、第2ch復号信号生成部178から入力された第2ch復号音声信号sd_ch2(n)が選択され出力される。一方、選択されたチャネルが第2チャネルの場合は、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)が選択され出力される。
スイッチ部180から出力される第1ch復号音声信号sd_ch1(n)およびスイッチ部182から出力される第2ch復号音声信号sd_ch2(n)は、ステレオ復号音声信号として後段の音声出力部(図示せず)に出力される。
このように、本実施の形態によれば、第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)から生成されたモノラル信号s_mono(n)を符号化してコアレイヤ符号化データを得るとともに、第1チャネルおよび第2チャネルのうち選択されたチャネルの入力音声信号(第1ch入力音声信号s_ch1(n)または第2ch入力音声信号s_ch2(n))を符号化して拡張レイヤ符号化データを得るため、ステレオ信号の複数チャネル間の相関が小さい場合に予測性能(予測ゲイン)が不十分になることを回避することができ、効率的にステレオ音声を符号化することができる。
(実施の形態2)
図3は、本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図である。
なお、図3の音声符号化装置200は、実施の形態1で説明した音声符号化装置100と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち実施の形態1で説明したものと同様のものには、実施の形態1で用いたものと同一の参照符号を付し、その構成要素についての詳細な説明を省略する。
また、音声符号化装置200から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
音声符号化装置200は、コアレイヤ符号化部102および拡張レイヤ符号化部202を有する。拡張レイヤ符号化部202は、第1ch符号化部122、第2ch符号化部124、スイッチ部126および符号化チャネル選択部210を有する。
符号化チャネル選択部210は、第2ch復号音声生成部212、第1ch復号音声生成部214、第1歪み算出部216、第2歪み算出部218および符号化チャネル決定部220を有する。
第2ch復号音声生成部212は、モノラル信号符号化部112によって得られたモノラル復号音声信号および第1ch符号化部122によって得られた第1ch復号音声信号を用いて、前述の式(1)に示す関係に基づいて、第2ch推定信号としての第2ch復号音声信号を生成する。生成された第2ch復号音声信号は、第1歪み算出部216に出力される。
第1ch復号音声生成部214は、モノラル信号符号化部112によって得られたモノラル復号音声信号および第2ch符号化部124によって得られた第2ch復号音声信号を用いて、前述の式(1)に示す関係に基づいて、第1ch推定信号としての第1ch復号音声信号を生成する。生成された第1ch復号音声信号は、第2歪み算出部218に出力される。
前述した第2ch復号音声生成部212および第1ch復号音声生成部214の組み合わせは、推定信号生成部を構成する。
第1歪み算出部216は、第1ch符号化部122によって得られた第1ch復号音声信号および第2ch復号音声生成部212によって得られた第2ch復号音声信号を用いて、第1符号化歪みを算出する。第1符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第1チャネルを選択した場合に生じる2チャネル分の符号化歪みに相当する。算出された第1符号化歪みは、符号化チャネル決定部220に出力される。
第2歪み算出部218は、第2ch符号化部124によって得られた第2ch復号音声信号および第1ch復号音声生成部214によって得られた第1ch復号音声信号を用いて、第2符号化歪みを算出する。第2符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第2チャネルを選択した場合に生じる2チャネル分の符号化歪みに相当する。算出された第2符号化歪みは、符号化チャネル決定部220に出力される。
ここで、2チャネル分の符号化歪み(第1符号化歪みまたは第2符号化歪み)の算出方法としては、例えば次の2つの方法が挙げられる。1つは、各チャネルの復号音声信号(第1ch復号音声信号または第2ch復号音声信号)の、対応する入力音声信号(第1ch入力音声信号または第2ch入力音声信号)に対する誤差パワーの比(信号対符号化歪み比)の2チャネル分の平均を、2チャネル分の符号化歪みとして求める方法である。もう1つは、前述した誤差パワーの2チャネル分の総和を、2チャネル分の符号化歪みとして求める方法である。
前述した第1歪み算出部216および第2歪み算出部218の組み合わせは、歪み算出部を構成する。また、この歪み算出部および前述した推定信号生成部の組み合わせは算出部を構成する。
符号化チャネル決定部220は、第1符号化歪みの値および第2符号化歪みの値を相互比較し、第1符号化歪みおよび第2符号化歪みのうち、より小さい値を有するものを選択する。符号化チャネル決定部220は、選択された符号化歪みに対応するチャネルを、拡張レイヤでの符号化の対象チャネル(符号化チャネル)として選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部220は、第1符号化歪みが第2符号化歪みよりも小さい場合、第1チャネルを選択し、第2符号化歪みが第1符号化歪みよりも小さい場合、第2チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。
このように、本実施の形態によれば、符号化チャネルの選択基準として、符号化歪みの大きさを使用するため、拡張レイヤの符号化歪みを低減することができ、効率的にステレオ音声を符号化することができる。
なお、本実施の形態では、対応する入力音声信号に対する各チャネルの復号音声信号の誤差パワーの比または総和を算出し、この算出結果を符号化歪みとして用いているが、その代わりに、第1ch符号化部122および第2ch符号化部124での符号化の過程で得られる符号化歪みを用いても良い。また、この符号化歪みは、聴覚重み付きの歪みであっても良い。
(実施の形態3)
図4は、本発明の実施の形態3に係る音声符号化装置の構成を示すブロック図である。なお、図4の音声符号化装置300は、前述した実施の形態で説明した音声符号化装置100、200と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
また、音声符号化装置300から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
音声符号化装置300は、コアレイヤ符号化部102および拡張レイヤ符号化部302を有する。拡張レイヤ符号化部302は、符号化チャネル選択部310、第1ch符号化部312、第2ch符号化部314およびスイッチ部126を有する。
符号化チャネル選択部310は、図5に示すように、第1chチャネル内相関度算出部320、第2chチャネル内相関度算出部322および符号化チャネル決定部324を有する。
第1chチャネル内相関度算出部320は、第1ch入力音声信号に対する正規化最大自己相関係数値を用いて、第1チャネルのチャネル内相関度cor1を算出する。
第2chチャネル内相関度算出部322は、第2ch入力音声信号に対する正規化最大自己相関係数値を用いて、第2チャネルのチャネル内相関度cor2を算出する。
なお、各チャネルのチャネル内相関度の算出には、各チャネルの入力音声信号に対する正規化最大自己相関係数値を用いる代わりに、各チャネルの入力音声信号に対するピッチ予測ゲイン値を用いたり、LPC(Linear Prediction Coding)予測残差信号に対する正規化最大自己相関係数値およびピッチ予測ゲイン値を用いたりすることができる。
符号化チャネル決定部324は、チャネル内相関度cor1、cor2を相互比較し、これらのうち、より高い値を有するものを選択する。符号化チャネル決定部324は、選択されたチャネル内相関度に対応するチャネルを、拡張レイヤでの符号化チャネルとして選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部324は、チャネル内相関度cor1がチャネル内相関度cor2よりも高い場合、第1チャネルを選択し、チャネル内相関度cor2がチャネル内相関度cor1よりも高い場合、第2チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。
第1ch符号化部312および第2ch符号化部314は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第1ch符号化部312および第2ch符号化部314のうちいずれか一方を「第Ach符号化部330」として示し、その内部構成について図6を用いて説明する。なお、「Ach」の「A」は1または2を表す。また、図中においておよび以下の説明において用いられる「B」も1または2を表す。但し、「A」が1の場合「B」は2であり、「A」が2の場合「B」は1である。
第Ach符号化部330は、スイッチ部332、第Ach信号チャネル内予測部334、減算器336、338、第Ach予測残差信号符号化部340および第Bch推定信号生成部342を有する。
スイッチ部332は、第Ach予測残差信号符号化部340によって得られた第Ach復号音声信号、または、第Bch符号化部(図示せず)によって得られた第Ach推定信号を、符号化チャネル選択情報に従って第Ach信号チャネル内予測部334に出力する。具体的には、選択されたチャネルが第Aチャネルの場合は、第Ach復号音声信号が第Ach信号チャネル内予測部334に出力され、選択されたチャネルが第Bチャネルの場合は、第Ach推定信号が第Ach信号チャネル内予測部334に出力される。
第Ach信号チャネル内予測部334は、第Aチャネルのチャネル内予測を行う。チャネル内予測は、チャネル内の信号の相関性を利用して過去のフレームの信号から現在のフレームの信号を予測するものである。チャネル内予測の結果として、チャネル内予測信号Sp(n)およびチャネル内予測パラメータ量子化符号が得られる。例えば1次のピッチ予測フィルタを用いる場合、チャネル内予測信号Sp(n)は、次の式(4)によって算出される。
ここで、Sin(n)はピッチ予測フィルタへの入力信号、Tはピッチ予測フィルタのラグ、gpはピッチ予測フィルタのピッチ予測係数である。
前述した過去のフレームの信号は、第Ach信号チャネル内予測部334の内部に設けられたチャネル内予測バッファ(第Achチャネル内予測バッファ)に保持される。また、第Achチャネル内予測バッファは、次フレームの信号の予測のために、スイッチ部332から入力された信号で更新される。チャネル内予測バッファの更新の詳細については後述する。
減算器336は、第Ach入力音声信号からモノラル復号音声信号を減算する。減算器338は、減算器336での減算によって得られた信号から、第Ach信号チャネル内予測部334でのチャネル内予測によって得られたチャネル内予測信号Sp(n)を減算する。減算器338での減算によって得られた信号、すなわち第Ach予測残差信号は、第Ach予測残差信号符号化部340に出力される。
第Ach予測残差信号符号化部340は、第Ach予測残差信号を任意の符号化方式で符号化する。この符号化によって、予測残差符号化データおよび第Ach復号音声信号が得られる。予測残差符号化データは、チャネル内予測パラメータ量子化符号とともに、第Ach符号化データとして出力される。第Ach復号音声信号は、第Bch推定信号生成部342およびスイッチ部332に出力される。
第Bch推定信号生成部342は、第Ach復号音声信号およびモノラル復号音声信号から、第Aチャネル符号化時の第Bch復号音声信号として第Bch推定信号を生成する。生成された第Bch推定信号は、図示されない第Bch符号化部のスイッチ部(スイッチ部332と同様)に出力される。
次いで、チャネル内予測バッファの更新動作について説明する。ここでは、符号化チャネル選択部310によって第Aチャネルが選択された場合を例にとり、第Aチャネルのチャネル内予測バッファの更新動作例を図7を用いて説明し、第Bチャネルのチャネル内予測バッファの更新動作例を図8を用いて説明する。
図7に示す動作例では、第Ach予測残差信号符号化部340によって得られた、第iフレーム(iは任意の自然数)の第Ach復号音声信号を用いて、第Ach信号チャネル内予測部334の内部の第Achチャネル内予測バッファ351が更新される(ST101)。そして、更新された第Achチャネル内予測バッファ351は、次フレームである第i+1フレームについてのチャネル内予測に用いられる(ST102)。
図8に示す動作例では、第iフレームの第Ach復号音声信号および第iフレームのモノラル復号音声信号を用いて、第iフレームの第Bch推定信号が生成される(ST201)。生成された第Bch推定信号は、第Ach符号化部330から図示されない第Bch符号化部に出力される。そして、第Bch符号化部において、第Bch推定信号は、スイッチ部(スイッチ部332と同様)を経由して第Bch信号チャネル内予測部(第Ach信号チャネル内予測部334と同様)に出力される。第Bch信号チャネル内予測部の内部に設けられた第Bchチャネル内予測バッファ352は、第Bch推定信号によって更新される(ST202)。そして、更新された第Bchチャネル内予測バッファ352は、第i+1フレームについてのチャネル内予測に用いられる(ST203)。
あるフレームにおいて、第Aチャネルが符号化チャネルとして選択された場合、第Bch符号化部では、第Bchチャネル内予測バッファ352の更新動作以外の動作は要求されないため、そのフレームにおいては第Bch入力音声信号の符号化を休止することができる。
このように、本実施の形態によれば、符号化チャネルの選択基準として、チャネル内相関度の高さを使用するため、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。
なお、音声符号化装置300の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置300は、モノラル復号音声信号を減算器336に入力する代わりに、モノラル復号音声信号を用いて第Ach音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号を減算器336に入力する構成を、採用することができる。
(実施の形態4)
図9は、本発明の実施の形態4に係る音声符号化装置の構成を示すブロック図である。
なお、図9の音声符号化装置400は、前述の実施の形態で説明した音声符号化装置100、200、300と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
また、音声符号化装置400から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
音声符号化装置400は、コアレイヤ符号化部402および拡張レイヤ符号化部404を有する。コアレイヤ符号化部402は、モノラル信号生成部110およびモノラル信号CELP(Code Excited Linear Prediction)符号化部410を有する。拡張レイヤ符号化部404は、符号化チャネル選択部310、第1chCELP符号化部422、第2chCELP符号化部424およびスイッチ部126を有する。
コアレイヤ符号化部402において、モノラル信号CELP符号化部410は、モノラル信号生成部110によって生成されたモノラル信号に対してCELP符号化を行う。この符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。また、この符号化によって、モノラル駆動音源信号が得られる。さらに、モノラル信号CELP符号化部410は、モノラル信号を復号し、それによって得られるモノラル復号音声信号を出力する。コアレイヤ符号化データは、拡張レイヤ符号化データおよび符号化チャネル選択情報と多重される。また、コアレイヤ符号化データ、モノラル駆動音源信号およびモノラル復号音声信号は、第1chCELP符号化部422および第2chCELP符号化部424に出力される。
拡張レイヤ符号化部404において、第1chCELP符号化部422および第2chCELP符号化部424は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第1chCELP符号化部422および第2chCELP符号化部424のうちいずれか一方を「第AchCELP符号化部430」として示し、その内部構成について図10を用いて説明する。なお、前述したように、「Ach」の「A」は1または2を表し、図中においておよび以下の説明において用いられる「B」も1または2を表し、「A」が1の場合「B」は2であり、「A」が2の場合「B」は1である。
第AchCELP符号化部430は、第AchLPC(Linear Prediction Coding)分析部431、乗算器432、433、434、435、436、スイッチ部437、第Ach適応符号帳438、第Ach固定符号帳439、加算器440、合成フィルタ441、聴覚重み付け部442、歪最小化部443、第Ach復号部444、第Bch推定信号生成部445、第AchLPC分析部446、第AchLPC予測残差信号生成部447および減算器448を有する。
第AchCELP符号化部430において、第AchLPC分析部431は、第Ach入力音声信号に対するLPC分析を行い、それによって得られた第AchLPCパラメータを量子化する。第AchLPC分析部431は、第AchLPCパラメータとモノラル信号に対するLPCパラメータとの相関が一般に高いことを利用して、LPCパラメータの量子化に際して、コアレイヤ符号化データからモノラル信号量子化LPCパラメータを復号し、復号されたモノラル信号量子化LPCパラメータに対する第AchLPCパラメータの差分成分を量子化して、第AchLPC量子化符号を得る。第AchLPC量子化符号は、合成フィルタ441に出力される。また、第AchLPC量子化符号は、後述の第Ach駆動音源符号化データとともに第Ach符号化データとして出力される。差分成分の量子化を行うことにより、拡張レイヤのLPCパラメータの量子化を効率化することができる。
第AchCELP符号化部430において、第Ach駆動音源符号化データは、第Ach駆動音源信号のモノラル駆動音源信号に対する残差成分を符号化することによって得られる。この符号化は、CELP符号化における音源探索によって実現される。
つまり、第AchCELP符号化部430では、適応音源信号、固定音源信号およびモノラル駆動音源信号に、それぞれに対応するゲインが乗じられ、ゲイン乗算後のこれらの音源信号が加算され、その加算によって得られた駆動音源信号に対して、歪み最小化による閉ループ型音源探索(適応符号帳探索、固定符号帳探索およびゲイン探索)が行われる。そして、適応符号帳インデクス(適応音源インデクス)、固定符号帳インデクス(固定音源インデクス)ならびに適応音源信号、固定音源信号およびモノラル駆動音源信号に対するゲイン符号が、第Ach駆動音源符号化データとして出力される。コアレイヤの符号化、拡張レイヤの符号化および符号化チャネルの選択がフレーム毎に行われるのに対し、この音源探索は、フレームを複数の部分に分割することによって得られるサブフレーム毎に行われる。以下、この構成についてより具体的に説明する。
合成フィルタ441は、第AchLPC分析部431から出力された第AchLPC量子化符号を用いて、加算器440から出力された信号を駆動音源としてLPC合成フィルタによる合成を行う。この合成によって得られた合成信号は、減算器448に出力される。
減算器448は、第Ach入力音声信号から合成信号を減算することにより誤差信号を算出する。誤差信号は、聴覚重み付け部442に出力される。誤差信号は、符号化歪みに相当する。
聴覚重み付け部442は、符号化歪み(つまり、前述の誤差信号)に対して聴覚的な重み付けを行い、重み付け後の符号化歪みを歪最小化部443に出力する。
歪最小化部443は、符号化歪みを最小とするような適応符号帳インデクスおよび固定符号帳インデクスを決定し、適応符号帳インデクスを第Ach適応符号帳438に、固定符号帳インデクスを第Ach固定符号帳439に、それぞれ出力する。また、歪最小化部443は、それらのインデクスに対応するゲイン、具体的には、後述する適応ベクトルおよび後述する固定ベクトルの各々に対するゲイン(適応符号帳ゲインおよび固定符号帳ゲイン)を生成し、適応符号帳ゲインを乗算器433に、固定符号帳ゲインを乗算器435に、それぞれ出力する。
また、歪最小化部443は、モノラル駆動音源信号、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの間でゲインを調整するためのゲイン(第1調整用ゲイン、第2調整用ゲインおよび第3調整用ゲイン)を生成し、第1調整用ゲインを乗算器432に、第2調整用ゲインを乗算器434に、第3調整用ゲインを乗算器436に、それぞれ出力する。これらの調整用ゲインは、好ましくは、相互に関係性を持つように生成される。例えば、第1ch入力音声信号と第2ch入力音声信号との間のチャネル間相関が高い場合は、モノラル駆動音源信号の寄与分が、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に大きくなるように、3つの調整用ゲインが生成される。逆に、チャネル間相関が低い場合は、モノラル駆動音源信号の寄与分がゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に小さくなるように、3つの調整用ゲインが生成される。
また、歪最小化部443は、適応符号帳インデクス、固定符号帳インデクス、適応符号帳ゲインの符号、固定符号帳ゲインの符号および3つのゲイン調整用ゲインの符号を、第Ach駆動音源符号化データとして出力する。
第Ach適応符号帳438は、過去に生成された合成フィルタ441への駆動音源の音源ベクトルを内部バッファに記憶している。また、第Ach適応符号帳438は、記憶されている音源ベクトルから1サブフレーム分のベクトルを適応ベクトルとして生成する。適応ベクトルの生成は、歪最小化部443から入力された適応符号帳インデクスに対応する適応符号帳ラグ(ピッチラグまたはピッチ周期)に基づいて行われる。生成された適応ベクトルは、乗算器433に出力される。
第Ach適応符号帳438の内部バッファは、スイッチ部437から出力された信号によって更新される。この更新動作の詳細については後述する。
第Ach固定符号帳439は、歪最小化部443から出力された固定符号帳インデクスに対応する音源ベクトルを、固定ベクトルとして乗算器435に出力する。
乗算器433は、第Ach適応符号帳438から出力された適応ベクトルに適応符号帳ゲインを乗じ、ゲイン乗算後の適応ベクトルを乗算器434に出力する。
乗算器435は、第Ach固定符号帳439から出力された固定ベクトルに固定符号帳ゲインを乗じ、ゲイン乗算後の固定ベクトルを乗算器436に出力する。
乗算器432は、モノラル駆動音源信号に第1調整用ゲインを乗じ、ゲイン乗算後のモノラル駆動音源信号を加算器440に出力する。乗算器434は、乗算器433から出力された適応ベクトルに第2調整用ゲインを乗じ、ゲイン乗算後の適応ベクトルを加算器440に出力する。乗算器436は、乗算器435から出力された固定ベクトルに第3調整用ゲインを乗じ、ゲイン乗算後の固定ベクトルを加算器440に出力する。
加算器440は、乗算器432から出力されたモノラル駆動音源信号と、乗算器434から出力された適応ベクトルと、乗算器436から出力された固定ベクトルと、を加算し、加算後の信号をスイッチ部437および合成フィルタ441に出力する。
スイッチ部437は、加算器440から出力された信号または第AchLPC予測残差信号生成部447から出力された信号を、符号化チャネル選択情報に従って第Ach適応符号帳438に出力する。より具体的には、選択されたチャネルが第Aチャネルの場合は、加算器440からの信号が第Ach適応符号帳438に出力され、選択されたチャネルが第Bチャネルの場合は、第AchLPC予測残差信号生成部447からの信号が第Ach適応符号帳438に出力される。
第Ach復号部444は、第Ach符号化データを復号し、それによって得られた第Ach復号音声信号を第Bch推定信号生成部445に出力する。
第Bch推定信号生成部445は、第Ach復号音声信号およびモノラル復号音声信号を用いて、第Ach符号化時の第Bch復号音声信号として第Bch推定信号を生成する。生成された第Bch推定信号は、第BchCELP符号化部(図示せず)に出力される。
第AchLPC分析部446は、図示されない第BchCELP符号化部から出力された第Ach推定信号に対してLPC分析を行い、それによって得られた第AchLPCパラメータを、第AchLPC予測残差信号生成部447に出力する。ここで、第BchCELP符号化部から出力された第Ach推定信号は、第BchCELP符号化部において第Bch入力音声信号が符号化されたとき(第Bch符号化時)に生成された第Ach復号音声信号に相当する。
第AchLPC予測残差信号生成部447は、第AchLPC分析部446から出力された第AchLPCパラメータを用いて、第Ach推定信号に対する符号化LPC予測残差信号を生成する。生成された符号化LPC予測残差信号は、スイッチ部437に出力される。
次いで、第AchCELP符号化部430および図示されない第BchCELP符号化部での適応符号帳更新動作について説明する。図11は、符号化チャネル選択部310によって第Aチャネルが選択された場合の、適応符号帳更新動作を示すフロー図である。
ここに例示されたフローは、第AchCELP符号化部430でのCELP符号化処理(ST310)、第AchCELP符号化部430内の適応符号帳の更新処理(ST320)および第BchCELP符号化部内の適応符号帳の更新処理(ST330)に分けられる。また、ステップST310は、2つのステップST311、ST312を含み、ステップST330は、4つのステップST331、ST332、ST333、ST334を含む。
まず、ステップST311では、第AchCELP符号化部430の第AchLPC分析部431によって、LPC分析および量子化が行われる。そして、第Ach適応符号帳438、第Ach固定符号帳439、乗算器432、433、434、435、436、加算器440、合成フィルタ441、減算器448、聴覚重み付け部442および歪最小化部443を主に含む閉ループ型音源探索部によって、音源探索(適応符号帳探索、固定符号帳探索およびゲイン探索)が行われる(ST312)。
ステップST320では、前述の音源探索によって得られた第Ach駆動音源信号で第Ach適応符号帳438の内部バッファが更新される。
ステップST331では、第AchCELP符号化部430の第Bch推定信号生成部445によって、第Bch推定信号が生成される。生成された第Bch推定信号は、第AchCELP符号化部430から第BchCELP符号化部に送られる。そして、ステップST332では、第BchCELP符号化部の図示されない第BchLPC分析部(第AchLPC分析部446の同等物)によって、第Bch推定信号に対するLPC分析が行われ、第BchLPCパラメータが得られる。
そして、ステップST333では、第BchCELP符号化部の図示されない第BchLPC予測残差信号生成部(第AchLPC予測残差信号生成部447の同等物)によって、第BchLPCパラメータが用いられ、第Bch推定信号に対する符号化LPC予測残差信号が生成される。この符号化LPC予測残差信号は、第BchCELP符号化部の図示されないスイッチ部(スイッチ部437の同等物)を経由して、図示されない第Bch適応符号帳(第Ach適応符号帳438の同等物)に出力される。そして、ステップST334において、第Bch適応符号帳の内部バッファが、第Bch推定信号に対する符号化LPC予測残差信号で更新される。
続いて、適応符号帳更新動作についてより具体的に説明する。ここでは、符号化チャネル選択部310によって第Aチャネルが選択された場合を例にとり、第Ach適応符号帳438の内部バッファの更新動作例を図12を用いて説明し、第Bch適応符号帳の内部バッファの更新動作例を図13を用いて説明する。
図12に示す動作例では、歪最小化部443によって得られた、第iフレーム内の第jサブフレームについての第Ach駆動音源信号を用いて、第Ach適応符号帳438の内部バッファが更新される(ST401)。そして、更新された第Ach適応符号帳438は、次サブフレームである第j+1サブフレームについての音源探索に用いられる(ST402)。
図13に示す動作例では、第iフレームの第Ach復号音声信号および第iフレームのモノラル復号音声信号を用いて、第iフレームの第Bch推定信号が生成される(ST501)。生成された第Bch推定信号は、第AchCELP符号化部430から第BchCELP符号化部に出力される。そして、第BchCELP符号化部の第BchLPC予測残差信号生成部において、第iフレームについての第Bch符号化LPC予測残差信号(第Bch推定信号に対する符号化LPC予測残差信号)451が生成される(ST502)。第Bch符号化LPC予測残差信号451は、第BchCELP符号化部のスイッチ部を経由して第Bch適応符号帳452に出力される。第Bch適応符号帳452は、第Bch符号化LPC予測残差信号451によって更新される(ST503)。更新された第Bch適応符号帳452は、次フレームである第i+1フレームについての音源探索に用いられる(ST504)。
あるフレームにおいて、第Aチャネルが符号化チャネルとして選択された場合、第BchCELP符号化部では、第Bch適応符号帳452の更新動作以外の動作は要求されないため、そのフレームにおいては第Bch入力音声信号の符号化を休止することができる。
このように、本実施の形態によれば、CELP符号化方式に基づいて各レイヤの音声符号化を行った場合において、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。
なお、本実施の形態では、CELP符号化方式を採用した音声符号化装置において実施の形態3で説明した符号化チャネル選択部310を用いた場合を例にとって説明したが、実施の形態1および実施の形態2でそれぞれ説明した符号化チャネル選択部120および符号化チャネル選択部210を、符号化チャネル選択部310の代わりに、あるいは、符号化チャネル310とともに、使用することもできる。よって、CELP符号化方式に基づいて各レイヤの音声符号化を行った場合において、前述の各実施の形態で説明した効果を実現することができる。
また、拡張レイヤの符号化チャネルの選択基準として、前述したもの以外のものを使用することもできる。例えば、あるフレームに関して、第AchCELP符号化部430の適応符号帳探索および第BchCELP符号化部の適応符号帳探索をそれぞれ行い、それらの結果として得られる符号化歪みのうちより小さい値を有するものに対応するチャネルを、符号化チャネルとして選択しても良い。
また、音声符号化装置400の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置400は、モノラル駆動音源信号に対して第1調整用ゲインを直接乗算する代わりに、モノラル駆動音源信号を用いて第Ach復号音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号に対して第1調整用ゲインを乗算する構成を、採用することができる。
以上、本発明の各実施の形態について説明した。上記実施の形態に係る音声符号化装置および音声復号化装置は、移動体通信システムにおいて使用される無線通信移動局装置および無線通信基地局装置などの無線通信装置に搭載することができる。
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
本明細書は、2005年4月28日出願の特願2005−132366に基づくものである。この内容はすべてここに含めておく。
本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システムなどにおける通信装置の用途に適用できる。
本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオ音声のための音声符号化装置および音声符号化方法に関する。
移動体通信やIP通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声の符号化が必須となる。
また、IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号化方式が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声データの復号が可能な構成をいう。スケーラブルな構成を有する音声符号化方式における符号化処理は、階層化されており、コアレイヤに対応するものと拡張レイヤに対応するものとを含む。したがって、その符号化処理によって生成される符号化データも、コアレイヤの符号化データと拡張レイヤの符号化データとを含む。
ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号化データの一部を用いたモノラル信号の復号とを受信側において選択可能な、モノラル−ステレオ間でのスケーラブル構成(モノラル−ステレオ・スケーラブル構成)を有する音声符号化方式が望まれる。
このような音声符号化方式に基づく音声符号化方法としては、例えば、チャネル(以下、「ch」と略記することがある)間の信号の予測(第1ch信号から第2ch信号の予測、または、第2ch信号から第1ch信号の予測)を、チャネル相互間のピッチ予測により行う、すなわち、2チャネル間の相関を利用して符号化を行うものがある(非特許文献1参照)。
Ramprashad, S.A., "Stereophonic CELP coding using cross channel prediction", Proc. IEEE Workshop on Speech Coding, pp.136-138, Sep. 2000
しかしながら、上記従来の音声符号化方法では、双方のチャネル間の相関が小さい場合、十分な予測性能(予測ゲイン)が得られず符号化効率が劣化することがある。
本発明の目的は、双方のチャネル間の相関が小さい場合でも効率的にステレオ音声を符号化することができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、第1チャネル信号および第2チャネル信号を含むステレオ信号を符号化する音声符号化装置において、前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、前記第1チャネル信号
および前記第2チャネル信号の一方を選択する選択手段と、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る符号化手段と、を有する構成を採る。
本発明の音声符号化方法は、第1チャネル信号および第2チャネル信号を含むステレオ信号を符号化する音声符号化方法において、前記第1チャネル信号および前記第2チャネル信号を用いてモノラル信号を生成し、前記第1チャネル信号および前記第2チャネル信号の一方を選択し、生成されたモノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号化データを得るようにした。
本発明によれば、ステレオ信号の複数チャネル信号間の相関が小さい場合でも効率的にステレオ音声を符号化することができる。
以下、モノラル−ステレオ・スケーラブル構成を有する音声符号化に関する本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図である。図1の音声符号化装置100は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ符号化部102と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ符号化部104と、を有する。以下、各構成要素はフレーム単位で動作することを前提として説明する。
コアレイヤ符号化部102は、モノラル信号生成部110およびモノラル信号符号化部112を有する。また、拡張レイヤ符号化部104は、符号化チャネル選択部120、第1ch符号化部122、第2ch符号化部124およびスイッチ部126を有する。
コアレイヤ符号化部102において、モノラル信号生成部110は、ステレオ入力音声信号に含まれる第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)(但し、n=0〜NF-1;NFはフレーム長)から、式(1)に示す関係に基づいてモノラル信号s_mono(n)を生成し、モノラル信号符号化部112に出力する。ここで、本実施の形態で説明するステレオ信号は、2つのチャネルの信号、すなわち第1チャネルの信号および第2チャネルの信号から成る。
モノラル信号符号化部112は、モノラル信号s_mono(n)をフレーム毎に符号化する。符号化には任意の符号化方式が用いられて良い。モノラル信号s_mono(n)の符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。より具体的には、コアレイヤ符号化データは、後述の拡張レイヤ符号化データおよび符号化チャネル選択情報と多重され、送信符号化データとして音声符号化装置100から出力される。
また、モノラル信号符号化部112は、モノラル信号s_mono(n)を復号し、それによって得られるモノラル復号音声信号を拡張レイヤ符号化部104の第1ch符号化部122および第2ch符号化部124に出力する。
拡張レイヤ符号化部104において、符号化チャネル選択部120は、第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)を用いて、第1チャネルおよび第2チャネルのうち、拡張レイヤでの符号化の対象のチャネルとして最適なチャネルを、所定の選択基準に基づき選択する。最適なチャネルは、フレーム毎に選択される。ここで、所定の選択基準は、拡張レイヤ符号化を高効率にまたは高音質(低符号化歪み)に実現できるための基準である。符号化チャネル選択部120は、選択されたチャネルを示す符号化チャネル選択情報を生成する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、前述のコアレイヤ符号化データおよび後述の拡張レイヤ符号化データと多重される。
なお、符号化チャネル選択部120は、第1入力音声信号s_ch1(n)および第2入力音声信号s_ch2(n)を用いる代わりに、第1ch符号化部122および第2ch符号化部124での符号化の過程で得られる任意のパラメータまたは信号もしくは符号化の結果(すなわち、後述の第1ch符号化データおよび第2ch符号化データ)を用いても良い。
第1ch符号化部122は、第1ch入力音声信号およびモノラル復号音声信号を用いて第1ch入力音声信号をフレーム毎に符号化し、それによって得られた第1ch符号化データをスイッチ部126に出力する。
また、第1ch符号化部122は、第1ch符号化データを復号して、第1ch復号音声信号を得る。但し、本実施の形態では、第1ch符号化部122で得られる第1ch復号音声信号は、図示を省略する。
第2ch符号化部124は、第2ch入力音声信号およびモノラル復号音声信号を用いて第2ch入力音声信号をフレーム毎に符号化し、それによって得られた第2ch符号化データをスイッチ部126に出力する。
また、第2ch符号化部124は、第2ch符号化データを復号して、第2ch復号音声信号を得る。但し、本実施の形態では、第2ch符号化部124で得られる第2ch復号音声信号は、図示を省略する。
スイッチ部126は、符号化チャネル選択情報に従って、第1ch符号化データおよび第2ch符号化データのうちいずれか一方をフレーム毎に選択的に出力する。出力される符号化データは、符号化チャネル選択部120によって選択されたチャネルの符号化データである。よって、選択されたチャネルが、第1チャネルから第2チャネルに、あるいは、第2チャネルから第1チャネルに切り替わったとき、スイッチ部126から出力される符号化データも、第1ch符号化データから第2ch符号化データに、あるいは、第2ch符号化データから第1ch符号化データに切り替わる。
ここで、前述したモノラル信号符号化部112、第1ch符号化部122、第2ch符号化部124およびスイッチ部126の組み合わせは、モノラル信号を符号化してコアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化してコアレイヤ符号化データに対応する拡張レイヤ符号化データを得る、符号化部を構成する。
図2は、音声符号化装置100から出力された送信符号化データを受信符号化データとして受信し復号してモノラル復号音声信号およびステレオ復号音声信号を得ることができる音声復号化装置の構成を示すブロック図である。図2の音声復号化装置150は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ復号部152と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ復号部154と、を有する。
コアレイヤ復号部152は、モノラル信号復号部160を有する。モノラル信号復号部160は、受信した受信符号化データに含まれるコアレイヤ符号化データを復号して、モノラル復号音声信号sd_mono(n)を得る。モノラル復号音声信号sd_mono(n)は、後段の音声出力部(図示せず)、第1ch復号部172、第2ch復号部174、第1ch復号信号生成部176および第2ch復号信号生成部178に出力される。
拡張レイヤ復号部154は、スイッチ部170、第1ch復号部172、第2ch復号部174、第1ch復号信号生成部176、第2ch復号信号生成部178およびスイッチ部180、182を有する。
スイッチ部170は、受信符号化データに含まれる符号化チャネル選択情報を参照し、受信符号化データに含まれる拡張レイヤ符号化データを、選択されたチャネルに対応する復号部に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、拡張レイヤ符号化データは第1ch復号部172に出力され、選択されたチャネルが第2チャネルの場合は、拡張レイヤ符号化データは第2ch復号部174に出力される。
第1ch復号部172は、スイッチ部170から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第1ch復号音声信号sd_ch1(n)を復号し、第1ch復号音声信号sd_ch1(n)をスイッチ部180および第2ch復号信号生成部178に出力する。
第2ch復号部174は、スイッチ部170から拡張レイヤ符号化データが入力されたとき、その拡張レイヤ符号化データおよびモノラル復号音声信号sd_mono(n)を用いて第2ch復号音声信号sd_ch2(n)を復号し、第2ch復号音声信号sd_ch2(n)をスイッチ部182および第1ch復号信号生成部176に出力する。
第1ch復号信号生成部176は、第2ch復号部174から第2ch復号音声信号sd_ch2(n)が入力されたとき、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式(2)に示す関係に基づいて、第1ch復号音声信号sd_ch1(n)を生成する。生成された第1ch復号音声信号sd_ch1(n)はスイッチ部180に出力される。
第2ch復号信号生成部178は、第1ch復号部172から第1ch復号音声信号sd_ch1(n)が入力されたとき、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)およびモノラル復号音声信号sd_mono(n)を用いて、次の式(3)に示す関係に基づいて、第2ch復号音声信号sd_ch2(n)を生成する。生成された第2ch復号音声信号sd_ch2(n)はスイッチ部182に出力される。
スイッチ部180は、符号化チャネル選択情報に従って、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)および第1ch復号信号生成部176から入力された第1ch復号音声信号sd_ch1(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、第1ch復号部172から入力された第1ch復号音声信号sd_ch1(n)が選択され出力される。一方、選択されたチャネルが第2チャネルの場合は、第1ch復号信号生成部176から入力された第1ch復号音声信号sd_ch1(n)が選択され出力される。
スイッチ部182は、符号化チャネル選択情報に従って、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)および第2ch復号信号生成部178から入力された第2ch復号音声信号sd_ch2(n)のいずれか一方を選択的に出力する。具体的には、選択されたチャネルが第1チャネルの場合は、第2ch復号信号生成部178から入力された第2ch復号音声信号sd_ch2(n)が選択され出力される。一方、選択されたチャネルが第2チャネルの場合は、第2ch復号部174から入力された第2ch復号音声信号sd_ch2(n)が選択され出力される。
スイッチ部180から出力される第1ch復号音声信号sd_ch1(n)およびスイッチ部182から出力される第2ch復号音声信号sd_ch2(n)は、ステレオ復号音声信号として後段の音声出力部(図示せず)に出力される。
このように、本実施の形態によれば、第1ch入力音声信号s_ch1(n)および第2ch入力音声信号s_ch2(n)から生成されたモノラル信号s_mono(n)を符号化してコアレイヤ符号化データを得るとともに、第1チャネルおよび第2チャネルのうち選択されたチャネルの入力音声信号(第1ch入力音声信号s_ch1(n)または第2ch入力音声信号s_ch2(n))を符号化して拡張レイヤ符号化データを得るため、ステレオ信号の複数チャネル間の相関が小さい場合に予測性能(予測ゲイン)が不十分になることを回避することができ、効率的にステレオ音声を符号化することができる。
(実施の形態2)
図3は、本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図である。
なお、図3の音声符号化装置200は、実施の形態1で説明した音声符号化装置100と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち実施の形態1で説明したものと同様のものには、実施の形態1で用いたものと同一の参照符号を付し、その構成要素についての詳細な説明を省略する。
また、音声符号化装置200から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
音声符号化装置200は、コアレイヤ符号化部102および拡張レイヤ符号化部202を有する。拡張レイヤ符号化部202は、第1ch符号化部122、第2ch符号化部124、スイッチ部126および符号化チャネル選択部210を有する。
符号化チャネル選択部210は、第2ch復号音声生成部212、第1ch復号音声生成部214、第1歪み算出部216、第2歪み算出部218および符号化チャネル決定部220を有する。
第2ch復号音声生成部212は、モノラル信号符号化部112によって得られたモノラル復号音声信号および第1ch符号化部122によって得られた第1ch復号音声信号を用いて、前述の式(1)に示す関係に基づいて、第2ch推定信号としての第2ch復号音声信号を生成する。生成された第2ch復号音声信号は、第1歪み算出部216に出力される。
第1ch復号音声生成部214は、モノラル信号符号化部112によって得られたモノラル復号音声信号および第2ch符号化部124によって得られた第2ch復号音声信号を用いて、前述の式(1)に示す関係に基づいて、第1ch推定信号としての第1ch復号音声信号を生成する。生成された第1ch復号音声信号は、第2歪み算出部218に出力される。
前述した第2ch復号音声生成部212および第1ch復号音声生成部214の組み合わせは、推定信号生成部を構成する。
第1歪み算出部216は、第1ch符号化部122によって得られた第1ch復号音声信号および第2ch復号音声生成部212によって得られた第2ch復号音声信号を用いて、第1符号化歪みを算出する。第1符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第1チャネルを選択した場合に生じる2チャネル分の符号化歪みに相当する。算出された第1符号化歪みは、符号化チャネル決定部220に出力される。
第2歪み算出部218は、第2ch符号化部124によって得られた第2ch復号音声信号および第1ch復号音声生成部214によって得られた第1ch復号音声信号を用いて、第2符号化歪みを算出する。第2符号化歪みは、拡張レイヤでの符号化の対象チャネルとして第2チャネルを選択した場合に生じる2チャネル分の符号化歪みに相当する。算出された第2符号化歪みは、符号化チャネル決定部220に出力される。
ここで、2チャネル分の符号化歪み(第1符号化歪みまたは第2符号化歪み)の算出方法としては、例えば次の2つの方法が挙げられる。1つは、各チャネルの復号音声信号(第1ch復号音声信号または第2ch復号音声信号)の、対応する入力音声信号(第1c
h入力音声信号または第2ch入力音声信号)に対する誤差パワーの比(信号対符号化歪み比)の2チャネル分の平均を、2チャネル分の符号化歪みとして求める方法である。もう1つは、前述した誤差パワーの2チャネル分の総和を、2チャネル分の符号化歪みとして求める方法である。
前述した第1歪み算出部216および第2歪み算出部218の組み合わせは、歪み算出部を構成する。また、この歪み算出部および前述した推定信号生成部の組み合わせは算出部を構成する。
符号化チャネル決定部220は、第1符号化歪みの値および第2符号化歪みの値を相互比較し、第1符号化歪みおよび第2符号化歪みのうち、より小さい値を有するものを選択する。符号化チャネル決定部220は、選択された符号化歪みに対応するチャネルを、拡張レイヤでの符号化の対象チャネル(符号化チャネル)として選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部220は、第1符号化歪みが第2符号化歪みよりも小さい場合、第1チャネルを選択し、第2符号化歪みが第1符号化歪みよりも小さい場合、第2チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。
このように、本実施の形態によれば、符号化チャネルの選択基準として、符号化歪みの大きさを使用するため、拡張レイヤの符号化歪みを低減することができ、効率的にステレオ音声を符号化することができる。
なお、本実施の形態では、対応する入力音声信号に対する各チャネルの復号音声信号の誤差パワーの比または総和を算出し、この算出結果を符号化歪みとして用いているが、その代わりに、第1ch符号化部122および第2ch符号化部124での符号化の過程で得られる符号化歪みを用いても良い。また、この符号化歪みは、聴覚重み付きの歪みであっても良い。
(実施の形態3)
図4は、本発明の実施の形態3に係る音声符号化装置の構成を示すブロック図である。なお、図4の音声符号化装置300は、前述した実施の形態で説明した音声符号化装置100、200と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
また、音声符号化装置300から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
音声符号化装置300は、コアレイヤ符号化部102および拡張レイヤ符号化部302を有する。拡張レイヤ符号化部302は、符号化チャネル選択部310、第1ch符号化部312、第2ch符号化部314およびスイッチ部126を有する。
符号化チャネル選択部310は、図5に示すように、第1chチャネル内相関度算出部320、第2chチャネル内相関度算出部322および符号化チャネル決定部324を有する。
第1chチャネル内相関度算出部320は、第1ch入力音声信号に対する正規化最大自己相関係数値を用いて、第1チャネルのチャネル内相関度cor1を算出する。
第2chチャネル内相関度算出部322は、第2ch入力音声信号に対する正規化最大自己相関係数値を用いて、第2チャネルのチャネル内相関度cor2を算出する。
なお、各チャネルのチャネル内相関度の算出には、各チャネルの入力音声信号に対する正規化最大自己相関係数値を用いる代わりに、各チャネルの入力音声信号に対するピッチ予測ゲイン値を用いたり、LPC(Linear Prediction Coding)予測残差信号に対する正規化最大自己相関係数値およびピッチ予測ゲイン値を用いたりすることができる。
符号化チャネル決定部324は、チャネル内相関度cor1、cor2を相互比較し、これらのうち、より高い値を有するものを選択する。符号化チャネル決定部324は、選択されたチャネル内相関度に対応するチャネルを、拡張レイヤでの符号化チャネルとして選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符号化チャネル決定部324は、チャネル内相関度cor1がチャネル内相関度cor2よりも高い場合、第1チャネルを選択し、チャネル内相関度cor2がチャネル内相関度cor1よりも高い場合、第2チャネルを選択する。生成された符号化チャネル選択情報は、スイッチ部126に出力されるとともに、コアレイヤ符号化データおよび拡張レイヤ符号化データと多重される。
第1ch符号化部312および第2ch符号化部314は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第1ch符号化部312および第2ch符号化部314のうちいずれか一方を「第Ach符号化部330」として示し、その内部構成について図6を用いて説明する。なお、「Ach」の「A」は1または2を表す。また、図中においておよび以下の説明において用いられる「B」も1または2を表す。但し、「A」が1の場合「B」は2であり、「A」が2の場合「B」は1である。
第Ach符号化部330は、スイッチ部332、第Ach信号チャネル内予測部334、減算器336、338、第Ach予測残差信号符号化部340および第Bch推定信号生成部342を有する。
スイッチ部332は、第Ach予測残差信号符号化部340によって得られた第Ach復号音声信号、または、第Bch符号化部(図示せず)によって得られた第Ach推定信号を、符号化チャネル選択情報に従って第Ach信号チャネル内予測部334に出力する。具体的には、選択されたチャネルが第Aチャネルの場合は、第Ach復号音声信号が第Ach信号チャネル内予測部334に出力され、選択されたチャネルが第Bチャネルの場合は、第Ach推定信号が第Ach信号チャネル内予測部334に出力される。
第Ach信号チャネル内予測部334は、第Aチャネルのチャネル内予測を行う。チャネル内予測は、チャネル内の信号の相関性を利用して過去のフレームの信号から現在のフレームの信号を予測するものである。チャネル内予測の結果として、チャネル内予測信号Sp(n)およびチャネル内予測パラメータ量子化符号が得られる。例えば1次のピッチ予測フィルタを用いる場合、チャネル内予測信号Sp(n)は、次の式(4)によって算出される。
ここで、Sin(n)はピッチ予測フィルタへの入力信号、Tはピッチ予測フィルタのラグ、gpはピッチ予測フィルタのピッチ予測係数である。
前述した過去のフレームの信号は、第Ach信号チャネル内予測部334の内部に設けられたチャネル内予測バッファ(第Achチャネル内予測バッファ)に保持される。また、第Achチャネル内予測バッファは、次フレームの信号の予測のために、スイッチ部332から入力された信号で更新される。チャネル内予測バッファの更新の詳細については後述する。
減算器336は、第Ach入力音声信号からモノラル復号音声信号を減算する。減算器338は、減算器336での減算によって得られた信号から、第Ach信号チャネル内予測部334でのチャネル内予測によって得られたチャネル内予測信号Sp(n)を減算する。減算器338での減算によって得られた信号、すなわち第Ach予測残差信号は、第Ach予測残差信号符号化部340に出力される。
第Ach予測残差信号符号化部340は、第Ach予測残差信号を任意の符号化方式で符号化する。この符号化によって、予測残差符号化データおよび第Ach復号音声信号が得られる。予測残差符号化データは、チャネル内予測パラメータ量子化符号とともに、第Ach符号化データとして出力される。第Ach復号音声信号は、第Bch推定信号生成部342およびスイッチ部332に出力される。
第Bch推定信号生成部342は、第Ach復号音声信号およびモノラル復号音声信号から、第Aチャネル符号化時の第Bch復号音声信号として第Bch推定信号を生成する。生成された第Bch推定信号は、図示されない第Bch符号化部のスイッチ部(スイッチ部332と同様)に出力される。
次いで、チャネル内予測バッファの更新動作について説明する。ここでは、符号化チャネル選択部310によって第Aチャネルが選択された場合を例にとり、第Aチャネルのチャネル内予測バッファの更新動作例を図7を用いて説明し、第Bチャネルのチャネル内予測バッファの更新動作例を図8を用いて説明する。
図7に示す動作例では、第Ach予測残差信号符号化部340によって得られた、第iフレーム(iは任意の自然数)の第Ach復号音声信号を用いて、第Ach信号チャネル内予測部334の内部の第Achチャネル内予測バッファ351が更新される(ST101)。そして、更新された第Achチャネル内予測バッファ351は、次フレームである第i+1フレームについてのチャネル内予測に用いられる(ST102)。
図8に示す動作例では、第iフレームの第Ach復号音声信号および第iフレームのモノラル復号音声信号を用いて、第iフレームの第Bch推定信号が生成される(ST201)。生成された第Bch推定信号は、第Ach符号化部330から図示されない第Bch符号化部に出力される。そして、第Bch符号化部において、第Bch推定信号は、スイッチ部(スイッチ部332と同様)を経由して第Bch信号チャネル内予測部(第Ach信号チャネル内予測部334と同様)に出力される。第Bch信号チャネル内予測部の内部に設けられた第Bchチャネル内予測バッファ352は、第Bch推定信号によって更新される(ST202)。そして、更新された第Bchチャネル内予測バッファ352は、第i+1フレームについてのチャネル内予測に用いられる(ST203)。
あるフレームにおいて、第Aチャネルが符号化チャネルとして選択された場合、第Bch符号化部では、第Bchチャネル内予測バッファ352の更新動作以外の動作は要求されないため、そのフレームにおいては第Bch入力音声信号の符号化を休止することができる。
このように、本実施の形態によれば、符号化チャネルの選択基準として、チャネル内相関度の高さを使用するため、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。
なお、音声符号化装置300の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置300は、モノラル復号音声信号を減算器336に入力する代わりに、モノラル復号音声信号を用いて第Ach音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号を減算器336に入力する構成を、採用することができる。
(実施の形態4)
図9は、本発明の実施の形態4に係る音声符号化装置の構成を示すブロック図である。
なお、図9の音声符号化装置400は、前述の実施の形態で説明した音声符号化装置100、200、300と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
また、音声符号化装置400から出力される送信符号化データは、実施の形態1で説明した音声復号化装置150と同様の基本的構成を有する音声復号化装置において復号することができる。
音声符号化装置400は、コアレイヤ符号化部402および拡張レイヤ符号化部404を有する。コアレイヤ符号化部402は、モノラル信号生成部110およびモノラル信号CELP(Code Excited Linear Prediction)符号化部410を有する。拡張レイヤ符号化部404は、符号化チャネル選択部310、第1chCELP符号化部422、第2chCELP符号化部424およびスイッチ部126を有する。
コアレイヤ符号化部402において、モノラル信号CELP符号化部410は、モノラル信号生成部110によって生成されたモノラル信号に対してCELP符号化を行う。この符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される。また、この符号化によって、モノラル駆動音源信号が得られる。さらに、モノラル信号CELP符号化部410は、モノラル信号を復号し、それによって得られるモノラル復号音声信号を出力する。コアレイヤ符号化データは、拡張レイヤ符号化データおよび符号化チャネル選択情報と多重される。また、コアレイヤ符号化データ、モノラル駆動音源信号およびモノラル復号音声信号は、第1chCELP符号化部422および第2chCELP符号化部424に出力される。
拡張レイヤ符号化部404において、第1chCELP符号化部422および第2chCELP符号化部424は、互いに同様の内部構成を有する。よって、説明の簡略化のために、第1chCELP符号化部422および第2chCELP符号化部424のうちいずれか一方を「第AchCELP符号化部430」として示し、その内部構成について図10を用いて説明する。なお、前述したように、「Ach」の「A」は1または2を表し、図中においておよび以下の説明において用いられる「B」も1または2を表し、「A」が1の場合「B」は2であり、「A」が2の場合「B」は1である。
第AchCELP符号化部430は、第AchLPC(Linear Prediction Coding)分析部431、乗算器432、433、434、435、436、スイッチ部437、第Ach適応符号帳438、第Ach固定符号帳439、加算器440、合成フィルタ441、聴覚重み付け部442、歪最小化部443、第Ach復号部444、第Bch推定信号
生成部445、第AchLPC分析部446、第AchLPC予測残差信号生成部447および減算器448を有する。
第AchCELP符号化部430において、第AchLPC分析部431は、第Ach入力音声信号に対するLPC分析を行い、それによって得られた第AchLPCパラメータを量子化する。第AchLPC分析部431は、第AchLPCパラメータとモノラル信号に対するLPCパラメータとの相関が一般に高いことを利用して、LPCパラメータの量子化に際して、コアレイヤ符号化データからモノラル信号量子化LPCパラメータを復号し、復号されたモノラル信号量子化LPCパラメータに対する第AchLPCパラメータの差分成分を量子化して、第AchLPC量子化符号を得る。第AchLPC量子化符号は、合成フィルタ441に出力される。また、第AchLPC量子化符号は、後述の第Ach駆動音源符号化データとともに第Ach符号化データとして出力される。差分成分の量子化を行うことにより、拡張レイヤのLPCパラメータの量子化を効率化することができる。
第AchCELP符号化部430において、第Ach駆動音源符号化データは、第Ach駆動音源信号のモノラル駆動音源信号に対する残差成分を符号化することによって得られる。この符号化は、CELP符号化における音源探索によって実現される。
つまり、第AchCELP符号化部430では、適応音源信号、固定音源信号およびモノラル駆動音源信号に、それぞれに対応するゲインが乗じられ、ゲイン乗算後のこれらの音源信号が加算され、その加算によって得られた駆動音源信号に対して、歪み最小化による閉ループ型音源探索(適応符号帳探索、固定符号帳探索およびゲイン探索)が行われる。そして、適応符号帳インデクス(適応音源インデクス)、固定符号帳インデクス(固定音源インデクス)ならびに適応音源信号、固定音源信号およびモノラル駆動音源信号に対するゲイン符号が、第Ach駆動音源符号化データとして出力される。コアレイヤの符号化、拡張レイヤの符号化および符号化チャネルの選択がフレーム毎に行われるのに対し、この音源探索は、フレームを複数の部分に分割することによって得られるサブフレーム毎に行われる。以下、この構成についてより具体的に説明する。
合成フィルタ441は、第AchLPC分析部431から出力された第AchLPC量子化符号を用いて、加算器440から出力された信号を駆動音源としてLPC合成フィルタによる合成を行う。この合成によって得られた合成信号は、減算器448に出力される。
減算器448は、第Ach入力音声信号から合成信号を減算することにより誤差信号を算出する。誤差信号は、聴覚重み付け部442に出力される。誤差信号は、符号化歪みに相当する。
聴覚重み付け部442は、符号化歪み(つまり、前述の誤差信号)に対して聴覚的な重み付けを行い、重み付け後の符号化歪みを歪最小化部443に出力する。
歪最小化部443は、符号化歪みを最小とするような適応符号帳インデクスおよび固定符号帳インデクスを決定し、適応符号帳インデクスを第Ach適応符号帳438に、固定符号帳インデクスを第Ach固定符号帳439に、それぞれ出力する。また、歪最小化部443は、それらのインデクスに対応するゲイン、具体的には、後述する適応ベクトルおよび後述する固定ベクトルの各々に対するゲイン(適応符号帳ゲインおよび固定符号帳ゲイン)を生成し、適応符号帳ゲインを乗算器433に、固定符号帳ゲインを乗算器435に、それぞれ出力する。
また、歪最小化部443は、モノラル駆動音源信号、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの間でゲインを調整するためのゲイン(第1調整用ゲイン、第2調整用ゲインおよび第3調整用ゲイン)を生成し、第1調整用ゲインを乗算器432に、第2調整用ゲインを乗算器434に、第3調整用ゲインを乗算器436に、それぞれ出力する。これらの調整用ゲインは、好ましくは、相互に関係性を持つように生成される。例えば、第1ch入力音声信号と第2ch入力音声信号との間のチャネル間相関が高い場合は、モノラル駆動音源信号の寄与分が、ゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に大きくなるように、3つの調整用ゲインが生成される。逆に、チャネル間相関が低い場合は、モノラル駆動音源信号の寄与分がゲイン乗算後の適応ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に小さくなるように、3つの調整用ゲインが生成される。
また、歪最小化部443は、適応符号帳インデクス、固定符号帳インデクス、適応符号帳ゲインの符号、固定符号帳ゲインの符号および3つのゲイン調整用ゲインの符号を、第Ach駆動音源符号化データとして出力する。
第Ach適応符号帳438は、過去に生成された合成フィルタ441への駆動音源の音源ベクトルを内部バッファに記憶している。また、第Ach適応符号帳438は、記憶されている音源ベクトルから1サブフレーム分のベクトルを適応ベクトルとして生成する。適応ベクトルの生成は、歪最小化部443から入力された適応符号帳インデクスに対応する適応符号帳ラグ(ピッチラグまたはピッチ周期)に基づいて行われる。生成された適応ベクトルは、乗算器433に出力される。
第Ach適応符号帳438の内部バッファは、スイッチ部437から出力された信号によって更新される。この更新動作の詳細については後述する。
第Ach固定符号帳439は、歪最小化部443から出力された固定符号帳インデクスに対応する音源ベクトルを、固定ベクトルとして乗算器435に出力する。
乗算器433は、第Ach適応符号帳438から出力された適応ベクトルに適応符号帳ゲインを乗じ、ゲイン乗算後の適応ベクトルを乗算器434に出力する。
乗算器435は、第Ach固定符号帳439から出力された固定ベクトルに固定符号帳ゲインを乗じ、ゲイン乗算後の固定ベクトルを乗算器436に出力する。
乗算器432は、モノラル駆動音源信号に第1調整用ゲインを乗じ、ゲイン乗算後のモノラル駆動音源信号を加算器440に出力する。乗算器434は、乗算器433から出力された適応ベクトルに第2調整用ゲインを乗じ、ゲイン乗算後の適応ベクトルを加算器440に出力する。乗算器436は、乗算器435から出力された固定ベクトルに第3調整用ゲインを乗じ、ゲイン乗算後の固定ベクトルを加算器440に出力する。
加算器440は、乗算器432から出力されたモノラル駆動音源信号と、乗算器434から出力された適応ベクトルと、乗算器436から出力された固定ベクトルと、を加算し、加算後の信号をスイッチ部437および合成フィルタ441に出力する。
スイッチ部437は、加算器440から出力された信号または第AchLPC予測残差信号生成部447から出力された信号を、符号化チャネル選択情報に従って第Ach適応符号帳438に出力する。より具体的には、選択されたチャネルが第Aチャネルの場合は、加算器440からの信号が第Ach適応符号帳438に出力され、選択されたチャネルが第Bチャネルの場合は、第AchLPC予測残差信号生成部447からの信号が第Ac
h適応符号帳438に出力される。
第Ach復号部444は、第Ach符号化データを復号し、それによって得られた第Ach復号音声信号を第Bch推定信号生成部445に出力する。
第Bch推定信号生成部445は、第Ach復号音声信号およびモノラル復号音声信号を用いて、第Ach符号化時の第Bch復号音声信号として第Bch推定信号を生成する。生成された第Bch推定信号は、第BchCELP符号化部(図示せず)に出力される。
第AchLPC分析部446は、図示されない第BchCELP符号化部から出力された第Ach推定信号に対してLPC分析を行い、それによって得られた第AchLPCパラメータを、第AchLPC予測残差信号生成部447に出力する。ここで、第BchCELP符号化部から出力された第Ach推定信号は、第BchCELP符号化部において第Bch入力音声信号が符号化されたとき(第Bch符号化時)に生成された第Ach復号音声信号に相当する。
第AchLPC予測残差信号生成部447は、第AchLPC分析部446から出力された第AchLPCパラメータを用いて、第Ach推定信号に対する符号化LPC予測残差信号を生成する。生成された符号化LPC予測残差信号は、スイッチ部437に出力される。
次いで、第AchCELP符号化部430および図示されない第BchCELP符号化部での適応符号帳更新動作について説明する。図11は、符号化チャネル選択部310によって第Aチャネルが選択された場合の、適応符号帳更新動作を示すフロー図である。
ここに例示されたフローは、第AchCELP符号化部430でのCELP符号化処理(ST310)、第AchCELP符号化部430内の適応符号帳の更新処理(ST320)および第BchCELP符号化部内の適応符号帳の更新処理(ST330)に分けられる。また、ステップST310は、2つのステップST311、ST312を含み、ステップST330は、4つのステップST331、ST332、ST333、ST334を含む。
まず、ステップST311では、第AchCELP符号化部430の第AchLPC分析部431によって、LPC分析および量子化が行われる。そして、第Ach適応符号帳438、第Ach固定符号帳439、乗算器432、433、434、435、436、加算器440、合成フィルタ441、減算器448、聴覚重み付け部442および歪最小化部443を主に含む閉ループ型音源探索部によって、音源探索(適応符号帳探索、固定符号帳探索およびゲイン探索)が行われる(ST312)。
ステップST320では、前述の音源探索によって得られた第Ach駆動音源信号で第Ach適応符号帳438の内部バッファが更新される。
ステップST331では、第AchCELP符号化部430の第Bch推定信号生成部445によって、第Bch推定信号が生成される。生成された第Bch推定信号は、第AchCELP符号化部430から第BchCELP符号化部に送られる。そして、ステップST332では、第BchCELP符号化部の図示されない第BchLPC分析部(第AchLPC分析部446の同等物)によって、第Bch推定信号に対するLPC分析が行われ、第BchLPCパラメータが得られる。
そして、ステップST333では、第BchCELP符号化部の図示されない第BchLPC予測残差信号生成部(第AchLPC予測残差信号生成部447の同等物)によって、第BchLPCパラメータが用いられ、第Bch推定信号に対する符号化LPC予測残差信号が生成される。この符号化LPC予測残差信号は、第BchCELP符号化部の図示されないスイッチ部(スイッチ部437の同等物)を経由して、図示されない第Bch適応符号帳(第Ach適応符号帳438の同等物)に出力される。そして、ステップST334において、第Bch適応符号帳の内部バッファが、第Bch推定信号に対する符号化LPC予測残差信号で更新される。
続いて、適応符号帳更新動作についてより具体的に説明する。ここでは、符号化チャネル選択部310によって第Aチャネルが選択された場合を例にとり、第Ach適応符号帳438の内部バッファの更新動作例を図12を用いて説明し、第Bch適応符号帳の内部バッファの更新動作例を図13を用いて説明する。
図12に示す動作例では、歪最小化部443によって得られた、第iフレーム内の第jサブフレームについての第Ach駆動音源信号を用いて、第Ach適応符号帳438の内部バッファが更新される(ST401)。そして、更新された第Ach適応符号帳438は、次サブフレームである第j+1サブフレームについての音源探索に用いられる(ST402)。
図13に示す動作例では、第iフレームの第Ach復号音声信号および第iフレームのモノラル復号音声信号を用いて、第iフレームの第Bch推定信号が生成される(ST501)。生成された第Bch推定信号は、第AchCELP符号化部430から第BchCELP符号化部に出力される。そして、第BchCELP符号化部の第BchLPC予測残差信号生成部において、第iフレームについての第Bch符号化LPC予測残差信号(第Bch推定信号に対する符号化LPC予測残差信号)451が生成される(ST502)。第Bch符号化LPC予測残差信号451は、第BchCELP符号化部のスイッチ部を経由して第Bch適応符号帳452に出力される。第Bch適応符号帳452は、第Bch符号化LPC予測残差信号451によって更新される(ST503)。更新された第Bch適応符号帳452は、次フレームである第i+1フレームについての音源探索に用いられる(ST504)。
あるフレームにおいて、第Aチャネルが符号化チャネルとして選択された場合、第BchCELP符号化部では、第Bch適応符号帳452の更新動作以外の動作は要求されないため、そのフレームにおいては第Bch入力音声信号の符号化を休止することができる。
このように、本実施の形態によれば、CELP符号化方式に基づいて各レイヤの音声符号化を行った場合において、チャネル内相関度が高いチャネルの信号を符号化することができ、チャネル内予測による符号化効率を向上させることができる。
なお、本実施の形態では、CELP符号化方式を採用した音声符号化装置において実施の形態3で説明した符号化チャネル選択部310を用いた場合を例にとって説明したが、実施の形態1および実施の形態2でそれぞれ説明した符号化チャネル選択部120および符号化チャネル選択部210を、符号化チャネル選択部310の代わりに、あるいは、符号化チャネル310とともに、使用することもできる。よって、CELP符号化方式に基づいて各レイヤの音声符号化を行った場合において、前述の各実施の形態で説明した効果を実現することができる。
また、拡張レイヤの符号化チャネルの選択基準として、前述したもの以外のものを使用
することもできる。例えば、あるフレームに関して、第AchCELP符号化部430の適応符号帳探索および第BchCELP符号化部の適応符号帳探索をそれぞれ行い、それらの結果として得られる符号化歪みのうちより小さい値を有するものに対応するチャネルを、符号化チャネルとして選択しても良い。
また、音声符号化装置400の構成に、チャネル間予測を実行する構成要素を加えることもできる。この場合、音声符号化装置400は、モノラル駆動音源信号に対して第1調整用ゲインを直接乗算する代わりに、モノラル駆動音源信号を用いて第Ach復号音声信号を予測するチャネル間予測を行い、それによって生成されたチャネル間予測信号に対して第1調整用ゲインを乗算する構成を、採用することができる。
以上、本発明の各実施の形態について説明した。上記実施の形態に係る音声符号化装置および音声復号化装置は、移動体通信システムにおいて使用される無線通信移動局装置および無線通信基地局装置などの無線通信装置に搭載することができる。
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
本明細書は、2005年4月28日出願の特願2005−132366に基づくものである。この内容はすべてここに含めておく。
本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システムなどにおける通信装置の用途に適用できる。
本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態1に係る音声復号化装置の構成を示すブロック図
本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態3に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態3に係る符号化チャネル選択部の構成を示すブロック図
本発明の実施の形態3に係る第Ach符号化部の構成を示すブロック図
本発明の実施の形態3に係る第Aチャネルのチャネル内予測バッファの更新動作の一例を説明するための図
本発明の実施の形態3に係る第Bチャネルのチャネル内予測バッファの更新動作の一例を説明するための図
本発明の実施の形態4に係る音声符号化装置の構成を示すブロック図
本発明の実施の形態4に係る第AchCELP符号化部の構成を示すブロック図
本発明の実施の形態4に係る適応符号帳更新動作の一例を示すフロー図
本発明の実施の形態4に係る第Ach適応符号帳の更新動作の一例を説明するための図
本発明の実施の形態4に係る第Bch適応符号帳の更新動作の一例を説明するための図