JP3606457B2 - Audio signal transmission method and audio decoding method - Google Patents
Audio signal transmission method and audio decoding method Download PDFInfo
- Publication number
- JP3606457B2 JP3606457B2 JP2001131801A JP2001131801A JP3606457B2 JP 3606457 B2 JP3606457 B2 JP 3606457B2 JP 2001131801 A JP2001131801 A JP 2001131801A JP 2001131801 A JP2001131801 A JP 2001131801A JP 3606457 B2 JP3606457 B2 JP 3606457B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- channel
- data
- audio
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000005236 sound signal Effects 0.000 title claims description 41
- 230000005540 biological transmission Effects 0.000 title claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000008054 signal transmission Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 20
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- IWYDHOAUDWTVEP-UHFFFAOYSA-N mandelic acid Chemical compound OC(=O)C(O)C1=CC=CC=C1 IWYDHOAUDWTVEP-UHFFFAOYSA-N 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 239000000872 buffer Substances 0.000 description 6
- 238000013139 quantization Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012856 packing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、音声信号を予測符号化して圧縮するための音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法及びその音声信号を復号する音声復号方法に関する。
【0002】
【従来の技術】
音声信号を予測符号化する方法として、本発明者は先の出願(特願平9−289159号)において1チャネルの原デジタル音声信号に対して、特性が異なる複数の予測器により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原デジタル音声信号と、この複数の線形予測値から予測器毎の予測残差を算出し、予測残差の最小値を選択する方法を提案している。
【0003】
【発明が解決しようとする課題】
しかしながら、上記方法では原デジタル音声信号がサンプリング周波数=96kHz、量子化ビット数=20ビット程度の場合にある程度の圧縮効果を得ることができるが、近年のDVDオーディオディスクではこの2倍のサンプリング周波数(=192kHz)が使用され、また、量子化ビット数も24ビットが使用される傾向があるので、圧縮率を改善する必要がある。
【0004】
そこで本発明は、音声信号を予測符号化する場合に圧縮率を改善することができる音声符号化方法により符号化されたデータの伝送方法及び復号方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は上記目的を達成するために、以下の1)及び2)に記載の手段よりなる。
すなわち、
【0006】
1)元のマルチチャネルの音声信号をダウンミクスしてステレオ2チャネルの音声信号に変換するステップと、
前記ダウンミクスされない元のチャネルの複数チャネルの各音声信号を所定のマトリクス演算により相関性のある音声信号に変換するステップと、
前記ステレオ2チャネルと前記相関性のある音声信号のチャネル毎に入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法とを含む予測符号化データと前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータとをパケット化して伝送することを特徴とする音声信号伝送方法。 2)元のマルチチャネルの音声信号をダウンミクスしてステレオ2チャネルの音声信号に変換するステップと、
前記ダウンミクスされない元のチャネルの複数チャネルの各音声信号を所定のマトリクス演算により相関性のある音声信号に変換するステップと、
前記ステレオ2チャネルと前記相関性のある音声信号のチャネル毎に入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化されたデータから元の音声信号を復号する音声復号方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法を含む予測符号化データから予測値を算出するステップと、
この算出された予測値から前記第1の複数チャネルのデジタル音声信号を復元するステップと、
からなる音声復号方法。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明を説明する。図1は本発明が適用される音声符号化装置とそれに対応する音声復号装置の第1の実施形態を示すブロック図、図2は図1の符号化部を詳しく示すブロック図、図3は図1、図2の符号化部により符号化されたビットストリームを示す説明図、図4は図1の復号化部を詳しく示すブロック図、図5はDVDのパックのフォーマットを示す説明図、図6はDVDのオーディオパックのフォーマットを示す説明図、図7、図8は音声伝送方法を示すフローチャートである。
【0008】
ここで、マルチチャネル方式としては、例えば次の4つの方式が知られている。
(1)4チャネル方式 ドルビーサラウンド方式のように、前方L、C、Rの3チャネル+後方Sの1チャネルの合計4チャネル
(2)5チャネル方式 ドルビーAC−3方式のSWチャネルなしのように、前方L、C、Rの3チャネル+後方SL、SRの2チャネルの合計5チャネル
(3)6チャネル方式 DTS(Digital Theater System)方式や、ドルビーAC−3方式のように6チャネル(L、C、R、SW(Lfe)、SL、SR)
(4)8チャネル方式 SDDS(Sony Dynamic Digital Sound)方式のように、前方L、LC、C、RC、R、SWの6チャネル+後方SL、SRの2チャネルの合計8チャネル
【0009】
図1に示す符号化側の6チャネル(ch)ミクス&マトリクス回路1’は、マルチチャネル信号の一例としてフロントレフト(Lf)、センタ(C)、フロントライト(Rf)、サラウンドレフト(Ls)、サラウンドライト(Rs)及びLfe(Low Frequency Effect)の6chのPCMデータを係数mij(i=1,2,j=1,2〜6)を用いて次式(1)によりステレオ2チャネル(L、R)にダウンミクスする。
【0010】
またミクス&マトリクス回路1’は、元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を前方グループに関する2chと他のグループに関する4chに分類して4chを次式(2)のように、相関性のある信号「3」〜「6」に変換し、2ch(L、R)を第1符号化部2’−1に、また、4ch「3」〜「6」を第2符号化部2’−2に出力する。
「1」=L
「2」=R
「3」=C−(Ls+Rs)/2
「4」=Ls+Rs
「5」=Ls−Rs
「6」=Lfe−C …(2)
【0011】
符号化部2’を構成する第1及び第2符号化部2’−1、2’−2はそれぞれ、図2に詳しく示すように2ch「1」、「2」と4ch「3」〜「6」のPCMデータをチャネル毎に予測符号化し、予測符号化データを図3に示すようなビットストリームで記録媒体5や衛星回線や電話回線等の通信媒体6を介して復号側に伝送する。復号側では復号化部3’を構成する第1及び第2復号化部3’−1、3’−2により、図4に詳しく示すようにそれぞれ前方グループに関する2ch「1」、「2」と他のグループに関する4ch「3」〜「6」の予測符号化データをチャネル毎にPCMデータに復号する。次いでミクス&マトリクス回路4’により式(1)、(2)に基づいて元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を復元するとともに、ステレオ2chデータ(L、R)をそのまま出力する。
【0012】
図2を参照して符号化部2’−1、2’−2について詳しく説明する。各ch「1」〜「6」のPCMデータは1フレーム毎に1フレームバッファ10に格納される。そして、1フレームの各ch「1」〜「6」のサンプルデータがそれぞれ予測回路13D1、13D2、15D1〜15D4に印加されるとともに、各ch「1」〜「6」の各フレームの先頭サンプルデータ(後述のリスタートヘッダ内に格納される)がアンパッキング回路8及びフォーマット化回路19に印加される。また、PCMデータがA/D変換されたときのサンプリング周波数(fs)と量子化ビット数(Qb)がパッキング回路18及びフォーマット化回路19に印加される。予測回路13D1、13D2、15D1〜15D4はそれぞれ、各ch「1」〜「6」のPCMデータに対して、特性が異なる複数の予測器(不図示)により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、次いで原PCMデータと、この複数の線形予測値から予測器毎の予測残差を算出する。続くバッファ・選択器14D1、14D2、16D1〜16D4はそれぞれ、予測回路13D1、13D2、15D1〜15D4により算出された各予測残差を一時記憶して、選択信号/DTS(デコーディング・タイム・スタンプ)生成器17により指定されたサブフレーム毎に予測残差の最小値を選択する。
【0013】
選択信号生成器17は予測残差のビット数フラグをパッキング回路18とフォーマット化回路19に対して印加し、また、予測残差が最小の予測器を示す予測器選択フラグと、後述するような相関係数をフォーマット化回路19に対して印加する。パッキング回路18はバッファ・選択器14D1、14D2、16D1〜16D4により選択された6ch分の予測残差を、選択信号生成器17により指定されたビット数フラグに基づいて指定ビット数でパッキングする。
【0014】
続くフォーマット化回路19は図3に示すようなユーザデータにフォーマット化する。このユーザデータは前方グループに関する2ch(1)、(2)の予測符号化データを含む可変レートビットストリームBS0と、他のグループに関する4ch(3)〜(6)の予測符号化データを含む可変レートビットストリームBS1と、ストリームBS0、BS1の前に設けられたビットストリームヘッダにより構成されている。また、1フレーム分のストリームBS0、BS1は
・フレームヘッダと、
・各ch(1)〜(6)の1フレームの先頭サンプルデータと、
・各ch(1)〜(6)のサブフレーム毎の予測器選択フラグと、
・各ch(1)〜(6)のサブフレーム毎のビット数フラグと、
・各ch(1)〜(6)の予測残差データ列(可変ビット数)と、
・後述する相関係数
が多重化されている。このような予測符号化によれば、原信号が例えばサンプリング周波数=96kHz、量子化ビット数=24ビット、6チャネルの場合、71%の圧縮率を実現することができる。
【0015】
次に図4を参照して復号化部3’−1、3’−2について説明する。上記フォーマットの可変レートビットストリームデータBS0、BS1は、デフォーマット化回路21によりストリームデータとフレームヘッダに基づいて分離される。そして、各ch「1」〜「6」の1フレームの先頭サンプルデータと予測器選択フラグはそれぞれ予測回路24D1、24D2、23D1〜23D4に印加され、各ch「1」〜「6」のビット数フラグと予測残差データ列はアンパッキング回路22に印加される。ここで、予測回路24D1、24D2、23D1〜23D4内の複数の予測器(不図示)はそれぞれ、符号化側の予測回路13D1、13D2、15D1〜15D4内の複数の予測器と同一の特性であり、予測器選択フラグにより同一特性のものが選択される。
【0016】
アンパッキング回路22は各ch「1」〜「6」の予測残差データ列をビット数フラグ毎に基づいて分離してそれぞれ予測回路24D1、24D2、23D1〜23D4に出力する。予測回路24D1、24D2、23D1〜23D4ではそれぞれ、アンパッキング回路22からの各ch「1」〜「6」の今回の予測残差データと、内部の複数の予測器の内、予測器選択フラグにより選択された各1つにより予測された前回の予測値が加算されて今回の予測値が算出され、次いで1フレームの先頭サンプルデータを基準として各サンプルのPCMデータが算出される。
【0017】
ここで、図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビットストリームデータを、記録媒体の一例としてDVDオーディオディスクに記録する場合には、図5に示すオーディオ(A)パックにパッキングされる。このパックは2034バイトのユーザデータ(Aパケット、Vパケット)に対して4バイトのパックスタート情報と、6バイトのSCR(System Clock Reference:システム時刻基準参照値)情報と、3バイトのMux レート(rate)情報と1バイトのスタッフィングの合計14バイトのパックヘッダが付加されて構成されている(1パック=合計2048バイト)。この場合、タイムスタンプであるSCR情報を、ACBユニット内の先頭パックでは「1」として同一タイトル内で連続とすることにより同一タイトル内のAパックの時間を管理することができる。
【0018】
圧縮PCMのAパケットは図6に詳しく示すように、9〜22バイトのパケットヘッダと、圧縮PCMのプライベートヘッダと、図3に示すフォーマットの1ないし2015バイトのオーディオデータ(圧縮PCM)により構成されている。圧縮PCMのプライベートヘッダは、
・1バイトのサブストリームIDと、
・2バイトのUPC/EAN−ISRC(Universal Product Code/European Article Number−International Standard Recording Code)番号、及びUPC/EAN−ISRCデータと、
・1バイトのプライベートヘッダ長と、
・2バイトの第1アクセスユニットポインタと、
・4バイトのオーディオデータ情報(ADI)と、
・0〜7バイトのスタッフィングバイトとに、
より構成されている。
【0019】
そして、ADI内に1秒後のアクセスユニットをサーチするための前方アクセスユニット・サーチポインタと、1秒前のアクセスユニットをサーチするための後方アクセスユニット・サーチポインタがともに1バイトでセットされる。具体的には、ADIの1バイト目に前方アクセスユニット・サーチポインタが、8バイト目に後方アクセスユニット・サーチポインタがセットされる。
このようにADIは、圧縮PCMでは4バイトに減少させるためオーディオデータを2015バイトまで収納できる。
【0020】
図6に示す圧縮PCM(PPCM)のオーディオパケットにおけるオーディオデータエリアは、図7に示すように複数のPPCMアクセスユニットにより構成され、PPCMアクセスユニットはPPCMシンク情報とサブパケットにより構成されている。最初のPPCMアクセスユニット内のサブパケットは、ディレクトリと、サブストリーム「BS0」と、CRC(1バイト又は2バイト)と、サブストリーム「BS1」と、CRCとエクストラ情報により構成され、サブストリーム「BS0」、「BS1」はPPCMブロックのみにより構成されている。2番目以降のPPCMアクセスユニット内のサブパケットも、ディレクトリと、サブストリーム「BS0」と、CRCと、サブストリーム「BS1」と、CRCとエクストラ情報により構成され、サブストリーム「BS0」、「BS1」はリスタートヘッダとPPCMブロックにより構成されている。
【0021】
また、図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビットストリームデータをネットワークを介して伝送する場合には、符号化側では図8示すように伝送用にパケット化し(ステップS41)、次いでパケットヘッダを付与し(ステップS42)、次いでこのパケットをネットワーク上に送り出す(ステップS43)。復号側では図9に示すようにヘッダを除去し(ステップS51)、次いでデータを復元し(ステップS52)、次いでこのデータをメモリに格納して復号を待つ(ステップS53)。
【0022】
なお、上記実施形態では、ステレオ2chデータ(L、R)をそのまま伝送したが、
「1」=L+R
「2」=L−R
「3」〜「5」は同じ
「6」=Lfe−a×C
ただし、0≦a≦1 …(2)’
により6チャネル「1」〜「6」と共に、相関のある信号に変換して予測符号化するようにしてもよい(第2の実施形態)。この場合には、復号化側のミクス&マトリクス回路4’はチャネル「1」、「2」を加算することによりチャネルLを、減算することによりチャネルRを生成することができる。
なお、上記実施例では、マルチチャンネル(6ch)とステレオ(2ch)と復元するようにしているが、いずれか一方でもよいことは言うまでもない。
【0023】
また、図10は第3の実施の形態を示す図で、この場合にはダウンミックスすることなく、前方グループに関する2ch「1」、「2」を
「1」=Lf+Rf
「2」=Lf−Rf
として伝送する。そして、再生側では、所望に応じて後段側のミックス&マトリクス回路4’から出力されたダウンミックスされないステレオ2チャンネル信号Lf,Rfを使用したり、この回路4’内でダウンミックスされて取り出されたステレオ2チャンネル信号L,Rを使用することもできる。
【0024】
次に、図11、図12、図13を参照して第4の実施形態について説明する。上記の実施形態では、1グループの相関性の信号「1」〜「6」を予測符号化するように構成されているが、この第4の実施形態では複数グループの相関性のある信号を生成して予測符号化し、圧縮率が最も高いグループの予測符号化データを選択するように構成されている。また、このこの実施例ではその1グループ内における符号化は、前述の各実施例の場合のように前方グループに関する2chと他のグループに関する4chに分類して変換するようなことはせずに、一つにまとめた符号化処理が行われる構成で、図11は前述の図1に対応した図として示してある。このため図12に示す符号化部では、第1〜第nの相関回路1−1〜1−nが設けられ、このn個の相関回路1−1〜1−nは例えば6ch(Lf、C、Rf、Ls、Rs、Lfe)のPCMデータを、相関性が異なるn種類の6ch信号「1」〜「6」に変換する。
【0025】
例えば第1の相関回路1−1は以下のように変換し、
「1」=Lf
「2」=C−(Ls+Rs)/2
「3」=Rf−Lf
「4」=Ls−a×Lfe
「5」=Rs−b×Rf
「6」=Lfe
また、第nの相関回路1−nは以下のように変換し、
「1」=Lf+Rf
「2」=C−Lf
「3」=Rf−Lf
「4」=Ls−Lf
「5」=Rs−Lf
「6」=Lfe−C
また、他の相関回路は第1の実施形態のように変換する。
【0026】
また、相関回路1−1〜1−n毎に予測回路15とバッファ・選択器16が設けられ、グループ毎の予測残差の最小値のデータ量に基づいて圧縮率が最も高いグループが相関選択信号生成器17bにより選択される。このとき、フォーマット化回路19はその選択フラグ(相関回路選択フラグ、その相関回路の相関係数a、b)を追加して多重化する。
【0027】
そして、図13は前述の図6に対応したデータエリアを示し、この実施例ではサブストリーム「BS1」を用いず、サブストリーム「BS0」のみで構成することになる。
【0028】
また、図14に示す復号化側では、符号化側の相関回路1−1〜1−nに対してn個の相関回路4−1〜4−n(又は係数a、bが変更可能な1つの相関回路4)が設けられる。なお、図12に示すnグループの予測回路が同一の構成である場合、復号装置では図14に示すようにnグループ分の予測回路を設ける必要はなく、1つのグループ分の予測回路でよい。そして、符号化装置から伝送された選択フラグに基づいて相関回路4−1〜4−nの1つを選択、又は係数a、bを設定して元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を復元し、また、式(1)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L、R)を生成する。
また、チャンネル数が「1」〜「6」の6チャンネル方式のものは、一例であって5チャンネル方式等他の方式のものであってもよい。
【0029】
また、上記の第1の実施形態では、1種類の相関性の信号「1」〜「6」を予測符号化するように構成されているが、この信号「1」〜「6」のグループと原信号(Lf、C、Rf、Ls、Rs、Lfe)のグループを予測符号化し、圧縮率が高い方のグループを選択するようにしてもよい。
【0030】
【発明の効果】
以上説明したように本発明によれば、今まで以上に圧縮率を改善した音声信号を伝送し、この音声信号を不都合なく復号することができる。
【図面の簡単な説明】
【図1】本発明が適用される音声符号化装置とそれに対応する音声復号装置の第1の実施形態を示すブロック図である。
【図2】図1の符号化部を詳しく示すブロック図である。
【図3】図1、図2の符号化部により符号化されたビットストリームを示す説明図である。
【図4】図1の復号化部を詳しく示すブロック図である。
【図5】DVDのパックのフォーマットを示す説明図である。
【図6】DVDのオーディオパックのフォーマットを示す説明図である。
【図7】図6のオーディオデータエリアのフォーマットを詳しく示す説明図である。
【図8】音声伝送方法を示すフローチャートである。
【図9】音声伝送方法を示すフローチャートである。
【図10】第3の実施形態の音声符号化装置とそれに対応する音声復号装置を示すブロック図である。
【図11】本発明が適用される音声符号化装置とそれに対応する音声復号装置の第4の実施形態を示すブロック図である。
【図12】第4の実施形態の音声符号化装置を示すブロック図である。
【図13】図7に対応した別の実施例の説明図である。
【図14】第4の実施形態の音声復号装置を示すブロック図である。
【符号の説明】
1’ 6chミクス&マトリクス回路(相関手段、ダウンミクス手段)
13D1、13D2、15D1〜15D4 予測回路(バッファ・選択器14D1、14D2、16D1〜16D4と共に予測符号化手段を構成する。)
14D1、14D2、16D1〜16D4 バッファ・選択器
19 フォーマット化回路(フォーマット化手段)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech decoding method for decoding an audio signal transmission method and the audio signal to transmit heat the audio signal encoded by the speech encoding method for compressing and predictive coding the speech signal.
[0002]
[Prior art]
As a method for predictive coding of a speech signal, the present inventor has proposed that in the previous application (Japanese Patent Application No. 9-289159), a single channel original digital speech signal is recorded in the past in the time domain by a plurality of predictors having different characteristics. A method for calculating a plurality of linear prediction values of a current signal from a plurality of signals, calculating a prediction residual for each predictor from the original digital speech signal and the plurality of linear prediction values, and selecting a minimum value of the prediction residual Has proposed.
[0003]
[Problems to be solved by the invention]
However, in the above method, a certain degree of compression effect can be obtained when the original digital audio signal has a sampling frequency = 96 kHz and the number of quantization bits = 20 bits. = 192 kHz) is used, and the number of quantization bits tends to be 24. Therefore, it is necessary to improve the compression rate.
[0004]
SUMMARY OF THE INVENTION An object of the present invention is to provide a transmission method and a decoding method for data encoded by a speech coding method that can improve the compression rate when predictive coding a speech signal.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the present invention comprises the following means 1) and 2) .
That is,
[0006]
1) Downmixing the original multi-channel audio signal and converting it to a stereo 2-channel audio signal;
Converting each audio signal of a plurality of channels of the original channel not downmixed into a correlated audio signal by a predetermined matrix operation;
A head sample value is obtained in response to an audio signal input for each channel of the
A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header An audio signal transmission method for transmitting an audio signal encoded by the method,
Predictive encoded data including the selected first sample value, prediction residual, and linear prediction method, and UPC / EAN-ISRC number and UPC / EAN-ISRC data of the voice signal are packetized and transmitted. A voice signal transmission method. 2) Downmixing the original multi-channel audio signal to convert it into a stereo 2-channel audio signal;
Converting each audio signal of a plurality of channels of the original channel not downmixed into a correlated audio signal by a predetermined matrix operation;
A head sample value is obtained in response to an audio signal input for each channel of the
A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header A speech decoding method for decoding an original speech signal from data encoded by the method,
Calculating a prediction value from predictive encoded data including the selected first sample value, prediction residual, and linear prediction method;
Restoring the first plurality of channels of digital audio signals from the calculated predicted value;
A speech decoding method comprising:
[0007]
DETAILED DESCRIPTION OF THE INVENTION
The present invention will be described below with reference to the drawings. 1 is a block diagram showing a first embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding to the speech encoding apparatus, FIG. 2 is a block diagram showing in detail the encoding unit of FIG. 1, and FIG. 1 and 2 are explanatory diagrams showing a bit stream encoded by the encoding unit of FIG. 2, FIG. 4 is a block diagram showing in detail the decoding unit of FIG. 1, FIG. 5 is an explanatory diagram showing a format of a DVD pack, and FIG. Is an explanatory diagram showing the format of a DVD audio pack, and FIGS.
[0008]
Here, as the multi-channel method, for example, the following four methods are known.
(1) 4-channel system Like the Dolby Surround system, a total of 4 channels of 3 channels for the front L, C, and R + 1 channel for the rear S (2) 5 channels system Like no Dolby AC-3 system SW channel , Forward L, C,
(4) 8-channel system Like the SDDS (Sony Dynamic Digital Sound) system, a total of 8 channels including 6 channels of forward L, LC, C, RC, R, and SW + 2 channels of backward SL and SR
The encoding-side 6-channel (ch) mix &
[0010]
Also, the mix &
“1” = L
“2” = R
“3” = C− (Ls + Rs) / 2
“4” = Ls + Rs
“5” = Ls−Rs
“6” = Lfe−C (2)
[0011]
As shown in detail in FIG. 2, the first and
[0012]
The
[0013]
The
[0014]
The
-First sample data of one frame of each ch (1) to (6),
A predictor selection flag for each subframe of ch (1) to (6);
A bit number flag for each subframe of each channel (1) to (6);
A prediction residual data string (number of variable bits) of each ch (1) to (6);
-Correlation coefficients to be described later are multiplexed. According to such predictive coding, when the original signal is, for example, sampling frequency = 96 kHz, quantization bit number = 24 bits, and 6 channels, a compression rate of 71% can be realized.
[0015]
Next, the
[0016]
The unpacking
[0017]
Here, when the variable rate bit stream data predictively encoded by the
[0018]
As shown in detail in FIG. 6, the compressed PCM A packet is composed of a 9 to 22 byte packet header, a compressed PCM private header, and audio data (compressed PCM) of 1 to 2015 bytes in the format shown in FIG. ing. The compressed PCM private header is
A 1-byte substream ID,
2-byte UPC / EAN-ISRC (Universal Product Code / European Articial Number-International Standard Recording Code) number and UPC / EAN-ISRC data;
-1 byte private header length,
A 2-byte first access unit pointer;
-4 bytes of audio data information (ADI),
・ With stuffing byte of 0-7 bytes,
It is made up of.
[0019]
A forward access unit search pointer for searching for an access unit after 1 second and a backward access unit search pointer for searching for an access unit before 1 second are both set in one byte in the ADI. Specifically, the forward access unit / search pointer is set in the first byte of the ADI, and the backward access unit / search pointer is set in the eighth byte.
Thus, ADI can store up to 2015 bytes of audio data because it is reduced to 4 bytes in compressed PCM.
[0020]
The audio data area in the compressed PCM (PPCM) audio packet shown in FIG. 6 is composed of a plurality of PPCM access units as shown in FIG. 7, and the PPCM access unit is composed of PPCM sync information and subpackets. A subpacket in the first PPCM access unit is composed of a directory, a substream “BS0”, a CRC (1 byte or 2 bytes), a substream “BS1”, a CRC, and extra information. "," BS1 "is composed only of PPCM blocks. The subpackets in the second and subsequent PPCM access units are also composed of a directory, substream “BS0”, CRC, substream “BS1”, CRC and extra information, and substreams “BS0” and “BS1”. Consists of a restart header and a PPCM block.
[0021]
In addition, when the variable rate bit stream data predictively encoded by the
[0022]
In the above embodiment, stereo 2ch data (L, R) is transmitted as it is.
“1” = L + R
“2” = LR
“3” to “5” are the same “6” = Lfe−a × C
However, 0 ≦ a ≦ 1 (2) ′
Thus, together with the six channels “1” to “6”, it may be converted into a correlated signal and subjected to predictive coding (second embodiment). In this case, the decoding-side mix &
In the above embodiment, multi-channel (6 ch) and stereo (2 ch) are restored, but it goes without saying that either one may be used.
[0023]
FIG. 10 is a diagram illustrating the third embodiment. In this case, 2ch “1” and “2” related to the front group are set to “1” = Lf + Rf without downmixing.
“2” = Lf−Rf
As transmitted. On the playback side, stereo down-mixed stereo two-channel signals Lf and Rf output from the later-stage mix and
[0024]
Next, a fourth embodiment will be described with reference to FIG. 11, FIG. 12, and FIG. In the above embodiment, a group of correlated signals “1” to “6” is configured to be predictively encoded. In the fourth embodiment, a plurality of groups of correlated signals are generated. Thus, the prediction coding is performed, and the prediction coding data of the group having the highest compression rate is selected. Further, in this embodiment, the encoding within one group is not classified and converted into 2ch related to the front group and 4ch related to the other group as in the case of each of the above-described embodiments, FIG. 11 is a diagram corresponding to FIG. 1 described above, in which a single encoding process is performed. 12 is provided with first to n-th correlation circuits 1-1 to 1-n. These n correlation circuits 1-1 to 1-n are, for example, 6ch (Lf, C , Rf, Ls, Rs, Lfe) is converted into n types of 6-channel signals “1” to “6” having different correlations.
[0025]
For example, the first correlation circuit 1-1 converts as follows:
“1” = Lf
“2” = C− (Ls + Rs) / 2
“3” = Rf−Lf
“4” = Ls−a × Lfe
“5” = Rs−b × Rf
“6” = Lfe
Further, the nth correlation circuit 1-n converts as follows,
“1” = Lf + Rf
“2” = C−Lf
“3” = Rf−Lf
“4” = Ls−Lf
“5” = Rs−Lf
“6” = Lfe-C
In addition, other correlation circuits perform conversion as in the first embodiment.
[0026]
Further, a
[0027]
FIG. 13 shows a data area corresponding to FIG. 6 described above. In this embodiment, the sub-stream “BS1” is not used, and only the sub-stream “BS0” is used.
[0028]
Further, on the decoding side shown in FIG. 14, n correlation circuits 4-1 to 4-n (or coefficients a and b can be changed to 1 with respect to the correlation circuits 1-1 to 1-n on the encoding side. Two correlation circuits 4) are provided. When the n groups of prediction circuits shown in FIG. 12 have the same configuration, the decoding device does not need to have n groups of prediction circuits as shown in FIG. Then, one of the correlation circuits 4-1 to 4-n is selected based on the selection flag transmitted from the encoding device, or the coefficients a and b are set and the original 6ch (Lf, C, Rf, Ls, Rs, Lfe) is restored, and the multi-channel is downmixed according to Equation (1) to generate stereo 2ch data (L, R).
Further, the 6-channel system having the number of channels “1” to “6” is an example, and another system such as a 5-channel system may be used.
[0029]
In the first embodiment described above, one type of correlation signal “1” to “6” is configured to be predictively encoded. The group of signals “1” to “6” A group of original signals (Lf, C, Rf, Ls, Rs, Lfe) may be predictively encoded, and a group with a higher compression rate may be selected.
[0030]
【The invention's effect】
As described above, according to the present invention, it is possible to transmit an audio signal whose compression rate is improved more than ever and to decode the audio signal without any inconvenience .
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding to the speech encoding apparatus.
FIG. 2 is a block diagram illustrating in detail an encoding unit in FIG. 1;
FIG. 3 is an explanatory diagram showing a bitstream encoded by the encoding unit in FIGS. 1 and 2;
FIG. 4 is a block diagram illustrating in detail a decoding unit of FIG. 1;
FIG. 5 is an explanatory diagram showing a DVD pack format;
FIG. 6 is an explanatory diagram showing a format of a DVD audio pack;
7 is an explanatory diagram showing in detail the format of the audio data area of FIG. 6; FIG.
FIG. 8 is a flowchart illustrating an audio transmission method.
FIG. 9 is a flowchart showing an audio transmission method.
FIG. 10 is a block diagram showing a speech coding apparatus and a speech decoding apparatus corresponding to the third embodiment.
FIG. 11 is a block diagram showing a fourth embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding to the speech encoding apparatus.
FIG. 12 is a block diagram showing a speech encoding apparatus according to a fourth embodiment.
FIG. 13 is an explanatory diagram of another embodiment corresponding to FIG. 7;
FIG. 14 is a block diagram showing a speech decoding apparatus according to a fourth embodiment.
[Explanation of symbols]
1 '6ch mix & matrix circuit (correlation means, downmix means)
13D1, 13D2, 15D1 to 15D4 Prediction circuit (composed with a buffer / selector 14D1, 14D2, 16D1 to 16D4 to constitute a predictive coding means)
14D1, 14D2, 16D1 to 16D4 Buffer /
Claims (2)
前記ダウンミクスされない元のチャネルの複数チャネルの各音声信号を所定のマトリクス演算により相関性のある音声信号に変換するステップと、
前記ステレオ2チャネルと前記相関性のある音声信号のチャネル毎に入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法とを含む予測符号化データと前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータとをパケット化して伝送することを特徴とする音声信号伝送方法。Downmixing the original multi-channel audio signal into a stereo 2-channel audio signal;
Converting each audio signal of a plurality of channels of the original channel not downmixed into a correlated audio signal by a predetermined matrix operation;
A head sample value is obtained in response to an audio signal input for each channel of the stereo 2 channel and the correlated audio signal, and a plurality of linear prediction methods having different characteristics are used to calculate the current signal from the past in the time domain. Selecting a linear prediction method such that each of the linear prediction values is predicted, and the prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header An audio signal transmission method for transmitting an audio signal encoded by the method,
Predictive encoded data including the selected first sample value, prediction residual, and linear prediction method, and UPC / EAN-ISRC number and UPC / EAN-ISRC data of the voice signal are packetized and transmitted. A voice signal transmission method.
前記ダウンミクスされない元のチャネルの複数チャネルの各音声信号を所定のマトリクス演算により相関性のある音声信号に変換するステップと、Converting each audio signal of a plurality of channels of the original channel that is not downmixed into a correlated audio signal by a predetermined matrix operation;
前記ステレオ2チャネルと前記相関性のある音声信号のチャネル毎に入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、A head sample value is obtained in response to an audio signal input for each channel of the stereo 2 channel and the correlated audio signal, and a plurality of linear prediction methods having different characteristics are used to calculate the current signal from the past in the time domain. Selecting a linear prediction method such that each of the linear prediction values is predicted, and the prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化されたデータから元の音声信号を復号する音声復号方法であって、A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header A speech decoding method for decoding an original speech signal from data encoded by the method,
前記選択された先頭サンプル値と予測残差と線形予測方法を含む予測符号化データから予測値を算出するステップと、Calculating a prediction value from predictive encoded data including the selected first sample value, prediction residual, and linear prediction method;
この算出された予測値から前記第1の複数チャネルのデジタル音声信号を復元するステップと、Restoring the first plurality of channels of digital audio signals from the calculated predicted value;
からなる音声復号方法。A speech decoding method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001131801A JP3606457B2 (en) | 1998-11-16 | 2001-04-27 | Audio signal transmission method and audio decoding method |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP34239698 | 1998-11-16 | ||
| JP10-342396 | 1998-11-16 | ||
| JP34235298 | 1998-11-16 | ||
| JP10-342352 | 1998-11-16 | ||
| JP2001131801A JP3606457B2 (en) | 1998-11-16 | 2001-04-27 | Audio signal transmission method and audio decoding method |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11325947A Division JP2000214887A (en) | 1998-11-16 | 1999-11-16 | Sound coding device, optical record medium sound decoding device, sound transmitting method and transmission medium |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004243782A Division JP4164825B2 (en) | 1998-11-16 | 2004-08-24 | Audio signal transmission method and audio decoding method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002006897A JP2002006897A (en) | 2002-01-11 |
| JP3606457B2 true JP3606457B2 (en) | 2005-01-05 |
Family
ID=27341044
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001131801A Expired - Fee Related JP3606457B2 (en) | 1998-11-16 | 2001-04-27 | Audio signal transmission method and audio decoding method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3606457B2 (en) |
-
2001
- 2001-04-27 JP JP2001131801A patent/JP3606457B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002006897A (en) | 2002-01-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3606457B2 (en) | Audio signal transmission method and audio decoding method | |
| JP3387096B2 (en) | Audio coding device | |
| JP4164825B2 (en) | Audio signal transmission method and audio decoding method | |
| JP3606455B2 (en) | Audio signal transmission method and audio decoding method | |
| JP3356165B2 (en) | Audio coding device | |
| JP3356166B2 (en) | Audio coding method | |
| JP3387095B2 (en) | Audio coding device | |
| JP3344567B2 (en) | Optical recording medium, audio decoding device | |
| JP3387097B2 (en) | Audio encoding method and audio decoding method | |
| JP3344568B2 (en) | Audio signal transmission method, audio decoding method | |
| JP3606454B2 (en) | Audio signal transmission method and audio decoding method | |
| JP3821384B2 (en) | Optical recording medium and audio decoding device | |
| JP3387084B2 (en) | Recording medium, audio decoding device | |
| JP2000214887A (en) | Sound coding device, optical record medium sound decoding device, sound transmitting method and transmission medium | |
| JP3604034B2 (en) | Audio signal transmission method | |
| JP3821382B2 (en) | Optical recording medium and audio decoding device | |
| JP3791799B2 (en) | Optical recording medium and audio decoding device | |
| JP3791800B2 (en) | Optical recording medium and audio decoding device | |
| JP3821386B2 (en) | Optical recording medium and audio decoding device | |
| JP3346387B2 (en) | Audio coding method | |
| JP3821381B2 (en) | Speech encoding method and speech decoding method | |
| JP3821383B2 (en) | Optical recording medium and audio decoding device | |
| JP3346388B2 (en) | Audio encoding method and audio decoding method | |
| JP3346545B2 (en) | Audio coding device | |
| JP3346389B2 (en) | Audio coding device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20020930 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A132 Effective date: 20040625 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040823 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040917 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040930 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040823 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071015 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081015 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091015 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101015 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101015 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111015 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121015 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121015 Year of fee payment: 8 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121015 Year of fee payment: 8 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |