JP2013054395A

JP2013054395A - 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法

Info

Publication number: JP2013054395A
Application number: JP2012278575A
Authority: JP
Inventors: Seung Kwon Beack; スン−クォンバク; Jong-Il Seo; ジョン−イルソ; Tae-Jin Lee; テ−ジンイ; Yong-Ju Lee; ヨン−ジュイ; In-Seon Jang; イン−ソンチャン; Jae-Hyoun Yoo; ジェ−ヒョンユ; Dae-Young Jang; デ−ヨンチャン; Jin-Woo Hong; ジン−ウホン; Jin-Woong Kim; ジン−ウンキム; Kyeong-Ok Kang; キョン−オクカン
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2006-09-29
Filing date: 2012-12-20
Publication date: 2013-03-21
Anticipated expiration: 2027-10-01
Also published as: CN102768836B; WO2008039038A1; JP5451394B2; US20140095179A1; EP2100297A1; CN102768836A; US20100174548A1; JP5453514B2; US9257124B2; EP2575129A1; CN101617360A; JP2010521002A; US20130110523A1; CN102768835A; KR20080029940A; CN102768835B; KR100917843B1; US20140095178A1; US8364497B2; CN101617360B

Abstract

【課題】多様なチャネルから構成されたマルチオブジェクトオーディオ信号符号化および復号化装置並びに方法を提供する。
【解決手段】本発明は、入力信号から復元されたダウンミックスオーディオ信号に対する制御情報（前記制御情報は、前記復元されたオーディオ信号に対するレンダリング制御情報を含む）を用いて、前記入力信号から抽出された付加情報を制御する付加情報制御手段と、前記制御された付加情報を用いて、前記復元されたダウンミックスオーディオ信号をマルチチャネルオーディオ信号として出力する出力手段とを備え、前記付加情報は、前記オーディオ信号に対するプリセット情報を含み、オーディオ符号化および復号化に利用される。
【選択図】図１０

Description

本発明は、マルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法に関し、詳細には多様なチャネルを有するマルチオブジェクトオーディオ信号を符号化および復号化する、多様なチャネルから構成されたマルチオブジェクトオーディオ信号符号化および復号化装置、並びにその方法に関する。
ここで、多様なチャネルを有するマルチオブジェクトオーディオ信号とは、マルチオブジェクトオーディオ信号として各々のオーディオオブジェクトが相異なるチャネル（例えば、モノ、ステレオ、５．１チャネル）で構成されたオーディオ信号を意味する。

従来のオーディオ符号化／複号化技術によると、ユーザはオーディオコンテンツを受動的に聴取するほかはないため、ユーザの必要に応じて相異なるチャネルから構成された各オーディオオブジェクトを制御して１つのオーディオコンテンツを多様な方法で組合せることによって、多様なオーディオオブジェクトを消費することのできる多様なチャネルから構成された複数のオーディオオブジェクト別の符号化および復号化装置、並びに方法が要求されている。

従来技術であるＳＡＣ（Spatial Audio Coding）は、マルチチャネルオーディオ信号をダウンミックスされたモノまたはステレオ信号および空間キュー（spatial cue）として表現、伝送、および復元する技術であって、低いビット率でも高品質のマルチチャネルオーディオ信号を伝送できる。

しかし、ＳＡＣは、マルチチャネルから構成された単一オブジェクトオーディオ信号に対してのみ符号化および復号化が可能な技術であるため、マルチチャネルでありながらも同時にマルチオブジェクトオーディオ信号、例えば、モノ、ステレオ、および５.１チャネルから構成された多様なオブジェクトのオーディオ信号を符号化／複号化することができないといった問題がある。

また別の従来技術であるバイノーラルキューコーディング（Binaural Cue Coding：ＢＣＣ）は、マルチオブジェクトオーディオ信号を符号化／復号化することができるが、該当のオーディオオブジェクトは、モノチャネルである場合に限定されるため、モノチャネル以外の多様なチャネルから構成されたマルチオブジェクトオーディオ信号を符号化／複号化することができない短所がある。

まとめると、従来技術によると、単一チャネルから構成されたマルチオブジェクトオーディオ信号またはマルチチャネルの単一オブジェクトオーディオ信号に対してのみ符号化／複号化を行い得るため、多様なチャネルから構成されたマルチオブジェクトオーディオ信号に対しては符号化／複号化を行なえないという問題があり、したがって、従来のオーディオ信号符号化／複号化技術によると、ユーザはオーディオコンテンツを受動的に聴取せざるを得ないという問題がある。

したがって、ユーザの必要に応じて相異なるチャネルから構成された複数のオーディオオブジェクトの各々を制御して１つのオーディオコンテンツを多様な方法で組合せることによって、多様なオーディオオブジェクトを消費することのできる多様なチャネルから構成された複数のオーディオオブジェクト別の符号化および復号化装置、並びに方法が要求される。

本発明は前述の要求に対応するために提案されたものであって、多様なチャネルを有するマルチオブジェクトオーディオ信号を符号化および復号化する、多様なチャネルから構成されたマルチオブジェクトオーディオ信号符号化および復号化装置、並びにその方法を提供することを目的とする。

前述した目的を達成するための本発明は、相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の符号化装置であって、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号を１つのダウンミックスされたオーディオ信号にダウンミキシングし、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対するヘッダ情報および空間キュー情報を含む付加情報を抽出するダウンミキシング手段と、前記ダウンミキシングされたオーディオ信号を符号化する符号化手段と、前記付加情報をビットストリームとして生成する付加情報符号化手段と、を備え、前記ヘッダ情報は、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対する識別子情報と、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号に対するチャネル情報と、を含む符号化装置を提供する。

また、前述した目的を達成するための本発明は、相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の符号化方法であって、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号を１つのダウンミックスされたオーディオ信号にダウンミキシングし、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対するヘッダ情報および空間キュー情報を含む付加情報を抽出するダウンミキシングステップと、前記ダウンミキシングされたオーディオ信号を符号化する符号化ステップと、前記付加情報をビットストリームとして生成する付加情報符号化ステップと、を含み、前記ヘッダ情報は、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対する識別子情報と、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号に対するチャネル情報と、を含む符号化方法を提供する。

また、前述した目的を達成するための本発明は、相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の復号化装置であって、入力オーディオ信号からダウンミックスオーディオ信号を復元し、入力されたオーディオ信号に含まれた付加情報ビットストリームからヘッダ情報および空間キュー情報を含む付加情報を抽出する入力信号分析手段と、該入力信号分析手段から抽出された付加情報を用いて、前記復元されたダウンミックスオーディオ信号をオブジェクト別のオーディオ信号に復元するオーディオオブジェクト抽出手段と、入力されたオーディオ信号に対する制御情報を用いて前記復元されたオブジェクト別のオーディオ信号をマルチオブジェクトオーディオ信号として出力する出力手段と、を備え、前記ヘッダ情報は、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対する識別子情報と、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号に対するチャネル情報と、を含む復号化装置を提供する。

また、前述した目的を達成するための本発明は、相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の復号化方法であって、入力オーディオ信号からダウンミックスオーディオ信号を復元し、入力されたオーディオ信号に含まれた付加情報ビットストリームからヘッダ情報および空間キュー情報を含む付加情報を抽出する入力信号分析ステップと、該入力信号分析ステップから抽出された付加情報を用いて、前記復元されたダウンミックスオーディオ信号をオブジェクト別のオーディオ信号に復元するオーディオオブジェクト抽出ステップと、入力されたオーディオ信号に対する制御情報を用いて前記復元されたオブジェクト別のオーディオ信号をマルチオブジェクトオーディオ信号として出力する出力ステップと、を含み、前記ヘッダ情報は、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対する識別子情報と、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号に対するチャネル情報と、を含む復号化方法を提供する。

また、前述した目的を達成するための本発明は、相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の復号化装置であって、入力オーディオ信号からダウンミックスオーディオ信号を復元し、入力されたオーディオ信号に含まれた付加情報ビットストリームからヘッダ情報および空間キュー情報を含む付加情報を抽出する入力信号分析手段と、入力オーディオ信号に対する制御情報を用いて、前記入力信号分析手段から抽出された付加情報を制御する付加情報制御手段と、制御された付加情報を用いて前記復元されたダウンミックスオーディオ信号をマルチオブジェクトオーディオ信号として出力する出力手段と、を備え、前記ヘッダ情報は、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対する識別子情報と、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号に対するチャネル情報と、を含む復号化装置を提供する。

また、前述した目的を達成するための本発明は、相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の復号化方法であって、入力オーディオ信号からダウンミックスオーディオ信号を復元し、入力されたオーディオ信号に含まれた付加情報ビットストリームからヘッダ情報および空間キュー情報を含む付加情報を抽出する入力信号分析ステップと、入力オーディオ信号に対する制御情報を用いて、前記入力信号分析ステップから抽出された付加情報を制御する付加情報制御ステップと、制御された付加情報を用いて前記復元されたダウンミックスオーディオ信号をマルチオブジェクトオーディオ信号として出力する出力ステップと、を含み、前記ヘッダ情報は、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の各々に対する識別子情報と、前記相異なるチャネルから構成されたマルチオブジェクトオーディオ信号に対するチャネル情報と、を含む復号化方法を提供する。

本発明は、多様なチャネルを有するマルチオブジェクトオーディオ信号を符号化および復号化する、多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化装置および方法を提供することによって、多様なチャネルから構成された多様なオーディオオブジェクトのオーディオコンテンツを効率的に符号化および復号化することにより、ユーザが必要に応じて能動的にオーディオコンテンツを消費することができる。

本発明に係るマルチオブジェクトオーディオ信号符号化装置を示す一実施例の図である。図１におけるモノチャネルのダウンミキサを示す図である。図１におけるステレオチャネルダウンミキサを示す図である。図１におけるマルチチャネルダウンミキサを示す図である。図１における第２ダウンミキサを示す図である。図１における付加情報エンコーダから生成される付加情報ビットストリームの構造を示す図である。図６に示す付加情報ビットストリームの構造を詳細に示す図である。本発明に係る図６に示す付加情報ビットストリームの構造を詳細に示す他の実施例の図である。本発明に係るマルチオブジェクトオーディオ復号化装置を示す一実施例を示すブロック図である。本発明に係るマルチオブジェクトオーディオ復号化装置を示す他の実施例のブロック図である。本発明に係る図１の装置を用いたマルチオブジェクトオーディオの符号化方法を示す一実施例のフローチャートである。本発明に係る図９の装置を用いたマルチオブジェクトオーディオの復号化方法を示す一実施例のフローチャートである。本発明に係る図１０の装置を用いたマルチオブジェクトオーディオの復号化方法を示す一実施例のフローチャートである。

前述した目的、特徴、および長所は、添付の図面と関連した次の詳細な説明を介して更に明確になるであろう。以下、添付の図面を参照して本発明に係る好ましい一実施例を詳説する。

図１は、本発明に係るマルチオブジェクトオーディオ信号符号化装置を示す一実施例の図であって、例えば、入力される複数のオーディオオブジェクトのチャネルが、各々モノ、ステレオ、および５.１チャネルである。

同図に示すように、本発明の一実施例に係るマルチオブジェクトオーディオ符号化装置は、第１ダウンミキサ１０１、第２ダウンミキサ１０３、オーディオエンコーダ１０５、付加情報エンコーダ１０７、および多重化部（multiplexer）１０９を備える。

前記第１ダウンミキサ１０１は、モノチャネルのダウンミキサ１１１、ステレオチャネルダウンミキサ１１３、およびマルチチャネルダウンミキサ１１５を備えている。

前記第１ダウンミキサ１０１は、入力オーディオオブジェクトのヘッダ情報を用いて入力された多様なチャネルのマルチオブジェクトオーディオ信号をモノ、ステレオ、マルチチャネルに識別し、チャネル別にグルーピングする。したがって、多様なチャネルのマルチオブジェクトオーディオ信号は、各々チャネル別にグルーピングされて各チャネル別のダウンミキサ１１１、１１３、１１５によってダウンミキシングされる。

また、前記第１ダウンミキサ１０１は、入力オーディオオブジェクトからダウンミックスされたオーディオ信号、および空間キューを含む付加情報を抽出する。すなわち、同じチャネル別に音源がグルーピングされて前記第１ダウンミキサ１０１に入力され、モノチャネルのダウンミキサ１１１は、入力されたモノオーディオオブジェクトからダウンミックス信号、および空間キューを含む付加情報を抽出し、ステレオチャネルダウンミキサ１１３は、入力されたステレオオーディオオブジェクトからダウンミックス信号、および空間キューを含む付加情報を抽出し、マルチチャネルダウンミキサ１１５は、入力されたマルチチャネル（例えば５.１チャネル）オーディオオブジェクトからダウンミックス信号、および空間キューを含む付加情報を抽出する。

前記オーディオエンコーダ１０５は、前記第２ダウンミキサ１０３から出力された第２ダウンミックス信号を符号化する。

前記付加情報エンコーダ１０７は、前記第１ダウンミキサ１０１から出力された付加情報および前記第２ダウンミキサ１０３から出力された付加情報を用いて付加情報ビットストリームを生成する。ここで、付加情報ビットストリームに含まれた情報は、下記の図６において詳説する。

前記多重化部１０９は、前記オーディオエンコーダ１０５から符号化された信号および前記付加情報エンコーダ１０７から生成された付加情報ビットストリームを多重化して復号化装置に伝送されるビットストリームを生成する。

前記第１ダウンミキサ１０１から出力される第１ダウンミックス信号は、ステレオ信号またはモノ信号である。すなわち、前記モノチャネルのダウンミキサ１１１から出力されるダウンミックス信号はモノ信号であって、残りのダウンミキサ１１３、１１５から出力されるダウンミックス信号はモノまたはステレオ信号である。

前記第２ダウンミキサ１０３は、前記第１ダウンミキサ１０１から出力された第１ダウンミックス信号を第２ダウンミックスして第２ダウンミックス信号を出力し、前記第２ダウンミックスの過程で分析された空間キューを含む付加情報を抽出する。ここで、第２ダウンミックス信号は、モードに応じてモノまたはステレオ信号である。

ここで、前記付加情報には、空間キュー、オーディオ信号の復元および制御のためのヘッダ情報が含まれている。付加情報は、下記の図６において詳説する。

図２は、図１のモノチャネルのダウンミキサ１１１を示す図であって、例えば、入力されるモノオーディオオブジェクトがＮ個（ｍ１、…、ｍＮ）である。

同図に示すように、前記モノチャネルのダウンミキサ１１１は、基本ダウンミキサ（１）（２０１ａ、…、２０１ｄ）をカスケード（cascade）構造で備える。

モノチャネルのダウンミキサ１１１に含まれる基本ダウンミキサ（１）２０１の個数は、モノオーディオオブジェクトの個数（Ｎ）に応じて決定される。すなわち、モノオーディオオブジェクトがＮ個であるとき、基本ダウンミキサ（１）２０１の個数はＮ−１個となり、モノオーディオオブジェクトが１つであるときは基本ダウンミキサが無く入力信号がバイパス（bypass）される。

一方、実施例によって１つの基本ダウンミキサ（１）がカスケード方式によりＮ−１回利用され得る。

基本的に基本ダウンミキサ（１）は、２つの入力信号をダウンミックスして１つのダウンミックスされたモノ信号を生成し、入力信号に対する空間キューを含む付加情報を抽出する。最初の基本ダウンミキサ（１）２０１ａは、前記モノチャネルのダウンミキサ１１１に入力されるモノオーディオオブジェクト２つを用いて１つのダウンミックスされたモノ信号を生成し、空間キューを含む付加情報を抽出する。次に、２番目に利用される基本ダウンミキサ（１）２０１ｂは、最初の基本ダウンミキサ（１）２０１ａから出力されるダウンミックスされたモノ信号および前記モノチャネルのダウンミキサ１１１に入力されるモノオーディオオブジェクトを用いて１つのダウンミックスされたモノ信号を生成し、空間キューを含む付加情報を抽出する。Ｎ−１番目の基本ダウンミキサ（１）２０１ｄは、Ｎ−２番目の基本ダウンミキサ（１）（図示せず）から出力されるダウンミックスモノ信号および前記モノチャネルのダウンミキサ１１１に入力されるモノオーディオオブジェクトを用いて１つのダウンミックスされたモノ信号を生成し、空間キューを含む付加情報を抽出する。

ここで、空間キューとは、オーディオ信号を符号化および復号化する過程において利用される情報であって、周波数領域で抽出され、基本ダウンミキサ（１）２０１に入力される２つの信号の大きさの差（amplitude difference）、遅延差、相関性などの情報を含む。例えば、本発明の一実施例に従って活用可能な空間キューとして、オーディオ信号のパワー利得情報を示す、オーディオ信号間のレベル差（Channel（audio signal）Level Difference：ＣＬＤ）、オーディオ信号間のエネルギー比（Inter-Channel Level Difference：ＩＣＬＤ）、オーディオ信号間の時間差（Inter Channel Time Difference：ＩＣＴＤ）、オーディオ信号間の相関性情報を示すオーディオ信号間の相関性（Inter Channel Correlation：ＩＣＣ）、および仮想音源位置情報（Virtual Source Location Information）があるが、これに限定されない。

ここで、前記付加情報には、空間キュー、オーディオ信号の復元および制御のためのヘッダ情報が含まれる。付加情報は、下記の図６において詳説する。

図３は、図１のステレオチャネルダウンミキサ１１３を示す図であって、例えば、入力されるステレオオーディオオブジェクトは、各々Ｍ個のＬＥＦＴ信号およびＲＩＧＨＴ信号（ＳＬ１、…、ＳＬＭおよびＳＲ１、…、ＳＲＭ）である。

ステレオチャネルダウンミキサ１１３に入力されるステレオオーディオオブジェクトは、ステレオのＬＥＦＴ信号とＲＩＧＨＴ信号とに分離されて、分離された信号は再びグルーピングされる。

同図に示すように、前記ステレオチャネルダウンミキサ１１３は、複数の基本ダウンミキサ（１）２０１を備える。前記ステレオチャネルダウンミキサ１１３に備えられた基本ダウンミキサ（１）２０１は、Ｍ個のＬＥＦＴ信号およびＭ個のＲＩＧＨＴ信号をダウンミキシングするために、２×（Ｍ−１）個が必要である。ここで、図２で説明したように他の実施例では、１つの基本ダウンミキサ（１）が２×（Ｍ−１）回利用され得る。

図３に示すように、Ｍ個のＬＥＦＴ信号を分析するためのＭ−１個の基本ダウンミキサ（１）２０１ｌａ〜２０１ｌｅは、図２で説明したように、入力される信号を分析し、１つのダウンミックスされたＬＥＦＴ信号を生成し、空間キューを含む付加情報を抽出する。

図３に示すように、Ｍ個のＲＩＧＨＴ信号を分析するためのＭ−１個の基本ダウンミキサ（１）２０１ｒａ〜２０１ｒｅは、図２で説明したように、入力される信号を分析して１つのダウンミックスされたＲＩＧＨＴ信号を生成し、空間キューを含む付加情報を抽出する。

図３に示すように、ステレオオーディオオブジェクトが１つである場合は、入力されるＬＥＦＴ信号およびＲＩＧＨＴ信号がバイパスされ得る。

したがって、前記ステレオチャネルダウンミキサ１１３は、ダウンミックスされたＬＥＦＴ信号およびダウンミックスされたＲＩＧＨＴ信号を生成することによってステレオダウンミックス信号を出力し、空間キューを含む付加情報を抽出する。

ここで、前記付加情報には、空間キュー、オーディオ信号の復元および制御のためのヘッダ情報が含まれる。付加情報は下記の図６において詳説する。

図４は、図１のマルチチャネルダウンミキサ１１５を示す図であって、例えば、入力される５.１チャネルオーディオオブジェクトはＰ個である。

同図に示すように、マルチチャネルダウンミキサ１１５は、ＭＰＥＧサラウンドまたはＳＡＣ技術によるダウンミキサであって、マルチチャネルオーディオ信号から空間キューが含まれた付加情報を抽出し、オーディオ信号をモノまたはステレオダウンミックス信号にダウンミックスする。

すなわち、マルチチャネルダウンミキサ１１５は、入力信号のＰ個のマルチチャネルオーディオオブジェクトから空間キューを抽出して伝送し、オーディオ信号をモノまたはステレオ信号にダウンミックスする。一般的にマルチチャネルオーディオオブジェクトは１つである場合がほとんどである。

図５は、図１の第２ダウンミキサ１０３を示す図である。

前記第２ダウンミキサ１０３は、前記第１ダウンミキサ１０１から出力された信号を再度ダウンミックスしてステレオダウンミックス信号を出力し、空間キューが含まれた付加情報を抽出する。

同図に示すように、前記第２ダウンミキサ１０３は、基本ダウンミキサ（１）２０１ｆ、２０１ｇおよび基本ダウンミキサ（２）５０１を備える。

ステレオチャネルダウンミキサ１１３およびマルチチャネルダウンミキサ１１５からダウンミックスされた信号がステレオ信号である場合、該当のダウンミックスされたステレオ信号は、各々ＬＥＦＴおよびＲＩＧＨＴ信号にグルーピングされると、基本ダウンミキサ（１）２０１ｆおよび２０１ｇが該当のグルーピングされたＬＥＦＴおよびＲＩＧＨＴ信号をダウンミキシングする。各々の基本ダウンミキサ（１）２０１ｆおよび２０１ｇから出力されたダウンミックスモノ信号は、ＬＥＦＴおよびＲＩＧＨＴ信号の代表的なダウンミックス信号である。

すなわち、前記基本ダウンミキサ（１）２０１ｆは、前記ステレオチャネルダウンミキサ１１３から出力されるダウンミックスされたＬＥＦＴ信号、および前記マルチチャネルダウンミキサ１１５から出力されるダウンミックスされたＬＥＦＴ信号を再度ダウンミックスし、代表ＬＥＦＴ信号として１つの代表ダウンミックスＬＥＦＴ信号を出力して、付加情報を抽出する。

そして、前記基本ダウンミキサ（１）２０１ｇは、前記ステレオチャネルダウンミキサ１１３から出力されるダウンミックスされたＲＩＧＨＴ信号、および前記マルチチャネルダウンミキサ１１５から出力されるダウンミックスされたＲＩＧＨＴ信号を再度ダウンミックスし、１つの代表ダウンミックスＲＩＧＨＴ信号を出力して、付加情報を抽出する。

ここで、図２で説明したように、他の実施例によって１つの基本ダウンミキサ（１）が２回利用され得る。

次に、前記基本ダウンミキサ（２）５０１は、前記モノチャネルのダウンミキサ１１１から出力されるダウンミックスモノ信号、前記基本ダウンミキサ（１）２０１ｆおよび２０１ｇから出力される代表ダウンミックスＬＥＦＴ信号および代表ダウンミックスＲＩＧＨＴ信号をダウンミックスし、全体のダウンミックスＬＥＦＴ信号および全体のダウンミックスＲＩＧＨＴ信号を出力して、空間キューが含まれた付加情報を抽出する。

前記基本ダウンミキサ（１）２０１および前記基本ダウンミキサ（２）５０１は、各々下記の式１および式２に基づいて入力オーディオ信号をダウンミキシングする。

前記重み付け要素は、ダウンミックス信号に対する表現目的の制約条件（constraint condition）に応じて決定され得る。ここで、制約条件とは、音響シーン（scene）に対する制約条件であって、例えば、ダウンミックスされたオーディオ信号においてバイオリンおよびギターに対するオーディオ信号がバイオリン０.７、ギター０.３の比率で再生（play back）されるために、各々の重み付け要素が各々０.７および０.３に設定され得る。制約条件情報は、システムまたはユーザなどの外部からの入力によって決定される。
一方、前記重み付け要素は、空間キューレベル情報に反映されなければならない。例えば、ＣＬＤを空間キューとして利用する場合、式１に対して式３のように空間キューレベル情報が予測できる。

基本ダウンミキサ（２）５０１は、ＭＰＥＧサラウンドのＴＴＴ（Three-To-Two）ボックスと同一に空間キューを抽出する。

図６は、図１の付加情報エンコーダ１０７から生成される付加情報ビットストリームの構造を示す図である。

同図に示すように、付加情報ビットストリームは、ヘッダ情報および空間キューを含む。

前記ヘッダ情報は、多様なチャネルから構成されたマルチオブジェクトオーディオ信号の復元および再生のための情報を含み、オーディオオブジェクトに対するチャネル情報および該当のオーディオオブジェクトのＩＤを定義することによって、モノ、ステレオ、マルチチャネルのオーディオオブジェクトに対する復号化情報を提供することができる。すなわち、例えば、符号化された所定のオーディオオブジェクトがモノオーディオ信号であるか、ステレオオーディオ信号であるか区分できるように識別ＩＤおよびオブジェクト別情報が定義され得る。前記ヘッダ情報は、一実施例としてＳＡＣヘッダ情報、オーディオオブジェクト情報、およびプリセット（preset）情報を含み得る。

一実施例として、前記ＳＡＣヘッダ情報は、空間キュー基盤のオーディオ符号化の過程において生成される情報であって、タイムスロット（time-slot）情報を含み得る。前記ＳＡＣヘッダ情報は、前記第１ダウンミキサ１０１および前記第２ダウンミキサ１０３が付加情報を抽出する過程において、前記第１ダウンミキサ１０１および前記第２ダウンミキサ１０３により抽出される。

一実施例として、前記オーディオオブジェクト情報は、ダウンミックスされるオーディオオブジェクトがモノ、ステレオ、またはマルチチャネルオーディオオブジェクトであるかを識別するための情報およびオブジェクトＩＤ情報を含む。例えば、オーディオオブジェクト情報は、チャネル別のオーディオオブジェクト数（モノオーディオオブジェクト数、ステレオオーディオオブジェクト数およびマルチチャネルオーディオオブジェクト数）および各チャネル別のオーディオオブジェクトのインデックス情報（ＩＤおよびオーディオオブジェクトがモノ、ステレオおよびマルチチャネルであるかを識別する情報を含む）を含む。

一実施例として、前記プリセット情報はヘッダ情報の付加情報として、各オブジェクトの制御情報があらかじめ定義されている。

例えば、前記プリセット情報は、プリセットモード情報およびプリセットモード支援情報を含む。前記プリセットモード情報は、例えば、カラオケモード、ソロオブジェクト抽出（extraction）モード（ギター演奏オーディオオブジェクト抽出、ピアノ演奏オーディオオブジェクト抽出など）、選好レンダリング情報、および基本再生モードセッティング（playback mode setting）情報を含み得る。

前記プリセットモード支援情報は、例えば、カラオケモード支援のための情報としてボーカルインデックス情報、ソロオブジェクト抽出モードの支援のための情報として該当のオブジェクトインデックス情報、選好レンダリング支援のための情報として各オブジェクト別レンダリング情報（ローテーション、エレベーション（elevation）、スピードなど）、並びに基本ステレオおよびマルチチャネル再生モードセッティング支援のための情報として各オーディオオブジェクト別の最適のレンダリング情報を含む。

また、前記付加情報に含まれる空間キューは、入力されたマルチオブジェクトオーディオ信号のオブジェクト別の空間キュー情報を含む。

付加情報のフォーマットは、設計者の選択に応じて多様に構成され得る。

図７は、図６に示された付加情報ビットストリームの構造を示す図であって、モノおよびステレオチャネルから構成されたマルチオブジェクトオーディオ信号に対する付加情報を示す。

同図に示すように、ヘッダ情報は、チャネル別のオーディオオブジェクト数（モノオーディオオブジェクト数およびステレオオーディオオブジェクト数など）、各チャネル別のオーディオオブジェクトのインデックス情報（ＩＤおよびオーディオオブジェクトがモノ、ステレオ、またはマルチチャネルであるかを識別する情報を含む）を含み、また、付加情報ビットストリームは空間キューを含んでいる。同図の一実施例では、空間キューの一実施例としてＣＬＤまたはＩＣＣが利用されている。

同図に示すように、各モノおよびステレオオブジェクトに対応する空間キュー（ＣＬＤまたはＩＣＣなど）が付加情報に含まれる。すなわち、各入力オーディオオブジェクトに対応する空間キュー情報はすべての付加情報に含まれていなければならない。

図８は、本発明に係る図６に示された付加情報ビットストリームの構造を詳細に示す他の実施例の図であって、モノ、ステレオ、およびマルチチャネルから構成されたマルチオブジェクトオーディオ信号に対する付加情報を示す。

同図に示すように、ヘッダ情報は、チャネル別のオーディオオブジェクト数（モノオーディオオブジェクト数、ステレオオーディオオブジェクト数およびマルチチャネルオーディオオブジェクト数など）、各チャネル別のオーディオオブジェクトのインデックス情報（ＩＤおよびオーディオオブジェクトがモノ、ステレオ、またはマルチチャネルであるかを識別する情報など）を含み、また、付加情報ビットストリームは空間キューを含む。同図の一実施例では、空間キューの一実施例としてＣＬＤおよびＩＣＣを利用する。

一方、ここで、マルチチャネルオブジェクトに対する空間キューは、マルチチャネルオブジェクトの空間キュー並びにモノおよびステレオオブジェクトに対する空間キューをカスケード多重化（cascaded multiplexing）することで、１つの付加情報ビットストリームとして表現され得る。前記モノチャネルのダウンミキサ１１１、ステレオチャネルダウンミキサ１１３、および第２ダウンミキサ１０３によって抽出された空間キューが、図８のモノおよびステレオオーディオオブジェクトに対する空間キューであって、前記マルチチャネルダウンミキサ１１５によって抽出された空間キューが、図８のマルチチャネルオーディオオブジェクトに対する空間キューである。

図９は、本発明に係る多様なチャネルのマルチオブジェクトオーディオ信号を復号化する装置の一実施例を示すブロック図である。

本発明の一実施例に係る多様なチャネルのマルチオブジェクトオーディオ信号を復号化する装置は、例えば、図１のマルチオブジェクトオーディオ信号符号化装置から生成されたオーディオビットストリームから空間キュー情報を抽出し、抽出された空間キューを用いて各チャネル情報を予測することによって、多様なチャネルから構成されたマルチオブジェクトオーディオ信号（モノ、ステレオ、およびマルチチャネルオーディオオブジェクトを含むオーディオ信号）を復元する。

同図に示すように、本発明の一実施例に係る多様なチャネルのマルチオブジェクトオーディオ信号を復号化する装置は、逆多重化部（demultiplexer：ＤＥＭＵＸ）９０１、オーディオデコーダ９０３、付加情報解析部９０５、オーディオオブジェクト抽出部９０７、およびレンダリング処理部９０９を備える。

前記逆多重化部９０１は、例えば、図１のマルチオブジェクトオーディオ信号符号化装置から生成されたオーディオビットストリームからオーディオ情報ビットストリームと付加情報ビットストリームとを分離する。
前記オーディオデコーダ９０３は、前記逆多重化部９０１により分離されたオーディオ情報ビットストリームからダウンミックスオーディオ信号を復元する。

前記付加情報解析部９０５は、前記逆多重化部９０１により分離された付加情報ビットストリームから各オーディオオブジェクトの空間キュー情報が含まれた付加情報を抽出する。

前記オーディオオブジェクト抽出部９０７は、前記付加情報解析部９０５から抽出された付加情報のヘッダ情報を用いて、ダウンミックスオーディオ信号からオブジェクト別のオーディオ信号を復元する。前記ヘッダ情報は、チャネル別のオーディオオブジェクト数（モノオーディオオブジェクト数、ステレオオーディオオブジェクト数およびマルチチャネルオーディオオブジェクト数など）および各チャネル別のオーディオオブジェクトのインデックス情報（ＩＤおよびオーディオオブジェクトがモノ、ステレオおよびマルチチャネルオーディオオブジェクトであるかを識別する情報など）を含んでいるため、前記オーディオオブジェクト抽出部９０７は、前記付加情報解析部９０５から抽出された付加情報のヘッダ情報および空間キュー情報に基づいて前記オーディオデコーダ９０３によって出力されたダウンミックスオーディオ信号からオブジェクト別のオーディオ信号を復元することができる。

前記レンダリング処理部９０９は、前記オーディオオブジェクト抽出部９０７により復元された各オーディオオブジェクトに対するレンダリング制御情報（例えば、空間的オーディオオブジェクトの位置および大きさ）および出力チャネル制御情報（例えば、５.１もしくは７.１チャネル、またはステレオ）が外部から入力され、前記レンダリング制御情報および出力チャネル制御情報に基づき、前記オーディオオブジェクト抽出部９０７から復元された各オブジェクト別のオーディオ信号を配列して（arrange）オーディオ信号を出力する。

図１０は、本発明に係る多様なチャネルのマルチオブジェクトオーディオ信号を復号化する装置の他の実施例を示すブロック図である。同図の他の実施例によるマルチオブジェクトオーディオ信号複合化装置は、各オブジェクト別に復元されたオーディオ信号をレンダリングする図９の複合化装置とは異なって、付加情報を制御してから、制御された付加情報に応じてオーディオオブジェクトをレンダリングすることによって、オーディオ信号を復元する。

同図に示すように、本発明の他の実施例に係る多様なチャネルのマルチオブジェクトオーディオ信号を復号化する装置は、逆多重化部９０１、オーディオデコーダ９０３、付加情報解析部９０５、付加情報制御部１００１、およびＳＡＣデコーダ１００３を備える。

図１０の前記逆多重化部９０１、オーディオデコーダ９０３、付加情報解析部９０５は、図９の逆多重化部９０１、オーディオデコーダ９０３、付加情報解析部９０５と同じ構成である。

前記付加情報制御部１００１は、前記オーディオデコーダ９０３により復元されたダウンミックスオーディオ信号に対するレンダリング制御情報（例えば、空間的オーディオオブジェクトの位置および大きさ）および出力チャネル制御情報（例えば、５.１もしくは７.１チャネル、またはステレオ）が外部から入力され、前記付加情報解析部９０５から抽出された付加情報（例えば、各オーディオオブジェクトの信号の大きさ情報および相関性情報）を前記外部入力信号によって制御する。

前記ＳＡＣデコーダ１００３は、前記付加情報制御部１００１により制御された付加情報を用いて、前記オーディオデコーダ９０３から復元されたダウンミックスオーディオ信号から多様なチャネルのマルチオブジェクトオーディオ信号に復元する。前記ＳＡＣデコーダ１００３は、前記付加情報制御部１００１により制御された付加情報のヘッダ情報を用いて、ダウンミックスオーディオ信号からオブジェクト別のオーディオ信号を復元する。前記ヘッダ情報は、チャネル別のオーディオオブジェクト数（モノオーディオオブジェクト数、ステレオオーディオオブジェクト数およびマルチチャネルオーディオオブジェクト数など）および各チャネル別のオーディオオブジェクトのインデックス情報（ＩＤおよびオーディオオブジェクトがモノ、ステレオ、およびマルチチャネルであるかを識別する情報など）を含んでいるため、前記ＳＡＣデコーダ１００３は、前記付加情報制御部１００１により制御された付加情報のヘッダ情報および空間キュー情報に基づいて前記オーディオデコーダ９０３によって出力されたダウンミックスオーディオ信号からオブジェクト別のオーディオ信号を復元することができる。

図１１は、本発明に係る図１の装置を用いたマルチオブジェクトオーディオの符号化方法を示す一実施例のフローチャートである。

同図に示すように、入力された多様なチャネルのマルチオブジェクトオーディオ信号は、入力オーディオオブジェクトのヘッダ情報によってモノ、ステレオ、およびマルチチャネルオーディオ信号に識別され、チャネル別にグルーピングされる（Ｓ１１０１）。

次に、ステップＳ１１０１によって同じチャネル別にグルーピングされた音源がダウンミックスされ、空間キューを含む付加情報が抽出される（Ｓ１１０３）。すなわち、入力されたモノオーディオオブジェクトからダウンミックス信号、および空間キューを含む付加情報が抽出され、入力されたステレオオーディオオブジェクトからダウンミックス信号、および空間キューを含む付加情報が抽出され、入力されたマルチチャネル（例えば５.１チャネル）オーディオオブジェクトからダウンミックス信号、および空間キューを含む付加情報が抽出される。

前記ステップＳ１１０３から出力される第１ダウンミックス信号は、ステレオ信号またはモノ信号である。すなわち、前記入力されたモノオーディオオブジェクトから出力されるダウンミックス信号はモノ信号であり、ステレオオーディオオブジェクトまたはマルチチャネルオーディオオブジェクトから出力されるダウンミックス信号はモノまたはステレオ信号である。

次に、ステップＳ１１０３から出力される第１ダウンミックス信号は、第２ダウンミックスされ、前記第２ダウンミックスの過程で分析された空間キューを含む付加情報が抽出される（Ｓ１１０５）。ここで、第２ダウンミックス信号は、モードによってモノまたはステレオ信号である。

次に、ステップＳ１１０５から出力された第２ダウンミックス信号が符号化される（Ｓ１１０７）。

次に、ステップＳ１１０３から出力された付加情報およびステップＳ１１０５から出力された付加情報を用いて付加情報ビットストリームが生成される（Ｓ１１０９）。

次に、ステップＳ１１０７から符号化された信号およびステップＳ１１０９から生成された付加情報ビットストリームが多重化されて復号化装置に伝送されるビットストリームが生成される（Ｓ１１１１）。

図１２は、本発明に係る図９の装置を用いたマルチオブジェクトオーディオの復号化方法を示す一実施例のフローチャートである。

同図に示すように、前記ステップＳ１１１１によって生成されたオーディオビットストリームからオーディオ情報ビットストリームと付加情報ビットストリームとに分離される（Ｓ１２０１）。

次に、ステップＳ１２０１により分離されたオーディオ情報ビットストリームからダウンミックスオーディオ信号が復元される（Ｓ１２０３）。

次に、ステップＳ１２０１により分離された付加情報ビットストリームから各オーディオオブジェクトの空間キュー情報の含まれた付加情報が抽出される（Ｓ１２０５）。

次に、ステップＳ１２０５から抽出された付加情報のヘッダ情報を用いて、ダウンミックスオーディオ信号からオブジェクト別のオーディオ信号が復元される（Ｓ１２０７）。前記ヘッダ情報は、チャネル別のオーディオオブジェクト数（モノオーディオオブジェクト数、ステレオオーディオオブジェクト数およびマルチチャネルオーディオオブジェクト数など）および各チャネル別のオーディオオブジェクトのインデックス情報（ＩＤおよびオーディオオブジェクトがモノ、ステレオ、およびマルチチャネルオーディオオブジェクトであるかを識別する情報など）を含んでいるため、前記ステップＳ１２０５から抽出された付加情報のヘッダ情報および空間キュー情報に基づいて前記ステップＳ１２０３により出力されたダウンミックスオーディオ信号からオブジェクト別のオーディオ信号が復元され得る。

次に、ステップＳ１２０７によって復元された各オーディオオブジェクトに対するレンダリング制御情報（例えば、空間的オーディオオブジェクトの位置および大きさ）および出力チャネル制御情報（例えば、５.１もしくは７.１チャネル、またはステレオ）が外部から入力され、前記ステップＳ１２０７から復元された各オブジェクト別のオーディオ信号が配列され、マルチオブジェクトオーディオ信号が出力される。

図１３は、本発明に係る図１０の装置を用いたマルチオブジェクトオーディオの復号化方法を示す一実施例のフローチャートである。

同図に示すように、前記ステップＳ１１１１により生成されたオーディオビットストリームからオーディオ情報ビットストリームと付加情報ビットストリームとが分離される（Ｓ１３０１）。

次に、ステップＳ１３０１により分離されたオーディオ情報ビットストリームからダウンミックスオーディオ信号が復元される（Ｓ１３０３）。

次に、ステップＳ１３０１により分離された付加情報ビットストリームから各オーディオオブジェクトの空間キュー情報の含まれた付加情報が抽出される（Ｓ１３０５）。

次に、ステップＳ１３０３によって復元された各オーディオオブジェクトに対するレンダリング制御情報（例えば、空間的オーディオオブジェクトの位置および大きさ）および出力チャネル制御情報（例えば、５.１もしくは７.１チャネル、またはステレオ）が外部から入力され、前記ステップＳ１３０５から抽出された付加情報（例えば、各オーディオオブジェクトの信号の大きさおよび相関性情報を含む）が前記外部入力信号によって制御される（Ｓ１３０７）。

次に、ステップＳ１３０７によって制御された付加情報を用いて、前記ステップＳ１３０３から復元されたダウンミックスオーディオ信号から多様なチャネルのマルチオブジェクトオーディオ信号に復元される（Ｓ１３０９）。前記ステップＳ１３０７により制御された付加情報のヘッダ情報を用いて、ダウンミックスオーディオ信号からオブジェクト別のオーディオ信号が復元される。前記ヘッダ情報は、チャネル別のオーディオオブジェクト数（モノオーディオオブジェクト数、ステレオオーディオオブジェクト数、およびマルチチャネルオーディオオブジェクト数など）および各チャネル別のオーディオオブジェクトのインデックス情報（ＩＤおよびオーディオオブジェクトがモノ、ステレオ、およびマルチチャネルであるかを識別する情報など）を含んでいるため、前記ステップＳ１３０７によって制御された付加情報のヘッダ情報および空間キュー情報に基づいて前記ステップＳ１３０３により出力されたダウンミックスオーディオ信号からオブジェクト別のオーディオ信号が復元され得る。

前述したような本発明の方法は、プログラムで具現されてコンピュータで読み出し可能な記録媒体（ＣＤ−ＲＯＭ、ＲＡＭ、ＲＯＭ、フロッピー（登録商標）ディスク、ハードディスク、光磁気ディスクなど）に保存され得る。

特定の好ましい実施例について本発明を説明してきたが、特許請求の範囲において定義した本発明の精神および範囲から逸脱しない範囲内で様々な置換、変形および変更が可能であることは、本発明が属する技術分野において通常の知識を有する者にとって明白であろう。

本発明は、多様なチャネルから構成された多様なオブジェクトのオーディオコンテンツを効率的に符号化および復号化することによって、ユーザが必要に応じて能動的にオーディオコンテンツを消費することができる。

Claims

相異なるチャネルから構成されたマルチオブジェクトオーディオ信号の復号化装置であって、
入力信号から復元されたダウンミックスオーディオ信号に対する制御情報（前記制御情報は、前記復元されたオーディオ信号に対するレンダリング制御情報を含む）を用いて、前記入力信号から抽出された付加情報を制御する付加情報制御手段と、
前記制御された付加情報を用いて、前記復元されたダウンミックスオーディオ信号をマルチチャネルオーディオ信号として出力する出力手段と
を備え、
前記付加情報は、
前記オーディオ信号に対するプリセット情報を含むことを特徴とする復号化装置。
前記プリセット情報は、
前記オーディオ信号に対するプリセットモードを定義するプリセットモード情報と、
前記プリセットモードを支援するために必要な情報を定義するプリセットモード支援情報と
を含むことを特徴とする請求項１に記載の復号化装置。
前記付加情報は、
前記オーディオ信号の各々に対する識別子情報と、
前記オーディオ信号に対するチャネル情報と
をさらに含むことを特徴とする請求項１に記載の復号化装置。
前記チャネル情報は、
前記オーディオ信号の各々に対するチャネル情報と、
前記オーディオ信号のチャネル別のオーディオオブジェクト数情報と
を含むことを特徴とする請求項３に記載の復号化装置。
前記付加情報は、
前記オーディオ信号のモノ、ステレオ、及びマルチチャネルのうち、いずれか１つのオーディオオブジェクトに対する空間キュー情報をさらに含むことを特徴とする請求項１に記載の復号化装置。