CN113207078B

CN113207078B - 在扬声器的任意集合上的基于对象的音频的虚拟渲染

Info

Publication number: CN113207078B
Application number: CN202110521333.9A
Authority: CN
Inventors: A·J·泽费尔特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2017-10-30
Filing date: 2018-10-24
Publication date: 2022-11-22
Anticipated expiration: 2038-10-24
Also published as: US11172318B2; WO2019089322A1; US20200351606A1; EP3704875A1; EP4228288B1; EP3704875B1; CN111295896A; EP4228288A1; CN113207078A; US12035124B2; CN111295896B; US20220070605A1

Abstract

本申请涉及在扬声器的任意集合上的基于对象的音频的虚拟渲染。一种渲染音频的设备和方法。所述方法包含通过定义双耳误差、定义激活惩罚以及最小化作为所述双耳误差与所述激活惩罚的组合的成本函数导出滤波器。以此方式，收听体验通过减小由更远离音频对象的所期望的位点的扬声器输出的信号水平得到改进。

Description

在扬声器的任意集合上的基于对象的音频的虚拟渲染

分案申请的相关信息

本案是分案申请。该分案的母案是申请日为2018年10月24日、申请号为PCT/US2018/057357的国际申请进入中国后发明名称为“在扬声器的任意集合上的基于对象的音频的虚拟渲染”的第201880070137.0号发明专利申请案。

相关申请的交叉参考

本申请主张2017年10月30日递交的用于“在扬声器的任意集合上的基于对象的音频的虚拟渲染(Virtual Rendering of Object Based Audio over an Arbitrary Set ofLoudspeakers)”的第62/578,854号美国临时申请的权益并且主张2018年10月09日递交的用于“在扬声器的任意集合上的基于对象的音频的虚拟渲染(Virtual Rendering ofObject Based Audio over an Arbitrary Set of Loudspeakers)”的第62/743,275号美国临时申请的权益，所述申请中的每一个以全文引用的方式并入。

背景技术

本发明涉及音频处理，且确切地说，涉及渲染在扬声器的任意集合上的基于对象的音频。

除非本文中另外指示，否则在这个章节中描述的方法不是本申请中的权利要求书的现有技术，并且并不因为包含在这个章节中就被承认为现有技术。

基于对象的音频通常是指基于音频对象产生扬声器馈送。基于对象的音频可通常与基于声道的音频对比。在基于声道的音频中，每个声道对应于扬声器。举例来说，5.1环绕声是基于声道的，其中“5”是指左、右、中心、左环绕和右环绕扬声器以及它们的五个对应的声道，并且“1”是指低频效应扬声器及其对应的声道。另一方面，基于对象的音频渲染音频对象以用于由扬声器输出，所述扬声器的数目和布置不必由音频对象定义；替代地，每个音频对象可包含在渲染过程期间使用的位置元数据因此用于该音频对象的音频由扬声器输出使得音频对象被感知到起源于所期望的位置。

双耳音频通常是指被记录或回放的音频，其方式为考虑到收听者的耳朵和头部的天然耳朵间隔和头部阴影。收听者因此感知到声音起源于一或多个空间位置。双耳音频可以通过使用放置在虚拟头部的两个耳朵位置处的两个麦克风来记录。双耳音频可以通过使用头部相关传递函数(HRTF)或双耳房间脉冲响应(BRIR)从记录为非双耳的音频渲染。双耳音频可以是使用头戴式耳机回放的。双耳音频大体上包含左侧信号(以由左侧头戴式耳机或左侧扬声器输出)，以及右侧信号(以由右侧头戴式耳机或右侧扬声器输出)。双耳音频不同于立体声之处在于立体声音频可能涉及扬声器之间的扬声器串扰。

在一对扬声器上的空间音频的所谓的“虚拟”渲染通常涉及立体声双耳信号的形成，所述信号随后通过串扰消除器馈送以产生左侧和右侧扬声器信号。双耳信号表示到达收听者的左耳和右耳的所期望的声音并且经合成以模拟3D空间中的特定音频场景，含有在不同位置处的可能地众多的来源。串扰消除器尝试消除或减小立体声扬声器回放中固有的天然串扰，因此双耳信号的左声道实质上传递到收听者的仅左耳并且右声道实质上传递到仅右耳，由此保留双耳信号的意图。通过此类渲染，音频对象被“虚拟地”放置在3D空间中，这是因为扬声器不必以物理方式位于经渲染的声音表现为发出的点处。此类渲染的理论和历史由W.加德纳(W.Gardner)在“使用扬声器的3D音频(3-D Audio Using Loudspeakers)”(克卢沃学术(Kluwer Academic)，1998)中深入地论述。

第2015/0245157号美国申请公开论述了通过每个对象的双耳渲染的基于对象的音频的虚拟渲染，随后是所得立体声双耳信号在馈送对应的多个扬声器对的多个串扰消除电路之间平移。

图1是扬声器系统100的框图。扬声器系统100用于说明串扰消除器的设计，其基于从扬声器102和104到收听者的耳朵106和108的音频传输的模型。信号s_L和s_R表示从左侧扬声器102和右侧扬声器104发送的信号，并且信号e_L和e_R表示到达收听者的左耳106和右耳108的信号。每个耳朵信号被建模为左侧扬声器信号和右侧扬声器信号的总和，每个信号通过对从每个扬声器到该耳朵的声波传输进行建模的单独的线性时间恒定传递函数H滤波。这四个传递函数可以使用被选择作为相对于收听者的假设的扬声器放置的函数的头部相关传递函数(HRTF)建模。

图1中所描绘的模型可以如下的矩阵等式形式写入：

等式1反映了在一个特定频率下信号之间的关系并且意图应用于感兴趣的整个频率范围，并且所述相同内容应用于所有后续相关等式。串扰消除器矩阵C可以通过对矩阵H求逆实现：

给定左侧双耳信号b_L和右侧双耳信号b_R，扬声器信号s_L和s_R被计算为双耳信号乘以串扰消除器矩阵：

s＝Cb其中

将等式3代入到等式1中并且应注意C＝H^-1产生：

e＝HCb＝b (4)

换句话说，通过将串扰消除器应用于双耳信号产生扬声器信号在收听者的耳朵处产生等于双耳信号的信号。这假设矩阵H完美地对从扬声器到收听者的耳朵的音频的物理声波传输进行建模。实际上，将不是这个情况，因此等式4一般来说将是近似的。然而，在实践中，此近似足够接近使得收听者将实质上感知到通过双耳信号b预期的空间印象。

通常，双耳信号b是通过双耳渲染滤波器B_L和B_R的应用从单耳音频对象信号o合成的：

渲染滤波器对B最通常由所选择的一对HRTF给定以赋予相对于收听者从空间中的相关联的位点发出的对象信号o的印象。在等式形式中，此关系可以表示为：

B＝HRTF{pos(o)} (6)

此处，pos(o)表示在3D空间中相对于收听者的对象信号o的所期望的位点。此位点可以表示在笛卡尔(x，y，z)坐标(例如，笛卡尔距离)中或任何其它等效坐标系中，例如极性(例如，包含距离和方向的角距离)。此位点也可在时间上改变以模拟对象通过空间的移动。函数HRTF{}意图表示通过位点可寻址的HRTF的集合。从人类受试者测量到的许多此类集合在实验室中存在，例如用于图像处理和积分计算(CIPIC)数据库的加利福尼亚大学的戴维斯中心，描述于<interface.cipic.ucdavis.edu>中。替代地，集合可由参数模型组成，例如描述于P.布朗(P.Brown)和R.杜达(R.Duda)的“用于双耳声音合成的结构性模型(AStructural Model for Binaural Sound Synthesis)”，关于话语和音频处理的IEEE汇刊(IEEE Transactions on Speech and Audio Processing)，1998年9月，第6卷，第5号，第476到478页中的球形头部模型。在实用实施方案中，用于构建串扰消除器的HRTF通常从用于产生双耳信号的同一集合中选择，然而这并不是要求。

在许多应用中，在空间中的各种位点处的众多的对象同时经渲染。在此情况下，双耳信号通过对象信号与所应用的它们的相关联的HRTF的总和给出：

通过此多对象双耳信号，将产生扬声器信号的整个渲染链通过下式给出：

在许多应用中，对象信号o_k由多声道信号的个体声道给出，例如，由左、中心、右、左环绕和右环绕组成的5.1信号。在此情况下，与每个对象相关联的HRTF可以经选择以对应于与每个声道相关联的固定扬声器位点。以此方式，5.1环绕系统可以在立体声扬声器的集合上虚拟化。在其它应用中，对象可以是允许在3D空间中的任何地方自由地移动的来源。在下一代空间音频格式的情况下，如在C.Q.罗宾逊(C.Q.Robinson)、S.梅塔(S.Meht)和N.青古斯(N.Tsingos)的“可缩放格式和工具以扩展电影院音频的可能性(Scalable Formatand Tools to Extend the Possibilities of Cinema Audio)”，SMPTE运动成像期刊(SMPTE Motion Imaging Journal)，第121卷，第8号，第63到69页，2012年11月中所描述的，等式8中的对象的集合可由自由移动对象和固定声道两者组成。

两个扬声器/一个收听者串扰消除器可以一般化到位于任意位点处的任意数目的扬声器相对于也在任意位点处的任意数目的收听者。这可通过从两个扬声器和一个收听者到M个扬声器和N个收听者的延伸等式1来实现：

此延伸在J.鲍克(J.Bauck)和D.库柏(D.Cooper)的“一般化的听觉传输立体声和应用(Generalized Transaural Stereo and Applications)”，音频工程师协会的期刊(Journal of the Audio Engineering Society)，1996年9月，第44卷，第9号，第683到705页连同所提议的解决方案中论述。一般来说，扬声器的数目M和耳朵的数目2N并不相等，并且因此2NxM声波传输矩阵H是不可逆的。因而，鲍克和库柏提出使用H的伪逆转，表示为H+，以根据下式产生扬声器信号s：

s＝H⁺b (10)

其中b是用于N个收听者中的每一个的所期望的左侧和右侧双耳信号的向量。

存在获得s的解的两个一般情况。在一个情况下，如果耳朵的数目大于扬声器的数目，2N>M，那么一般来说没有s的解存在使得所期望的双耳信号b在N个收听者的耳朵处精确地获得。在此情况下，等式10中的s的解最小化在耳朵e和所期望的双耳信号b处的信号之间的平方误差：

(e-b)^*(e-b)＝(Hs-b)^*(Hs-b) (11)

其中*表示埃尔米特转置。

在另一情况下，如果耳朵的数目小于扬声器的数目，2N<M，那么一般来说可以找到无穷大数目的解，其全部引起等式11的误差为零。在此情况下，由等式10定义的特定解实现解的此无穷大集合上的最小信号能量。

然而，在上述这些情况中的任一个中，通过等式10给出的解将一般来说产生扬声器向量s，其中所有的个体扬声器信号s_m含有在感知上显著的量的能量。换句话说，解并不是跨越扬声器的集合稀疏的。此稀疏性的缺乏是成问题的，因为假设的声波传输矩阵H在实践中总是现实的近似值，尤其是相对于收听者位点(例如，收听者倾向于移动)。如果模型与现实之间的此不匹配变得较大，那么收听者可能听到远离其预期的空间位点的音频对象o_k的感知的位置，尤其是如果远离对象的预期位点的扬声器含有显著量的能量。

其它空间音频渲染技术避免了这个问题，方法是对于经渲染的每个音频对象，仅激活以物理方式最接近于该对象的预期的空间位点的扬声器。此类系统包含幅值平移器，并且这些系统是对收听者移动相对稳固的。参见，例如，V.普尔基(V.Pulkki)的“使用向量基础幅值平移的虚拟声音源定位(Virtual sound source positioning using vectorbase amplitude panning)”，音频工程师协会的期刊，第45卷，第6号，第456到466页，1997；以及第2016/0212559号美国申请公开。

发明内容

然而，上文所论述的幅值平移器并不在通过串扰消除得到的音频源的感知到的放置中提供相同的灵活性，尤其是对于并不完全地包围收听者的扬声器设置。给定以上问题和解决方案的缺乏，实施例涉及组合通过等式9描述的一般化的虚拟空间渲染与扬声器激活的在感知上有益的稀疏性的优势。

根据实施例，渲染音频的方法包含导出多个滤波器，其中多个滤波器中的每一个与多个扬声器中的对应的一个相关联。导出多个滤波器包含使用多个滤波器定义音频对象的双耳误差、使用多个滤波器定义音频对象的激活惩罚，并且最小化作为双耳误差和多个滤波器的激活惩罚的组合的成本函数。音频对象与所期望的感知位点相关联。方法进一步包含使用多个滤波器渲染音频对象以产生多个经渲染的信号。方法进一步包含通过多个扬声器输出多个经渲染的信号。

双耳误差可以是涉及至少一个收听者位点的所期望的双耳信号与涉及至少一个收听者位点的经建模的双耳信号之间的差异。双耳误差可以是零。所期望的双耳信号可基于音频对象和音频对象的所期望的感知位点来定义。所期望的双耳信号可以使用头部相关传递函数(HRTF)的数据库和HRTF的参数模型中的一个来定义。经建模的双耳信号可通过基于至少一个收听者位点通过具有多个标称扬声器位点的多个扬声器对多个经渲染的信号的回放进行建模来定义。经建模的双耳信号可以使用头部相关传递函数(HRTF)的数据库和HRTF的参数模型中的一个来定义。

激活惩罚可使成本与在多个扬声器之中指派信号能量相关联。激活惩罚可以是距离惩罚，其中距离惩罚是基于多个经渲染的信号、多个扬声器的多个标称扬声器位点以及音频对象的所期望的感知位点定义的。距离惩罚可以是使用笛卡尔距离和角距离中的一个定义的。

成本函数可以是在A和B两者中单调递增的组合函数，其中A对应于双耳误差并且B对应于激活惩罚。成本函数可以是A+B、AB、e^A+B和e^AB中的一个。

音频对象可以是多个音频对象中的一个，其中多个音频对象是使用多个滤波器渲染的，并且其中多个音频对象中的每一个具有相关联的所期望的感知位点。

多个扬声器可包含第一扬声器和第二扬声器，其中第一扬声器具有距离音频对象的所期望的感知位点第一距离的标称位点，并且其中第二扬声器具有距离音频对象的所期望的感知位点第二距离的标称位点，其中第一距离大于第二距离。激活惩罚可以是距离惩罚，其中当对于给定整体水平的多个经渲染的信号与同第二扬声器相关联相比更多的给定整体水平与第一扬声器相关联时距离惩罚变得较大。

多个扬声器可具有多个标称扬声器位点，其中多个标称扬声器位点中的每一个是第一位点和第二位点中的一个，其中第一位点是多个扬声器中的对应的一个的实际扬声器位点，并且其中第二位点不是实际扬声器位点。

多个扬声器中的一个可具有标称扬声器位点，其中标称扬声器位点是通过扩展多个扬声器的一或多个物理位点导出的。

多个滤波器可以独立于音频对象。(举例来说，滤波器可以是基于音频对象的一或多个潜在的位点计算的，独立于音频对象的内容。)多个滤波器可以存储为以音频对象的所期望的感知位点作为索引的查找表。

多个扬声器可具有多个物理位点，其中多个物理位点在设置阶段中确定。

根据另一实施例，非暂时性计算机可读媒体存储计算机程序，所述计算机程序在由处理器执行时控制设备以执行包含上文所论述的方法中的一或多个的处理。

根据另一实施例，设备渲染音频并且包含多个扬声器和至少一个处理器。至少一个处理器经配置以导出多个滤波器，其中多个滤波器中的每一个与多个扬声器中的对应的一个相关联。导出多个滤波器包含使用多个滤波器定义音频对象的双耳误差、使用多个滤波器定义音频对象的激活惩罚，并且最小化作为双耳误差和多个滤波器的激活惩罚的组合的成本函数。音频对象与所期望的感知位点相关联。至少一个处理器进一步经配置以使用多个滤波器渲染音频对象以产生多个经渲染的信号，并且多个扬声器经配置以输出多个经渲染的信号。

设备可包含与上文关于方法所论述的那些类似的细节。

以下详细描述和附图提供对各种实施方案的本质和优点的进一步理解。

附图说明

图1是扬声器系统100的框图。

图2A是扬声器的布置250的俯视图。

图2B是扬声器系统200的俯视图。

图3是渲染系统300的框图。

图4A是渲染音频的方法400的流程图。

图4B是渲染系统450的框图。

图5是扬声器系统500的俯视图。

图6是扬声器系统600的俯视图。

图7A到7B是扬声器布置700和702的俯视图。

图8是确定用于扬声器布置的滤波器的方法800的流程图。

具体实施方式

本文中所描述的是用于渲染音频的技术。在以下描述中，出于解释的目的，阐述众多实例和具体细节以便提供对本发明的透彻理解。然而，对于所属领域的技术人员将显而易见的是，由权利要求定义的本发明可包含这些实例中的一些或所有特征(单独地或与下文描述的其它特征组合)，并且可以进一步包含本文中所描述的特征和概念的修改和等效物。

在以下描述中，详述了各种方法、过程和程序。虽然可以特定次序描述特定步骤，但是此类次序主要为方便和清晰起见。特定步骤可重复多于一次，可在其它步骤(即使原本以另一次序描述那些步骤)之前或之后发生，以及可与其它步骤并行地发生。仅当第一步骤必须在第二步骤开始之前完成时要求第二步骤跟随在第一步骤之后。此类情况在从上下文不清楚的情况下将被具体指出。

在本文档中，使用术语“和”、“或”以及“和/或”。此类术语将被理解为具有包含性意义。举例来说，“A和B”可至少意味着以下内容：“A和B两者”、“至少A和B两者”。作为另一实例，“A或B”可至少意味着以下内容：“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一实例，“A和/或B”可至少意味着以下内容：“A和B”、“A或B”。当预期异或时，将特别指出此情况(例如，“A或B中任一个”、“A和B中至多一个”)。

以下描述使用术语甜蜜点。一般来说，声学中的甜蜜点是指相对于两个或大于两个扬声器的收听位点，其中收听者能够以它意图由混合器听到的方式听到音频混合。举例来说，用于标准立体声布局的甜蜜点是与两个扬声器等距的点。然而，一般来说，空间音频渲染系统可以通过在扬声器处适当的滤波来配置以将甜蜜点放置在相对于扬声器的特定配置的任意点处。甜蜜点可以被概念化为点，并且可以被感知为区域；声音的收听者的感知通常在区域内是相同的，并且声音的收听者的感知在区域的外部降级。

图2A是扬声器的布置250的俯视图。布置250包含放置在任意位点中的任意数目的扬声器(示出为三个扬声器252、254和256)。此处，“任意”意味着它们的数目或位点不需要一定由待输出的音频信号定义。布置250可以与基于声道的系统或与具有定义的滤波器的渲染系统对比。举例来说，5.1声道环绕系统使用六个扬声器，其中的五个具有定义的位点；改变那些位点引起音频输出的甜蜜点的改变。作为另一实例，具有定义的滤波器的渲染系统具有根据扬声器的位点定义的滤波器；如果扬声器是重新布置的，那么滤波器需要重新定义，否则的话音频输出的甜蜜点会改变。

与许多现有系统对比，实施例可用于输出来自任意扬声器布置的音频，例如布置250。然而，在论述完整任意布置之前(参见，例如，图7A到7B)，论述了图2B的更固定的布置。

图2B是扬声器系统200的俯视图。扬声器系统200呈条形音响的形式因数并且包含七个扬声器：中心扬声器202、左前扬声器204、右前扬声器206、左侧扬声器208、右侧扬声器210、左上扬声器212，以及右上扬声器214。左前扬声器204和右前扬声器206可被称作前方对；左侧扬声器208和右侧扬声器210可被称作侧面对；以及左上扬声器212和右上扬声器214可被称作向上对。第2015/0245157号美国申请公开论述了用于基于对象的音频的虚拟渲染的类似形式因数，所述虚拟渲染通过每个对象的双耳渲染，随后是所得立体声双耳信号在馈送对应的多个扬声器对的多个串扰消除电路之间的平移。更确切地说在第2015/0245157号美国申请公开中，串扰消除器(参见图1)与三个对中的每一个相关联，并且意图在收听者的前方的对象平移到前方对，意图在收听者的后面的对象平移到侧面对，并且意图在收听者上方的对象平移到向上对。(中心扬声器202不与串扰消除器相关联。)然而，不同于在第2015/0245157号美国申请公开中描述的系统，扬声器系统200以不同的方式导出其滤波器并且并不被约束到在一或多个扬声器对的集合上操作，如下文进一步详细论述。

图3是渲染系统300的框图。渲染系统300可以是扬声器系统200的组件(参见图2B)。一般来说，渲染系统300接收输入音频信号302并且产生一或多个经渲染的音频信号304。(举例来说，当渲染系统300在扬声器系统200中实施时，渲染系统300产生七个经渲染的音频信号304。)输入音频信号302可包含音频对象。经渲染的音频信号304中的每一个被提供到其它组件(未示出)，例如放大器以用于由扬声器输出。渲染系统300包含处理器310和存储器312。

处理器310接收输入音频信号302并且应用一或多个滤波器以产生经渲染的音频信号304。处理器310可执行控制其操作的计算机程序。存储器312可存储计算机程序和滤波器。处理器310可包含数字信号处理器(DSP)，并且处理器310和存储器312可以被实施为可编程逻辑装置(PLD)的组件。渲染系统300可包含(为简洁起见)未示出的其它组件。

如上文所论述，每个滤波器与经渲染的音频信号304中的对应的一个相关联。下文提供了滤波器的另外细节。

图4A是渲染音频的方法400的流程图。方法400可通过渲染系统300(参见图3)实施，例如，如受实施方法的一或多个计算机程序控制。方法400可通过例如扬声器系统200(参见图2B)的装置执行。

在402处，导出多个滤波器。滤波器中的每一个与多个扬声器中的对应的一个相关联。举例来说，对于扬声器系统200，滤波器中的每一个可以是针对六个扬声器204、206、208、210、212和214中的对应的一个导出的。中心扬声器202也可以与通过此方法导出的滤波器相关联。导出滤波器包含子步骤404、406和408。

在404处，音频对象的所期望的感知位点的双耳误差被定义为待计算的滤波器的函数。所期望的感知位点可以在音频对象的元数据中指示。(此位点被称作“所期望的感知位点”因为系统可能并不实际上精确地实现此目标。)双耳误差是涉及至少一个收听者位点的所期望的双耳信号与涉及至少一个收听者位点的经建模的双耳信号之间的差异。从至少一个收听者位点的角度，所期望的双耳信号是基于音频对象和音频对象的所期望的感知位点定义的。经建模的双耳信号通过基于至少一个收听者位点通过具有多个扬声器位点的多个扬声器对多个经渲染的信号的回放进行建模来定义。

在406处，音频对象的激活惩罚是基于多个经渲染的信号定义的。激活惩罚可基于音频对象的所期望的感知位点或基于其它组分，如下文所论述。一般来说，激活惩罚使成本与将信号能量指派给各种扬声器并且赋予稀疏性的程度给滤波器导出过程相关联。激活惩罚的一个实例实施方案是距离惩罚。音频对象的距离惩罚是基于多个经渲染的信号、用于多个扬声器的多个标称扬声器位点和音频对象的所期望的感知位点定义的。距离惩罚经定义使得当对于多个经渲染的信号的给定整体水平更多的给定整体水平与第一扬声器相关联时它变得较大，所述第一扬声器的标称位点与第二扬声器相比距离所期望的感知位点更远。(下文进一步论述扬声器的“标称”位点；除非另外指出，否则扬声器的标称位点可以被视为涉及其物理位点。)举例来说，使用扬声器系统250(参见图2A)，当点270对应于音频对象的所期望的感知位点时，扬声器256是最接近的，扬声器254是紧接着最接近的，并且扬声器252是最远的。因此，当与扬声器256相比在点270处的更多的整体水平的经渲染的信号与扬声器252相关联时距离惩罚较大。此外，扬声器254可具有小于扬声器252的距离惩罚并且大于扬声器256的距离惩罚的距离惩罚。

激活惩罚的另一实例组分是可听度惩罚。一般来说，可听度惩罚基于它们与定义的位点的关系将较高成本应用于标称扬声器位点。举例来说，如果扬声器在邻近于婴儿的房间的一个房间中，那么可听度惩罚可将较高成本应用于婴儿的房间附近的扬声器。

在408处，作为双耳误差和多个滤波器的激活惩罚的组合的成本函数被最小化。成本函数是在A和B两者中单调递增的组合函数，其中A对应于双耳误差并且B对应于激活惩罚。此类成本函数的实例包含A+B、AB、e^A+B和e^AB。

(通常，成本函数的最小化可以使用闭合形式数学解来实施，如下文进一步论述。因此，双耳误差和激活惩罚在上文被论述为“经定义的”和未“计算出的”。然而，当闭合形式解不可供使用时，成本函数可以是使用双耳误差和激活惩罚的迭代最小化的，这可涉及其明确的计算。)

作为实例，处理器310(参见图3)可导出滤波器(参见402)，方法是定义输入音频信号302中的音频对象的所期望的感知位点的双耳误差(参见404)，定义音频对象的激活惩罚(参见406)，并且最小化成本函数(参见408)。

在410处，音频对象是使用多个滤波器渲染的以产生多个经渲染的信号。举例来说，处理器310(参见图3)可产生经渲染的信号304，方法是使用滤波器渲染音频对象。

在412处，多个经渲染的信号通过多个扬声器输出。举例来说，扬声器系统200(参见图2B)可使用扬声器204、206、208、210、212和214输出经渲染的信号304(参见图3)。来自每个扬声器的输出通常是可听声音。

滤波器导出(参见402)可使用动态滤波器导出、预先计算滤波器导出或这两者的组合执行。

在动态情况中，处理器(参见图3中的310)接收包含所期望的感知位点信息的音频对象，随后基于接收到的所期望的感知位点信息导出滤波器。在预先计算的情况中，处理器导出用于各种各样的不同的感知位点的数个滤波器，并且在存储器中存储滤波器(参见图3中的312，例如在查找表中)；当接收到音频对象时，处理器使用音频对象中的所期望的感知位点信息以选择适当的滤波器以用于该音频对象。在组合情况中，处理器选择性地基于各种标准操作为每个动态情况或预先计算的情况，例如音频对象中的所期望的感知位点信息与预先计算的滤波器中的所期望的感知位点信息的接近度、计算资源的可供使用性等。可以取决于设计标准作出三个情况之间的选择。举例来说，当系统具有可供使用的计算资源时，系统实施动态情况。

滤波器导出(参见402)可本地地执行、远程地执行，或这两者的组合。对于本地滤波器导出，渲染系统(例如，图3的渲染系统300)自身导出滤波器。对于远程滤波器导出，渲染系统与远程组件(例如，基于云的滤波器导出机器)通信以导出滤波器。举例来说，本地渲染系统可运行校准脚本并且可将原始数据(例如，涉及扬声器位点)发送到云机器。在云中，确定扬声器的位点并且随后还有渲染滤波器。渲染滤波器的查找表随后被发送回降至渲染系统，其中它们在实时回放期间应用。

虽然上文关于图4A论述了一个音频对象，但是方法400也可用于(例如，经由图3的输入音频信号302)接收到的多个音频对象。图4B提供多个音频对象情况的更多细节。

图4B是渲染系统450的框图。渲染系统450通常执行方法400(参见图4A)，并且可以通过处理器和存储器实施(例如，如在图3的渲染系统300中)。渲染系统450包含数个渲染器452(示出了两个，452a和452b)和组合器454。

渲染器452的数目通常对应于在给定时间待渲染的音频对象的数目。此处，示出了两个渲染器452；渲染器452a接收音频对象460a，并且渲染器452b接收音频对象460b。渲染器452中的每一个使用适当的滤波器(例如，如根据图4A中的402导出)渲染音频对象以产生一或多个经渲染的信号462。此处，渲染器452a渲染音频对象460a以产生一或多个经渲染的信号462a，并且渲染器452b渲染音频对象460b以产生一或多个经渲染的信号462b。经渲染的信号462中的每一个对应于将输出经渲染的信号462的扬声器中的一个(未示出)。举例来说，当渲染系统405在扬声器系统200(参见图2)中实施时，经渲染的信号(例如，462a)对应于将从六个扬声器输出的信号中的每一个。

组合器454从渲染器452接收经渲染的信号462并且组合用于每个扬声器的相应的经渲染的信号以引起一或多个经渲染的信号464。一般而言，组合器454对用于扬声器中的给定一个的经渲染的信号462中的每个相应者的渲染器452中的每一个的贡献求和。举例来说，如果音频对象460a经渲染以由扬声器208和204(参见图2)输出，并且音频对象460b经渲染以由扬声器204和206输出，那么组合器组合经渲染的信号462a和462b使得将对应于扬声器204的分量信号求和。

经渲染的信号464可随后被输出(参见图4A中的412)。

下文提供了滤波器的另外细节(参见402)，包含双耳误差(参见404)、激活惩罚(参见406)，以及成本函数(参见408)。

详细的实施例

一般来说，实施例涉及渲染一或多个音频对象信号的集合，各自具有相关联的且可能地随时间变化的所期望的感知位点，以用于在位于假设的物理位点处的两个或大于两个扬声器的集合上预期的回放。每个音频对象信号的渲染通过用一或多个滤波器对音频对象信号进行滤波实现，其中每个滤波器与扬声器的集合中的一个相关联。滤波器至少部分通过最小化两个组分的组合导出。第一组分是在(a)在假设的一或多个物理收听位点的集合处的所期望的双耳信号，所述所期望的信号从所述音频对象信号及其相关联的所期望的感知位点导出与(b)在一或多个收听位点的集合处通过扬声器的集合产生的双耳信号的模型之间的误差。双耳信号的模型从经渲染的信号(也被称作经滤波的音频对象信号的集合)导出。第二组分是作为经滤波的音频信号的函数的激活惩罚。激活惩罚的具体实例是作为(a)经滤波的音频对象信号、(b)所期望的感知音频对象信号位点和(c)与扬声器的集合相关联的标称扬声器位点的集合的函数的距离惩罚。当对于相同量的整体经滤波的对象音频信号水平更多信号水平存在于其标称位点距离所期望的感知音频对象位点更远的扬声器中时，距离惩罚变得更大。

出于剩余描述的目的，以下术语如下定义：

表1

与第k个音频对象相关联的扬声器信号通过应用于对象的渲染滤波器给出：

s_k＝R_ko_k (12)

渲染器的输出通过所有个体对象扬声器信号的总和给出

举例来说，等式13对应于一或多个经渲染的信号464(参见图4B)，其是用于所有的单独地经渲染的对象460的经渲染的信号462的总和。

实施例的一个目标是计算用于每个音频对象的渲染滤波器的集合R_k，使得所期望的双耳信号b_k近似地在L个收听者的集合处产生而在相同时间确保与该对象相关联的扬声器信号的集合，经滤波的音频对象信号R_ko_k是稀疏的。确切地说，解应该偏好其标称位点npos(s_m)接近音频对象信号的所期望的位点pos(o_k)的扬声器的激活。

渲染滤波器的最佳集合

可通过相对于R_k最小化由双耳误差和激活惩罚的组合组成的成本函数E来实现：

E(R_k)＝comb{E_双耳(b_k,e_k),E_激活(s_k)} (14b)

函数comb{A,B}意味着表示在A和B两者中单调递增的通用组合函数。此类函数的实例包含A+B、AB、e^A+B、e^AB等。

双耳误差函数E_双耳(b_k,e_k)计算在收听者的耳朵处的所期望的双耳信号b_k与在收听者的耳朵处的经建模的双耳信号e_k之间的误差。所期望的双耳信号b_k是从对象信号o_k及其相关联的所期望的感知位点pos(o_k)计算出来的。经建模的双耳信号e_k是通过对经由来自它们的假设的物理位点pos(s_m)的M个扬声器到在它们的假设的物理位点pos(e_n)处的N个收听者的经滤波音频对象信号R_ko_k的回放进行建模计算的。

激活惩罚E_激活(s_k)基于经滤波对象信号s_k计算惩罚。经定义使得当被认为不期望回放的显著量的信号水平存在于扬声器中时函数变得较大。“不期望”的概念可以各种各样的方式定义并且可涉及各种各样的不同的标准的组合。举例来说，激活惩罚可经定义使得远离经渲染的音频对象的所期望的位点的扬声器被视作不期望地(例如，距离惩罚)，而在相同时间在例如婴儿的房间的特定物理位置处可听见的扬声器是不期望的(例如，可听度惩罚)。

激活惩罚的一个特别有用的实施例是距离惩罚E_距离(s_k,npos(s_m),pos(o_k))，所述距离惩罚定义经滤波对象信号s_k、每个扬声器的标称位点npos(s_m)和所期望的音频对象位点pos(o_k)的组合的量度。距离惩罚具有用于相同的量的整体经滤波对象信号水平的性质，其中整体意味着组合所有的扬声器，当更多的能量集中在其标称位点距离所期望的音频对象位点较远的扬声器中时惩罚增大。换句话说，当大部分的信号水平集中在较接近所期望的对象位点的扬声器中时惩罚较小。当信号能量集中在距离所期望的对象位点较远的扬声器中时惩罚较大。“水平”的精确测量并不是关键的，但是一般来说应该粗略地与感知到的响度相关。实例包含均方根(rms)水平、加权的rms水平等。类似地，用于指定“较接近”和“较远”的距离的精确测量并非是关键的，但是应该粗略地与音频的空间区分相关。实例包含笛卡尔距离和角距离。用于距离惩罚中的扬声器的标称位点npos(s_m)可以被设置成等于扬声器的实际上假设的物理位置pos(s_m)，但是这不是要求。在一些情况下，如稍后将论述，有用的是从物理位点导出替代的标称位点以便以更多不同的方式影响扬声器的激活。维持此分离允许此类灵活性。

概括地说通过等式14描述的一般关系，将激活惩罚添加到双耳误差项产生了对一般化的虚拟空间渲染系统的解，所述解是以在感知上有益的方式稀疏的并且区分实施例与在背景技术中论述的现有解。

类似于在背景技术中呈现的内容，所期望的双耳信号b_k可通过将双耳滤波器的集合应用到对象信号o_k产生：

b_k＝B_ko_k， (15)

在上述等式中，B_k是左侧和右侧双耳滤波器对的2Nx1向量。虽然并不是必需的，但是方便的是针对所有N个收听者将滤波器对设置为相同的：

这意味着我们期望N个收听者中的每一个感知到相同的双耳化的版本的o_k。双耳滤波器对可以从以音频对象的所期望的位点作为索引的HRTF集合中选择：

(B_L,B_R)＝HRTF{pos(o_k)} (17)

在耳朵处的经建模的双耳信号可以是使用在等式9中定义的一般化的声波传输矩阵计算的：

虽然并不是必需的，但是矩阵H的元素可以从用于形成所期望的双耳信号的相同的HRTF集合中选择，但是现在以假设的物理收听者位点和假设的物理扬声器位点两者作为索引：

(H_Lnm,H_Rnm)＝HRTF{pos(e_n),pos(s_m)} (19)

在许多情况下，HRTF集合将是以收听者为中心的，并且因此扬声器的位点可以是相对于收听者的位点计算的以便将单个索引计算到集合中，如在等式17中。

通过所期望的双耳信号和现在指定的经建模的双耳信号，方便的是在等式14b中将成本函数的双耳误差项定义为所期望的信号与经建模的信号之间的平方误差：

E_双耳(b_k,e_k)＝(e_k-b_k)^*(e_k-b_k)＝(Hs_k-b_k)^*(Hs_k-b_k) (20)

方便的且仍然非常灵活的是，激活惩罚的定义是经滤波对象音频信号的幂的加权和：

E_激活(s_k)＝s_k ^*W_ks_k (21a)

其中

权重w_m＝惩罚{o_k,s_m}定义具有来自音频对象k的信号的激活扬声器m的惩罚。一般来说，此惩罚可以是各种各样的不同的项的组合，每个旨在实现不同的感知目标。对于上文所描述的距离惩罚，权重w_m可以被定义为：

w_m＝距离{pos(o_k),npos(s_m)} (21c)

在上文的等式中，距离{pos(o_k),npos(s_m)}是所期望的对象位点与扬声器的标称位点之间的距离。可以使用用于距离的各种各样的函数。笛卡尔距离，假设对象和扬声器位点的(x，y，z)方位表示，产生合理的结果。然而，考虑到HRTF集合更加频繁的通过极坐标表示，在一些实施例中角距离可以是更加适当的。

在我们同时希望惩罚在婴儿的房间中可听见的扬声器的情况下(如上文关于可听度惩罚所论述)，权重w_m可以经定义以包含额外项：

w_m＝距离{pos(o_k),npos(s_m)}+Aud{婴儿,s_m} (21d)

此处，Aud{婴儿,s_m}定义婴儿的房间的扬声器m的可听度的某一量度。举例来说，扬声器m到婴儿的房间的距离的倒数可用作可听度的代理。

本文中所描述的虚拟化技术在较高频率下可能失败并且变为在感知上不稳定的，其中与扬声器之间的物理间隔相比音频波长变得极小。因而，典型的是使用串扰消除并且采用例如幅值平移的某一其它渲染技术频带限制系统，不至于截止。在用于本发明的此类混合方式中期望协调高频率与低频率之间的扬声器的激活。实现此目标的一种方式是就通过在较高频率范围中操作的幅值平移器导出的平移增益而言定义激活惩罚。换句话说，惩罚尚未通过幅值平移器激活的扬声器的激活。在此类系统中，激活惩罚权重可以被定义为

其中Pan{o_k,s_k}是对于对象k在较高频率下到扬声器m中的平移增益，并且艾普斯龙(ε)是小正则项以防止除以零。第9,712,939号美国专利描述了被称作质量中心幅值(CMAP)的幅值平移技术，其利用类似于等式21a-c的距离惩罚。因而，在等式21e中CMAP平移器的增益可以被利用作为本文中所定义的距离惩罚的另一实施例。

通过所定义的成本函数的两个元素，方便的是将它们的组合定义为简单总和：

E(R_k)＝E_双耳()+E_激活()＝(Hs_k-b_k)^*(Hs_k-b_k)+s_k ^*W_ks_k (22)

通过因此定义的整体成本函数，目标是接下来找出最小化函数的最佳渲染滤波器

意识到s_k＝R_ko_k，可区分相对于s_k的等式22中的表达并且设置成零。这样做引起用于s_k的以下解

考虑到s_k＝R_ko_k，等式23中的结果意味着最佳滤波器通过下式给出

在实践中，此解产生合理的结果，但是它具有的缺点是一般来说，它并未引起当状况允许它时双耳误差被设置成零。举例来说，当2N≤M时，确实存在将保证零双耳误差的解，例如，伪倒数。然而，将激活惩罚添加在等式22中的成本函数的特定公式中防止了这种情况的发生。实际上，激活惩罚应该谨慎地按比例缩放以便将双耳误差最小化到合理的水平同时仍然维持有意义的稀疏性。

对于可实现零双耳误差的情况，2N≤M，可以利用基于拉格朗日乘数的理论的成本函数的替代的公式使得精确地实现零双耳误差。在相同时间，稀疏性是强制的而无需必需担心激活惩罚的绝对按比例缩放。在此公式中，激活惩罚保持与在等式21中相同，但是双耳误差变为所期望的双耳信号与经建模的双耳信号之间的差前面乘以未知的向量拉格朗日乘数λ。

E_双耳()＝λ^*(Hs_k-b_k) (25)

双耳误差和激活惩罚再次通过简单的添加组合以调配整体成本函数

E()＝λ^*(Hs_k-b_k)+s_k ^*W_ks_k (26)

相对于s_k和λ两者将成本函数的偏导数设置成零产生了用于s_k的唯一解，所述解最小化遭受零双耳误差的激活惩罚

考虑到s_k＝R_ko_k，等式27中的结果意味着最佳滤波器通过下式给出

在实践中已发现设计用于多于一个收听者的所公开的系统产生收益递减。针对性能和复杂度的良好的折衷似乎可通过以下方法来实现：假设单个收听者，N＝1，并且随后依赖于稀疏性约束以使得系统对于可以位于除在公式中假设的一个位点之外的位点处的收听者相当地良好的工作。因为单个收听者确保了针对M≥2的2N≤M，所以可使用等式28中的解并且因此所述解是优选的，因为它确保了零双耳误差。当M＝2且N＝1时它还具有精确地简化标准两个扬声器串扰消除器的解的良好的性质。

如上文所论述，图2A示出了扬声器的任意布置250。本文中所描述的实施例借助于通过最小化成本函数导出滤波器的过程(参见图4A中的402)有益于此类任意布置。

并且如上文所论述，第2015/0245157号美国申请公开描述了用于基于对象的音频的虚拟音频渲染的系统，所述系统被描述为其中单个音频对象在传统的2-扬声器/1-收听者串扰消除器的多个集合之间平移作为对象的位点的函数。第2015/0245157号美国申请公开中的系统的目标类似于本发明所公开的实施例的目标之处在于平移被设计成提供对位于甜蜜点之外的收听者的更加稳固的空间呈现。然而，第2015/0245157号美国申请公开的系统局限于多个对的扬声器，并且平移函数必须手动调适到这些对的特定布局。

本文中所描述的实施例以更加灵活且优美的方式实现类似行为，方法是简单地将标称位点指派到不同于它们的物理位点的扬声器，如参考图5所示。

图5是扬声器系统500的俯视图。扬声器系统500类似于扬声器系统200(参见图2B)，并且包含实施方法400(参见图4A)的渲染系统300(见图3)，如上文所描述。扬声器系统500还包含中心扬声器502、左前扬声器504、右前扬声器506、左侧扬声器508、右侧扬声器510、左上扬声器512，以及右上扬声器514。不同于扬声器系统200，扬声器系统500将左侧扬声器508指派到标称位点528并且将右侧扬声器510指派到标称位点530，两个都在收听者后面。类似地，顶部对的标称位点可以指派到收听者上方的位置。前方对的标称位点可以设置成等于它们的物理位点。使用此配置，本文中所描述的实施例的激活惩罚(例如，距离惩罚)将引起类似于在第2015/0245157号美国申请公开中所描述的那些的扬声器激活，但是没有对布局特定的任何规则的精心制作。替代地，当对象的位点接近于扬声器的标称位点时扬声器将自动地被激活。另外，因为本文中所描述的实施例并不局限于多个对的串扰消除器(如上文关于第2015/0245157号美国申请公开所描述)，所以中心声道可以直接集成到设计最佳渲染滤波器的任务中，并且不需要特殊考虑。

扬声器的标称位点可以通过将扬声器的一或多个物理位点扩展到围绕收听位点的假设的物理集合的布置中导出。

图6是扬声器系统600的俯视图。扬声器系统600类似于扬声器系统500(参见图5)，并且包含实施方法400(参见图4A)的渲染系统300(参见图3)，如上文所描述。扬声器系统600还包含呈条形音响形式因数的中心扬声器602、左前扬声器604、右前扬声器606、左侧扬声器608、右侧扬声器610、左上扬声器612，以及右上扬声器614。扬声器系统600还包含左后扬声器640和右后扬声器642。扬声器系统600的条形音响组件可经由有线或无线连接与后方扬声器640和642通信，例如，以提供对应的经渲染的音频信号304(参见图3)。类似于扬声器系统500，扬声器系统600将左侧扬声器608指派到收听者左侧的标称位点628，并且将右侧扬声器610指派到收听者右侧的标称位点630。

扬声器系统600说明本文中所公开的实施例如何可轻易地适应于额外扬声器的存在。考虑额外扬声器640和642的物理位点，侧面扬声器608和610在条形音响上的标称位点可以移动到示出的位置628和630，在条形音响与物理后方扬声器之间的中间处。在此配置中，因为音频对象从前方行进到后方，所以系统将在前方扬声器、侧面扬声器并且随后后方扬声器之间自动地平移其感知位点，所有作为在渲染滤波器的优化中利用的激活惩罚(例如，距离惩罚)的结果。

图7A到7B是扬声器布置700和702的俯视图。布置700和702两者都包含五个扬声器710、712、714、716和718。扬声器710、712、714、716和718也可各自包含麦克风，如在第WO2018/064410 A1号国际公开中所描述。麦克风使得每个扬声器能够通过检测来自其它扬声器的音频输出来确定其它扬声器的位点，并且通过检测收听者发出的声音来确定收听者的位点。替代地，麦克风可以是离散装置，与扬声器分开。

图7A和7B之间的差异在于用于扬声器710、712、714、716和718的不同的布置700和702。举例来说，扬声器可最初布置在图7A的布置700中，随后可以重新布置成图7B的布置702。本文中所描述的实施例促进扬声器布置的任意放置和任意重新布置，如参考图8所描述的。

图8是确定用于扬声器布置的滤波器的方法800的流程图。方法800可通过扬声器710、712、714、716和718(参见图7A和图7B)实施，例如通过执行一或多个计算机程序。

对于通过等式24和28给出的两个解，注意到用于滤波器的解完全独立于对象信号o_k本身。两个解都取决于传输矩阵H、权重矩阵W_k，以及双耳滤波器向量B_k。组合的这些项继而取决于对象的所期望的位点pos(o_k)、收听者的物理位点pos(e_n)、扬声器的物理位点pos(s_m)，以及扬声器上的标称位点npos(s_m)。方法800基于这些观察结果操作。

在802处，确定多个扬声器的位点。举例来说，给定布置700(参见图7A)，扬声器710、712、714、716和718可通过输出音频并且通过检测从每一其它扬声器接收的输出(例如，通过使用麦克风)确定它们的位点。位点可以是相对位点，例如，基于作为参考位点的扬声器中的一个的位点。

在804处，确定一或多个收听者的位点。举例来说，给定布置700(参见图7A)，扬声器710、712、714、716和718可通过使用它们的麦克风确定收听者的位点。如果扬声器检测到多个收听者，那么它们可将它们的位点平均到单个收听者位点中，因此N＝1假设可如上文参考等式28所论述的使用。替代地，可省略804。

在806处，产生多个滤波器。一般来说，这些滤波器是根据402(参见图4A)产生的，使用扬声器位点(参见802)和收听者位点(参见804)作为输入用于上文所论述的滤波器等式。举例来说，给定布置700(参见图7A)，扬声器710、712、714、716和718可使用过程402(参见图4A)和上文所描述的等式产生滤波器。当省略804时，滤波器可仅基于扬声器位点信息产生(参见802)。

此时，系统可假设扬声器位点和收听者位点可保持静止，并且可产生滤波器作为以音频对象的所期望的位点作为索引的最佳渲染滤波器的查找表。因为这些滤波器并不取决于经渲染的实际对象信号，仅取决于其所期望的位点，所以K个对象信号中的每一个可以是使用此相同查找表经渲染的。

步骤802、804和806可被称作配置阶段或设置阶段。配置阶段可以由收听者起始，例如，通过按下扬声器中的一个上的配置按钮，或通过提供由麦克风接收到的可听见命令。在配置阶段之后，过程通过步骤808、810和812继续，其可被称作操作阶段。

在808处，音频对象是使用多个滤波器渲染的以产生多个经渲染的信号。此步骤大体上类似于上文所论述的步骤410(参见图4A)。举例来说，给定布置700(参见图7A)，扬声器710、712、714、716和718可接收一或多个音频对象并且可使用滤波器渲染音频对象以产生多个经渲染的信号。

在810处，多个经渲染的信号通过多个扬声器输出。此步骤大体上类似于上文所论述的步骤412(参见图4A)。举例来说，给定布置700(参见图7A)，扬声器710、712、714、716和718可各自输出其相应的经渲染的信号作为可听声音。

在812处，评估扬声器布置是否改变。步骤812可以由用户起始(例如，收听者按下重新配置按钮、提供语音命令等)，可以通过系统自身周期性地起始(例如，周期性地执行评估、通过使用麦克风检测来自每一其它扬声器的声音输出连续地执行评估等)等。如果布置已经改变，那么方法返回到802并且重新确定扬声器的位点。如果布置尚未改变，那么方法按照808的操作阶段继续。举例来说，扬声器710、712、714、716和718可能已经在布置700中(参见图7A)、可能已经变为布置702(参见图7B)，并且可能已经接收到语音命令以重新产生滤波器；方法随后返回到802。

虽然已经在重新布置扬声器的情形下描述了方法800(例如，从图7A的布置700到图7B的布置702)，但是方法800还可包含添加额外扬声器到布置(其还可包含，或不包含重新布置现有扬声器)；从布置中移除扬声器中的一个(其还可包含，或不包含重新布置剩余的扬声器)；以及根据改变收听者位点(参见804)而不重新布置扬声器(参见802)重新产生滤波器。

实施细节

实施例可在硬件、存储在计算机可读媒体上的可执行模块或两者的组合(例如，可编程逻辑阵列)中实施。除非另外说明，否则通过实施例执行的步骤不必固有地涉及任何特定计算机或其它设备，虽然它们在某些实施例中可以如此。确切地说，各种通用机器可与根据本文中的教示写入的程序一起使用，或者可以更方便的是构建更加专业化的设备(例如，集成电路)来执行所需的方法步骤。因此，实施例可在一或多个可编程计算机系统上执行的一或多个计算机程序中实施，所述计算机系统各自包括至少一个处理器、至少一个数据存储系统(包含易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口，以及至少一个输出装置或端口。程序代码被应用于输入数据以执行本文中所描述的功能并且产生输出信息。输出信息以已知的方式被应用于一或多个输出装置。

每个此类计算机程序优选地存储在或下载到可由一般或专用可编程计算机读取的存储媒体或装置(例如，固态存储器或媒体，或磁性或光学媒体)，以用于当存储媒体或装置通过计算机系统读取时配置和操作计算机以执行本文中所描述的过程。发明性系统也可以被认为是被实施为计算机可读存储媒体，配置有计算机程序，其中存储媒体如此配置使得计算机系统以特定和预定义方式操作以执行本文中所描述的功能。(软件本身和无形的或暂时性信号被排除从而它们是不可获专利的标的物。)

以上描述说明了本发明的各种实施例连同可以如何实施本发明的各方面的实例。以上实例和实施例不应被视为是仅有的实施例，且呈现以上实例和实施例是为了说明由所附权利要求书定义的本发明的灵活性和优点。基于以上公开内容和所附权利要求书，其它布置、实施例、实施方案和等效内容对于所属领域的技术人员将是显而易见的且可在不脱离由权利要求书定义的本发明的精神和范围的前提下采用。

Claims

1.一种渲染音频的方法，所述方法包括：

导出多个滤波器，其中所述多个滤波器中的每一个与多个扬声器中的对应的一个相关联，其中导出所述多个滤波器包含：

使用所述多个滤波器定义音频对象的双耳误差，其中所述音频对象与所期望的感知位点相关联，其中所述双耳误差是涉及至少一个收听者位点的所期望的双耳信号与涉及所述至少一个收听者位点的经建模的双耳信号之间的差异，

使用所述多个滤波器定义所述音频对象的激活惩罚，以及

最小化关于所述多个滤波器的成本函数，其中所述成本函数是所述双耳误差以及所述激活惩罚的组合；

使用所述多个滤波器渲染所述音频对象以产生多个经渲染的信号；以及

通过所述多个扬声器输出所述多个经渲染的信号；

其中所述多个扬声器包含第一扬声器以及第二扬声器，其中所述第一扬声器具有距离所述音频对象的所述所期望的感知位点第一距离的标称位点，并且其中所述第二扬声器具有距离所述音频对象的所述所期望的感知位点第二距离的标称位点，其中所述第一距离大于所述第二距离，

其中所述激活惩罚是距离惩罚，其中对于所述多个经渲染的信号的给定整体水平，当与所述第二扬声器相关联相比有更多的所述给定整体水平与所述第一扬声器相关联时所述距离惩罚变得较大。

2.根据权利要求1所述的方法，其中所述双耳误差是零。

3.根据权利要求1所述的方法，其中所述所期望的双耳信号是基于所述音频对象以及所述音频对象的所述所期望的感知位点定义的。

4.根据权利要求1所述的方法，其中所述所期望的双耳信号是使用头部相关传递函数HRTF的数据库以及HRTF的参数模型中的一个定义的。

5.根据权利要求1所述的方法，其中所述经建模的双耳信号通过基于所述至少一个收听者位点通过具有多个标称扬声器位点的所述多个扬声器对所述多个经渲染的信号的回放进行建模来定义。

6.根据权利要求1所述的方法，其中所述经建模的双耳信号是使用头部相关传递函数HRTF的数据库以及HRTF的参数模型中的一个定义的。

7.根据权利要求1所述的方法，其中所述激活惩罚使成本与在所述多个扬声器之中指派信号能量相关联。

8.根据权利要求1所述的方法，其中所述激活惩罚是距离惩罚，其中所述距离惩罚是基于所述多个经渲染的信号、所述多个扬声器的多个标称扬声器位点以及所述音频对象的所述所期望的感知位点定义的。

9.根据权利要求1所述的方法，其中所述成本函数是在A以及B两者中单调递增的组合函数，其中A对应于所述双耳误差并且B对应于所述激活惩罚。

10.根据权利要求9所述的方法，其中所述成本函数是A+B、AB、e^A+B以及e^AB中的一个。

11.根据权利要求1所述的方法，其中所述音频对象是多个音频对象中的一个，其中所述多个音频对象是使用所述多个滤波器渲染的，并且其中所述多个音频对象中的每一个具有相关联的所期望的感知位点。

12.根据权利要求1所述的方法，其中所述多个扬声器具有多个标称扬声器位点，其中所述多个标称扬声器位点中的每一个是第一位点以及第二位点中的一个，其中所述第一位点是所述多个扬声器中的对应的一个的实际扬声器位点，并且其中所述第二位点不是所述实际扬声器位点。

13.根据权利要求1所述的方法，其中所述多个扬声器中的一个具有标称扬声器位点，其中所述标称扬声器位点是通过扩展所述多个扬声器的一或多个物理位点导出的。

14.根据权利要求1所述的方法，其中所述多个滤波器独立于所述音频对象。

15.根据权利要求14所述的方法，其中所述多个滤波器存储为以所述音频对象的所述所期望的感知位点作为索引的查找表。

16.根据权利要求1所述的方法，其中所述多个扬声器具有多个物理位点，其中所述多个物理位点是在设置阶段中确定的。

17.一种存储计算机程序的非暂时性计算机可读媒体，所述计算机程序在由处理器执行时控制设备以执行包含根据权利要求1到16中任一权利要求所述的方法的处理。

18.一种用于渲染音频的设备，所述设备包括：

多个扬声器；以及

至少一个处理器，

其中所述至少一个处理器经配置以导出多个滤波器，其中所述多个滤波器中的每一个与所述多个扬声器中的对应的一个相关联，其中导出所述多个滤波器包含：

使用所述多个滤波器定义所述音频对象的激活惩罚，以及

最小化关于所述多个滤波器的成本函数，其中所述成本函数是所述双耳误差以及所述激活惩罚的组合，

其中所述至少一个处理器经配置以使用所述多个滤波器渲染所述音频对象以产生多个经渲染的信号，以及

其中所述多个扬声器经配置以输出所述多个经渲染的信号；