[go: up one dir, main page]

CN102754147B - 复杂度可缩放的感知节拍估计 - Google Patents

复杂度可缩放的感知节拍估计 Download PDF

Info

Publication number
CN102754147B
CN102754147B CN201080048994.4A CN201080048994A CN102754147B CN 102754147 B CN102754147 B CN 102754147B CN 201080048994 A CN201080048994 A CN 201080048994A CN 102754147 B CN102754147 B CN 102754147B
Authority
CN
China
Prior art keywords
tempo
audio signal
determining
encoded bitstream
payload
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080048994.4A
Other languages
English (en)
Other versions
CN102754147A (zh
Inventor
A·比斯沃斯
D·霍洛斯
M·舒格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN102754147A publication Critical patent/CN102754147A/zh
Application granted granted Critical
Publication of CN102754147B publication Critical patent/CN102754147B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏的方法和系统。特别地,本申请涉及由人类听众感知的节奏的估计,以及涉及用于以可缩放的计算复杂度进行节奏估计的方法和系统。一种用于从包括谱带复制数据的音频信号的编码的比特流中提取该音频信号的节奏信息的方法和系统。该方法包括以下步骤∶确定对于音频信号的一时间间隔在该编码的比特流中包含的谱带复制数据量相关联的有效载荷量;对于该音频信号的编码的比特流的连续的时间间隔,重复该确定步骤,从而确定有效载荷量的序列;识别该有效载荷量的序列的周期性;以及从识别的周期性提取音频信号的节奏信息。

Description

复杂度可缩放的感知节拍估计
技术领域
本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏(tempo)的方法和系统。特别地,该申请涉及由人类听众感知的节奏的估计,以及用于以可缩放的计算复杂度进行节奏估计的方法和系统。 
背景技术
例如PDA、智能电话、移动电话和便携式媒体播放器的便携式手持设备通常包括音频和/或视频再现(render)能力并且已经变成重要的娱乐平台。此发展由无线或有线传输能力在这样的设备中的逐渐渗透推进。由于诸如HE-AAC格式之类的媒体传输和/或存储协议的支持,媒体内容可以被连续下载并存储到便携式手持设备上,从而提供实际上无限量的媒体内容。 
但是,由于有限的计算功率和能量消耗是重要的约束,因此低复杂度的算法对于移动/手持设备是关键性的。这些约束对于新兴市场中的低端便携式设备更加关键。考虑到在通常的便携式电子设备上可用的海量媒体文件,为了对媒体文件聚类(cluster)或分类从而使得便携式电子设备的用户能够识别例如音频、音乐和/或视频文件的合适的媒体文件,MIR(音乐信息检索)应用是期望的工具。用于这样的MIR应用的低复杂度的计算方案是期望的,这是因为否则,它们在具有有限计算和功率资源的便携式电子设备上的可用性将受到损害。 
用于各种MIR应用(例如风格(genre)和情感(mood)分类、音乐概括(summarization)、音频缩略化、自动播放列表生成和使用音乐相似性的音乐推荐系统等等)的重要的音乐特征是音乐节奏。因而,具有低计算复杂度的用于节奏确定的过程将有助于对于移动设备 的所提到的MIR应用的分散实施的发展。 
此外,虽然通常通过以BPM(每分钟拍数)计的活页乐谱或乐谱上的标记节奏(notated tempo)来表征音乐节奏,但是此值通常不对应于感知节奏(perceptual tempo)。例如,如果一群听众(包括熟练的音乐家)被要求评注音乐选段的节奏,则他们通常给出不同的答案,即他们通常以不同的度量水平(metrical level)拍击。对于一些音乐选段,感知的节奏较不含糊,并且所有听众通常以相同的度量水平拍击,但是对于其它音乐选段,节奏可能是含糊的,并且不同的听众识别不同的节奏。换句话说,感知实验已经显示感知的节奏可能不同于标记节奏。一段音乐可能感觉比它的标记节奏快或慢,因为占优势的感知的律动(pulse)可能是比标记节奏高或低的度量水平。鉴于MIR应用应当优选地考虑最有可能被用户感知的节奏这一事实,自动节奏提取器应当预测音频信号的在感知上最突出的节奏。 
已知的节奏估计方法和系统具有各种缺点。在很多情况下,它们限于特别的音频编解码器,例如MP3,并且不能应用于利用其他编解码器编码的音轨。此外,这样的节奏估计方法通常仅仅在应用于具有简单明了的旋律结构的西方流行音乐上时才能正常工作。另外,已知的节奏估计方法没有考虑感知方面,即它们没有针对估计最有可能被听众感知的节奏。最后,已知的节奏估计方案通常在未压缩PCM域、变换域或压缩域中的仅仅之一中工作。 
期望的是提供克服已知节奏估计方案的上述缺点的节奏估计方法和系统。特别地,期望的是提供编解码器不可知的和/或可适用于任何类型的音乐风格的节奏估计。此外,期望的是提供一种估计音频信号的在感知上最突出的节奏的节奏估计方案。此外,期望一种可应用于上述域(即未压缩的PCM域、变换域和压缩域)中的任何一个中的音频信号的节奏估计方案。还期望提供具有低计算复杂度的节奏估计方案。 
节奏估计方案可以用于各种应用中。由于节奏是音乐中的基础语义信息,因此这样的节奏的可靠估计将提高例如自动的基于内容的风格分类、情感分类、音乐相似、音频缩略化和音乐概括之类的其他MIR应用的性能。此外,感知节奏的可靠估计对于音乐选择、比较、混合和播放列表化是有用的统计。值得注意的是,对于自动播放列表生成器或音乐导航仪或DJ装置,感知节奏或感觉通常比标记的或物理的节奏更相关(relevant)。此外,对于感知的节奏的可靠估计可以对游戏应用有用。举例来说,音带节奏可以用于控制相关的游戏参数,例如游戏的速度,反之亦然。这可以用于使用音频来个性化游戏内容并且用于为用户提供增强的体验。进一步的应用领域可以是基于内容的音频/视频同步,其中音乐节拍(beat)或节奏是用作用于定时事件的锚标(anchor)的首要信息源。
应当注意,在本申请中,术语“节奏”被理解为触觉律动(pulse)的速率。此触觉也被称为脚拍击速率,即听众在收听例如音乐信号的音频信号时拍击他们的脚的速率。这不同于定义音乐信号的层级结构的音乐计量。 
WO2006/037366A1描述了用于基于音乐片段的时域PCM表示生成编码的旋律图案的设备和方法。US7518053B1描述了用于从两个音频流提取节拍并且将这两个音频流的节拍对齐的方法。 
发明内容
根据一方面,描述了一种用于从音频信号的编码的比特流中提取音频信号的节奏信息的方法,其中该编码的比特流包括谱带复制数据。编码的比特流可以是HE-AAC比特流或mp3PRO比特流。该音频信号可以包括音乐信号,并且提取节奏信息可以包括估计音乐信号的节奏。 
该方法可以包括确定对于音频信号的时间间隔编码的比特流中所包含的谱带复制数据的量相关联的有效载荷量的步骤。值得注意的是,在编码的比特流是HE-AAC比特流的情况下,后一步骤可以包括确定在该时间间隔中该编码的比特流的一个或多个填充元素字段中所包括的数据的量,以及基于在该时间间隔中包括在该编码的比特流的该一个或多个填充元素字段中的数据的量来确定有效载荷量。 
由于谱带复制数据可以使用固定头部被编码这一事实,在提取节奏信息之前去除这样的头部可能是有益的。特别地,该方法可以包括确定在该时间间隔中该编码的比特流的一个或多个填充元素字段中所包含的谱带复制头部数据的量的步骤。此外,在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的数据的净量可以通过扣除或减去在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的谱带复制头部数据的量来确定。因此,头部比特已被去掉,并且可以基于数据的净量确定有效载荷量。应当注意,如果谱带复制头部具有固定长度,则该方法可以包括:对在一时间间隔中谱带复制头部的数目X计数,以及从在该时间间隔中该编码的比特流的一个或多个填充元素字段中所包含的谱带复制头部数据的量扣除或减去该头部的长度的X倍。 
在一个实施例中,该有效载荷量与在该时间间隔中编码的比特流的一个或多个填充元素字段中所包含的谱带复制数据的量或净量对应。可替换地或附加地,可以从该一个或多个填充元素字段中去掉进一步的开销数据,以便确定实际的谱带复制数据。 
编码的比特流可以包括多个帧,每个帧与预定时间长度的音频信号的选段对应。举例来说,帧可以包括音乐信号的几毫秒的选段。时间间隔可以与由编码的比特流的一帧覆盖的时间长度对应。举例来说,AAC帧通常包括1024个频谱值,即MDCT系数。频谱值是音频信号的特定时间实例或时间间隔的频率表示。时间和频率之间的关系可以被表示为下式: 
fS=2·fMAX t = 1 f S
其中fMAX是被覆盖的频率范围,fs是采样频率,t是时间分辨率,即由一帧覆盖的音频信号的时间间隔。对于fs=44100Hz的采样频率,对于AAC帧,这与时间分辨率t=1024/44100Hz=23,219ms对应。由于在一个实施例中,HE-AAC被定义为“双倍速率系统(dual-rate system)”,其中它的核心编码器(AAC)以采样频率的一半工作,因此可以实现t=1024/22050Hz=46,4399ms的最大时间分辨率。 
该方法可以包括进一步的步骤:对于音频信号的编码的比特流的连续的时间间隔,重复上述确定步骤,从而确定有效载荷量的序列。 如果编码的比特流包括一连串的帧,则可以对于该编码的比特流的某一个帧集合,即对于编码的比特流的所有帧,执行此重复步骤。 
在进一步的步骤中,该方法可以识别有效载荷量的序列中的周期性。这可以通过识别有效载荷量的序列中的峰值或重现图案的周期性来完成。周期性的识别可以通过对有效载荷量的序列执行谱分析以得到一组功率值和相应的频率来完成。可以通过确定该组功率值中的相对最大值并且通过选择该周期性作为相应的频率来识别有效载荷量的序列中的周期性。在一个实施例中,确定绝对最大值。 
谱分析通常沿着有效载荷量的序列的时间轴执行。此外,谱分析通常对有效载荷量的序列的多个子序列执行,从而得到多组功率值。举例来说,子序列可以覆盖音频信号的某一长度,例如6秒。此外,子序列可以彼此重叠例如50%。因而,可以获得多组功率值,其中每组功率值与音频信号的某一选段对应。对于整个音频信号的功率值的总集合可以通过将该多组功率值求平均来获得。应当理解,术语“求平均”覆盖各种类型的数学操作,例如计算均值或确定中值。即,功率值的总集合可以通过计算该多组功率值的平均功率值集合或中值功率值集合来获得。在一个实施例中,执行谱分析包括执行频率变换,诸如傅里叶变换或FFT。 
功率值集合可以经受进一步的处理。在一个实施例中,功率值集合乘以与它们的相应频率的人类感知偏好相关联的权重。举例来说,这样的感知权重可以加重与人类更经常察觉的节奏对应的频率,而与人类较不经常察觉的节奏对应的频率被衰减。 
该方法可以包括从识别的周期性中提取音频信号的节奏信息的进一步的步骤。这可以包括确定与功率值集合的绝对最大值对应的频率。这样的频率可以被称为音频信号的物理上突出的节奏。 
根据进一步的方面,描述了一种用于估计音频信号的感知突出的节奏的方法。感知突出的节奏可以是由一群用户在听例如音乐信号的音频信号时最经常感知的节奏。它通常不同于音频信号的物理上突出的节奏,该物理上突出的节奏可以被定义为例如音乐信号的音频信号 的物理上或听觉上最显著的节奏。 
该方法可以包括确定该音频信号的调制谱的步骤,其中该调制谱通常包括多个出现频率和相应的多个重要性值,其中该重要性值指示相应的出现频率在该音频信号中的相对重要性。换句话说,出现频率指示该音频信号中的某一周期性,而相应的重要性值指示这样的周期性在该音频信号中的意义。举例来说,周期性可以是音频信号中的瞬变现象,例如音乐信号中的基本鼓的声音,其在复现的时刻发生。如果此瞬变现象是有区别的,则与它的周期性对应的重要性值通常将高。 
在一个实施例中,音频信号由沿着时间轴的PCM样本的序列表示。对于这样的情况,确定调制谱的步骤可以包括以下步骤:从PCM样本的序列中选择多个接连的、部分重叠的子序列;对于该多个接连的子序列,确定具有谱分辨率的多个接连的功率谱;使用Mel(唛)频率变换或任何其它感知激发的非线性的频率变换来浓缩(condense)该多个接连的功率谱的谱分辨率;和/或沿着时间轴对该多个接连的被浓缩的功率谱执行谱分析,从而得到多个重要性值和它们的相应的出现频率。 
在一个实施例中,音频信号由沿着时间轴的接连的子带系数块的序列表示。这样的子带系数可以例如是如在MP3、AAC、HE-AAC、Dolby Digital和Dolby Digital Plus编解码器的情况下的MDCT系数。在此情况下,确定调制谱的步骤可以包括:使用Mel频率变换浓缩块中的子带系数的数目;和/或沿着时间轴对接连的被浓缩的子带系数块的序列执行谱分析,从而得到多个重要性值和它们的相应的出现频率。 
在一个实施例中,音频信号由沿着时间轴的包括谱带复制数据和多个接连的帧的编码的比特流表示。举例来说,编码的比特流可以是HE-AAC比特流或mp3PRO比特流。在此情况下,确定调制谱的步骤可以包括:确定编码的比特流的帧序列中与谱带复制数据量相关联的有效载荷量的序列;从有效载荷量的序列中选择多个接连的、部分重叠的子序列;和/或沿着时间轴对该多个接连的子序列执行谱分析,从而得到多个重要性值和它们的相应的出现频率。换句话说,可以根 据上述方法确定调制谱。 
此外,确定调制谱的步骤可以包括用于增强调制谱的处理。这样的处理可以包括将多个重要性值乘以与它们的相应的出现频率的人类感知偏好相关联的权重。 
该方法可以包括将物理上突出的节奏确定为与该多个重要性值的最大值对应的出现频率的进一步的步骤。此最大值可以是多个重要性值的绝对最大值。 
该方法可以包括由调制谱确定音频信号的节拍度量的进一步的步骤。在一个实施例中,该节拍度量指示物理上突出的节奏和与该多个重要性值的相对较高的值(例如该多个重要性值中的第二最高值)对应的至少一个其它出现频率之间的关系。该节拍度量可以是以下中的一个:例如在3/4节拍的情况下为3;或在4/4节拍的情况下为2。该节拍度量可以是与物理上突出的节奏和至少一个其它突出的节奏之间的比率相关联的,即与该音频信号的多个重要性值的相对较高的值对应的出现频率相关联的因数。一般地说,节拍度量可以表示音频信号的多个物理上突出的节奏之间的关系,例如音频信号的两个物理上最突出的节奏之间的关系。 
在一个实施例中,确定节拍度量包括以下步骤:确定对于多个非零的频率滞后的调制谱的自相关;识别自相关的最大值和相应的频率滞后;和/或基于相应的频率滞后和物理上突出的节奏确定节拍度量。确定节拍度量还可以包括以下步骤:确定该调制谱和分别与多个节拍度量对应的多个合成拍击函数之间的互相关;和/或选择得到最大互相关的节拍度量。 
该方法可以包括从调制谱确定感知节奏指示符的步骤。第一感知节奏指示符可以被确定为由多个重要性值的最大值规格化的多个重要性值的均值。第二感知节奏指示符可以被确定为多个重要性值的最大重要性值。第三感知节奏指示符可以被确定为调制谱的矩心(centroid)出现频率。 
该方法可以包括以下步骤:通过根据节拍度量修改物理上突出的 节奏来确定感知突出的节奏,其中该修改步骤考虑了感知节奏指示符和物理上突出的节奏之间的关系。在一个实施例中,确定感知突出的节奏的步骤包括:确定第一感知节奏指示符是否超过第一阈值;并且只有当第一阈值被超过时,才修改物理上突出的节奏。在一个实施例中,确定感知突出的节奏的步骤包括:确定第二感知节奏指示符是否低于第二阈值;以及如果第二感知节奏指示符低于第二阈值,则修改物理上突出的节奏。 
替换地或附加地,确定感知突出的节奏的步骤可以包括:确定第三感知节奏指示符和物理上突出的节奏之间的失配;以及如果确定了失配,则修改物理上突出的节奏。失配可以例如通过确定第三感知的节奏指示符低于第三阈值并且物理上突出的节奏高于第四阈值;和/或通过确定第三感知的节奏指示符高于第五阈值并且物理上突出的节奏低于第六阈值,来确定。通常,第三、第四、第五和第六阈值中的至少一个与人类感知节奏偏好相关联。这样的感知节奏偏好可以指示第三感知的节奏指示符和由一群用户感知的音频信号的速度的主观感知之间的相关性。 
根据节拍度量修改物理上突出的节奏的步骤可以包括:将节拍水平增加到基础节拍的下一个较高的节拍水平;和/或将该节拍水平降低到基础节拍的下一个较低的节拍水平。举例来说,如果基础节拍是4/4节拍,则增加节拍水平可以包括:以因数2增加物理上突出的节奏,例如与四分音符对应的节奏,从而得到下一个较高的节奏,例如与八分音符对应的节奏。类似地,降低节拍水平可以包括除以2,从而从基于1/8的节奏转移到基于1/4的节奏。 
在一个实施例中,增加或降低节拍水平可以包括:在3/4节拍的情况下,将物理上突出的节奏乘以或除以3;和/或在4/4节拍的情况下,将物理上突出的节奏乘以或除以2。 
根据进一步的方面,描述了一种软件程序,其适于在处理器上运行并且当在计算装置上运行时用于执行本申请中描述的方法步骤。 
根据另一个方面,描述了一种存储介质,其包括软件程序,该软 件程序适于在处理器上运行并且当在计算装置上运行时用于执行本申请中描述的方法步骤。 
根据另一个方面,描述了一种计算机程序产品,其包括在计算机上运行时用于执行本申请中描述的方法的可执行指令。 
根据进一步的方面,描述一种携带式电子设备。该设备可以包括:存储单元,被配置为存储音频信号;音频再现单元,被配置为再现该音频信号;用户接口,被配置为接收用户的对于关于该音频信号的节奏信息的请求;和/或处理器,被配置为通过对音频信号执行本申请中描述的方法步骤来确定节奏信息。 
根据另一个方面,描述了一种被配置为从音频信号的包括谱带复制数据的编码的比特流(例如HE-AAC比特流)提取音频信号的节奏信息的系统。该系统可以包括:用于确定该音频信号的时间间隔的编码的比特流中所包含的谱带复制数据的量相关联的有效载荷量的装置;用于对于音频信号的编码的比特流的连续的时间间隔重复该确定步骤,从而确定有效载荷量的序列的装置;用于识别有效载荷量的序列中的周期性的装置;和/或用于从识别的周期性提取音频信号的节奏信息的装置。 
根据进一步的方面,描述一种被配置为估计音频信号的感知突出的节奏的系统。该系统可以包括:用于确定音频信号的调制谱的装置,其中该调制谱包括多个出现频率和相应的多个重要性值,其中该重要性值指示相应的出现频率在该音频信号中的相对重要性;用于将物理上突出的节奏确定为与多个重要性值的最大值对应的出现频率的装置;用于通过分析调制谱来确定音频信号的节拍度量的装置;用于从调制谱确定感知节奏指示符的装置;和/或用于通过根据节拍度量修改物理上突出的节奏来确定感知突出的节奏的装置,其中该修改步骤考虑了感知节奏指示符和物理上突出的节奏之间的关系。 
根据另一个方面,描述了一种用于生成包括音频信号的元数据的编码的比特流的方法。该方法可以包括将音频信号编码为有效载荷数据的序列从而得到编码的比特流的步骤。举例来说,该音频信号可以 被编码为HE-AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。替换地或附加地,该方法可以依赖已经编码的比特流,例如该方法可以包括接收编码的比特流的步骤。 
该方法可以包括确定与音频信号的节奏相关联的元数据并且将元数据插入到编码的比特流中的步骤。元数据可以是表示音频信号的物理上突出的节奏和/或感知突出的节奏的数据。该元数据也可以是表示来自该音频信号的调制谱的数据,其中该调制谱包括多个出现频率和相应的多个重要性值,其中该重要性值指示相应的出现频率在该音频信号中的相对重要性。应当注意,与音频信号的节奏相关联的元数据可以根据本申请中概述的方法中的任何一个来确定。即,节奏和调制谱可以根据此申请中概述的方法来确定。 
根据进一步的方面,描述一种包括元数据的音频信号的编码的比特流。该编码的比特流可以是HE-AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。该元数据也可以包括表示以下中的至少一个的数据∶音频信号的物理上突出的节奏和/或感知突出的节奏;或来自于音频信号的调制谱,其中该调制谱包括多个出现频率和相应的多个重要性值,其中该重要性值指示相应的出现频率在该音频信号中的相对重要性。特别地,元数据可以包括表示由本申请描述的方法生成的节奏数据和调制谱数据的数据。 
根据另一个方面,描述一种被配置为生成包括音频信号的元数据的编码的比特流的音频编码器。该编码器可以包括:用于将音频信号编码为有效载荷数据的序列从而得到编码的比特流的装置;用于确定与音频信号的节奏相关联的元数据的装置;和用于将元数据插入到编码的比特流中的装置。按照与上述方法类似的方式,该编码器可以依赖已经编码的比特流,以及该编码器可以包括用于接收编码的比特流的装置。 
应当注意,根据进一步的方面,描述一种用于解码音频信号的编码的比特流的相应方法和被配置为解码音频信号的编码的比特流的相应解码器。该方法和解码器被配置为从编码的比特流中提取各个元数 据,特别是与节奏信息相关联的元数据。 
应当注意,可以任意组合在此文件中描述的实施例和方面。具体地,应当注意,在系统的上下文中描述的方面和特征也可应用在相应的方法的上下文中,反之亦然。此外,应当注意,本文件的公开除了覆盖由从属权利要求中的反向参考明确给出的权利要求组合之外,也覆盖其它权利要求组合,即权利要求和它们的技术特征可以按照任何次序和任何形式组合。 
附图说明
现在将参考附图,通过说明性的、而不限制本发明的范围或精神示例来描述本发明,其中∶ 
图1示出了大的音乐集(music collection)对比单个音乐选段的拍击节奏的示例性的共振模型; 
图2显示短块的MDCT系数的示例性的交织; 
图3显示示例性的Mel标度(Mel scale)和示例性的Mel标度滤波器组; 
图4示出了示例性的压缩扩展(companding)函数; 
图5示出了示例性的加权函数; 
图6示出了示例性的功率和调制谱; 
图7显示示例性的SBR数据元素; 
图8示出了SBR有效载荷大小和得到的调制谱的示例性的序列; 
图9显示建议的节奏估计方案的示例性的概述; 
图10显示建议的节奏估计方案的示例性的比较; 
图11显示具有不同的度量的音轨的示例性的调制谱; 
图12显示感知节奏分类的示例性的实验结果;和 
图13显示节奏估计系统的示例性的框图。 
具体实施方式
下面描述的实施例仅仅是说明节奏估计的方法和系统的原理。应 当理解,这里描述的布置和细节的修改和变化对本领域技术人员将是显而易见的。因此,它仅仅由后面的专利权利要求的范围限制,而不是由这里实施例的作为描述和说明而呈现的具体细节限制。 
如在介绍性的部分中指示的,已知的节奏估计方案局限于某些域的信号表示,例如PCM域、变换域或压缩域。特别地,当前不存在直接由压缩的HE-AAC比特流计算特征而不执行熵解码的用于节奏估计的解决方案。 
此外,现有的系统主要限于西方流行音乐。 
此外,现有方案没有考虑由人类听众感知的节奏,结果存在八度音阶错误或两倍/一半时间混乱(confusion)。该混乱可能起因于如下事实:在音乐中,不同的乐器以具有周期性的旋律(rhythm)演奏,该周期性彼此为整体相关的倍数(multiple)。如下面将要说明的,发明人洞察到,节奏的感知不仅取决于重复率或周期性,而且受其它感知因素影响,因此通过利用附加的感知特征来克服这些混乱。基于这些附加的感知特征,执行以感知激发的方式的提取的节奏的校正,即减少或去掉上述节奏混乱。 
正如已经明确的,当谈论到“节奏”时,必须区分标记节奏、物理上测量的节奏和感知节奏。 
物理上测量的节奏是从对采样的音频信号的实际测量获得的,而感知节奏具有主观的特性并且通常由感知收听实验确定。另外,节奏是与内容高度相关的音乐特征,并且有时很难自动检测到,这是因为在某些音频或音乐轨迹中,音乐选段的节奏携带部分不清楚。此外,听众的音乐体验和他们的焦点对节奏估计结果有显著的影响。在比较标记的、物理上测量的和感知的节奏时,这可能在使用的节奏度量中导致差别。此外,物理节奏和感知节奏估计方法可以组合起来使用以便彼此校正。这可从以下情况看出,在例如与某一每分钟拍数(BPM)值和它的倍数对应的完全和两倍音符已经通过对音频信号的物理测量被检测到时,但是感知节奏被归类为缓慢。因此,假定物理测量是可靠的,则校正节奏是检测到的较缓慢的一个。换句话说,集中于标记 节奏的估计的估计方案将提供与完全和两倍音符对应的含糊的估计结果。如果与感知节奏估计方法组合,则可以确定校正(感知)节奏。 
对人类节奏感知的大规实验显示,人们倾向于感知在100和140BPM之间的范围中的在120BPM处具有峰值的音乐节奏。这可以利用图1所示的虚线共振曲线101建模。此模型可以用于预测大的数据集的节奏分布。然而,当将对于单个音乐文件或轨迹的拍击实验的结果(见附图标记102和103)与共振曲线101比较时,可以看出,单独的音轨的感知的节奏102、103不一定符合模型101。可以看出,主题可能以不同的度量水平102或103拍击,这有时导致完全不同于模型101的曲线。这对于不同类型的风格和不同类型的旋律尤其成立。这样的度量含糊导致节奏确定的高度混乱,并且是对非感知驱动的节奏估计算法的总体“不满意”性能的可能的解释。 
为了克服此混乱,提出一种新的感知激发的节奏校正方案,其中基于许多听觉线索(acoustic cue)、即音乐参数或特征的提取,将权重分配给不同的度量水平。这些权重可以用于校正提取的、物理上计算的节奏。特别地,这样的校正可以用来确定感知突出的节奏。 
在下文中,描述了用于从PCM域和变换域提取节奏信息的方法。调制谱分析可以用于此目的。一般说来,调制谱分析可以用来捕获音乐特征随时间的重复性。它可以用于评估音乐轨迹的长期统计和/或它可以用于定量的节奏估计。可以对于未压缩PCM(脉冲码调制)域中的音轨和/或对于变换域(例如,HE-AAC(高效高级音频编码)变换域)中的音轨,确定基于Mel功率谱(Mel Power spectra)的调制谱。 
对于在PCM域中表示的信号,调制谱直接由音频信号的PCM样本确定。另一方面,对于在变换域(例如HE-AAC变换域)中表示的音频信号,信号的子带系数可以用于调制谱的确定。对于HE-AAC变换域,可以逐个帧地来确定某一数目(例如,1024)的MDCT(修正离散余弦变换)系数的调制谱,MDCT系数已经在解码的同时或编码的同时直接从HE-AAC解码器获取。 
当在HE-AAC变换域中工作时,考虑短块和长块的存在可以是 有益的。虽然对于MFCC(Mel频标倒谱系数)的计算或对于在非线性频率标度上计算的倒谱的计算,短块可能由于它们的较低的频率分辨率而被略过或放弃,但是当确定音频信号的节奏时应该考虑短块。这对于包含许多尖锐的开始(onset)因此包含用于高质量表示的大量短块的音频和语音信号特别恰当。 
提出对于单个帧,当该帧包括八个短块时,执行MDCT系数到长块的交织。通常,可以区分两种块,短块和长块。在一个实施例中,长块等于帧的大小(即,与特定时间分辨率对应的1024个谱系数)。短块包括128个谱值以实现用于在时间上的音频信号特征的合适表示的八倍高的时间分辨率(1024/128)并且避免前回声假象。因此,帧由八个短块形成,代价是频率分辨率以相同的因数八减小。此方案通常被称为“AAC块切换方案”。 
这在图2中示出,其中8个短块201到208的MDCT系数被交织以使得这8个短块的各自的系数被重新分组,即,使得8个块201到208的第一MDCT系数被重新分组,随后是8个块201到208的第二MDCT系数,等等。通过执行此操作,相应的MDCT系数,即与相同频率对应的MDCT系数被分组在一起。帧内的短块的交织可以被理解为“人为地”增大帧内的频率分辨率的操作。应当注意,可以想到增大频率分辨率的其它手段。 
在示出的例子中,对于一组8个短块获得包括1024个MDCT系数的块210。由于长块也包括1024个MDCT系数这一事实,对于音频信号获得包括1024个MDCT系数的块的完整序列。即,通过由八个接连的短块201到208形成长块210,获得长块的序列。 
基于交织的MDCT系数的块210(在短块的情况下)并且基于用于长块的MDCT系数的块,对于MDCT系数的每个块计算功率谱。在图6a中示出了示例性的功率谱。 
应当注意,一般说来,人类听知觉是响度和频率的(通常非线性的)函数,然而不是所有频率都被以相等的响度感知。另一方面,MDCT系数对于幅度/能量和频率二者都以线性标度表示,这与对于两种情况 都是非线性的人类听觉系统相反。为了获得更接近于人类感知的信号表示,可以使用从线性到非线性标度的变换。在一个实施例中,在以dB计的对数标度上的MDCT系数的功率谱变换被用来对人类响度感知建模。这样的功率谱变换可以如下计算∶ 
MDCTdB[i]=10log10(MDCT[i]2
类似地,对于未压缩PCM域中的音频信号可以计算功率谱图或功率谱。对于此目的,沿着时间的某一长度的STFT(短期傅里叶变换)被应用于音频信号。随后,执行功率变换。为了对人类响度感知建模,可以执行在非线性标度上的变换,例如上述在对数标度上的变换。可以选择STFT的大小以使得得到的时间分辨率等于变换后的HE-AAC帧的时间分辨率。然而,依赖于期望的精度和计算复杂度,也可以将STFT的大小设为更大或更小的值。 
在下一步骤中,可以应用利用Mel滤波器组的滤波来对人类频率敏感性的非线性建模。为了这个目的,应用图3a所示的非线性的频率标度(Mel标度)。标度300对于低频率(<500Hz)大致是线性的并且对于较高的频率大致是对数的。线性频率标度的参考点301是被定义为1000Mel的1000Hz音(tone)。具有被感知为两倍高的音高(pitch)的音被称为2000Mel,以及具有被感知为一半高的音高的音被称为500Mel,等等。在数学方面,Mel标度由下式给出∶ 
mMel=1127.010481n(1+fHz/700) 
其中fHz是以Hz计的频率并且是mMel以Mel(唛)计的频率。可以进行Mel标度变换以对人类非线性频率感知建模,此外可以将权重分配给频率以便对人类非线性频率敏感性建模。这可以通过使用在Mel频率标度(或任何其它非线性的感知激发的频率标度)上的50%重叠的三角滤波器来完成,其中滤波器的滤波器权重是滤波器的带宽的倒数(非线性敏感性)。这在图3b中示出,图3b示出了示例性的Mel标度滤波器组。可以看出,滤波器302具有比滤波器303更大的带度。因此,滤波器302的滤波器权重小于滤波器303的滤波器权重。 
通过进行此操作,获得仅仅通过少量的系数来表示可听频率范围 的Mel功率谱。在图6b中示出了示例性的Mel功率谱。作为Mel标度滤波的结果,功率谱被平滑化,具体地,在较高频率中的细节丢失。在示例性的情况下,Mel功率谱的频率轴可以由仅仅40个系数表示,而不是由对于HE-AAC变换域每帧1024个MDCT系数以及对于未压缩的PCM域可能更高数量的谱系数表示。 
为了进一步将沿着频率的数据的数目减少到有意义的最小值,可以引入压缩扩展函数(CP),其将较高Mel频带映射到单个系数。其背后的基本原理是,通常大部分信息和信号功率位于较低频率区域中。实验评估的压缩扩展函数示出在表1中,并且相应的曲线400示出在图4中。在示例性的情况下,此压缩扩展函数将Mel功率系数的数目降低到12个。示例性的经压缩扩展的Mel功率谱示出在图6c中。 
表1 
应当注意,可以将压缩扩展函数加权以便加重不同的频率范围。在一个实施例中,加权可以确保经压缩扩展的频带反映包括在特定经 压缩扩展的频带中的Mel频带的平均功率。这不同于未加权的压缩扩展函数,在未加权的压缩扩展函数中,经压缩扩展的频带反映包括在特定经压缩扩展的频带中的Mel频带的总功率。举例来说,加权可以考虑由经压缩扩展的频带覆盖的Mel频带的数目。在一个实施例中,权重可以与包括在特定经压缩扩展的频带中的Mel频带的数目成反比。 
为了确定调制谱,可以将经压缩扩展的Mel功率谱或任何其它先前确定的功率谱分割成表示音频信号长度的预定长度的块。此外,定义块部分重叠可以是有益的。在一个实施例中,选择在时间轴上具有50%的重叠的与音频信号的六秒的长度对应的块。可以作为覆盖音频信号的长期特性的能力和计算复杂度之间的折衷选择块的长度。由经压缩扩展的Mel功率谱确定的示例性的调制谱示出在图6d中。作为旁注,应当提到的是,确定调制谱的方法不局限于Mel滤波的谱数据,但是也可以用于获得基本任何音乐特征或谱表示的长期统计。 
对于每个这样的分段或块,沿着时间和频率轴计算FFT以获得响度的调幅的频率。通常,在0-10Hz的范围内的调制频率在节奏估计的上下文中被考虑,因为超过此范围的调制频率通常是不相关的。作为对于沿着时间或帧轴的功率谱数据确定的FFT分析的输出,可以确定功率谱的峰值和相应的FFT频率窗口(bin)。这样的峰值的频率或频率窗口与音频或音乐轨迹中的功率密集事件的频率对应,从而是音频或音乐轨迹的节奏的指示。 
为了改进经压缩扩展的Mel功率谱的相关的峰值的确定,可以将数据进行进一步的处理,诸如感知加权和模糊化。鉴于人类节奏偏好随调制频率而变以及非常高和非常低的调制频率不太可能发生的事实,可以引入感知节奏加权函数以加重具有高的出现可能性的那些节奏并且抑制不太可能发生的那些节奏。实验评估的加权函数500示出在图5中。此加权函数500可以应用于音频信号的每个分段或块的沿着调制频率轴的每个经压缩扩展的Mel功率谱带。即,每个经压缩扩展的Mel频带的功率值可以乘以加权函数500。一个示例性的加权的 调制谱示出在图6e中。应当注意,如果音乐的风格是已知的,则可以调整加权滤波器或加权函数。例如,如果已知分析电子音乐,则加权函数可以具有大约2Hz的峰值,并且在相当窄的范围之外是受限制的。换句话说,加权函数可以取决于音乐风格。 
为了进一步加重信号变化并且将调制谱的旋律内容发音,可以执行沿着调制频率轴的绝对差计算。结果,可以增强调制谱中的峰值线。示例性的微分调制谱示出在图6f中。 
另外,可以执行沿着Mel频带或Mel频率轴和调制频率轴的感知模糊化(perceptual blurring)。通常,此步骤以将相邻的调制频率线组合成更宽的、依赖幅度的区域的方式来使数据平滑。此外,该模糊化可以减小数据中噪声图的影响,因此产生更好的视觉解释能力。此外,该模糊化可以将调制谱调整为从各个音乐项目拍击实验中获得的拍击直方图(图1的102、103所示)的形状。示例性的模糊化的调制谱示出在图6g中。 
最后,可以将音频信号的一组分段或块的联合频率表示求平均以获得非常紧凑的、与音频文件长度无关的Mel频率调制谱。如上面已经描述的,术语“求平均”可以指代不同的数学操作,包括均值的计算和中值的确定。示例性的经求平均的调制谱示出在图6h中。 
应当注意,音轨的这样的调制谱表示的优点是它能够以多个度量水平指示节奏。此外,调制谱能够以与用于确定感知的节奏的拍击实验兼容的格式指示多个度量水平的相对物理突出性。换句话说,此表示与图1的实验“拍击”表示102、103匹配得很好,因此它可以是关于估计音轨的节奏的感知激发的决定的基础。 
如上面已经提到的,与处理后的经压缩扩展的Mel功率谱的峰值对应的频率提供了分析的音频信号的节奏的指示。此外,应当注意,调制谱表示可以用来比较歌曲间的旋律相似性。此外,对于各个分段或块的调制谱表示可以用来比较歌曲内相似性,以用于音频缩略化或分割应用。 
总的说来,已经描述了一种关于如何从变换域(例如HE-AAC 变换域和PCM域)中的音频信号获得节奏信息的方法。然而,可以期望从直接来自压缩域的音频信号中提取节奏信息。在下文中,描述了一种如何确定在压缩域或比特流域中表示的音频信号的节奏估计的方法。对于HE-AAC编码的音频信号进行特别关注。 
HE-AAC编码利用高频率重建(HFR)或谱带复制(SBR)技术。SBR编码过程包括瞬态检测阶段、用于合适表示的自适应的T/F(时间/频率)网格选择、包络估计阶段、以及用于校正信号的低频和高频部分之间的信号特性的失配的附加方法。 
已经注意到,由SBR编码器生成的有效载荷中的大多数来源于包络的参数表示。取决于信号特性,编码器确定适合于音频分段的合适表示以及用于避免前回声假象的时间-频率分辨率。通常,对于在时间上准静态的分段选择较高的频率分辨率,而对于动态的部分,选择较高的时间分辨率。 
因此,由于较长的时间分段可以比较短的时间分段被更高效地编码的事实,时间-频率分辨率的选择对SBR比特率具有重要影响。同时,对于快速变化的内容,即通常对于具有较高的节奏的音频内容,为了音频信号的合适表示而要被传输的包络的数目以及因此包络系数的数目比对于缓慢变化的内容的数目高。除了选择的时间分辨率的影响之外,此效果进一步影响SBR数据的大小。事实上,已经注意到,SBR数据率对基础音频信号的节奏变化的灵敏度比用在mp3编解码器的环境中的霍夫曼(Huffman)码长度的大小的灵敏度高。因此,SBR数据的比特率的变化已被识别为可以用于从编码的比特流直接确定旋律分量的有价值的信息。 
图7显示示例性的AAC原始数据块(raw data block)701,其包括fill_element(填充元素)字段702。比特流中的fill_element字段702用来存储诸如SBR数据之类的附加的参数辅助信息。当除SBR之外还使用参数立体声(PS)(即,在HE-AAC v2中)时,fill_element字段702还包含PS辅助信息。以下说明基于单声道情况。然而,应当注意,所描述的方法也适用于传送任何数目的声道的比特流,例如 立体声情况。 
fill_element字段702的大小随被传输的参数辅助信息的量而变。因此,fill_element字段702的大小可以用来直接从压缩的HE-AAC流中提取节奏信息。如图7所示,fill_element字段702包括SBR头部703和SBR有效载荷数据704。 
SBR头部703对于单个音频文件具有恒定大小,并且作为fill_element字段702的一部分被重复传输。SBR头部703的此重传导致有效载荷数据中的以某一频率重复的峰值,因此它导致在调制频率域中的1/x Hz处的具有某一幅度的峰值(x是SBR头部703的传输的重复速率)。然而,此重复传输的SBR头部703不包含任何旋律信息,因此将被去掉。 
这可以通过在比特流解析之后直接确定SBR头部703的出现的长度和时间间隔来完成。由于SBR头部703的周期性,此确定步骤通常仅仅需要进行一次。如果长度和出现信息可得到,则在SBR头部703出现时,即在SBR头部703传输时,全部SBR数据705可以容易地通过从SBR数据705减去SBR头部703的长度来被校正。这得到了可以用于节奏确定的SBR有效载荷704的大小。应当注意,按类似方式,通过减去SBR头部703的长度校正的fill_element字段702的大小可以用于节奏确定,因为它仅仅与SBR有效载荷704的大小相差恒定开销。 
一组SBR有效载荷数据704大小或经校正的fill_element字段702大小的例子在图8a中给出。x轴显示帧数目,而y轴指示相应的帧的SBR有效载荷数据704的大小或经校正的fill_element字段702的大小。可以看出,SBR有效载荷数据704的大小对于各个帧不同。在下文中,它仅仅被称为SBR有效载荷数据704大小。可以通过识别SBR有效载荷数据704的大小中的周期性,从SBR有效载荷数据704的大小的序列801中提取节奏信息。特别地,可以识别在SBR有效载荷数据704的大小中的峰值或重复图案的周期性。这可以例如通过对SBR有效载荷数据704的大小的重叠的子序列应用FFT来完成。该子 序列可以与某一信号长度(例如6秒)对应。接连的子序列的重叠可以是50%重叠。随后,可以跨完整的音轨的长度对子序列的FFT系数求平均。这得到完整的音轨的平均化的FFT系数,其可以被表示为图8b中所示的调制谱811。应当注意,可以想到用于识别SBR有效载荷数据704的大小中的周期性的其它方法。 
调制谱811中的峰值812、813、814指示具有某一出现频率的重复的、即有旋律的图案。出现频率也可以被称为是调制频率。应当注意,最大可能的调制频率受到基础的核心音频编解码器的时间分辨率限制。由于HE-AAC被定义为其中AAC核心编解码器以一半采样频率工作的双速率系统,因此对于6秒长度的序列(128帧)和采样频率Fs=44100Hz,获得大约21.74Hz/2~11Hz的最大可能调制频率。此最大可能调制频率与近似660BPM对应,其覆盖几乎每个音乐片段的节奏。为了方便起见,在依然保证正确处理的同时,最大调制频率可以限于10Hz,其与600BPM对应。 
图8b的调制谱可以按与在由音频信号的变换域或PCM域表示确定的调制谱的上下文中概述的方式类似方式进一步增强。例如,使用图5所示的加权曲线500的感知加权可以应用于SBR有效载荷数据调制谱811以便对人类节奏偏好建模。结果的感知加权的SBR有效载荷数据调制谱821示出在图8c中。可以看出,非常低和非常高的节奏被抑制了。特别地,可以看出,分别与初始峰值812和814相比,低频峰值822和高频峰值824已被减小。另一方面,中频峰值823已被保持。 
通过从SBR有效载荷数据调制谱确定调制谱的最大值和它的相应的调制频率,可以获得物理上最突出的节奏。在图8c所示的情况下,结果是178,659BPM。然而,在本例子中,此物理上最突出的节奏与大约89BPM的感知最突出的节奏不对应。因此,存在双重(double)混乱,即度量水平的冲突,其需要被校正。为了此目的,下面将描述感知节奏校正方案。 
应当注意,建议的用于基于SBR有效载荷数据的节奏估计的方 法与音乐输入信号的比特率无关。当改变HE-AAC编码的比特流的比特率时,编码器根据在此特定比特率可实现的最高输出质量自动设立SBR开始和停止频率,即SBR交越频率(cross-over frequency)变化。然而,SBR有效载荷仍然包括关于音轨中的重复的瞬时分量的信息。这可以在图8d中看出,其中对于不同的比特率(16kbit/s直至64kbit/s)显示SBR有效载荷调制谱。可以看出,音频信号的重复的部分(即,调制谱中的峰,诸如峰833)在所有比特率中保持占优势。也可以看到,在不同的调制谱中存在波动,这是因为当降低比特率时编码器尝试保存SBR部分中的比特。 
为了总结上述内容,参考图9。考虑音频信号的三个不同的表示。在压缩域中,音频信号由它的编码的比特流(例如由HE-AAC比特流901)表示。在变换域中,音频信号被表示为子带或变换系数,例如MDCT系数902。在PCM域中,音频信号由它的PCM样本903表示。在上面的描述中,已经概述了用于确定这三个信号域的任何一个中的调制谱的方法。已经描述了一种用于基于HE-AAC比特流901的SBR有效载荷确定调制谱911的方法。此外,已经描述了一种用于基于音频信号的变换表示902,例如基于MDCT系数确定调制谱912的方法。此外,已经描述了一种用于基于音频信号的PCM表示903确定调制谱913的方法。 
估计的调制谱911、912、913的任何一个可以用作物理节奏估计的基础。为了此目的,可以执行增强处理的各种步骤,例如使用加权曲线500的感知加权、感知模糊化和/或绝对差计算。最后,确定(增强的)调制谱911、912、913的最大值和相应的调制频率。调制谱911、912、913的绝对最大值是分析的音频信号的物理上最突出的节奏的估计。其它最大值通常与此物理上最突出的节奏的其它度量水平对应。 
图10提供了使用上述方法获得的调制谱911、912、913的比较。可以看出,与各个调制谱的绝对最大值对应的频率非常类似。在左边,已经分析了爵士音乐的音轨的选段。调制谱911、912、913已经分别从音频信号的HE-AAC表示、MDCT表示和PCM表示确定。可以看 出,全部三个调制谱提供了分别与调制谱911、912、913的最大峰值对应的类似的调制频率1001、1002、1003。对于具有调制频率1011、1012、1013的古典音乐的选段(中间)和具有调制频率1021、1022、1023的硬金属摇滚音乐的选段(右边)获得类似的结果。 
因而,已经描述了方法和相应的系统,其允许利用从不同形式的信号表示导出的调制谱进行物理上突出的节奏的估计。这些方法可应用于各种类型的音乐并且不局限于仅仅西方流行音乐。此外,不同的方法可应用于不同形式的信号表示,并且对于各相应信号表示,可以以低的计算复杂度执行。 
从图6、8和10可以看出,调制谱通常具有多个峰值,该多个峰值通常与音频信号的节奏的不同的度量水平对应。这可以例如从图8b看出,其中三个峰值812、813和814具有重要的强度,因此可以是音频信号的基础节奏的候选。选择最大峰值813提供了物理上最突出的节奏。如上所述,此物理上最突出的节奏可能不与感知最突出的节奏对应。为了以自动方式估计此感知最突出的节奏,在下文中描述感知节奏校正方案。 
在一个实施例中,感知节奏校正方案包括从调制谱确定物理上最突出的节奏。在图8b中的调制谱811的情况下,将确定峰值813和相应的调制频率。此外,可以从调制谱提取另外的参数以帮助节奏校正。第一参数可以是MMSCentroid(Mel调制谱),其是根据等式1的调制谱的矩心(centroid)。矩心参数MMSCentmid可以用作音频信号的速度的指示符。 
MM S Centroid = &Sigma; d = 1 D d &CenterDot; &Sigma; n = 1 N MMS &OverBar; ( n , d ) &Sigma; d = 1 D &Sigma; n = 1 N MMS &OverBar; ( n , d ) - - - ( 1 )
在上述等式中,D是调制频率窗口的数目,以及d=1,…,D标识各个调制频率窗口。N是沿着Mel频率轴的频率窗口的总数,以及n=1,…,N标识在Mel频率轴上的各个频率窗口。MMS(n,d)指示音频信号的特定分段的调制谱,而 指示表征整个音频信号的经概括 的调制谱。 
用于帮助节奏校正的第二参数可以是MMSBEATSTRENGTH,其是根据等式2的调制谱的最大值。通常,此值对于电子音乐高而对于古典音乐小。 
MMS BEATSTRENGTH = max d ( &Sigma; n = 1 N MMS &OverBar; ( n , d ) ) - - - ( 2 )
另一参数是MMSCONFUSION,其是根据公式3规格化到1之后的调制谱的均值。如果此后一参数低,则这是对于在调制谱上的强的峰值的指示(例如像在图6中一样)。如果此参数高,则调制谱被广泛地扩展而没有重要的峰值,并且存在高混乱度。 
MMS CONFUSION = 1 N &CenterDot; D &Sigma; n = 1 N &Sigma; d = 1 D ( MMS &OverBar; ( n , d ) max ( n , d ) ( MMS &OverBar; ( n , d ) ) ) - - - ( 3 )
除这些参数(即调制谱矩心或重力MMSCentroid、调制节拍强度MMSBEATSTRENGTH和调制节奏混乱度MMSCONFUSION)之外,还可以导出可以用于MIR应用的其它感知上有意义的参数。 
应当注意,在此申请中的等式已经对于Mel频率调制谱,即对于由在PCM域中和变换域中表示的音频信号确定的调制谱912、913,被公式化。在使用由在压缩域中表示的音频信号确定的调制谱911的情况下,项MMS(n,d)和 需要被由在此申请中提供的等式中的项MSSBR(d)(基于SBR有效载荷数据的调制谱)替代。 
基于上述参数的选择,可以提供感知节奏校正方案。此感知节奏校正方案可以用来由从调制表示获得的物理上最突出的节奏确定人类将感知的感知最突出的节奏。该方法利用从调制谱中获得的感知激发的参数,即由调制谱矩心给出的音乐速度的测量值MMSCentroid、由在调制谱中的最大值给出的节拍强度MMSBEATSTRENGTH、和由在规格化之后的调制表示的均值给出的调制混乱因数MMSCONFUSION。该方法可以包括以下步骤中的任何一个∶ 
1.确定音乐轨迹的基础度量(underlying metric),例如4/4节拍 或3/4节拍。 
2.根据参数MMSSTRENGTH将节奏折叠到所关注的范围 
3.根据感知速度测量值MMSCentroid进行节奏校正 
可选择地,调制混乱因数MMSCONFUSION的确定可以提供对感知节奏估计的可靠性的测量。 
在第一步骤中,可以确定音乐轨迹的基础度量,以便确定应该通过其校正物理测量的节奏的可能的因数。举例来说,在具有3/4节拍的音乐轨迹的调制谱中的峰值以三倍于基本旋律(base rhythm)的频率的频率出现。因此,节奏校正应该以三为基础调整。在具有4/4节拍的音乐轨迹的情况下,节奏校正应该以因数2调整。这示出在图11中,其中显示了具有3/4节拍的爵士音乐轨迹(图11a)和具有4/4节拍的金属音乐轨迹(图11b)的SBR有效载荷调制谱。节奏度量可以由SBR有效载荷调制谱中的峰值的分布确定。在4/4节拍的情况下,重要的峰值是以二为基础的彼此的倍数,而对于3/4节拍,重要的峰值是以3为基础的倍数。 
为了克服此潜在的节奏估计误差的源,可以应用互相关方法。在一个实施例中,对于不同的频率滞后Δd,可以确定调制谱的自相关。自相关可以由下式给出: 
Corr ( &Delta;d ) = 1 DN &Sigma; d = 1 D &Sigma; n = 1 N MMS &OverBar; ( n , d ) &CenterDot; MMS &OverBar; ( n , d + &Delta;d ) - - - ( 4 )
得到最大相关性Corr(Δd)的频率滞后Δd提供了基础度量的指示。更确切地说,如果dmax是物理上最突出的调制频率,则该表达式 提供基础度量的指示。 
在一个实施例中,经平均的调制谱内的物理上最突出的节奏的合成的、感知修改的倍数之间的互相关可以用来确定基础度量。双重(等式5)和三重(triple)混乱(等式6)的倍数的集合被计算如下∶ 
Multiple s double = d max &CenterDot; { 1 4 , 1 2 , 1,2,4 } - - - ( 5 )
Multiple s triple = d max &CenterDot; { 1 6 , 1 3 , 1,3,6 } - - - ( 6 )
在下一步骤中,执行在不同的度量处的拍击函数的合成,其中拍击函数具有与调制谱表示相等的长度,即它们对于调制频率轴具有相等的长度(等式7)∶ 
合成的拍击函数SynthTabdouble,triple(d)表示人以基础节奏的不同的度量水平进行拍击的模型。即,假定3/4节拍,则节奏可被以它的节拍的1/6、以它的节拍的1/3、以它的节拍、以3倍于它的节拍和以6倍于它的节拍拍击。按类似方式,如果假定4/4节拍,则节奏可被以它的节拍的1/4、以它的节拍的1/2、以它的节拍、以2倍于它的节拍和以4倍于它的节拍拍击。 
如果考虑调制谱的感知修改的版本,则合成的拍击函数可能也需要被修改以便提供通用的表示。如果在感知节奏提取方案中忽略感知模糊化,则可以跳过此步骤。否则,合成的拍击函数将经受如等式8概述的感知模糊化,以便使合成的拍击函数适合于人类节奏拍击直方图的形状。 
SynthTabdouble,triple(d)=SynthTabdouble,triple(d)*B,1≤d≤D    (8) 
其中B是模糊化核心,并且*是卷积运算。模糊化核心B是固定长度的矢量,其具有拍击直方图的峰的形状,例如三角形的或窄高斯脉冲的形状。模糊化核心B的此形状优选地反映拍击直方图的峰的形状,例如图1的102、103。模糊化核心B的宽度(即用于核心B的系数的数目)以及因而由核心B覆盖的调制频率范围在整个调制频率范围D上通常是相同的。在一个实施例中,模糊核心B是窄的类高斯脉冲,其最大幅度为1。模糊化核心B可以覆盖0.265Hz(~16BPM)的调制频率范围,即它可以具有相对于脉冲的中心+-8BPM的宽度。 
一旦合成的拍击函数的感知修改已被执行(如果需要),在拍击函数和原始调制谱之间计算滞后为零处的互相关。这示出在等式9 中∶ 
Cor r double , triple = &Sigma; d = 1 D ( &Sigma; n = 1 N MMS &OverBar; ( n , d ) ) &CenterDot; SynthTa b double , triple ( d ) - - - ( 9 )
最后,校正因数通过比较从对于“双重”度量的合成的拍击函数和对于“三重”度量的合成的拍击函数获得的相关性结果来确定。如果利用对于双重混乱的拍击函数得到的它的相关性等于或大于利用对于三重混乱的拍击函数得到的相关性时,将校正因数设为2,反之亦然(等式10)∶ 
应当注意,一般说来,对于调制谱使用相关性技术来确定校正因数。校正因数与音乐信号的基础度量,即4/4、3/4或其它节拍相关联。基础节拍度量可以通过对音乐信号的调制谱应用相关技术来确定,一些相关性技术已经在上面进行了描述。 
使用校正因数,可以执行实际感知节奏校正。在一个实施例中,这以逐步方式完成。在表2中提供示例性实施例的伪代码。 
表2 
在第一步骤中,通过利用MMSBEATSTRENGTH参数和先前计算的校正因数将在表2中被称为“Tempo”的物理上最突出的节奏映射到所关注的范围中。如果MMSBEATSTRENGTH参数值低于某一阈值(其取决于信号域、音频编解码器、比特率和采样频率),并且如果物理上确定的节奏,即参数“节奏”相对高或相对低,则利用确定的校正因数或节拍度量校正物理上最突出的节奏。 
在第二步骤中,根据音乐速度,即根据调制谱矩心MMSCentroid进一步校正节奏。用于校正的各个阈值可以被从感知实验确定,其中要求用户将不同风格和节奏的音乐内容归类在例如四个类别中∶缓慢、几乎缓慢、几乎快速和快速。此外,调制谱矩心MMSCentroid对于相同的音频测试项被计算并且相对于主观归类被映射。示例性的归类的结果示出在图12中。x轴显示四个主观类别:缓慢(slow)、几乎缓慢(almost slow)、几乎快速(almost fast)和快速(fast)。y轴显示计算的重力,即调制谱矩心。示出了利用压缩域上的调制谱911 (图12a)、利用变换域上的调制谱912(图12b)和利用PCM域上的调制谱913的实验结果。对于每一类别,显示了归类的均值1201、50%的置信间隔1202、1203、以及上方格和下方格1204、1205。类别之间的高重叠度意味着对于主观方式的节奏的归类的高混乱水平。然而,可以从这样的实验结果中提取对于MMSCentroid参数的阈值,该阈值允许将音乐轨迹分配到主观类别:缓慢、几乎缓慢、几乎快速和快速。在表3中提供对于不同的信号表示(具有SBR有效载荷的压缩域、HE-AAC变换域、PCM域)的MMSCentroid参数的示例性的阈值。 
表3 
这些对于参数MMSCentroid的阈值用在表2中概述的第二节奏校正步骤中。在第二节奏校正步骤内,识别并且最后校正节奏估计和参数MMSCentroid之间的大的差异。举例来说,如果估计的节奏相对高并且如果参数MMSCentroid指示感知的速度应该相当低,则估计的节奏以校正因数减小。类似地,如果估计的节奏相对低,而参数MMSCentroid指示感知的速度应该相当高,则估计的节奏以校正因数增大。 
表4 
感知节奏校正方案的另一个实施例在表4中概述。示出了对于校正因数为2的伪代码,然而该例子同样可应用于其它校正因数。在表4的感知节奏校正方案中,在第一步骤中验证混乱,即MMSCONFUS1ON是否超过某一阈值。如果不,则假定物理上突出的节奏t1与感知突出的节奏对应。然而,如果混乱的水平超过该阈值,则通过考虑从参数MMSCentroid提取的音乐信号的感知的速度的信息来校正物理上突出的节奏t1。 
还应当注意,可替换的方案也可以用于将音乐轨迹分类。举例来说,分类器可以被设计为将速度分类然后进行这些类型的感知校正。在一个实施例中,可以训练和建模用于节奏校正的参数,特别地即MMSCONFUSION、MMSControid和MMSBEATSTRENGTH,以自动地将未知的音乐信号的混乱、速度和节拍强度分类。分类器可以用于执行与上述类似的感知校正。由此,可以减轻表3和4中存在的固定阈值的使用,并且可以使得该系统更灵活。 
如上已经所述,建议的混乱参数MMSCONFUSION提供了对于估计的节奏的可靠性的指示。该参数还可以被用作用于情感和风格分类的MIR(音乐信息检索)特征。 
应当注意,上述感知节奏校正方案可以应用在各种物理节奏估计方法之上。这示出在图9中,其中显示了感知节奏校正方案可以应用于从压缩域中获得的物理节奏估计(附图标记921)、它可以应用于从变换域中获得的物理节奏估计(附图标记922),以及它可以应用于从PCM域中获得的物理节奏估计(附图标记923)。 
节奏估计系统1300的示例性的框图示出在图13中。应当注意,根据需要,可以单独使用这样的节奏估计系统1300的不同的组件。系统1300包括系统控制单元1310、域解析器1301、用于获得统一信号 表示的预处理级1302、1303、1304、1305、1306、1307、用于确定突出节奏的算法1311、和用于校正以感知方式提取的节奏的后处理单元1308、1309。 
信号流可以如下。开始时,任何域的输入信号被馈送给域解析器1301,其从输入的音频文件中提取节奏确定和校正所必需的所有信息,例如采样率和声道模式。这些值存储在系统控制单元1310中,系统控制单元1310根据输入域设立计算路径。 
在下一步骤中执行输入数据的提取和预处理。在压缩域中表示的输入信号的情况下,这样的预处理1302包括SBR有效载荷的提取、SBR头部信息的提取和头部信息错误校正方案。在变换域中,预处理1303包括MDCT系数的提取、MDCT系数块的序列的短块交织和功率变换。在未压缩域中,预处理1304包括PCM样本的功率谱图计算。随后,变换后的额数据被分割成半重叠6秒的组块的K个块,以便捕获输入信号的长期特性(分割单元1305)。为了此目的,可以使用存储在系统控制单元1310中的控制信息。块K的数目通常取决于输入信号的长度。在一个实施例中,如果音轨的一个块(例如最后块)比6秒短,则被填补零。 
包括经预处理的MDCT或PCM数据的分段经受利用压缩扩展函数的Mel标度变换和/或维度减小处理步骤(Mel标度处理单元1306)。包括SBR有效载荷数据的分段直接馈送给下一个处理块1307(调制谱确定单元),这里沿着时间轴计算N点FFT。此步骤产生期望的调制谱。调制频率窗口的数目N取决于基础域的时间分辨率,并且可以馈送给系统控制单元1310的算法。在一个实施例中,频谱限于10Hz,以保持在感觉节奏范围内,并且根据人类节奏偏好曲线500来将该频谱感知加权。 
为了基于未压缩和变换域来增强频谱中的调制峰值,可以在下一步骤中计算沿着调制频率轴的绝对差(在调制谱确定单元1307内),随后是沿着Mel标度频率和调制频率轴两者的感知模糊化以修改拍击直方图的形状。由于没有产生新的数据,因此对于未压缩和变换域, 此计算步骤是可选的,但是它通常导致调制谱的改进的视觉表示。 
最后,在单元1307中处理的分段可以通过求平均操作被组合。如上面已经描述的,求平均可以包括均值的计算或中值的确定。这导致来自未压缩的PCM数据或变换域MDCT数据的感知激发的Mel标度调制谱(MMS)的最后表示,或它导致压缩域的比特流部分的感知激发的SBR有效载荷调制谱(MSSBR)的最后表示。从该调制谱可以计算诸如调制谱矩心、调制谱节拍强度和调制谱节奏混乱之类的调制谱参数。这些参数中的任何一个可以馈送给感知节奏校正单元1309并且由其使用,其校正从最大值计算1311中获得的物理上最突出的节奏。系统的1300输出是实际的音乐输入文件的感知上最突出的节奏。 
应当注意,在本申请中概述的用于节奏估计描述的方法可以应用在音频解码器以及音频编码器处。在解码编码的文件的同时可以应用用于由压缩域、变换域和PCM域中的音频信号进行节奏估计的方法。该方法同样可在编码音频信号时应用。当解码时以及当编码音频信号时,描述的方法的复杂度可缩放概念是有效的。 
也应注意,虽然在本申请中概述的方法已经在对完整音频信号进行节奏估计和校正的上下文中被概述,但是该方法还可以应用于音频信号的子节,例如MMS分段,从而提供音频信号的该子节的节奏信息。 
作为进一步的方面,应当注意,音频信号的物理节奏和/或感知节奏信息可以以元数据的形式被写成到编码的比特流内。这样的元数据可以被媒体播放器或MIR应用提取和使用。 
此外,可构想修改和压缩调制谱表示(例如,调制谱1001,尤其是图10的1002和1003),并且将可能被修改和/或压缩的调制谱作为元数据存储在音频/视频文件或比特流内。此信息可以用作音频信号的声学图像缩略图。这可能对为用户提供关于音频信号中的旋律内容的细节有用。 
在本文件中,已经描述了用于物理和感知节奏的可靠估计的复杂度可缩放的调制频率方法和系统。该估计可以对未压缩PCM域、基 于MDCT的HE-AAC变换域和基于HE-AAC SBR有效载荷的压缩域中的音频信号执行。这允许以非常低的复杂度确定节奏估计定,即使当音频信号处于压缩域中也是如此。利用SBR有效载荷数据,可以直接从压缩的HE-AAC比特流中提取节奏估计而不执行熵解码。建议的方法对于比特率和SBR交越频率变化是鲁棒的,并且可以应用于单声道和多声道编码的音频信号。它还可以应用于诸如mp3PRO之类的其它SBR增强的音频编码器,并且可以被认为是编解码器不可知的。出于节奏估计的目的,不需要执行节奏估计的设备能够解码SBR数据。这是由于节奏提取直接对编码的SBR数据执行这一事实导致的。 
此外,建议的方法和系统利用大的音乐数据集中的音乐节奏分布以及人类节奏感知的知识。除用于节奏估计的音频信号的适当表示的评估之外,还描述了感知节奏加权函数以及感知的节奏校正方案。此外,描述了提供音频信号的感知突出的节奏的可靠估计的感知节奏校正方案。 
建议的方法和系统可以用在MIR应用的背景中,例如用于风格分类。由于低的计算复杂度,节奏估计方案、尤其是基于SBR有效载荷的估计方法可以直接在通常具有有限的处理和存储器资源的便携式电子设备上实现。 
此外,感知突出的节奏的确定可以用于音乐选择、比较、混合和播放列表生成。举例来说,当产生在相邻的音乐轨迹之间具有平滑的旋律过渡的播放列表时,关于音乐轨迹的感知突出的节奏的信息可以比关于物理上突出的节奏的信息更恰当。 
在本申请中描述的节奏估计方法和系统可以被实现为软件、固件和/或硬件。某些组件可以例如被实现为在数字信号处理器或微处理器上运行的软件。其它组件可以例如被实现为硬件和/或专用集成电路。在描述的方法和系统中遇到的信号可以被存储在诸如随机存取存储器或光存储介质之类的介质上。它们可以经由诸如无线电网络、卫星网络、无线网络或有线网络之类的网络(例如因特网)传递。利用在本申请中描述的方法和系统的典型设备是用来存储和/或再现音频信号 的便携式电子设备或其它消费电器。该方法和系统还可以在例如因特网网络服务器的存储和提供例如音乐信号的音频信号以用于下载的计算机系统上使用。 

Claims (36)

1.一种用于从音频信号的压缩的、谱带复制编码的比特流提取该音频信号的节奏信息的方法,其中,所述编码的比特流包括谱带复制数据,该方法包括:
确定对于该音频信号的时间间隔该编码的比特流中所包含的谱带复制数据量相关联的有效载荷量;
对于该音频信号的编码的比特流的连续的时间间隔,重复该确定步骤,从而确定有效载荷量的序列;
识别该有效载荷量的序列中的周期性;以及
从所识别的周期性提取该音频信号的节奏信息。
2.如权利要求1所述的方法,其中确定有效载荷量包括:
确定在该时间间隔中该编码的比特流的一个或多个填充元素字段中所包含的数据量;以及
基于在该时间间隔中该编码的比特流的一个或多个填充元素字段中所包含的数据量确定该有效载荷量。
3.如权利要求2所述的方法,其中确定有效载荷量包括:
确定在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的谱带复制头部数据量;
通过扣除在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的谱带复制头部数据量,来确定在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的数据的净量;以及
基于该数据的净量确定该有效载荷量。
4.如权利要求3所述的方法,其中该有效载荷量与该数据的净量对应。
5.如权利要求1-4中任一个所述的方法,其中
该编码的比特流包括多个帧,每个帧与该音频信号的预定时间长度的选段对应;以及
该时间间隔与该编码的比特流的一帧对应。
6.如权利要求1-4中任一个所述的方法,其中对于该编码的比特流的所有帧执行该重复步骤。
7.如权利要求1-4中任一个所述的方法,其中识别周期性包括:
识别该有效载荷量的序列中的峰值的周期性。
8.如权利要求1所述的方法,其中识别周期性包括:
对该有效载荷量的序列执行谱分析,从而得到一组功率值和相应的频率;以及
通过确定该组功率值中的相对最大值并且通过将该有效载荷量的序列的周期性选择为相应的频率,识别该有效载荷量的序列的周期性。
9.如权利要求8所述的方法,其中执行谱分析包括:
对该有效载荷量的序列的多个子序列执行谱分析,以得到多组功率值;以及
将该多组功率值求平均。
10.如权利要求9所述的方法,其中该多个子序列部分地重叠。
11.如权利要求8到10中的任何一个所述的方法,其中执行谱分析包括执行傅里叶变换。
12.如权利要求8到10中的任何一个所述的方法,还包括:
将该组功率值乘以与它们的相应频率的人类感知偏好相关联的权重。
13.如权利要求8到10中的任何一个所述的方法,其中提取节奏信息包括:
确定与该组功率值的绝对最大值对应的频率;
其中该频率与该音频信号的物理上突出的节奏对应。
14.如权利要求8到10中任一个所述的方法,其中该音频信号包括音乐信号,以及其中提取节奏信息包括估计该音乐信号的节奏。
15.一种被配置为从音频信号的压缩的、谱带复制编码的比特流提取音频信号的节奏信息的系统,其中该编码的比特流包括该音频信号的谱带复制数据,该系统包括:
用于确定该音频信号的时间间隔的该编码的比特流中所包含的谱带复制数据量相关联的有效载荷量的装置;
用于对于该音频信号的编码的比特流的连续的时间间隔,使所述确定装置重复执行确定操作,从而确定有效载荷量的序列的装置;
用于识别该有效载荷量的序列中的周期性的装置;以及
用于从所识别的周期性提取该音频信号的节奏信息的装置。
16.如权利要求15所述的系统,其中用于确定有效载荷量的装置包括:
用于确定在该时间间隔中该编码的比特流的一个或多个填充元素字段中所包含的数据量的装置;以及
用于基于在该时间间隔中该编码的比特流的一个或多个填充元素字段中所包含的数据量确定该有效载荷量的装置。
17.如权利要求16所述的系统,其中用于确定有效载荷量的装置包括:
用于确定在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的谱带复制头部数据量的装置;
用于通过扣除在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的谱带复制头部数据量,来确定在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的数据的净量的装置;以及
用于基于该数据的净量确定该有效载荷量的装置。
18.如权利要求17所述的系统,其中该有效载荷量与该数据的净量对应。
19.如权利要求15-18中任一个所述的系统,其中
该编码的比特流包括多个帧,每个帧与该音频信号的预定时间长度的选段对应;以及
该时间间隔与该编码的比特流的一帧对应。
20.如权利要求15-18中任一个所述的系统,其中对于该编码的比特流的所有帧执行该重复。
21.如权利要求15-18中任一个所述的系统,其中用于识别周期性的装置包括:
用于识别该有效载荷量的序列中的峰值的周期性的装置。
22.如权利要求15所述的系统,其中用于识别周期性的装置包括:
用于对该有效载荷量的序列执行谱分析,从而得到一组功率值和相应的频率的装置;以及
用于通过确定该组功率值中的相对最大值并且通过将该有效载荷量的序列的周期性选择为相应的频率,识别该有效载荷量的序列的周期性的装置。
23.如权利要求22所述的系统,其中用于执行谱分析的装置包括:
用于对该有效载荷量的序列的多个子序列执行谱分析,以得到多组功率值的装置;以及
用于将该多组功率值求平均的装置。
24.如权利要求23所述的系统,其中该多个子序列部分地重叠。
25.如权利要求22到24中的任何一个所述的系统,其中用于执行谱分析的装置包括用于执行傅里叶变换的装置。
26.如权利要求22到24中的任何一个所述的系统,还包括:
用于将该组功率值乘以与它们的相应频率的人类感知偏好相关联的权重的装置。
27.如权利要求22到24中的任何一个所述的系统,其中用于提取节奏信息的装置包括:
用于确定与该组功率值的绝对最大值对应的频率的装置;
其中该频率与该音频信号的物理上突出的节奏对应。
28.如权利要求22到24中任一个所述的系统,其中该音频信号包括音乐信号,以及其中提取节奏信息包括估计该音乐信号的节奏。
29.一种用于产生包括音频信号的元数据的编码的比特流的方法,该方法包括:
确定与音频信号的节奏相关联的元数据,其中该节奏根据如权利要求1-14中任一项所述的方法确定;以及
将该元数据插入到编码的比特流中。
30.如权利要求29所述的方法,其中该元数据包括表示音频信号的物理上突出的节奏和/或感知突出的节奏的数据。
31.如权利要求29和30中的任何一个所述的方法,其中该元数据包括代表来自该音频信号的调制谱的数据,其中该调制谱包括多个出现频率和相应的多个重要性值,其中该重要性值指示相应的出现频率在该音频信号中的相对重要性。
32.如权利要求29和30中的任何一个所述的方法,还包括:
利用HE-AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus编码器中的一个,将音频信号编码成编码的比特流的有效载荷数据的序列。
33.一种音频编码器,被配置为产生包括音频信号的元数据的编码的比特流,该编码器包括:
用于确定与音频信号的节奏相关联的元数据的装置,其中该节奏根据如权利要求1-14中任一项所述的方法步骤确定;和
用于将该元数据插入到编码的比特流中的装置。
34.如权利要求33所述的音频编码器,其中该元数据包括表示音频信号的物理上突出的节奏和/或感知突出的节奏的数据。
35.如权利要求33和34中的任何一个所述的音频编码器,其中该元数据包括代表来自该音频信号的调制谱的数据,其中该调制谱包括多个出现频率和相应的多个重要性值,其中该重要性值指示相应的出现频率在该音频信号中的相对重要性。
36.如权利要求33和34中的任何一个所述的音频编码器,还包括:
用于利用HE-AAC、MP3、AAC、Dolby Digital或Dolby DigitalPlus编码器中的一个,将音频信号编码成编码的比特流的有效载荷数据的序列的装置。
CN201080048994.4A 2009-10-30 2010-10-26 复杂度可缩放的感知节拍估计 Expired - Fee Related CN102754147B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25652809P 2009-10-30 2009-10-30
US61/256,528 2009-10-30
PCT/EP2010/066151 WO2011051279A1 (en) 2009-10-30 2010-10-26 Complexity scalable perceptual tempo estimation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201410392507.6A Division CN104157280A (zh) 2009-10-30 2010-10-26 复杂度可缩放的感知节拍估计

Publications (2)

Publication Number Publication Date
CN102754147A CN102754147A (zh) 2012-10-24
CN102754147B true CN102754147B (zh) 2014-10-22

Family

ID=43431930

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201080048994.4A Expired - Fee Related CN102754147B (zh) 2009-10-30 2010-10-26 复杂度可缩放的感知节拍估计
CN201410392507.6A Pending CN104157280A (zh) 2009-10-30 2010-10-26 复杂度可缩放的感知节拍估计

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201410392507.6A Pending CN104157280A (zh) 2009-10-30 2010-10-26 复杂度可缩放的感知节拍估计

Country Status (9)

Country Link
US (1) US9466275B2 (zh)
EP (2) EP2988297A1 (zh)
JP (2) JP5295433B2 (zh)
KR (2) KR101370515B1 (zh)
CN (2) CN102754147B (zh)
BR (1) BR112012011452A2 (zh)
RU (2) RU2507606C2 (zh)
TW (1) TWI484473B (zh)
WO (1) WO2011051279A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0906142B1 (pt) * 2008-03-10 2020-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. dispositivo e método para a manipulação de um sinal de áudio tendo um evento transiente
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
JP5569228B2 (ja) * 2010-08-02 2014-08-13 ソニー株式会社 テンポ検出装置、テンポ検出方法およびプログラム
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
EP2786377B1 (en) 2011-11-30 2016-03-02 Dolby International AB Chroma extraction from an audio codec
DE102012208405A1 (de) * 2012-05-21 2013-11-21 Rohde & Schwarz Gmbh & Co. Kg Messgerät und Verfahren zur verbesserten Abbildung von Spektralverläufen
US9992490B2 (en) * 2012-09-26 2018-06-05 Sony Corporation Video parameter set (VPS) syntax re-ordering for easy access of extension parameters
US20140162628A1 (en) * 2012-12-07 2014-06-12 Apple Inc. Methods for Validating Radio-Frequency Test Systems Using Statistical Weights
US9704478B1 (en) * 2013-12-02 2017-07-11 Amazon Technologies, Inc. Audio output masking for improved automatic speech recognition
WO2015093668A1 (ko) * 2013-12-20 2015-06-25 김태홍 오디오 신호 처리 장치 및 방법
GB2522644A (en) * 2014-01-31 2015-08-05 Nokia Technologies Oy Audio signal analysis
US9852722B2 (en) 2014-02-18 2017-12-26 Dolby International Ab Estimating a tempo metric from an audio bit-stream
JPWO2016027366A1 (ja) * 2014-08-22 2017-05-25 パイオニア株式会社 振動信号生成装置及び振動信号生成方法
CN104299621B (zh) * 2014-10-08 2017-09-22 北京音之邦文化科技有限公司 一种音频文件的节奏感强度获取方法及装置
KR20160102815A (ko) * 2015-02-23 2016-08-31 한국전자통신연구원 잡음에 강인한 오디오 신호 처리 장치 및 방법
US9372881B1 (en) 2015-12-29 2016-06-21 International Business Machines Corporation System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset
WO2018129386A1 (en) * 2017-01-09 2018-07-12 Inmusic Brands, Inc. Systems and methods for generating a graphical representation of audio-file playback during playback manipulation
CN108989706A (zh) * 2017-06-02 2018-12-11 北京字节跳动网络技术有限公司 基于音乐节奏生成特效的方法及装置
WO2019053765A1 (ja) * 2017-09-12 2019-03-21 Pioneer DJ株式会社 楽曲解析装置および楽曲解析プログラム
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
CN110585730B (zh) * 2019-09-10 2021-12-07 腾讯科技(深圳)有限公司 游戏的节奏感测试方法、装置以及相关设备
CN110688518B (zh) * 2019-10-12 2024-05-24 广州酷狗计算机科技有限公司 节奏点的确定方法、装置、设备及存储介质
CN110853677B (zh) * 2019-11-20 2022-04-26 北京雷石天地电子技术有限公司 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质
JP7516802B2 (ja) 2020-03-25 2024-07-17 カシオ計算機株式会社 テンポ検出装置、方法、及びプログラム
CN111785237B (zh) * 2020-06-09 2024-04-19 Oppo广东移动通信有限公司 音频节奏确定方法、装置、存储介质和电子设备
CN112866770B (zh) * 2020-12-31 2023-12-05 北京奇艺世纪科技有限公司 一种设备控制方法、装置、电子设备及存储介质
WO2022227037A1 (zh) * 2021-04-30 2022-11-03 深圳市大疆创新科技有限公司 音频处理、视频处理方法、装置、设备及存储介质
CN114005464B (zh) * 2021-11-04 2024-12-20 深圳万兴软件有限公司 一种节拍速度估测方法、装置、计算机设备及存储介质
WO2025093804A1 (en) * 2023-11-03 2025-05-08 Audicin Oy Method of creating music for psychophysiological impact and nervous system regulation and a service product providing such music

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065517A1 (en) * 2001-09-28 2003-04-03 Pioneer Corporation Audio information reproduction device and audio information reproduction system
WO2006037366A1 (en) * 2004-10-08 2006-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
WO2006050512A2 (en) * 2004-11-03 2006-05-11 Plain Sight Systems, Inc. Musical personal trainer
CN101145032A (zh) * 2007-08-29 2008-03-19 南京工业大学 智能机器人识别舞蹈音乐节奏的方法
CN101375327A (zh) * 2006-01-25 2009-02-25 索尼株式会社 节拍提取设备和节拍提取方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19736669C1 (de) 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US6240379B1 (en) * 1998-12-24 2001-05-29 Sony Corporation System and method for preventing artifacts in an audio data encoder device
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7447639B2 (en) 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
US7013269B1 (en) 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US20070036228A1 (en) * 2005-08-12 2007-02-15 Via Technologies Inc. Method and apparatus for audio encoding and decoding
US7518053B1 (en) * 2005-09-01 2009-04-14 Texas Instruments Incorporated Beat matching for portable audio
JP4632136B2 (ja) * 2006-03-31 2011-02-16 富士フイルム株式会社 楽曲テンポ抽出方法、装置及びプログラム
US20080059154A1 (en) * 2006-09-01 2008-03-06 Nokia Corporation Encoding an audio signal
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
JP4799333B2 (ja) 2006-09-14 2011-10-26 シャープ株式会社 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
CA2645912C (en) * 2007-02-14 2014-04-08 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP5098530B2 (ja) 2007-09-12 2012-12-12 富士通株式会社 復号化装置、復号化方法および復号化プログラム
WO2009125489A1 (ja) 2008-04-11 2009-10-15 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065517A1 (en) * 2001-09-28 2003-04-03 Pioneer Corporation Audio information reproduction device and audio information reproduction system
WO2006037366A1 (en) * 2004-10-08 2006-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
WO2006050512A2 (en) * 2004-11-03 2006-05-11 Plain Sight Systems, Inc. Musical personal trainer
CN101375327A (zh) * 2006-01-25 2009-02-25 索尼株式会社 节拍提取设备和节拍提取方法
CN101145032A (zh) * 2007-08-29 2008-03-19 南京工业大学 智能机器人识别舞蹈音乐节奏的方法

Also Published As

Publication number Publication date
TWI484473B (zh) 2015-05-11
KR101370515B1 (ko) 2014-03-06
TW201142818A (en) 2011-12-01
KR20140012773A (ko) 2014-02-03
EP2494544A1 (en) 2012-09-05
EP2988297A1 (en) 2016-02-24
JP5543640B2 (ja) 2014-07-09
JP5295433B2 (ja) 2013-09-18
RU2013146355A (ru) 2015-04-27
JP2013225142A (ja) 2013-10-31
EP2494544B1 (en) 2015-09-02
JP2013508767A (ja) 2013-03-07
US9466275B2 (en) 2016-10-11
KR20120063528A (ko) 2012-06-15
US20120215546A1 (en) 2012-08-23
KR101612768B1 (ko) 2016-04-18
RU2507606C2 (ru) 2014-02-20
RU2012117702A (ru) 2013-11-20
CN102754147A (zh) 2012-10-24
CN104157280A (zh) 2014-11-19
WO2011051279A1 (en) 2011-05-05
BR112012011452A2 (pt) 2016-05-03
HK1168460A1 (zh) 2012-12-28

Similar Documents

Publication Publication Date Title
CN102754147B (zh) 复杂度可缩放的感知节拍估计
Lerch An introduction to audio content analysis: Music Information Retrieval tasks and applications
US9697840B2 (en) Enhanced chroma extraction from an audio codec
US9317561B2 (en) Scene change detection around a set of seed points in media data
CN103582913B (zh) 有效内容分类及响度估计
JP2004528599A (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
US20170047094A1 (en) Audio information processing
Tzanetakis Audio feature extraction
HK1168460B (zh) 复杂度可缩放的感知节拍估计
Szczerba et al. Pitch detection enhancement employing music prediction
Cunningham et al. Data reduction of audio by exploiting musical repetition
Gowriprasad et al. Linear prediction on Cent scale for fundamental frequency analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141022

Termination date: 20171026

CF01 Termination of patent right due to non-payment of annual fee