RU2841624C1

RU2841624C1 - Backward-compatible integration of high-frequency reconstruction techniques for audio signals

Info

Publication number: RU2841624C1
Application number: RU2025106458A
Authority: RU
Inventors: Кристофер ЧЕРЛИНГ; Ларс ВИЛЛЕМОЕС; Хейко ПУРНХАГЕН; Пер Экстранд
Original assignee: Долби Интернэшнл Аб
Priority date: 2018-01-26
Filing date: 2025-03-19
Publication date: 2025-06-11

Abstract

FIELD: computer equipment.

SUBSTANCE: invention relates to computer engineering for processing audio data. Result is achieved due to the stages, at which the decoded audio signal in the low-frequency band is filtered in order to generate the filtered audio signal in the low-frequency band, wherein filtering is performed using analysis filter bank, which includes analysis filters, h_k(n), which are modulated versions of the prototype filter, p₀(n), and regenerating part of the high frequency band of the audio signal using the filtered audio signal in the low frequency band and high frequency reconstruction metadata, wherein the regeneration includes spectral transfer if the patch insertion mode parameter has a first value, and the regeneration includes harmonic transposition by frequency extension of the phase vocoder if the patch insertion mode parameter has a second value.

EFFECT: improved spectral range replication.

8 cl, 7 dwg

Description

Перекрестная ссылка на связанную заявку Cross reference to related application

Настоящая заявка испрашивает приоритет по следующей приоритетной заявке: предварительная заявка США 62/622,205, поданная 26 января 2018, которая включена в настоящий документ посредством ссылки.This application claims priority from the following priority application: U.S. Provisional Application No. 62/622,205, filed January 26, 2018, which is incorporated herein by reference.

Область техники Field of technology

Варианты осуществления относятся к обработке аудиосигналов и, более конкретно, к кодированию, декодированию или транскодированию битовых потоков аудио с управляющими данными, специфицирующими, что-либо базовая форма высокочастотного восстановления (“HFR”), либо расширенная форма HFR должна выполняться в отношении данных аудио.Embodiments relate to audio signal processing and, more particularly, to encoding, decoding, or transcoding audio bitstreams with control data specifying that either a basic form of high frequency reconstruction (“HFR”) or an enhanced form of HFR is to be performed on the audio data.

Предшествующий уровень техники Prior art

Обычный битовый поток аудио включает в себя как данные аудио (например, закодированные данные аудио), указывающие один или несколько каналов аудиоконтента, так и метаданные, указывающие по меньшей мере одну характеристику данных аудио или аудиоконтента. Одним хорошо известным форматом для генерирования закодированного битового потока аудио является формат расширенного кодирования аудио (AAC) MPEG-4, описанный в стандарте ISO/IEC 14496-3:2009 MPEG. В стандарте MPEG-4, AAC обозначает “расширенное кодирование аудио”, и HE-AAC обозначает “высокоэффективное расширенное кодирование аудио”. A typical audio bitstream includes both audio data (e.g., encoded audio data) indicating one or more channels of audio content and metadata indicating at least one characteristic of the audio data or audio content. One well-known format for generating an encoded audio bitstream is the MPEG-4 Advanced Audio Coding (AAC) format, described in the ISO/IEC 14496-3:2009 MPEG standard. In the MPEG-4 standard, AAC stands for “Advanced Audio Coding,” and HE-AAC stands for “High Efficiency Advanced Audio Coding.”

Стандарт MPEG-4 AAC определяет несколько профилей аудио, которые определяют, какие объекты и инструменты кодирования представлены в совместимом кодере или декодере. Три из этих профиля аудио представляют собой (1) профиль AAC, (2) профиль HE-AAC и (3) профиль HE-AAC v2. Профиль AAC включает в себя тип объекта AAC низкой сложности (или “AAC-LC”). Объект AAC-LC является эквивалентом профилю MPEG-2 AAC низкой сложности, с некоторыми настройками, и не включает в себя ни тип объекта репликации спектрального диапазона (“SBR”), ни тип объекта параметрического стерео (“PS”). Профиль HE-AAC представляет собой супернабор профиля AAC и дополнительно включает в себя тип объекта SBR. Профиль HE-AAC v2 представляет собой супернабор профиля HE-AAC и дополнительно включает в себя тип объекта PS. The MPEG-4 AAC standard defines several audio profiles that determine which objects and coding tools are present in a compliant encoder or decoder. Three of these audio profiles are (1) the AAC profile, (2) the HE-AAC profile, and (3) the HE-AAC v2 profile. The AAC profile includes the AAC Low Complexity (or “AAC-LC”) object type. The AAC-LC object is equivalent to the MPEG-2 AAC Low Complexity profile, with some adjustments, and does not include either the Spectral Range Replication (“SBR”) object type or the Parametric Stereo (“PS”) object type. The HE-AAC profile is a superset of the AAC profile and additionally includes the SBR object type. The HE-AAC v2 profile is a superset of the HE-AAC profile and additionally includes the PS object type.

Тип объекта SBR содержит инструмент репликации спектрального диапазона, который является важным инструментом кодирования высокочастотного восстановления (“HFR”), который значительно улучшает эффективность сжатия перцепционных аудиокодеков. SBR восстанавливает высокочастотные компоненты аудиосигнала на стороне приемника (например, в декодере). Таким образом, кодер должен только закодировать и передать низкочастотные компоненты, обеспечивая повышенное качество аудио на низких скоростях передачи данных. SBR основана на репликации последовательностей гармоник, ранее отсеченных для уменьшения скорости передачи данных, из доступного сигнала ограниченной ширины полосы и управляющих данных, полученных из кодера. Отношение между тональными и шумоподобными компонентами поддерживается адаптивной обратной фильтраций и опциональным добавлением шума и синусоид. В стандарте MPEG-4 AAC, инструмент SBR выполняет спектральную вставку заплаты (patching) (также называемую линейным переносом или спектральным переносом), когда некоторое число последовательных поддиапазонов квадратурных зеркальных фильтров (QMF) копируются (или “вставляются в виде заплаты”) из переданной части полосы низких частот аудиосигнала в часть полосы высоких частот аудиосигнала, генерируемого в декодере. The SBR object type contains the spectral range replication tool, which is an important tool in high-frequency reconstruction (“HFR”) coding, which significantly improves the compression efficiency of perceptual audio codecs. SBR reconstructs the high-frequency components of the audio signal at the receiver side (e.g., in the decoder). Thus, the encoder only needs to encode and transmit the low-frequency components, providing increased audio quality at low bit rates. SBR is based on the replication of harmonic sequences, previously truncated to reduce the bit rate, from the available bandwidth-limited signal and control data received from the encoder. The relationship between tonal and noise-like components is maintained by adaptive inverse filtering and optional addition of noise and sine waves. In the MPEG-4 AAC standard, the SBR tool performs spectral patching (also called linear transfer or spectral transfer) where a number of consecutive quadrature mirror filter (QMF) subbands are copied (or "patched") from the transmitted low-band portion of the audio signal to the high-band portion of the audio signal generated at the decoder.

Спектральная вставка заплаты или линейный перенос могут не быть идеальными для некоторых типов аудио, таких как музыкальный контент с относительно низкими частотами перехода. Поэтому, необходимы методы для улучшения репликации спектрального диапазона.Spectral patch insertion or linear transfer may not be ideal for some types of audio, such as music content with relatively low crossover frequencies. Therefore, methods to improve spectral range replication are needed.

Краткое описание вариантов осуществления изобретения Brief description of embodiments of the invention

Раскрыт первый класс вариантов осуществления, который относится к способу декодирования закодированного битового потока аудио. Способ включает в себя прием закодированного битового потока аудио и декодирование данных аудио, чтобы сгенерировать декодированный аудиосигнал в полосе низких частот. Способ дополнительно включает в себя извлечение метаданных высокочастотного восстановления и фильтрацию декодированного аудиосигнала в полосе низких частот банком фильтров анализа, чтобы сгенерировать отфильтрованный аудиосигнал в полосе низких частот. Способ дополнительно включает в себя извлечение метки, указывающей, следует ли выполнить спектральный перенос или гармоническую транспозицию в отношении данных аудио, и регенерацию части полосы высоких частот аудиосигнала с использованием отфильтрованного аудиосигнала в полосе низких частот и метаданных высокочастотного восстановления в соответствии с меткой. Наконец, способ включает в себя комбинирование отфильтрованного аудиосигнала в полосе низких частот и регенерированной части полосы высоких частот для формирования широкополосного аудиосигнала.A first class of embodiments is disclosed that relates to a method for decoding an encoded audio bitstream. The method includes receiving an encoded audio bitstream and decoding audio data to generate a decoded audio signal in a low frequency band. The method further includes extracting high-frequency reconstruction metadata and filtering the decoded audio signal in the low frequency band with an analysis filter bank to generate a filtered audio signal in the low frequency band. The method further includes extracting a label indicating whether a spectral transfer or a harmonic transposition should be performed with respect to the audio data, and regenerating a portion of the high frequency band of the audio signal using the filtered audio signal in the low frequency band and the high-frequency reconstruction metadata according to the label. Finally, the method includes combining the filtered audio signal in the low frequency band and the regenerated portion of the high frequency band to form a wideband audio signal.

Второй класс вариантов осуществления относится к декодеру аудио для декодирования закодированного битового потока аудио. Декодер включает в себя входной интерфейс для приема закодированного битового потока аудио, где закодированный битовый поток аудио включает в себя данные аудио, представляющие часть полосы низких частот аудиосигнала, и базовый декодер для декодирования данных аудио, чтобы сгенерировать декодированный аудиосигнал в полосе низких частот. Декодер также включает в себя демультиплексор для извлечения из закодированного битового потока аудио метаданных высокочастотного восстановления, где метаданные высокочастотного восстановления включают в себя рабочие параметры для процесса высокочастотного восстановления, который линейно переносит некоторое количество последовательных поддиапазонов из части полосы низких частот аудиосигнала в часть полосы высоких частот аудиосигнала, и банк фильтров анализа для фильтрации декодированного аудиосигнала в полосе низких частот, чтобы сгенерировать отфильтрованный аудиосигнал в полосе низких частот. Декодер дополнительно включает в себя демультиплексор для извлечения из закодированного битового потока аудио метки, указывающей, следует ли выполнять линейный перенос или гармоническую транспозицию в отношении данных аудио, и высокочастотный регенератор для регенерации части полосы высоких частот аудиосигнала с использованием отфильтрованного аудиосигнала в полосе низких частот и метаданных высокочастотного восстановления в соответствии с меткой. Наконец, декодер включает в себя банк фильтров синтеза для комбинирования отфильтрованного аудиосигнала в полосе низких частот и регенерированной части полосы высоких частот для формирования широкополосного аудиосигнала.A second class of embodiments relates to an audio decoder for decoding an encoded audio bitstream. The decoder includes an input interface for receiving an encoded audio bitstream, where the encoded audio bitstream includes audio data representing a low-frequency band portion of an audio signal, and a core decoder for decoding the audio data to generate a decoded audio signal in the low frequency band. The decoder also includes a demultiplexer for extracting high-frequency reconstruction metadata from the encoded audio bitstream, where the high-frequency reconstruction metadata includes operating parameters for a high-frequency reconstruction process that linearly maps a number of successive subbands from a low-frequency band portion of the audio signal to a high-frequency band portion of the audio signal, and an analysis filter bank for filtering the decoded audio signal in the low frequency band to generate a filtered audio signal in the low frequency band. The decoder further includes a demultiplexer for extracting from the encoded audio bitstream a mark indicating whether a linear transfer or a harmonic transposition should be performed with respect to the audio data, and a high-frequency regenerator for regenerating a portion of the high-frequency band of the audio signal using the filtered audio signal in the low-frequency band and high-frequency reconstruction metadata in accordance with the mark. Finally, the decoder includes a synthesis filter bank for combining the filtered audio signal in the low-frequency band and the regenerated portion of the high-frequency band to form a wideband audio signal.

Другие классы вариантов осуществления относятся к кодированию и транскодированию битовых потоков аудио, содержащих метаданные, идентифицирующие, следует ли выполнять обработку расширенной репликации спектрального диапазона (eSBR).Other classes of embodiments relate to encoding and transcoding audio bitstreams containing metadata identifying whether to perform enhanced spectral range replication (eSBR) processing.

Краткое описание чертежей Brief description of the drawings

Фиг. 1 представляет собой блок-схему варианта осуществления системы, которая может быть сконфигурирована, чтобы выполнять вариант осуществления способа, соответствующего изобретению.Fig. 1 is a block diagram of an embodiment of a system that can be configured to perform an embodiment of the method according to the invention.

Фиг. 2 представляет собой блок-схему кодера, который является вариантом осуществления модуля обработки аудио, соответствующего изобретению. Fig. 2 is a block diagram of an encoder which is an embodiment of an audio processing module according to the invention.

Фиг. 3 представляет собой блок-схему системы, включающей в себя декодер, который является вариантом осуществления модуля обработки аудио, соответствующего изобретению, и опционально также пост-процессор, связанный с ним.Fig. 3 is a block diagram of a system including a decoder, which is an embodiment of the audio processing module according to the invention, and optionally also a post-processor associated therewith.

Фиг. 4 представляет собой блок-схему декодера, который является вариантом осуществления модуля обработки аудио, соответствующего изобретению.Fig. 4 is a block diagram of a decoder which is an embodiment of an audio processing module according to the invention.

Фиг. 5 представляет собой блок-схему декодера, который является другим вариантом осуществления модуля обработки аудио, соответствующего изобретению. Fig. 5 is a block diagram of a decoder which is another embodiment of the audio processing module according to the invention.

Фиг. 6 представляет собой блок-схему другого варианта осуществления модуля обработки аудио, соответствующего изобретению.Fig. 6 is a block diagram of another embodiment of an audio processing module according to the invention.

Фиг. 7 представляет собой диаграмму блока битового потока MPEG-4 AAC, включающего в себя сегменты, на которые он разделен.Fig. 7 is a diagram of an MPEG-4 AAC bitstream block including the segments into which it is divided.

Обозначения и терминология Designations and Terminology

Повсюду в настоящем раскрытии, в том числе в формуле изобретения, выражение выполнение операции “на” сигнале или данных (например, фильтрация, масштабирование, преобразование или применение усиления в отношении сигнала или данных) используется в широком смысле для обозначения выполнения операции непосредственно на сигнале или данных или на обработанной версии сигнала или данных (например, на версии сигнала, который подвергся предварительной фильтрации или предварительной обработке до выполнения на нем операции). Throughout this disclosure, including in the claims, the expression performing an operation “on” a signal or data (e.g., filtering, scaling, transforming, or applying gain to a signal or data) is used broadly to mean performing the operation directly on the signal or data or on a processed version of the signal or data (e.g., on a version of the signal that has been pre-filtered or pre-processed prior to performing the operation on it).

Повсюду в настоящем раскрытии, включая формулу изобретения, выражение “модуль обработки аудио” или “процессор аудио” используется в широком смысле для обозначения системы, устройства или прибора, сконфигурированного обработки данных аудио. Примеры модулей обработки аудио включают в себя, но без ограничения, кодеры, транскодеры, декодеры, кодеки, системы предварительной обработки, системы пост-обработки и системы обработки битовых потоков (иногда упоминаемые как инструменты обработки битовых потоков). Виртуально вся потребительская электроника, такая как мобильные телефоны, телевизоры, ноутбуки и планшеты, содержит модуль обработки аудио или процессор аудио.Throughout this disclosure, including the claims, the term “audio processing module” or “audio processor” is used in a broad sense to refer to a system, device, or apparatus configured to process audio data. Examples of audio processing modules include, but are not limited to, encoders, transcoders, decoders, codecs, pre-processing systems, post-processing systems, and bitstream processing systems (sometimes referred to as bitstream processing tools). Virtually all consumer electronics, such as mobile phones, televisions, laptops, and tablets, include an audio processing module or audio processor.

Повсюду в настоящем раскрытии, включая формулу изобретения, термин “связывает” или “связанный” используется в широком смысле для обозначения прямого или опосредованного соединения. Таким образом, если первое устройство связано со вторым устройством, это соединение может осуществляться как прямое соединение или опосредованное соединение через другие устройств и соединения. Более того, компоненты, интегрированные в другие компоненты или с другими компонентами, также связаны друг с другом. Throughout the present disclosure, including the claims, the term "connects" or "connected" is used in a broad sense to mean a direct or indirect connection. Thus, if a first device is connected to a second device, this connection may be carried out as a direct connection or an indirect connection through other devices and connections. Moreover, components integrated into other components or with other components are also connected to each other.

Подробное описание вариантов осуществления изобретения Detailed description of embodiments of the invention

Стандарт MPEG-4 AAC подразумевает, что закодированный битовый поток MPEG-4 AAC включает в себя метаданные, указывающие каждый тип обработки высокочастотного восстановления (“HFR”), который должен применяться (если какой-либо должен применяться) декодером, чтобы декодировать аудиоконтент битового потока, и/или который управляет такой обработкой HFR и/или указывает по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента MPEG-4 AAC, используемого для декодирования аудиоконтента битового потока. Здесь используется выражение “метаданные SBR” для обозначения метаданных типа, описанного или упомянутого в стандарте MPEG-4 AAC для применения с репликацией спектрального диапазона (“SBR”). Как понятно специалисту в данной области техники, SBR представляет собой форму HFR.The MPEG-4 AAC standard implies that an encoded MPEG-4 AAC bitstream includes metadata indicating each type of high frequency reconstruction (“HFR”) processing that is to be applied (if any) by a decoder to decode the audio content of the bitstream, and/or that controls such HFR processing and/or indicates at least one characteristic or parameter of at least one MPEG-4 AAC tool used to decode the audio content of the bitstream. The expression “SBR metadata” is used here to denote metadata of the type described or referred to in the MPEG-4 AAC standard for use with spectral range replication (“SBR”). As will be understood by one skilled in the art, SBR is a form of HFR.

SBR предпочтительно используется в качестве системы с двойной скоростью, при этом основной кодек работает на половине исходной частоты дискретизации, в то время как SBR работает на исходной частоте дискретизации. Кодер SBR работает параллельно с основным базовым кодеком, хотя и на более высокой частоте дискретизации. Хотя SBR представляет собой главным образом пост-обработку в декодере, важные параметры извлекаются в кодере, чтобы обеспечить наиболее точное высокочастотное восстановление в декодере. Кодер оценивает спектральную огибающую диапазона SBR для временного и частотного диапазона/разрешения, подходящих для текущих характеристик сегментов входного сигнала. Спектральная огибающая оценивается посредством комплексного анализа QMF и последующего вычисления энергии. Временные и частотные разрешения спектральных огибающих могут выбираться с высоким уровнем свободы, чтобы обеспечивать наиболее подходящее временное/частотное разрешение для данного входного сегмента. Оценка огибающей должна учитывать, что переходный процесс в исходной, главным образом, в высокочастотной области (например, high-hat (хай-хэт)) будет присутствовать в меньшей степени в сгенерированном SBR высоком диапазоне перед коррекцией огибающей, поскольку высокий диапазон в декодере основан на низком диапазоне, где переходный процесс гораздо меньше выражен по сравнению с высоким диапазоном. Этот аспект налагает разные требования для временного/частотного разрешения данных спектральной огибающей по сравнению с обычной оценкой спектральной огибающей, как используется в других алгоритмах кодирования аудио.SBR is preferably used as a double-rate system, with the base codec running at half the original sampling rate, while SBR runs at the original sampling rate. The SBR encoder runs in parallel with the main base codec, albeit at a higher sampling rate. Although SBR is primarily a post-processing step in the decoder, important parameters are extracted in the encoder to ensure the most accurate high-frequency reconstruction in the decoder. The encoder estimates the spectral envelope of the SBR band for a time and frequency range/resolution appropriate to the current characteristics of the input signal segments. The spectral envelope is estimated by means of a complex QMF analysis and subsequent energy calculation. The time and frequency resolutions of the spectral envelopes can be chosen with a high level of freedom to provide the most appropriate time/frequency resolution for a given input segment. The envelope estimation must take into account that the transient in the original, mainly high-frequency region (e.g. high-hat) will be present to a lesser extent in the SBR-generated high range before envelope correction, since the high range in the decoder is based on the low range, where the transient is much less pronounced compared to the high range. This aspect imposes different requirements for the time/frequency resolution of the spectral envelope data compared to the usual spectral envelope estimation as used in other audio coding algorithms.

Помимо спектральной огибающей, извлекаются несколько дополнительных параметров, представляющих спектральные характеристики входного сигнала для разных временных и частотных областей. Поскольку кодер естественным образом имеет доступ к исходному сигналу, а также к информации о том, как модуль SBR в декодере будет создавать высокий диапазон, с учетом конкретного набора управляющих параметров, система сможет справляться с ситуациями, где низкий диапазон составляет сильный гармонический ряд, а воссоздаваемый высокий диапазон, главным образом составляет произвольные сигнальные компоненты, а также ситуации, где сильные тональные компоненты присутствуют в исходном высоком диапазоне без эквивалентов в низком диапазоне, на котором базируется область полосы высоких частот. Более того, кодер SBR работает в тесной связи с основным базовым кодеком, чтобы оценивать, какой частотный диапазон должен покрываться посредством SBR в данное время. Данные SBR эффективно кодируются до передачи посредством использования энтропийного кодирования, а также канальных зависимостей управляющих данных, в случае стереосигналов.In addition to the spectral envelope, several additional parameters are extracted that represent the spectral characteristics of the input signal for different time and frequency domains. Since the encoder naturally has access to the original signal as well as to information about how the SBR module in the decoder will create the high band, given a specific set of control parameters, the system will be able to cope with situations where the low band constitutes a strong harmonic series and the reconstructed high band mainly constitutes arbitrary signal components, as well as situations where strong tonal components are present in the original high band with no equivalents in the low band on which the high band region is based. Moreover, the SBR encoder works closely with the underlying core codec to estimate which frequency range should be covered by SBR at a given time. The SBR data is efficiently encoded prior to transmission by using entropy coding as well as channel dependencies of the control data, in the case of stereo signals.

Алгоритмы извлечения управляющего параметра обычно должны быть тщательно настроены на основной кодек при данной битовой скорости и данной частоте дискретизации. Это обусловлено тем фактом, что более низкая битовая скорость обычно подразумевает больший диапазон SBR по сравнению с высокой битовой скоростью, и разные частоты дискретизации соответствуют разным временным разрешениям кадров SBR.Control parameter extraction algorithms usually need to be carefully tuned to the underlying codec at a given bit rate and a given sampling frequency. This is due to the fact that a lower bit rate usually implies a larger SBR range than a higher bit rate, and different sampling frequencies correspond to different SBR frame temporal resolutions.

Декодер SBR обычно включает в себя несколько разных частей. Он содержит модуль декодирования битового потока, модуль высокочастотного восстановления (HFR), модуль дополнительных высокочастотных компонентов и модуль корректора огибающей. Система основывается на банке фильтров QMF с комплексными значениями (для SBR высокого качества) или банке фильтров QMF с вещественными значениями (для SBR низкой мощности). Варианты осуществления изобретения применимы как к SBR высокого качества, так и к SBR низкой мощности. В модуле извлечения битового потока, управляющие данные считываются из битового потока и декодируются. Время-частотную сетку получают для текущего кадра, перед считыванием данных огибающей из битового потока. Основной базовый декодер декодирует аудиосигнал текущего кадра (хотя и на низкой скорости дискретизации), чтобы сформировать выборки аудио временной области. Полученный в результате кадр данных аудио используется для высокочастотного восстановления модулем HFR. Декодированный сигнал в полосе низких частот затем анализируется с использованием банка фильтров QMF. Высокочастотное восстановление и коррекция огибающей затем выполняются на поддиапазонных выборках банка фильтров QMF. Высокие частоты восстанавливаются из низкого диапазона гибким образом, на основе заданных управляющих параметров. Более того, восстановленный высокий диапазон адаптивно фильтруется на основе поддиапазонного канала в соответствии с управляющими данными, чтобы обеспечить подходящие спектральные характеристики данной временной/частотной области.An SBR decoder typically includes several different parts. It comprises a bitstream decoding module, a high-frequency reconstruction (HFR) module, an additional high-frequency components module, and an envelope equalizer module. The system is based on a complex-valued QMF filter bank (for high-quality SBR) or a real-valued QMF filter bank (for low-power SBR). Embodiments of the invention are applicable to both high-quality and low-power SBR. In the bitstream extraction module, control data is read from the bitstream and decoded. A time-frequency grid is obtained for the current frame, before reading the envelope data from the bitstream. The main core decoder decodes the audio signal of the current frame (albeit at a low sampling rate) to form time-domain audio samples. The resulting audio data frame is used for high-frequency reconstruction by the HFR module. The decoded signal in the low-pass band is then analyzed using the QMF filter bank. High-frequency reconstruction and envelope correction are then performed on the sub-band samples of the QMF filter bank. High frequencies are reconstructed from the low band in a flexible manner, based on the given control parameters. Furthermore, the reconstructed high band is adaptively filtered on a sub-band channel basis according to the control data, in order to provide suitable spectral characteristics for the given time/frequency domain.

Верхний уровень битового потока MPEG-4 AAC представляет собой последовательность блоков данных (элементов “raw_data_block”), каждый из которых представляет собой сегмент данных (упоминаемый здесь как “блок”), который содержит данные аудио (обычно для временного периода 1024 или 960 выборок) и связанную информацию и/или другие данные. Здесь, мы используем термин “блок” для обозначения сегмента битового потока MPEG-4 AAC, содержащего данные аудио (и соответствующие метаданные и опционально также другие связанные данные), что определяет или указывает один (но не более одного) элемент “raw_data_block”. The top layer of the MPEG-4 AAC bitstream is a sequence of data blocks (raw_data_block elements), each of which is a data segment (referred to here as a block) that contains audio data (typically for a time period of 1024 or 960 samples) and associated information and/or other data. Here, we use the term block to refer to a segment of the MPEG-4 AAC bitstream containing audio data (and associated metadata and optionally also other associated data) that specifies or points to one (but not more than one) raw_data_block element.

Каждый блок битового потока MPEG-4 AAC может включать в себя некоторое количество синтаксических элементов (каждый из которых также материализован в битовом потоке как сегмент данных). Семь типов таких синтаксических элементов определены в стандарте MPEG-4 AAC. Каждый синтаксический элемент идентифицирован разным значением элемента “id_syn_ele” данных. Примеры синтаксических элементов включают в себя “single_channel_element()”, “channel_pair_element()” и “fill_element()”. Элемент одного канала представляет собой контейнер, включающий в себя данные аудио одного аудиоканала (монофонический аудиосигнал). Элемент пары каналов включает в себя данные аудио двух аудиоканалов (то есть, стереофонический аудиосигнал). Each MPEG-4 AAC bitstream block may include a number of syntax elements (each of which is also materialized in the bitstream as a data segment). Seven types of such syntax elements are defined in the MPEG-4 AAC standard. Each syntax element is identified by a different value of the “id_syn_ele” data element. Examples of syntax elements include “single_channel_element()”, “channel_pair_element()”, and “fill_element()”. A single channel element is a container that includes audio data from a single audio channel (a monophonic audio signal). A channel pair element includes audio data from two audio channels (i.e., a stereophonic audio signal).

Элемент наполнения представляет собой контейнер информации, включающей в себя идентификатор (например, значение отмеченного выше элемента “id_syn_ele”), за которым следуют данные, которые упоминаются как “данные наполнения”. Элементы наполнения исторически использовались, чтобы корректировать мгновенную битовую скорость битовых потоков, которые должны передаваться по каналу с постоянной скоростью передачи. Путем добавления подходящего количества данных наполнения в каждый блок, можно достигнуть постоянной скорости передачи данных. A padding element is a container of information that includes an identifier (such as the value of the “id_syn_ele” element noted above) followed by data, which is referred to as “padding data.” Padding elements have historically been used to adjust the instantaneous bit rate of bit streams that are to be transmitted over a constant-rate channel. By adding an appropriate amount of padding data to each block, a constant data rate can be achieved.

В соответствии с вариантами осуществления изобретения, данные наполнения могут включать в себя одну или более полезных нагрузок расширения, которые расширяют тип данных (например, метаданных), способных передаваться в битовом потоке. Декодер, который принимает битовые потоки с данными наполнения, содержащими новый тип данных, может опционально использоваться устройством, принимающим битовый поток (например, декодером), чтобы расширять функциональность устройства. Таким образом, как может быть понятно специалисту в данной области техники, элементы наполнения представляют собой специальный тип структуры данных и отличаются от структур данных, обычно используемых для передачи данных аудио (например, полезных нагрузок аудио, содержащих данные канала).According to embodiments of the invention, the fill data may include one or more extension payloads that extend the type of data (e.g., metadata) that can be transmitted in the bitstream. A decoder that receives bitstreams with fill data containing a new type of data may optionally be used by a device receiving the bitstream (e.g., a decoder) to extend the functionality of the device. Thus, as may be understood by a person skilled in the art, fill elements represent a special type of data structure and differ from data structures typically used for transmitting audio data (e.g., audio payloads containing channel data).

В некоторых вариантах осуществления изобретения, идентификатор, используемый, чтобы идентифицировать элемент наполнения, может состоять из трех-битного целого числа без знака со старшим битом, передаваемым первым (“uimsbf”), имеющего значение 0×6. В одном блоке, может появляться несколько экземпляров одного и того же типа синтаксического элемента (например, несколько элементов наполнения). In some embodiments of the invention, the identifier used to identify the content element may consist of a three-bit unsigned integer with the most significant bit transmitted first (“uimsbf”), having a value of 0x6. Multiple instances of the same type of syntax element (e.g., multiple content elements) may appear in one block.

Другим стандартом для кодирования битовых потоков аудио является стандарт единого кодирования речи и аудио MPEG (USAC) (ISO/IEC 23003-3:2012). Стандарт MPEG USAC описывает кодирование и декодирование аудиоконтента с использованием обработки репликации спектрального диапазона (включая обработку SBR, как описано в стандарте MPEG-4 AAC, а также включая другие расширенные формы обработки репликации спектрального диапазона). Эта обработка применяет инструменты репликации спектрального диапазона (иногда упоминаемые здесь как “инструменты расширенной SBR” или “инструменты eSBR”) расширенной и улучшенной версии набора инструментов SBR, описанных в стандарте MPEG-4 AAC. Таким образом, eSBR (как определено в стандарте USAC) является усовершенствованием SBR (как определено в стандарте MPEG-4 AAC).Another standard for coding audio bitstreams is the MPEG Unified Speech and Audio Coding (USAC) standard (ISO/IEC 23003-3:2012). The MPEG USAC standard describes the encoding and decoding of audio content using spectral range replication processing (including SBR processing as described in the MPEG-4 AAC standard, but also including other extended forms of spectral range replication processing). This processing applies the spectral range replication tools (sometimes referred to here as the “extended SBR tools” or “eSBR tools”) to an extended and improved version of the SBR toolset described in the MPEG-4 AAC standard. Thus, eSBR (as defined in the USAC standard) is an enhancement to SBR (as defined in the MPEG-4 AAC standard).

Здесь, мы используем выражение “обработка расширенной SBR” (или “обработка eSBR”) для обозначения обработки репликации спектрального диапазона с использованием по меньшей мере одного инструмента eSBR (например, по меньшей мере одного инструмента eSBR, который описан или упомянут в стандарте MPEG USAC), который не описан или упомянут в стандарте MPEG-4 AAC. Примерами таких инструментов eSBR являются гармоническая транспозиция и дополнительная предварительная обработка QMF-вставки заплаты или “предварительное сглаживание”.Here, we use the expression “extended SBR processing” (or “eSBR processing”) to refer to spectral range replication processing using at least one eSBR tool (e.g., at least one eSBR tool that is described or referenced in the MPEG USAC standard) that is not described or referenced in the MPEG-4 AAC standard. Examples of such eSBR tools are harmonic transposition and additional QMF patch insertion preprocessing or “pre-dithering”.

Гармонический транспозер (модуль транспозиции) целого порядка T отображает синусоиду с частотой ω в синусоиду с частотой Tω, в то же время сохраняя длительность сигнала. Три порядка, T=2, 3, 4, обычно используются последовательно, чтобы формировать каждую часть желательного выходного частотного диапазона с использованием наименьшего возможного порядка транспозиции. Если требуется выход выше диапазона транспозиции четвертого порядка, он может генерироваться сдвигами частоты. Когда возможно, близкие критически дискретизированные временные области основной полосы создаются для обработки, чтобы минимизировать вычислительную сложность. The harmonic transposer of integer order T maps a sinusoid of frequency ω to a sinusoid of frequency Tω, while preserving the signal duration. Three orders, T=2, 3, 4, are typically used in series to generate each portion of the desired output frequency range using the smallest possible transposition order. If output above the fourth-order transposition range is required, it can be generated by frequency shifts. Whenever possible, closely sampled baseband time domains are created for processing to minimize computational complexity.

Гармонический транспозер может быть основан на QMF или на DFT. При использовании гармонического транспозера на основе QMF, расширение ширины полосы сигнала временной области базового кодера выполняется полностью в области QMF, с использованием модифицированной структуры фазового вокодера, выполняя прореживание с последующим временным растяжением для каждого поддиапазона QMF. Транспозиция с использованием нескольких коэффициентов транспозиции (например, T=2, 3, 4) выполняется на стадии обычного преобразования анализа/синтеза QMF. Поскольку гармонический транспозер на основе QMF не проявляет адаптивной к сигналу избыточной дискретизации частотной области, соответствующая метка в битовом потоке (sbrOversamplingFlag[ch]) может игнорироваться. The harmonic transposer can be either QMF-based or DFT-based. When using a QMF-based harmonic transposer, the bandwidth expansion of the time domain signal of the core coder is performed entirely in the QMF domain, using a modified phase vocoder structure, performing decimation followed by time stretching for each QMF subband. Transposition using multiple transposition factors (e.g. T=2, 3, 4) is performed in the normal QMF analysis/synthesis transform stage. Since the QMF-based harmonic transposer does not exhibit signal-adaptive frequency domain oversampling, the corresponding flag in the bitstream (sbrOversamplingFlag[ch]) can be ignored.

При использовании гармонического транспозера на основе DFT, транспозеры коэффициентов 3 и 4 (транспозеры 3-го и 4-го порядка) предпочтительно интегрируются в транспозер коэффициента 2 (транспозер 2-го порядка) посредством интерполяции для уменьшения сложности. Для каждого кадра (соответственно выборкам базового кодера coreCoderFrameLength), номинальный размер “полноразмерного” преобразования транспозера сначала определяется меткой адаптивной к сигналу избыточной дискретизации частотной области (sbrOversamplingFlag[ch]) в битовом потоке. When using a DFT-based harmonic transposer, the coefficient transposers of 3 and 4 (3rd and 4th order transposers) are preferably integrated into the coefficient transposer of 2 (2nd order transposer) via interpolation to reduce complexity. For each frame (corresponding to coreCoderFrameLength core encoder samples), the nominal size of the “full-size” transposer transform is first determined by the signal-adaptive frequency domain oversampling flag (sbrOversamplingFlag[ch]) in the bitstream.

Когда sbrPatchingMode==1, указывая, что линейная транспозиция должна использоваться, чтобы генерировать высокий диапазон, может вводиться дополнительный этап во избежание прерываний в форме спектральной огибающей высокочастотного сигнала, вводимого в последующий корректор огибающей. Это улучшает операцию последующей стадии коррекции огибающей, приводя в результате к сигналу в полосе высоких частот, который воспринимается как более стабильный. Операция дополнительной предварительной обработки является выгодной для типов сигнала, где грубая огибающая спектра сигнала в полосе низких частот, используемого для восстановления высоких частот, демонстрирует большие вариации в уровне. Однако значение элемента битового потока может определяться в кодере путем применения любого вида зависимой от сигнала классификации. Дополнительная предварительная обработка предпочтительно активируется через однобитный элемент битового потока, bs_sbr_preprocessing. Когда bs_sbr_preprocessing установлен в один, дополнительная обработка включена. Когда bs_sbr_preprocessing установлен в нуль, дополнительная предварительная обработка выключена. Дополнительная обработка предпочтительно использует кривую preGain, которая используется высокочастотным генератором, чтобы масштабировать низкий диапазон, XLow, для каждой вставки заплаты. Например, кривая preGain может вычисляться в соответствии с:When sbrPatchingMode==1, indicating that linear transposition should be used to generate the high band, an additional stage may be introduced to avoid discontinuities in the shape of the spectral envelope of the high frequency signal input to the subsequent envelope equalizer. This improves the operation of the subsequent envelope equalization stage, resulting in a high band signal that is perceived as more stable. The additional preprocessing operation is advantageous for signal types where the coarse spectral envelope of the low band signal used to reconstruct the high frequencies exhibits large variations in level. However, the meaning of the bitstream element may be determined in the encoder by applying any kind of signal-dependent classification. The additional preprocessing is preferably activated via the one-bit bitstream element, bs_sbr_preprocessing. When bs_sbr_preprocessing is set to one, the additional preprocessing is enabled. When bs_sbr_preprocessing is set to zero, the additional preprocessing is disabled. Additional processing preferably uses a preGain curve that is used by the high-frequency generator to scale the low range, XLow, for each patch insertion. For example, the preGain curve might be calculated according to:

где k₀ представляет собой первый поддиапазон QMF в сводной таблице частотных диапазонов, и lowEnvSlope вычисляется с использованием функции, которая вычисляет коэффициенты полинома наилучшего соответствия (в смысле наименьших квадратов), такого как polyfit(). Например,where k ₀ is the first QMF sub-band in the frequency band summary table, and lowEnvSlope is calculated using a function that calculates the coefficients of a best-fit polynomial (in the least-squares sense), such as polyfit(). For example,

может применяться (с использованием полинома третьей степени), и гдеcan be applied (using a third degree polynomial), and where

где x_lowband(k)=[0…k₀-1], numTimeSlot представляет собой количество временных сегментов огибающей SBR, которые существуют в кадре, RATE является постоянной, указывающей количество поддиапазонных выборок QMF на временной сегмент (например, 2), ϕ_k представляет собой коэффициент линейного фильтра предсказания (потенциально получаемый из метода ковариации), и гдеwhere x_lowband(k)=[0…k ₀ -1], numTimeSlot is the number of SBR envelope time segments that exist in the frame, RATE is a constant indicating the number of QMF subband samples per time segment (e.g. 2), ϕ _k is the coefficient of the linear prediction filter (potentially derived from the covariance method), and where

Битовый поток, генерируемый в соответствии со стандартом MPEG USAC (иногда упоминаемый здесь как “битовый поток USAC”), включает в себя закодированный аудиоконтент и обычно включает в себя метаданные, указывающие каждый тип обработки репликации спектрального диапазона, подлежащей применению декодером, чтобы декодировать аудиоконтент битового потока USAC, и/или метаданные, которые управляют такой обработкой репликации спектрального диапазона и/или указывают по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента SBR и/или инструмента eSBR, подлежащего использованию, чтобы декодировать аудиоконтент битового потока USAC. A bitstream generated in accordance with the MPEG USAC standard (sometimes referred to herein as a “USAC bitstream”) includes encoded audio content and typically includes metadata indicating each type of spectral range replication processing to be applied by a decoder to decode the audio content of the USAC bitstream and/or metadata that controls such spectral range replication processing and/or indicates at least one characteristic or parameter of at least one SBR tool and/or eSBR tool to be used to decode the audio content of the USAC bitstream.

Здесь, мы используем выражение “метаданные расширенной SBR” (или “метаданные eSBR”) для обозначения метаданных, указывающих каждый тип обработки репликации спектрального диапазона, подлежащей применению декодером, чтобы декодировать аудиоконтент закодированного битового потока аудио (например, битового потока USAC), и/или которые управляют такой обработкой репликации спектрального диапазона и/или указывают по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента SBR и/или инструмента eSBR, подлежащего использованию, чтобы декодировать такой аудиоконтент, но которые не описаны или не упомянуты в стандарте MPEG-4 AAC. Примером метаданных eSBR являются метаданные (предназначенные для указания или управления обработкой репликации спектрального диапазона), которые описаны или упомянуты в стандарте MPEG USAC, но не в стандарте MPEG-4 AAC. Таким образом, метаданные eSBR здесь обозначают метаданные, которые не являются метаданными SBR, и метаданные SBR здесь обозначают метаданные, которые не являются метаданными eSBR.Here, we use the expression “extended SBR metadata” (or “eSBR metadata”) to denote metadata that indicates each type of spectral range replication processing to be applied by a decoder to decode the audio content of an encoded audio bitstream (e.g., a USAC bitstream), and/or that controls such spectral range replication processing and/or indicates at least one characteristic or parameter of at least one SBR tool and/or eSBR tool to be used to decode such audio content, but that is not described or mentioned in the MPEG-4 AAC standard. An example of eSBR metadata is metadata (intended to indicate or control spectral range replication processing) that is described or mentioned in the MPEG USAC standard, but not in the MPEG-4 AAC standard. Thus, eSBR metadata here refers to metadata that is not SBR metadata, and SBR metadata here refers to metadata that is not eSBR metadata.

Битовый поток USAC может включать в себя как метаданные SBR, так и метаданные eSBR. Более конкретно, битовый поток USAC может включать в себя метаданные eSBR, которые управляют выполнением обработки eSBR декодером, и метаданные SBR, которые управляют выполнением обработки SBR декодером. В соответствии с типовыми вариантами осуществления настоящего изобретения, метаданные eSBR (например, специфические для eSBR данные конфигурации) включены (в соответствии с настоящим изобретением) в битовый поток MPEG-4 AAC (например, в контейнере sbr_extension() на конце нагрузки SBR).The USAC bitstream may include both SBR metadata and eSBR metadata. More specifically, the USAC bitstream may include eSBR metadata that controls the execution of eSBR processing by the decoder, and SBR metadata that controls the execution of SBR processing by the decoder. According to exemplary embodiments of the present invention, the eSBR metadata (e.g., eSBR-specific configuration data) is included (in accordance with the present invention) in the MPEG-4 AAC bitstream (e.g., in the sbr_extension() container at the SBR payload end).

Выполнение обработки eSBR, во время декодирования закодированного битового потока с использованием набора инструментов eSBR (содержащего по меньшей мере один инструмент eSBR), декодером регенерирует высокочастотный диапазон аудиосигнала, на основе репликации последовательностей гармоник, которые были отсечены во время кодирования. Такая обработка eSBR обычно корректирует огибающую спектра сгенерированного высокочастотного диапазона и применяет обратную фильтрацию, и добавляет шум и синусоидальные компоненты, чтобы воссоздать спектральные характеристики исходного аудиосигнала. Performing eSBR processing, during decoding of the encoded bitstream using the eSBR toolkit (containing at least one eSBR tool), the decoder regenerates the high-frequency range of the audio signal based on the replication of the harmonic sequences that were cut off during encoding. Such eSBR processing typically corrects the spectral envelope of the generated high-frequency range and applies inverse filtering, and adds noise and sinusoidal components to recreate the spectral characteristics of the original audio signal.

В соответствии с типовыми вариантами осуществления изобретения, метаданные eSBR включены (например, включено малое количество управляющих битов, которые представляют собой метаданные eSBR) в один или несколько сегментов метаданных закодированного битового потока аудио (например, битового потока MPEG-4 AAC), который также включает в себя закодированные данные аудио в других сегментах (сегментах данных аудио). Обычно, по меньшей мере один такой сегмент метаданных каждого блока битового потока представляет собой (или включает в себя) элемент наполнения (включающий в себя идентификатор, указывающий начало элемента наполнения), и метаданные eSBR включены в элемент наполнения после идентификатора. According to exemplary embodiments of the invention, the eSBR metadata is included (e.g., a small number of control bits that represent the eSBR metadata are included) in one or more metadata segments of an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream), which also includes encoded audio data in other segments (audio data segments). Typically, at least one such metadata segment of each bitstream block is (or includes) a fill element (including an identifier indicating the beginning of the fill element), and the eSBR metadata is included in the fill element after the identifier.

Фиг. 1 представляет собой блок-схему примерной цепи обработки аудио (системы обработки данных аудио), в которой один или более элементов системы могут быть сконфигурированы в соответствии с вариантом осуществления настоящего изобретения. Система включает в себя следующие элементы, связанные между собой, как показано: кодер 1, подсистема 2 доставки, декодер 3 и модуль 4 пост-обработки. В различных вариантах показанной системы, один или несколько элементов опущены, или включены дополнительные модули обработки данных аудио. Fig. 1 is a block diagram of an exemplary audio processing chain (audio data processing system), in which one or more elements of the system may be configured in accordance with an embodiment of the present invention. The system includes the following elements, interconnected as shown: encoder 1, delivery subsystem 2, decoder 3 and post-processing module 4. In various embodiments of the shown system, one or more elements are omitted, or additional audio data processing modules are included.

В некоторых реализациях, кодер 1 (который опционально включает в себя модуль предварительной обработки) сконфигурирован, чтобы принимать выборки PCM (временной области), содержащие аудиоконтент, в качестве входа и выводить закодированный битовый поток аудио (имеющий формат, который совместим со стандартом MPEG-4 AAC), который указывает аудиоконтент. Данные битового потока, которые указывают аудиоконтент, иногда упоминаются здесь как “данные аудио” или “закодированные данные аудио”. Если кодер сконфигурирован в соответствии с типовым вариантом осуществления настоящего изобретения, битовый поток аудио, выводимый из кодера, включает в себя метаданные eSBR (и обычно также другие метаданные), а также данные аудио. In some implementations, the encoder 1 (which optionally includes a pre-processing module) is configured to receive PCM (time domain) samples containing audio content as input and to output an encoded audio bitstream (having a format that is compatible with the MPEG-4 AAC standard) that indicates the audio content. The bitstream data that indicates the audio content is sometimes referred to here as "audio data" or "encoded audio data". If the encoder is configured in accordance with an exemplary embodiment of the present invention, the audio bitstream output from the encoder includes eSBR metadata (and typically also other metadata) as well as audio data.

Один или несколько закодированных битовых потоков аудио, выведенных из кодера 1, могут обеспечиваться в подсистему 2 доставки закодированного аудио. Подсистема 2 сконфигурирована, чтобы хранить и/или доставлять каждый закодированный битовый поток, выведенный из кодера 1. Закодированный битовый поток аудио, выведенный из кодера 1, может сохраняться подсистемой 2 (например, в форме DVD или Blu-ray диска) или передаваться подсистемой 2 (которая может реализовывать линию связи или сеть передачи) или может как сохраняться, так и передаваться подсистемой 2. One or more coded audio bitstreams output from the encoder 1 may be provided to the coded audio delivery subsystem 2. The subsystem 2 is configured to store and/or deliver each coded audio bitstream output from the encoder 1. The coded audio bitstream output from the encoder 1 may be stored by the subsystem 2 (for example, in the form of a DVD or Blu-ray disc) or transmitted by the subsystem 2 (which may implement a communication line or a transmission network) or may be both stored and transmitted by the subsystem 2.

Декодер 3 сконфигурирован, чтобы декодировать закодированный битовый поток аудио MPEG-4 AAC (сгенерированный кодером 1), который он принимает посредством подсистемы 2. В некоторых вариантах осуществления, декодер 3 сконфигурирован, чтобы извлекать метаданные eSBR из каждого блока битового потока и декодировать битовый поток (в том числе посредством выполнения обработки eSBR с использованием извлеченных метаданных eSBR), чтобы сгенерировать декодированные данные аудио (например, потоки выборок декодированного аудио PCM). В некоторых вариантах осуществления, декодер 3 сконфигурирован, чтобы извлекать метаданные SBR из битового потока (но игнорировать метаданные eSBR, включенные в битовый поток) и декодировать битовый поток (в том числе посредством выполнения обработки SBR с использованием извлеченных метаданных SBR), чтобы генерировать декодированные данные аудио (например, потоки выборок декодированного аудио PCM). Обычно, декодер 3 включает в себя буфер, который хранит (например, не-временным образом) сегменты закодированного битового потока аудио, принятого от подсистемы 2.The decoder 3 is configured to decode the encoded MPEG-4 AAC audio bitstream (generated by the encoder 1), which it receives via the subsystem 2. In some embodiments, the decoder 3 is configured to extract eSBR metadata from each block of the bitstream and decode the bitstream (including by performing eSBR processing using the extracted eSBR metadata) to generate decoded audio data (e.g., streams of samples of decoded PCM audio). In some embodiments, the decoder 3 is configured to extract SBR metadata from the bitstream (but to ignore the eSBR metadata included in the bitstream) and decode the bitstream (including by performing SBR processing using the extracted SBR metadata) to generate decoded audio data (e.g., streams of samples of decoded PCM audio). Typically, decoder 3 includes a buffer that stores (e.g., in a non-temporal manner) segments of the encoded audio bitstream received from subsystem 2.

Модуль 4 пост-обработки согласно фиг. 1 сконфигурирован, чтобы принимать поток декодированных данных аудио от декодера 3 (например, выборки декодированного аудио PCM) и выполнять на них пост-обработку. Модуль пост-обработки может также быть сконфигурирован, чтобы воспроизводить пост-обработанный аудиоконтент (или декодированное аудио, принятое от декодера 3) для воспроизведения одним или более динамиками.The post-processing module 4 according to Fig. 1 is configured to receive a stream of decoded audio data from the decoder 3 (e.g. samples of decoded PCM audio) and to perform post-processing on them. The post-processing module may also be configured to reproduce the post-processed audio content (or decoded audio received from the decoder 3) for reproduction by one or more speakers.

Фиг. 2 представляет собой блок-схему кодера (100), который представляет собой вариант осуществления соответствующего изобретению модуля обработки аудио. Любые из компонентов или элементов кодера 100 могут быть реализованы как один или более процессов и/или одна или более схем (например, ASIC, FPGA или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. Кодер 100 включает в себя кодер 105, стадию (каскад) 107 наполнителя/блока форматирования, каскад 106 генерации метаданных и буферную память 109, соединенные как показано. Обычно также, кодер 100 включает в себя другие элементы обработки (не показаны). Кодер 100 сконфигурирован, чтобы преобразовывать входной битовый поток аудио в закодированный выходной битовый поток MPEG-4 AAC.Fig. 2 is a block diagram of an encoder (100), which is an embodiment of an audio processing module according to the invention. Any of the components or elements of the encoder 100 may be implemented as one or more processes and/or one or more circuits (e.g., an ASIC, FPGA or other integrated circuits) in hardware, software or a combination of hardware and software. The encoder 100 includes an encoder 105, a filler/format stage 107, a metadata generation stage 106 and a buffer memory 109, connected as shown. Typically, the encoder 100 also includes other processing elements (not shown). The encoder 100 is configured to transform an input audio bitstream into an encoded output MPEG-4 AAC bitstream.

Генератор 106 метаданных подсоединен и сконфигурирован, чтобы генерировать (и/или пропускать на каскад 107) метаданные (включающие в себя метаданные eSBR и метаданные SBR), подлежащие включению каскадом 107 в закодированный битовый поток, который должен выводиться из кодера 100. The metadata generator 106 is connected to and configured to generate (and/or pass to the cascade 107) metadata (including eSBR metadata and SBR metadata) to be included by the cascade 107 in an encoded bitstream to be output from the encoder 100.

Кодер 105 подсоединен и сконфигурирован, чтобы кодировать (например, путем выполнения на нем сжатия) введенные данные аудио и обеспечивать полученные в результате закодированные аудио в каскад 107 для включения в закодированный битовый поток, который должен выводиться из каскада 107. The encoder 105 is connected and configured to encode (e.g. by performing compression thereon) the input audio data and to provide the resulting encoded audio to the stage 107 for inclusion in an encoded bitstream to be output from the stage 107.

Каскад 107 сконфигурирован, чтобы мультиплексировать закодированное аудио из кодера 105 и метаданные (включающие в себя метаданные eSBR и метаданные SBR) из генератора 106, чтобы генерировать закодированный битовый поток, подлежащий выводу из каскада 107, предпочтительно так, что закодированный битовый поток имеет формат, как специфицировано одним из вариантов осуществления настоящего изобретения.The cascade 107 is configured to multiplex the encoded audio from the encoder 105 and the metadata (including the eSBR metadata and the SBR metadata) from the generator 106 to generate an encoded bitstream to be output from the cascade 107, preferably such that the encoded bitstream has a format as specified by one embodiment of the present invention.

Буферная память 109 сконфигурирована, чтобы хранить (например, не-временным образом) по меньшей мере один блок закодированного битового потока аудио, выведенного из каскада 107, и последовательность блоков закодированного битового потока аудио затем обеспечивается из буферной памяти 109 в качестве выхода из кодера 100 в систему доставки. The buffer memory 109 is configured to store (e.g., in a non-temporal manner) at least one block of the encoded audio bitstream output from the cascade 107, and a sequence of blocks of the encoded audio bitstream is then provided from the buffer memory 109 as an output from the encoder 100 to the delivery system.

Фиг. 3 представляет собой блок-схему системы, включающей в себя декодер (200), который представляет собой вариант осуществления соответствующего изобретению модуля обработки аудио, и опционально также пост-процессор (300), связанный с ним. Любые из компонентов или элементов декодера 200 и пост-процессора 300 могут быть реализованы как один или более процессов и/или одна или более схем (например, ASIC, FPGA или другие интегральные схемы) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. Декодер 200 содержит буферную память 201, блок расформатирования нагрузки битового потока (синтаксический анализатор) 205, подсистему 202 декодирования аудио (иногда упоминаемую как “базовый” каскад декодирования или “базовая” подсистема декодирования), каскад 203 обработки eSBR и каскад 204 генерации управляющих битов, связанные, как показано. Обычно также, декодер 200 включает в себя другие элементы обработки (не показаны). Fig. 3 is a block diagram of a system including a decoder (200), which is an embodiment of the inventive audio processing module, and optionally also a post-processor (300) associated therewith. Any of the components or elements of the decoder 200 and the post-processor 300 may be implemented as one or more processes and/or one or more circuits (e.g., an ASIC, FPGA or other integrated circuits) in hardware, software or a combination of hardware and software. The decoder 200 comprises a buffer memory 201, a bitstream payload formatter (parser) 205, an audio decoding subsystem 202 (sometimes referred to as a “core” decoding stage or a “core” decoding subsystem), an eSBR processing stage 203 and a control bit generation stage 204, all associated as shown. Typically, the decoder 200 also includes other processing elements (not shown).

Буферная память (буфер) 201 хранит (например, не-временным образом) по меньшей мере один блок закодированного битового потока аудио MPEG-4 AAC, принятого декодером 200. При работе декодера 200, последовательность блоков битового потока добавляется из буфера 201 в блок 205 асформатирования. The buffer memory (buffer) 201 stores (e.g., in a non-temporal manner) at least one block of the encoded MPEG-4 AAC audio bitstream received by the decoder 200. During operation of the decoder 200, a sequence of bitstream blocks is added from the buffer 201 to the formatting unit 205.

В вариациях варианта осуществления согласно фиг. 3 (или вариантах осуществления согласно фиг. 4, которые будут описаны), APU, который не является декодером (например, APU 500 на фиг. 6), включает в себя буферную память (например, буферную память, идентичную буферу 201), который хранит (например, не-временным образом) по меньшей мере один блок закодированного битового потока аудио (например, битовый поток аудио MPEG-4 AAC) того же самого типа, принятого буфером 201 согласно фиг. 3 или фиг. 4 (т.е., закодированного битового потока аудио, который включает в себя метаданные eSBR).In variations of the embodiment according to Fig. 3 (or embodiments according to Fig. 4, which will be described), an APU that is not a decoder (e.g., APU 500 in Fig. 6) includes a buffer memory (e.g., a buffer memory identical to buffer 201) that stores (e.g., in a non-temporal manner) at least one block of an encoded audio bitstream (e.g., an MPEG-4 AAC audio bitstream) of the same type received by buffer 201 according to Fig. 3 or Fig. 4 (i.e., an encoded audio bitstream that includes eSBR metadata).

Со ссылкой снова на фиг. 3, блок 205 асформатирования подсоединен и сконфигурирован, чтобы демультиплексировать каждый блок битового потока для извлечения из него метаданных SBR (включающих в себя квантованные данные огибающей) и метаданных eSBR (и обычно также других метаданных), чтобы обеспечивать по меньшей мере метаданные eSBR и метаданные SBR в каскад 203 обработки eSBR и обычно также обеспечивать другие извлеченные метаданные в подсистему 202 декодирования (и опционально также управлять генератором 204 битов). Блок 205 асформатирования также подсоединен и сконфигурирован, чтобы извлекать данные аудио из каждого блока битового потока и обеспечивать извлеченные данные аудио в подсистему 202 декодирования (каскад декодирования). Referring again to Fig. 3, the formatting unit 205 is connected and configured to demultiplex each block of the bitstream to extract therefrom SBR metadata (including quantized envelope data) and eSBR metadata (and typically also other metadata) to provide at least the eSBR metadata and the SBR metadata to the eSBR processing stage 203 and typically also provide other extracted metadata to the decoding subsystem 202 (and optionally also control the bit generator 204). The formatting unit 205 is also connected and configured to extract audio data from each block of the bitstream and to provide the extracted audio data to the decoding subsystem 202 (decoding stage).

Система согласно фиг. 3 опционально также включает в себя пост-процессор 300. Пост-процессор 300 включает в себя буферную память (буфер) 301 и другие элементы обработки (не показаны), включая по меньшей мере один элемент обработки, связанный с буфером 301. Буфер 301 хранит (например, не-временным образом) по меньшей мере один блок (или кадр) декодированных данных аудио, принятых пост-процессором 300 от декодера 200. Элементы обработки пост-процессора 300 подсоединены и сконфигурированы, чтобы принимать и адаптивно обрабатывать последовательность блоков (или кадров) декодированного аудио, выведенного из буфера 301, с использованием метаданных, выведенных из подсистемы 202 декодирования (и/или блока 205 расформатирования), и/или управлять битами, выведенными из каскада 204 декодера 200. The system according to Fig. 3 optionally also includes a post-processor 300. The post-processor 300 includes a buffer memory (buffer) 301 and other processing elements (not shown), including at least one processing element associated with the buffer 301. The buffer 301 stores (e.g., in a non-temporal manner) at least one block (or frame) of decoded audio data received by the post-processor 300 from the decoder 200. The processing elements of the post-processor 300 are connected and configured to receive and adaptively process a sequence of blocks (or frames) of decoded audio output from the buffer 301 using metadata output from the decoding subsystem 202 (and/or the deformatting unit 205) and/or to manage bits output from the stage 204 of the decoder 200.

Подсистема 202 декодирования аудио декодера 200 сконфигурирована, чтобы декодировать данные аудио, извлеченные синтаксическим анализатором 205 (такое декодирование может упоминаться как операция “базового” декодирования), чтобы генерировать декодированные данные аудио и обеспечивать декодированные данные аудио в каскад 203 обработки eSBR. Декодирование выполняется в частотной области и обычно включает в себя обратное квантование, за которым следует спектральная обработка. Обычно, конечный каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным данным аудио частотной области, так что выход из подсистемы представляет собой декодированные данные аудио временной области. Каскад 203 сконфигурирован, чтобы применять инструменты SBR и инструменты eSBR, указанные метаданными eSBR и eSBR (извлеченными синтаксическим анализатором 205), к декодированным данным аудио (т.е., чтобы выполнить обработку SBR и eSBR над выходом подсистемы 202 декодирования с использованием метаданных SBR и eSBR), чтобы генерировать полностью декодированные данные аудио, которые выводятся (например, в пост-процессор 300) из декодера 200. Обычно, декодер 200 включает в себя память (доступ к которой осуществляется подсистемой 202 и каскадом 203), которая хранит расформатированные данные аудио и метаданные, выведенные из блока 205 асформатирования, и каскад 203 сконфигурирован, чтобы осуществлять доступ к данным аудио и метаданным (включая метаданные SBR и метаданные eSBR) при необходимости во время обработки SBR и eSBR. Обработка SBR и обработка eSBR в каскаде 203 могут рассматриваться как пост-обработка над выходом подсистемы 202 базового декодирования. Опционально, декодер 200 также включает в себя подсистему конечного повышающего микширования (которая может применять инструменты параметрического стерео (“PS”), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных блоком 205 асформатирования, и/или управляющих битов, сгенерированных в подсистеме 204), которая подсоединена и сконфигурирована, чтобы выполнять повышающее микширование над выходом каскада 203, чтобы генерировать полностью декодированное, микшированное с повышением аудио, которое выводится из декодера 200. Альтернативно, пост-процессор 300 сконфигурирован, чтобы выполнять повышающее микширование над выходом декодера 200 (например, с использованием метаданных PS, извлеченных блоком 205 асформатирования, и/или управляющих битов, сгенерированных в подсистеме 204).The audio decoding subsystem 202 of the decoder 200 is configured to decode the audio data extracted by the parser 205 (such decoding may be referred to as a “core” decoding operation) to generate decoded audio data and provide the decoded audio data to the eSBR processing stage 203. The decoding is performed in the frequency domain and typically includes inverse quantization followed by spectral processing. Typically, the final processing stage in the subsystem 202 applies a transform from the frequency domain to the time domain to the decoded frequency domain audio data, so that the output from the subsystem is decoded time domain audio data. The cascade 203 is configured to apply the SBR tools and the eSBR tools indicated by the eSBR and eSBR metadata (extracted by the parser 205) to the decoded audio data (i.e., to perform SBR and eSBR processing on the output of the decoding subsystem 202 using the SBR and eSBR metadata) to generate fully decoded audio data that is output (e.g., to the post-processor 300) from the decoder 200. Typically, the decoder 200 includes a memory (accessed by the subsystem 202 and the cascade 203) that stores the deformatted audio data and the metadata output from the formatting unit 205, and the cascade 203 is configured to access the audio data and the metadata (including the SBR metadata and the eSBR metadata) as needed during the SBR and eSBR processing. The SBR processing and eSBR processing in cascade 203 can be considered as post-processing on the output of the core decoding subsystem 202. Optionally, the decoder 200 also includes a final upmix subsystem (which may apply parametric stereo (“PS”) tools defined in the MPEG-4 AAC standard, using PS metadata extracted by the asformatting unit 205 and/or control bits generated in the subsystem 204), which is connected and configured to perform an upmix on the output of the stage 203 to generate fully decoded, upmixed audio, which is output from the decoder 200. Alternatively, the post-processor 300 is configured to perform an upmix on the output of the decoder 200 (e.g. using the PS metadata extracted by the asformatting unit 205 and/or control bits generated in the subsystem 204).

В ответ на метаданные, извлеченные блоком 205 асформатирования, генератор 204 управляющих битов может генерировать управляющие данные, и управляющие данные могут использоваться в декодере 200 (например, в подсистеме конечного повышающего микширования) и/или обеспечиваться как выход декодера 200 (например, в пост-процессор 300 для использования в пост-обработке). В ответ на метаданные, извлеченные из входного битового потока (и опционально также в ответ на управляющие данные), каскад 204 может генерировать (и обеспечивать в пост-процессор 300) управляющие биты, указывающие, что декодированные данные аудио, выведенные из каскада 203 обработки eSBR, должны подвергаться конкретному типу пост-обработки. В некоторых реализациях, декодер 200 сконфигурирован, чтобы обеспечивать метаданные, извлеченные блоком 205 асформатирования из входного битового потока, в пост-процессор 300, и пост-процессор 300 сконфигурирован, чтобы выполнять пост-обработку на декодированных данных аудио, выведенных из декодера 200, с использованием метаданных. In response to the metadata extracted by the formatting unit 205, the control bit generator 204 can generate control data, and the control data can be used in the decoder 200 (for example, in the final upmix subsystem) and/or provided as an output of the decoder 200 (for example, to the post-processor 300 for use in post-processing). In response to the metadata extracted from the input bitstream (and optionally also in response to the control data), the stage 204 can generate (and provide to the post-processor 300) control bits indicating that the decoded audio data output from the eSBR processing stage 203 should undergo a specific type of post-processing. In some implementations, decoder 200 is configured to provide metadata extracted by formatting unit 205 from the input bitstream to post-processor 300, and post-processor 300 is configured to perform post-processing on decoded audio data output from decoder 200 using the metadata.

Фиг. 4 представляет собой блок-схему модуля (210) обработки аудио (“APU”), который представляет собой другой вариант осуществления соответствующего изобретению модуля обработки аудио. APU 210 является унаследованным декодером, который не сконфигурирован, чтобы выполнять обработку eSBR. Любые из компонентов или элементов APU 210 могут быть реализованы как один или более процессов и/или одна или более схем (например, ASIC, FPGA или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. APU 210 содержит буферную память 201, блок 215 расформатирования полезной нагрузки битового потока (синтаксический анализатор), подсистему 202 декодирования аудио (иногда упоминаемую как каскад “базового” декодирования или подсистема “базового” декодирования) и каскад 213 обработки SBR, соединенные, как показано. Обычно также, APU 210 включает в себя другие элементы обработки (не показаны). APU 210 может представлять, например, кодер, декодер или транскодер аудио. Fig. 4 is a block diagram of an audio processing unit (210) ("APU"), which is another embodiment of the audio processing unit according to the invention. The APU 210 is a legacy decoder that is not configured to perform eSBR processing. Any of the components or elements of the APU 210 may be implemented as one or more processes and/or one or more circuits (e.g., an ASIC, FPGA, or other integrated circuits) in hardware, software, or a combination of hardware and software. The APU 210 includes a buffer memory 201, a bitstream payload deformatter (parser) 215, an audio decoding subsystem 202 (sometimes referred to as a "core" decoding stage or a "core" decoding subsystem), and an SBR processing stage 213, connected as shown. Typically, the APU 210 also includes other processing elements (not shown). The APU 210 may represent, for example, an audio encoder, decoder, or transcoder.

Элементы 201 и 202 APU 210 идентичны идентично пронумерованным элементам декодера 200 (фиг. 3), и их описание, приведенное выше, не будет повторяться. При работе APU 210, последовательность блоков закодированного битового потока аудио (битового потока MPEG-4 AAC), принятого посредством APU 210, обеспечивается из буфера 201 в блок 215 расформатирования. Elements 201 and 202 of the APU 210 are identical to the identically numbered elements of the decoder 200 (Fig. 3), and their description given above will not be repeated. In operation of the APU 210, a sequence of blocks of an encoded audio bitstream (MPEG-4 AAC bitstream) received by the APU 210 is provided from the buffer 201 to the deformatting block 215.

Блок 215 расформатирования подсоединен и сконфигурирован, чтобы демультиплексировать каждый блок битового потока, чтобы извлекать метаданные SBR (включая квантованные данные огибающей) и обычно также другие метаданные из него, но игнорировать метаданные eSBR, которые могут быть включены в битовый поток в соответствии с любым вариантом осуществления настоящего изобретения. Блок 215 расформатирования сконфигурирован, чтобы обеспечивать по меньшей мере метаданные SBR в каскад 213 обработки SBR. Блок 215 расформатирования также подсоединен и сконфигурирован, чтобы извлекать данные аудио из каждого блока битового потока и чтобы обеспечивать извлеченные данные аудио в подсистему 202 декодирования (каскад декодирования).The deformatting unit 215 is connected and configured to demultiplex each block of the bitstream to extract the SBR metadata (including the quantized envelope data) and typically also other metadata from it, but to ignore the eSBR metadata that may be included in the bitstream in accordance with any embodiment of the present invention. The deformatting unit 215 is configured to provide at least the SBR metadata to the SBR processing stage 213. The deformatting unit 215 is also connected and configured to extract audio data from each block of the bitstream and to provide the extracted audio data to the decoding subsystem 202 (decoding stage).

Подсистема 202 декодирования аудио декодера 200 сконфигурирована, чтобы декодировать данные аудио, извлеченные блоком 215 расформатирования (такое декодирование может называться операцией “базового” декодирования), чтобы генерировать декодированные данные аудио и обеспечивать декодированные данные аудио в каскад 213 обработки SBR. Декодирование выполняется в частотной области. Обычно, конечный каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным данным аудио частотной области, так что выход подсистемы представляет собой декодированные данные аудио временной области. Каскад 213 сконфигурирован, чтобы применять инструменты SBR (но не инструменты eSBR), указанные метаданными SBR (извлеченными блоком 215 расформатирования), к декодированным данным аудио (т.е., выполнять обработку SBR над выходом подсистемы 202 декодирования с использованием метаданных SBR), чтобы генерировать полностью декодированные данные аудио, которые выводятся (например, в пост-процессор 300) из APU 210. Обычно, APU 210 включает в себя память (доступ к которой осуществляется подсистемой 202 и каскадом 213), которая хранит расформатированные данные аудио и метаданные, выведенные из устройства 215 расформатирования, и каскад 213 сконфигурирован, чтобы осуществлять доступ к данным аудио и метаданным (включая метаданные SBR) при необходимости во время обработки SBR. Обработка SBR в каскаде 213 может рассматриваться как пост-обработка над выходом подсистемы 202 базового декодирования. Опционально, APU 210 также включает в себя подсистему конечного повышающего микширования (которая может применять инструменты параметрического стерео (“PS”), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных блоком 215 расформатирования), которая подсоединена и сконфигурирована, чтобы выполнять повышающее микширование над выходом каскада 213, чтобы генерировать полностью декодированное, микшированное с повышением аудио, которое выводится из APU 210. Альтернативно, пост-процессор сконфигурирован, чтобы выполнять повышающее микширование над выходом APU 210 (например, с использованием метаданных PS, извлеченных блоком 215 расформатирования, и/или управляющих битов, сгенерированных в APU 210). The decoding subsystem 202 of the audio decoder 200 is configured to decode the audio data extracted by the deformatting unit 215 (such decoding may be referred to as a "core" decoding operation) to generate decoded audio data and provide the decoded audio data to the SBR processing stage 213. The decoding is performed in the frequency domain. Typically, the final processing stage in the subsystem 202 applies a transform from the frequency domain to the time domain to the decoded frequency domain audio data, so that the output of the subsystem is decoded time domain audio data. The cascade 213 is configured to apply the SBR tools (but not the eSBR tools) indicated by the SBR metadata (extracted by the deformatting unit 215) to the decoded audio data (i.e., perform SBR processing on the output of the decoding subsystem 202 using the SBR metadata) to generate fully decoded audio data that is output (e.g., to the post-processor 300) from the APU 210. Typically, the APU 210 includes a memory (accessed by the subsystem 202 and the cascade 213) that stores the deformatted audio data and metadata output from the deformatting device 215, and the cascade 213 is configured to access the audio data and metadata (including the SBR metadata) as needed during the SBR processing. The SBR processing in the cascade 213 can be considered as post-processing on the output of the core decoding subsystem 202. Optionally, the APU 210 also includes a final upmix subsystem (which may employ parametric stereo ("PS") tools defined in the MPEG-4 AAC standard using PS metadata extracted by the deformatting unit 215), which is coupled and configured to perform an upmix on the output of the stage 213 to generate fully decoded, upmixed audio that is output from the APU 210. Alternatively, the post processor is configured to perform an upmix on the output of the APU 210 (e.g. using PS metadata extracted by the deformatting unit 215 and/or control bits generated in the APU 210).

Различные реализации кодера 100, декодера 200 и APU 210 сконфигурированы, чтобы выполнять разные варианты осуществления соответствующего изобретению способа.Different implementations of the encoder 100, decoder 200 and APU 210 are configured to perform different embodiments of the inventive method.

В соответствии с некоторыми вариантами осуществления, метаданные eSBR включены (например, включено малое количество управляющих битов, которые представляют собой метаданные eSBR,) в закодированный битовый поток аудио (например, битовый поток MPEG-4 AAC), так что унаследованные декодеры (которые не сконфигурированы, чтобы синтаксически анализировать метаданные eSBR или использовать какой-либо инструмент eSBR, к которому имеют отношение метаданные eSBR), могут игнорировать метаданные eSBR, но тем не менее декодировать битовый поток в возможной степени без использования метаданных eSBR или какого-либо инструмента eSBR, к которому имеют отношение метаданные eSBR, обычно без какого-либо значительного ухудшения качества декодированного аудио. Однако, декодеры eSBR, сконфигурированные, чтобы синтаксически анализировать битовый поток для идентификации метаданных eSBR и использования по меньшей мере одного инструмента eSBR в ответ на метаданные eSBR, будут извлекать выгоду из использования по меньшей мере одного такого инструмента eSBR. Поэтому, варианты осуществления изобретения обеспечивают средство для эффективной передачи управляющих данных или метаданных расширенной репликации спектрального диапазона (eSBR) обратносовместимым образом.According to some embodiments, eSBR metadata is included (e.g., a small number of control bits that represent eSBR metadata are included) in an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream), so that legacy decoders (that are not configured to parse the eSBR metadata or to use any eSBR tool to which the eSBR metadata relates) can ignore the eSBR metadata, but still decode the bitstream to the extent possible without using the eSBR metadata or any eSBR tool to which the eSBR metadata relates, typically without any significant degradation in the quality of the decoded audio. However, eSBR decoders that are configured to parse the bitstream to identify the eSBR metadata and to use at least one eSBR tool in response to the eSBR metadata will benefit from using at least one such eSBR tool. Therefore, embodiments of the invention provide a means for efficiently transmitting enhanced spectral range replication (eSBR) control data or metadata in a backward compatible manner.

Обычно, метаданные eSBR в битовом потоке указывают (например, указывают по меньшей мере одну характеристику или параметр) один или более из следующих инструментов eSBR (которые описаны в стандарте MPEG USAC и которые могут или не могут применяться кодером во время генерации битового потока):Typically, eSBR metadata in a bitstream specifies (e.g. specifies at least one characteristic or parameter of) one or more of the following eSBR tools (which are described in the MPEG USAC standard and which may or may not be applied by the encoder during bitstream generation):

- гармоническая транспозиция; и- harmonic transposition; and

- дополнительная предварительная обработка QMF-вставки заплаты (предварительное сглаживание).- additional pre-processing of the QMF patch insert (pre-smoothing).

Например, метаданные eSBR, включенные в битовый поток, могут указывать значения параметров (описанные в стандарте MPEG USAC и в настоящем раскрытии): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch] и bs_sbr_preprocessing.For example, eSBR metadata included in the bitstream may specify the values of the parameters (described in the MPEG USAC standard and in this disclosure): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch], and bs_sbr_preprocessing.

Здесь, обозначение X[ch], где X представляет некоторый параметр, обозначает, что параметр относится к каналу (“ch”) аудиоконтента закодированного битового потока, подлежащего декодированию. Для простоты, мы иногда опускаем выражение [ch] и предполагаем, что релевантный параметр относится к каналу аудиоконтента. Here, the notation X[ch], where X represents some parameter, means that the parameter refers to the channel (“ch”) of the audio content of the encoded bitstream to be decoded. For simplicity, we sometimes omit the expression [ch] and assume that the relevant parameter refers to the channel of the audio content.

Здесь, обозначение X[ch][env], где X представляет некоторый параметр, обозначает, что параметр относится к огибающей SBR (“env”) канала (“ch”) аудиоконтента закодированного битового потока, подлежащего декодированию. Для простоты, мы иногда опускаем выражения [env] и [ch] и предполагаем, что релевантный параметр относится к огибающей SBR канала аудиоконтента. Here, the notation X[ch][env], where X represents some parameter, means that the parameter refers to the SBR envelope (“env”) of the channel (“ch”) of the audio content of the encoded bitstream to be decoded. For simplicity, we sometimes omit the expressions [env] and [ch] and assume that the relevant parameter refers to the SBR envelope of the audio content channel.

Во время декодирования закодированного битового потока, выполнение гармонической транспозиции на стадии обработки eSBR декодирования (для каждого канала, “ch”, аудиоконтента, указанного битовым потоком) управляется следующими параметрами метаданных eSBR: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; и sbrPitchInBins[ch].During decoding of an encoded bitstream, the execution of harmonic transposition at the eSBR decoding processing stage (for each channel, “ch”, of the audio content specified by the bitstream) is controlled by the following eSBR metadata parameters: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; and sbrPitchInBins[ch].

Значение “sbrPatchingMode[ch]” указывает тип транспозера, используемый в eSBR: sbrPatchingMode[ch]=1 указывает вставку заплаты путем линейной транспозиции, как описано в Разделе 4.6.18 стандарта MPEG-4 AAC (как используется с SBR высокого качества или SBR низкой мощности); sbrPatchingMode[ch]=0 указывает вставку заплаты в виде гармонической SBR, как описано в Разделе 7.5.3 или 7.5.4 стандарта MPEG USAC.The “sbrPatchingMode[ch]” value specifies the type of transposer used in eSBR: sbrPatchingMode[ch]=1 specifies patch insertion using linear transposition, as described in Section 4.6.18 of the MPEG-4 AAC standard (as used with High Quality SBR or Low Power SBR); sbrPatchingMode[ch]=0 specifies patch insertion using harmonic SBR, as described in Section 7.5.3 or 7.5.4 of the MPEG USAC standard.

Значение “sbrOversamplingFlag[ch]” указывает использование адаптивной к сигналу избыточной дискретизации частотной области в eSBR в комбинации с вставкой заплаты в виде гармонической SBR на основе DFT, как описано в Разделе 7.5.3 стандарта MPEG USAC. Эта метка контролирует размер DFT, которые используются в транспозере: 1 указывает, чтобы адаптивная к сигналу избыточная дискретизация частотной области включена, как описано в Разделе 7.5.3.1 стандарта MPEG USAC; 0 указывает, что адаптивная к сигналу избыточная дискретизация частотной области отключена, как описано в Разделе 7.5.3.1 стандарта MPEG USAC. The “sbrOversamplingFlag[ch]” value specifies the use of signal-adaptive frequency domain oversampling in eSBR in combination with DFT-based harmonic SBR patch insertion, as described in Section 7.5.3 of the MPEG USAC standard. This flag controls the size of the DFTs that are used in the transposer: 1 specifies that signal-adaptive frequency domain oversampling is enabled, as described in Section 7.5.3.1 of the MPEG USAC standard; 0 specifies that signal-adaptive frequency domain oversampling is disabled, as described in Section 7.5.3.1 of the MPEG USAC standard.

Значение “sbrPitchInBinsFlag[ch]” управляет интерпретацией параметра sbrPitchInBins[ch]: 1 указывает, что значение в sbrPitchInBins[ch] действительно и больше нуля; 0 указывает, что значение sbrPitchInBins[ch] установлено в нуль. The value of “sbrPitchInBinsFlag[ch]” controls the interpretation of the sbrPitchInBins[ch] parameter: 1 indicates that the value in sbrPitchInBins[ch] is valid and greater than zero; 0 indicates that the value of sbrPitchInBins[ch] is set to zero.

Значение “sbrPitchInBins[ch]” управляет добавлением членов векторного произведения в гармонический транспозер SBR. Значение sbrPitchinBins[ch] представляет собой целое значение в диапазоне [0,127] и представляет расстояние, измеренное в частотных бинах (элементах разрешения) для 1536-линейного DFT, действующего на частоте дискретизации базового кодера.The value of “sbrPitchInBins[ch]” controls the addition of cross product terms to the SBR harmonic transposer. The value of sbrPitchinBins[ch] is an integer value in the range [0,127] and represents the distance measured in frequency bins for the 1536-linear DFT operating at the sampling frequency of the base encoder.

В случае, если битовый поток MPEG-4 AAC указывает пару каналов SBR, каналы которой не связаны (а не одиночный канал SBR), битовый поток указывает два образца синтаксиса, приведенного выше (для гармонической или не-гармонической транспозиции), по одному для каждого канала sbr_channel_pair_element().In case the MPEG-4 AAC bitstream specifies an SBR channel pair whose channels are not related (rather than a single SBR channel), the bitstream specifies two examples of the syntax above (for harmonic or non-harmonic transposition), one for each sbr_channel_pair_element() channel.

Гармоническая транспозиция инструмента eSBR обычно улучшает качество декодированных музыкальных сигналов при относительно низких частотах перехода. Не-гармоническая транспозиция (то есть, унаследованная спектральная вставка заплаты) обычно улучшает речевые сигналы. Таким образом, отправной точкой при решении, какой тип транспозиции предпочтителен для кодирования конкретного аудиоконтента, является выбор способа транспозиции в зависимости от детектирования речи/музыки с гармонической транспозицией, подлежащей использованию на музыкальном контенте, и спектральной вставкой заплаты на речевом контенте.Harmonic transposition of the eSBR tool typically improves the quality of decoded music signals at relatively low crossover frequencies. Non-harmonic transposition (i.e., legacy spectral patch insertion) typically improves speech signals. Thus, the starting point for deciding which transposition type is preferable for encoding a particular audio content is the choice of transposition method depending on speech/music detection, with harmonic transposition to be used on music content and spectral patch insertion on speech content.

Выполнение предварительного сглаживания во время обработки eSBR управляется значением однобитного параметра метаданных eSBR, известного как “bs_sbr_preprocessing”, в том смысле, что предварительное сглаживание либо выполняется, либо не выполняется в зависимости от значения этого одного бита. Когда используется алгоритм QMF-вставки заплаты SBR, как описано в Разделе 4.6.18.6.3 стандарта MPEG-4 AAC, этап предварительного сглаживания может выполняться (когда указано параметром “bs_sbr_preprocessing”) в попытке избежать прерываний в форме спектральной огибающей высокочастотного сигнала, вводимого в последовательный корректор огибающей (корректор огибающей выполняет другую стадию обработки eSBR). Предварительное сглаживание обычно улучшает работу последующей стадии коррекции огибающей, приводя в результате к сигналу в полосе высоких частот, который воспринимается как более стабильный.The execution of pre-dithering during eSBR processing is controlled by the value of a one-bit eSBR metadata parameter known as “bs_sbr_preprocessing”, in that pre-dithering is either performed or not performed depending on the value of this one bit. When the QMF SBR patch insertion algorithm is used, as described in Section 4.6.18.6.3 of the MPEG-4 AAC standard, a pre-dithering stage may be performed (when specified by the “bs_sbr_preprocessing” parameter) in an attempt to avoid discontinuities in the shape of the spectral envelope of the high-frequency signal input to the subsequent envelope equalizer (the envelope equalizer performs another stage of eSBR processing). Pre-dithering typically improves the performance of the subsequent envelope equalizer stage, resulting in a high-band signal that is perceived as more stable.

Ожидается, что общее требование битовой скорости для включения в метаданные eSBR битового потока MPEG-4 AAC, указывающие вышеупомянутые инструменты eSBR (гармоническая транспозиция и предварительное сглаживание) будет порядка нескольких сотен битов в секунду, поскольку только дифференциальные управляющие данные, необходимые для выполнения обработки eSBR, передаются в соответствии с некоторыми вариантами осуществления изобретения. Унаследованные декодеры могут игнорировать эту информацию, поскольку она включена обратносовместимым образом (как будет объяснено ниже). Поэтому, неблагоприятное воздействие на битовую скорость, ассоциированное с включением метаданных eSBR, пренебрежимо мало, по ряду причин, включая следующие:It is expected that the overall bit rate requirement for inclusion in the eSBR metadata of the MPEG-4 AAC bitstream indicating the above-mentioned eSBR tools (harmonic transposition and pre-dithering) will be on the order of several hundred bits per second, since only the differential control data necessary to perform the eSBR processing is transmitted in accordance with some embodiments of the invention. Legacy decoders may ignore this information, since it is included in a backward-compatible manner (as will be explained below). Therefore, the adverse impact on bit rate associated with the inclusion of eSBR metadata is negligible, for a number of reasons, including the following:

- ухудшение битовой скорости (из-за включения метаданных eSBR) составляет очень малую долю от полной битовой скорости, поскольку передаются только дифференциальные управляющие данные, необходимые для выполнения обработки eSBR (и не одновременная передача управляющих данных SBR); и- the bit rate penalty (due to the inclusion of eSBR metadata) is a very small fraction of the full bit rate, since only the differential control data required to perform eSBR processing is transmitted (and not the simultaneous transmission of SBR control data); and

- настройка связанной с SBR управляющей информации обычно не зависит от подробностей транспозиции. Примеры того, когда управляющие данные зависят от операции транспозера, обсуждаются далее в настоящей заявке.- the setting of the SBR-related control information is generally independent of the transposition details. Examples of when the control data depends on the transposer operation are discussed later in this application.

Таким образом, варианты осуществления изобретения обеспечивают средство для эффективной передачи управляющих данных или метаданных расширенной репликации спектрального диапазона (eSBR) обратносовместимым образом. Эта эффективная передача управляющих данных eSBR уменьшает требования памяти в декодерах, кодерах и транскодерах, применяющих аспекты изобретения, в то же время не имея ощутимого негативного воздействия на битовую скорость. Более того, сложность и требования обработки, ассоциированные с выполнением eSBR в соответствии с вариантами осуществления изобретения, также снижаются, поскольку данные SBR необходимо обработать только один раз и не передавать одновременно, что имело бы место, если бы eSBR обрабатывалась как полностью отдельный тип объекта в MPEG-4 AAC вместо интеграции в кодек MPEG-4 AAC обратносовместимым образом.Thus, embodiments of the invention provide a means for efficiently transmitting enhanced spectral range replication (eSBR) control data or metadata in a backwards compatible manner. This efficient transmission of eSBR control data reduces the memory requirements of decoders, encoders and transcoders employing aspects of the invention, while not having a noticeable negative impact on bit rate. Moreover, the complexity and processing requirements associated with performing eSBR in accordance with embodiments of the invention are also reduced, since the SBR data only needs to be processed once and not transmitted concurrently, which would be the case if eSBR were handled as a completely separate object type in MPEG-4 AAC instead of being integrated into the MPEG-4 AAC codec in a backwards compatible manner.

Далее, со ссылкой на фиг. 7, описываются элементы блока (“raw_data_block”) битового потока MPEG-4 AAC, в который включены метаданные eSBR в соответствии с некоторыми вариантами осуществления настоящего изобретения. Фиг. 7 представляет собой диаграмму блока (“raw_data_block”) битового потока MPEG-4 AAC, показывающую некоторые из его сегментов.Next, with reference to Fig. 7, elements of a block (“raw_data_block”) of an MPEG-4 AAC bitstream in which eSBR metadata is included according to some embodiments of the present invention are described. Fig. 7 is a diagram of a block (“raw_data_block”) of an MPEG-4 AAC bitstream showing some of its segments.

Блок битового потока MPEG-4 AAC может включать в себя по меньшей мере один “single_channel_element()” (например, один элемент канала, показанный на фиг. 7) и/или по меньшей мере один “channel_pair_element()” (не показан конкретно на фиг. 7, хотя может присутствовать), включая данные аудио для аудиопрограммы. Блок может также включать в себя некоторое количество “fill_elements” (например, элемент 1 наполнения и/или элемент 2 наполнения на фиг. 7), включая данные (например, метаданные), относящиеся к программе. Каждый “single_channel_element()” включает в себя идентификатор (например, “ID1” на фиг. 7), указывающий начало элемента одного канала, и может включать в себя данные аудио, указывающие другой канал многоканальной аудиопрограммы. Каждый “channel_pair_element” включает в себя идентификатор (не показан на фиг. 7), указывающий начало элемента пары каналов, и может включать в себя данные аудио, указывающие два канала программы.An MPEG-4 AAC bitstream block may include at least one “single_channel_element()” (e.g., a single channel element shown in Fig. 7) and/or at least one “channel_pair_element()” (not shown specifically in Fig. 7, although may be present) including audio data for an audio program. The block may also include a number of “fill_elements” (e.g., fill element 1 and/or fill element 2 in Fig. 7) including data (e.g., metadata) related to the program. Each “single_channel_element()” includes an identifier (e.g., “ID1” in Fig. 7) indicating the start of a single channel element and may include audio data indicating another channel of a multi-channel audio program. Each “channel_pair_element” includes an identifier (not shown in Fig. 7) indicating the start of a channel pair element and may include audio data indicating two channels of the program.

fill_element (упоминаемый здесь как элемент наполнения) битового потока MPEG-4 AAC включает в себя идентификатор (“ID2” на фиг. 7), указывающий начало элемента наполнения, и данные наполнения после идентификатора. Идентификатор ID2 может состоять из первого трех-битного целого числа без знака со старшим битом, передаваемым первым (“uimsbf”), имеющего значение 0×6. Данные наполнения могут включать в себя элемент extension_payload() (иногда упоминаемый здесь как нагрузка расширения), синтаксис которого показан в Таблице 4.57 стандарта MPEG-4 AAC. Существует несколько типов нагрузок расширения, идентифицируемых посредством параметра “extension_type”, который представляет собой четырех-битное целое число без знака со старшим битом, передаваемым первым (“uimsbf”). The fill_element (referred to herein as the fill element) of the MPEG-4 AAC bitstream includes an identifier (“ID2” in Fig. 7) indicating the start of the fill element and fill data following the identifier. The ID2 identifier may consist of a first three-bit unsigned integer with the most significant bit transmitted first (“uimsbf”) having a value of 0x6. The fill data may include an extension_payload() element (sometimes referred to herein as the extension payload), the syntax of which is shown in Table 4.57 of the MPEG-4 AAC standard. There are several types of extension payloads, identified by the “extension_type” parameter, which is a four-bit unsigned integer with the most significant bit transmitted first (“uimsbf”).

Данные наполнения (например, его полезная нагрузка расширения) могут включать в себя заголовок или идентификатор (например, “header1” на фиг. 7), который указывает сегмент данных наполнения, которые указывают объект SBR (т.е., заголовок инициализирует тип “объект SBR”, называемый sbr_extension_data() в стандарте MPEG-4 AAC). Например, нагрузка расширения репликации спектрального диапазона (SBR) идентифицируется при помощи значения ‘1101’ или ‘1110’ для поля extension_type в заголовке, при этом идентификатор ‘1101’ идентифицирует нагрузку расширения с данными SBR, и ‘1110’ идентифицирует нагрузку расширения с данными SBR с контролем циклическим избыточным кодом (CRC) для верификации корректности данных SBR. The payload data (e.g., its extension payload) may include a header or identifier (e.g., “header1” in Fig. 7) that specifies a segment of the payload data that specifies an SBR object (i.e., the header initializes the “SBR object” type, called sbr_extension_data() in the MPEG-4 AAC standard). For example, a spectral range replication (SBR) extension payload is identified using the value ‘1101’ or ‘1110’ for the extension_type field in the header, where the identifier ‘1101’ identifies the extension payload with SBR data, and ‘1110’ identifies the extension payload with SBR data with a cyclic redundancy check (CRC) for verifying the correctness of the SBR data.

Когда заголовок (например, поле extension_type) инициализирует тип объекта SBR, метаданные SBR (иногда упоминаемые здесь как “данные репликации спектрального диапазона” и упоминаемые как sbr_data() в стандарте MPEG-4 AAC) следуют за заголовком, и по меньшей мере один элемент расширения репликации спектрального диапазона (например, “элемент расширения SBR” элемента 1 наполнения на фиг. 7) может следовать за метаданными SBR. Такой элемент расширения репликации спектрального диапазона (сегмент битового потока) упоминается как контейнер “sbr_extension()” в стандарте MPEG-4 AAC. Элемент расширения репликации спектрального диапазона опционально включает в себя заголовок (например, “заголовок расширения SBR” элемента 1 наполнения на фиг. 7).When a header (e.g., an extension_type field) initializes an SBR object type, SBR metadata (sometimes referred to herein as “spectral range replication data” and referred to as sbr_data() in the MPEG-4 AAC standard) follows the header, and at least one spectral range replication extension element (e.g., an “SBR extension element” of fill element 1 in Fig. 7) may follow the SBR metadata. Such a spectral range replication extension element (bitstream segment) is referred to as an “sbr_extension()” container in the MPEG-4 AAC standard. The spectral range replication extension element optionally includes a header (e.g., an “SBR extension header” of fill element 1 in Fig. 7).

Стандарт MPEG-4 AAC предполагает, что элемент расширения репликации спектрального диапазона может включать в себя данные PS (параметрического стерео) для данных аудио программы. Стандарт MPEG-4 AAC предполагает, что когда заголовок элемента наполнения (например, его нагрузка расширения) инициализирует тип объекта SBR (как это делает “header1” на фиг. 7), и элемент расширения репликации спектрального диапазона элемента наполнения включает в себя данные PS, элемент наполнения (например, его полезная нагрузка расширения) включает в себя данные репликации спектрального диапазона, и параметр “bs_extension_id”, значение которого (т.е., bs_extension_id=2) указывает, что данные PS включены в элемент расширения репликации спектрального диапазона элемента наполнения. The MPEG-4 AAC standard assumes that a spectral range replication extension element may include PS (parametric stereo) data for program audio data. The MPEG-4 AAC standard assumes that when a fill element header (e.g., its extension payload) initializes an SBR object type (as “header1” does in Fig. 7), and the spectral range replication extension element of the fill element includes PS data, the fill element (e.g., its extension payload) includes spectral range replication data, and the “bs_extension_id” parameter, the value of which (i.e., bs_extension_id=2) indicates that the PS data is included in the spectral range replication extension element of the fill element.

В соответствии с некоторыми вариантами осуществления настоящего изобретения, метаданные eSBR (например, метка, указывающая, должна ли выполняться обработка расширенной репликации спектрального диапазона (eSBR) на контенте аудио блока) включены в элемент расширения репликации спектрального диапазона элемента наполнения. Например, такая метка указана в элементе 1 наполнения на фиг. 7, где метка появляется после заголовка (“заголовок расширения SBR” элемента 1 наполнения) “элемента расширения SBR” элемента 1 наполнения. Опционально, такая метка и дополнительные метаданные eSBR включены в элемент расширения репликации спектрального диапазона после заголовка элемента расширения репликации спектрального диапазона (например, в элементе расширения SBR элемента 1 наполнения на фиг. 7, после заголовка расширения SBR). В соответствии с некоторыми вариантами осуществления настоящего изобретения, элемент наполнения, который включает в себя метаданные eSBR, также включает в себя параметр “bs_extension_id”, значение которого (например, bs_extension_id=3) указывает, что метаданные eSBR включены в элемент наполнения и что обработка eSBR должна выполняться на аудиоконтенте релевантного блока. According to some embodiments of the present invention, eSBR metadata (e.g., a label indicating whether extended spectral range replication (eSBR) processing should be performed on the content of the audio block) is included in a spectral range replication extension element of a filling element. For example, such a label is indicated in filling element 1 in Fig. 7, where the label appears after a header (the "SBR extension header" of filling element 1) of the "SBR extension element" of filling element 1. Optionally, such a label and additional eSBR metadata are included in a spectral range replication extension element after the header of the spectral range replication extension element (e.g., in the SBR extension element of filling element 1 in Fig. 7, after the SBR extension header). According to some embodiments of the present invention, a content element that includes eSBR metadata also includes a “bs_extension_id” parameter, the value of which (e.g., bs_extension_id=3) indicates that eSBR metadata is included in the content element and that eSBR processing is to be performed on the audio content of the relevant block.

В соответствии с некоторыми вариантами осуществления изобретения, метаданные eSBR включены в элемент наполнения (например, элемент 2 наполнения на фиг. 7) битового потока MPEG-4 AAC, иной, чем элемент расширения репликации спектрального диапазона (элемент расширения SBR) элемента наполнения. Это так, поскольку элементы наполнения, содержащие extension_payload() с данными SBR, или данные SBR с CRC не содержат никакой другой нагрузки расширения любого другого типа расширения. Поэтому, в вариантах осуществления, где метаданные eSBR хранятся с их собственной полезной нагрузкой расширения, отдельный элемент наполнения используется для хранения метаданных eSBR. Такой элемент наполнения включает в себя идентификатор (например, “ID2” на фиг. 7), указывающий начало элемента наполнения, и данные наполнения после идентификатора. Данные наполнения могут включать в себя элемент extension_payload() (иногда упоминается здесь как полезная нагрузка расширения), синтаксис которого показан в Таблице 4.57 стандарта MPEG-4 AAC. Данные наполнения (например, их полезная нагрузка расширения) включают в себя заголовок (например, “header2” элемента 2 наполнения на фиг. 7), который указывает объект eSBR (т.е., заголовок инициализирует тип объекта расширенной репликации спектрального диапазона (eSBR)), и данные наполнения (например, их полезная нагрузка расширения) включают в себя метаданные eSBR после заголовка. Например, элемент 2 наполнения на фиг. 7 включает в себя такой заголовок (“header2”) и также включает, после заголовка, метаданные eSBR (т.е., “метку” в элементе 2 наполнения, которая указывает, следует ли выполнять обработку расширенной репликации спектрального диапазона (eSBR) на аудиоконтенте блока). Опционально, дополнительные метаданные eSBR также включены в данные наполнения элемента 2 наполнения на фиг. 7, после header2. В вариантах осуществления, описываемых в предыдущем абзаце, заголовок (например, header2 на фиг. 7) имеет значение идентификации, которое не является ни одним из традиционных значений, специфицированных в Таблице 4.57 стандарта MPEG-4 AAC, и вместо этого указывает полезную нагрузку расширения eSBR (так что поле extension_type заголовка указывает, что данные наполнения включают в себя метаданные eSBR). According to some embodiments of the invention, the eSBR metadata is included in a fill element (e.g., fill element 2 in Fig. 7) of the MPEG-4 AAC bitstream that is different from the spectral range replication extension element (SBR extension element) of the fill element. This is so because fill elements containing extension_payload() with SBR data or SBR data with CRC do not contain any other extension payload of any other extension type. Therefore, in embodiments where the eSBR metadata is stored with its own extension payload, a separate fill element is used to store the eSBR metadata. Such a fill element includes an identifier (e.g., “ID2” in Fig. 7) indicating the start of the fill element, and fill data following the identifier. The fill data may include an extension_payload() element (sometimes referred to herein as an extension payload), the syntax of which is shown in Table 4.57 of the MPEG-4 AAC standard. The fill data (e.g., its extension payload) includes a header (e.g., “header2” of fill element 2 in Fig. 7) that indicates an eSBR object (i.e., the header initializes the type of an extended spectral range replication (eSBR) object), and the fill data (e.g., its extension payload) includes eSBR metadata after the header. For example, fill element 2 in Fig. 7 includes such a header (“header2”) and also includes, after the header, eSBR metadata (i.e., a “tag” in fill element 2 that indicates whether extended spectral range replication (eSBR) processing should be performed on the audio content of the block). Optionally, additional eSBR metadata is also included in the fill data of fill element 2 in Fig. 7, after header2. In the embodiments described in the previous paragraph, the header (e.g., header2 in Fig. 7) has an identification value that is not one of the traditional values specified in Table 4.57 of the MPEG-4 AAC standard, and instead indicates an eSBR extension payload (so that the extension_type field of the header indicates that the payload data includes eSBR metadata).

В первом классе вариантов осуществления, изобретение представляет собой модуль обработки аудио (например, декодер), содержащий:In a first class of embodiments, the invention is an audio processing module (e.g., a decoder) comprising:

память (например, буфер 201 на фиг. 3 или 4), сконфигурированную, чтобы хранить по меньшей мере один блок закодированного битового потока аудио (например, по меньшей мере один блок битового потока MPEG-4 AAC); a memory (e.g., buffer 201 in Fig. 3 or 4) configured to store at least one block of an encoded audio bitstream (e.g., at least one block of an MPEG-4 AAC bitstream);

блок расформатирования нагрузки битового потока (например, элемент 205 на фиг. 3 или элемент 215 на фиг. 4), связанный с памятью и сконфигурированный, чтобы демультиплексировать по меньшей мере одну часть упомянутого блока битового потока; иa bit stream payload deformatting unit (for example, element 205 in Fig. 3 or element 215 in Fig. 4) associated with the memory and configured to demultiplex at least one portion of said bit stream block; and

подсистему декодирования (например, элементы 202 и 203 на фиг. 3 или элементы 202 и 213 на фиг. 4), подсоединенную и сконфигурированную, чтобы декодировать по меньшей мере одну часть аудиоконтента упомянутого блока битового потока, причем блок включает в себя:a decoding subsystem (for example, elements 202 and 203 in Fig. 3 or elements 202 and 213 in Fig. 4) connected and configured to decode at least one portion of the audio content of said bitstream block, wherein the block includes:

элемент наполнения, включающий в себя идентификатор, указывающий начало элемента наполнения (например, идентификатор “id_syn_ele”, имеющий значение 0×6, Таблицы 4.85 стандарта MPEG-4 AAC), и данные наполнения после идентификатора, причем данные наполнения включают в себя:a fill element comprising an identifier indicating the start of the fill element (e.g. the identifier “id_syn_ele” having the value 0×6, Table 4.85 of the MPEG-4 AAC standard), and fill data following the identifier, wherein the fill data comprises:

по меньшей мере одну метку, идентифицирующую, должна ли выполняться обработка расширенной репликации спектрального диапазона (eSBR) на аудиоконтенте блока (например, с использованием данных репликации спектрального диапазона и метаданных eSBR, включенных в блок). at least one flag identifying whether enhanced spectral range replication (eSBR) processing is to be performed on the audio content of the block (e.g. using spectral range replication data and eSBR metadata included in the block).

Метка представляет собой метаданные eSBR, и примером метки является метка sbrPatchingMode. Другим примером метки является метка harmonicSBR. Обе из этих меток указывают, должна выполняться базовая форма репликации спектрального диапазона или расширенная форма спектральной репликации в отношении данных аудио блока. Базовой формой спектральной репликации является спектральная вставка заплаты, и расширенной формой репликации спектрального диапазона является гармоническая транспозиция.The label represents eSBR metadata, and an example of a label is the sbrPatchingMode label. Another example of a label is the harmonicSBR label. Both of these labels indicate whether the basic form of spectral replication or the extended form of spectral replication should be performed on the audio block data. The basic form of spectral replication is spectral patch insertion, and the extended form of spectral replication is harmonic transposition.

В некоторых вариантах осуществления, данные наполнения также включают в себя дополнительные метаданные eSBR (т.е., метаданные eSBR, отличные от метки).In some embodiments, the content data also includes additional eSBR metadata (i.e., eSBR metadata other than the label).

Память может представлять собой буферную память (например, реализация буфера 201 на фиг. 4), которая хранит (например, не-временным образом) по меньшей мере один блок закодированного битового потока аудио. The memory may be a buffer memory (e.g., an implementation of buffer 201 in Fig. 4) that stores (e.g., in a non-temporal manner) at least one block of the encoded audio bitstream.

Оценивается, что сложность выполнения обработки eSBR (с использованием гармонической транспозиции eSBR и предварительного сглаживания) декодером eSBR во время декодирования битового потока MPEG-4 AAC, который включает в себя метаданные eSBR (указывающие эти инструменты eSBR), будет следующей (для типового декодирования с указанными параметрами):The complexity of performing eSBR processing (using eSBR harmonic transposition and pre-dithering) by an eSBR decoder during decoding of an MPEG-4 AAC bitstream that includes eSBR metadata (indicating these eSBR tools) is estimated to be as follows (for a typical decoding with the specified parameters):

Гармоническая транспозиция (16 кбит/с, 14400/28800 Гц)Harmonic transposition (16 kbps, 14400/28800 Hz)

- на основе DFT: 3,68 WMOPS (взвешенный миллион операций в секунду);- DFT-based: 3.68 WMOPS (weighted million operations per second);

- на основе QMF: 0,98 WMOPS;- based on QMF: 0.98 WMOPS;

Предварительная обработка QMF-вставки заплаты (предварительное сглаживание): 0,1WMOPS.QMF patch insertion pre-processing (pre-smoothing): 0.1WMOPS.

Известно, что транспозиция на основе DFT обычно выполняется лучше, чем транспозиция на основе QMF для переходных процессов.It is known that DFT-based transposition generally performs better than QMF-based transposition for transients.

В соответствии с некоторыми вариантами осуществления настоящего изобретения, элемент наполнения (закодированного битового потока аудио), который включает в себя метаданные eSBR, также включает в себя параметр (например, параметр “bs_extension_id”), значение которого (например, bs_extension_id=3) сигнализирует, что метаданные eSBR включены в элемент наполнения и что обработка eSBR должна выполняться на аудиоконтенте релевантного блока, и/или параметр (например, тот же самый параметр “bs_extension_id”), значение которого (например, bs_extension_id=2) сигнализирует, что контейнер sbr_extension() элемента наполнения включает в себя данные PS. Например, как указано в Таблице 1 ниже, такой параметр, имеющий значение bs_extension_id=2, может сигнализировать, что контейнер sbr_extension() элемента наполнения включает в себя данные PS, и такой параметр, имеющий значение bs_extension_id=3, может сигнализировать, что контейнер sbr_extension() элемента наполнения включает в себя метаданные eSBR: According to some embodiments of the present invention, a fill element (of an encoded audio bitstream) that includes eSBR metadata also includes a parameter (e.g., the “bs_extension_id” parameter) whose value (e.g., bs_extension_id=3) signals that eSBR metadata is included in the fill element and that eSBR processing should be performed on the audio content of the relevant block, and/or a parameter (e.g., the same “bs_extension_id” parameter) whose value (e.g., bs_extension_id=2) signals that the sbr_extension() container of the fill element includes PS data. For example, as shown in Table 1 below, such a parameter with a value of bs_extension_id=2 may signal that the sbr_extension() container of the content element includes PS data, and such a parameter with a value of bs_extension_id=3 may signal that the sbr_extension() container of the content element includes eSBR metadata:

Таблица 1Table 1

bs_extension_idbs_extension_id Значение Meaning 00 Зарезервировано Reserved 11 Зарезервировано Reserved 22 EXTENSION_ID_PSEXTENSION_ID_PS 33 EXTENSION_ID_ESBREXTENSION_ID_ESBR

В соответствии с некоторыми вариантами осуществления изобретения, синтаксис каждого элемента расширения репликации спектрального диапазона, который включает в себя метаданные eSBR и/или данные PS, является таким, как указано в Таблице 2 ниже (в которой “sbr_extension()” обозначает контейнер, который представляет собой элемент расширения репликации спектрального диапазона, “bs_extension_id” является таким как описано в Таблице 1 выше, “ps_data” обозначает данные PS, и “esbr_data” обозначает метаданные eSBR):According to some embodiments of the invention, the syntax of each spectral range replication extension element that includes eSBR metadata and/or PS data is as specified in Table 2 below (in which “sbr_extension()” denotes a container that represents a spectral range replication extension element, “bs_extension_id” is as described in Table 1 above, “ps_data” denotes PS data, and “esbr_data” denotes eSBR metadata):

Таблица 2Table 2

Примечание 1: ps_data() возвращает число считанных битов.Note 1: ps_data() returns the number of bits read. Примечание 2: esbr_data() возвращает число считанных битов.Note 2: esbr_data() returns the number of bits read.

В примерном варианте осуществления, esbr_data(), на который ссылаются в Таблице 2 выше, указывает значения следующих параметров метаданных: In the exemplary embodiment, esbr_data(), referenced in Table 2 above, specifies the values of the following metadata parameters:

1. Однобитный параметр метаданных, “bs_sbr_preprocessing”; и1. A one-bit metadata parameter, “bs_sbr_preprocessing”; and

2. Для каждого канала (“ch”) аудиоконтента закодированного битового потока, подлежащего декодированию, каждый из вышеописанных параметров: “sbrPatchingMode[ch]”; “sbrOversamplingFlag[ch]”; “sbrPitchInBinsFlag[ch]”; и “sbrPitchInBins[ch]”.2. For each channel (“ch”) of the audio content of the encoded bitstream to be decoded, each of the above parameters: “sbrPatchingMode[ch]”; “sbrOversamplingFlag[ch]”; “sbrPitchInBinsFlag[ch]”; and “sbrPitchInBins[ch]”.

Например, в некоторых вариантах осуществления, esbr_data() может иметь синтаксис, указанный в Таблице 3, чтобы указывать эти метаданные параметры:For example, in some embodiments, esbr_data() may have the syntax shown in Table 3 to specify these metadata parameters:

Таблица 3Table 3

Примечание: bs_sbr_preprocessing определяется, как описано в Разделе 6.2.12 ISO/IEC 23003-3:2012. sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBinsFlag[ch] и sbrPitchInBins[ch] определяются, как описано в Разделе 7.5 ISO/IEC 23003-3:2012.Note: bs_sbr_preprocessing is defined as described in Section 6.2.12 of ISO/IEC 23003-3:2012. sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBinsFlag[ch], and sbrPitchInBins[ch] are defined as described in Section 7.5 of ISO/IEC 23003-3:2012.

Синтаксис, описанный выше, обеспечивает эффективную реализацию расширенной формы репликации спектрального диапазона, такой как гармоническая транспозиция, в качестве расширения унаследованного декодера. Конкретно, данные eSBR Таблицы 3 включают в себя только те параметры, необходимые для выполнения расширенной формы репликации спектрального диапазона, которые либо не являются уже поддерживаемыми в битовом потоке, либо не извлекаются напрямую из параметров, уже поддерживаемых в битовом потоке. Все другие параметры и данные обработки, необходимые для выполнения расширенной формы репликации спектрального диапазона, извлекаются из предварительно существующих параметров в уже определенных местоположениях в битовом потоке.The syntax described above enables efficient implementation of an extended form of spectral range replication, such as harmonic transposition, as an extension of the legacy decoder. Specifically, the eSBR data of Table 3 includes only those parameters necessary to perform the extended form of spectral range replication that are either not already supported in the bitstream or are not directly derived from parameters already supported in the bitstream. All other parameters and processing data necessary to perform the extended form of spectral range replication are derived from pre-existing parameters at already defined locations in the bitstream.

Например, совместимый с MPEG-4 HE-AAC или HE-AAC v2 декодер может быть расширен, чтобы включать в себя расширенную форму репликации спектрального диапазона, такую как гармоническая транспозиция. Эта расширенная форма репликации спектрального диапазона дополняет базовую форму репликации спектрального диапазона, уже поддерживаемую декодером. В контексте совместимого с MPEG-4 HE-AAC или HE-AAC v2 декодера, этой базовой формой репликации спектрального диапазона является инструмент SBR спектральной вставки заплаты QMF, как определено в Разделе 4.6.18 стандарта MPEG-4 AAC.For example, an MPEG-4 HE-AAC or HE-AAC v2 compliant decoder can be extended to include an extended form of spectral range replication, such as harmonic transposition. This extended form of spectral range replication complements the basic form of spectral range replication already supported by the decoder. In the context of an MPEG-4 HE-AAC or HE-AAC v2 compliant decoder, this basic form of spectral range replication is the SBR QMF spectral patch insertion tool, as defined in Section 4.6.18 of the MPEG-4 AAC standard.

При выполнении расширенной формы репликации спектрального диапазона, расширенный декодер HE-AAC может повторно использовать множество параметров битового потока, уже включенных в нагрузку расширения SBR битового потока. Конкретные параметры, которые могут повторно использоваться, включают в себя, например, различные параметры, которые определяют сводную таблицу частотных диапазонов. Эти параметры включают в себя bs_start_freq (параметр, который определяет начало параметра сводной таблицы частот), bs_stop_freq (параметр, который определяет конец сводной таблицы частот), bs_freq_scale (параметр, который определяет количество частотных диапазонов на октаву) и bs_alter_scale (параметр, который изменяет масштаб частотных диапазонов). Параметры, которые могут использоваться повторно, также включают в себя параметры, которые определяют таблицу шумовых диапазонов (bs_noise_bands), и параметры таблицы ограничительных диапазонов (bs_limiter_bands). Соответственно, в различных вариантах осуществления, по меньшей мере некоторые из эквивалентных параметров, специфицированных в стандарте USAC, опущены из битового потока, тем самым уменьшается непроизводительные затраты управления в битовом потоке. Обычно, если параметр, специфицированный в стандарте AAC, имеет эквивалентный параметр, специфицированный в стандарте USAC, то эквивалентный параметр, специфицированный в стандарте USAC, имеет то же самое значение, что и параметр, специфицированный в стандарте AAC, например, коэффициент масштабирования огибающей E_OrigMapped. Однако, эквивалентный параметр, специфицированный в стандарте USAC, обычно имеет другое значение, которое “настраивается” для обработки расширенной SBR, определенной в стандарте USAC, а не для обработки SBR, определенной в стандарте AAC.When performing the extended form of spectral range replication, the extended HE-AAC decoder can reuse many bitstream parameters already included in the SBR bitstream extension payload. Specific parameters that can be reused include, for example, various parameters that define the frequency band summary table. These parameters include bs_start_freq (the parameter that defines the start of the frequency summary table parameter), bs_stop_freq (the parameter that defines the end of the frequency summary table), bs_freq_scale (the parameter that defines the number of frequency bands per octave), and bs_alter_scale (the parameter that changes the scale of the frequency bands). Parameters that can be reused also include the parameters that define the noise band table (bs_noise_bands) and the limiter band table parameters (bs_limiter_bands). Accordingly, in various embodiments, at least some of the equivalent parameters specified in the USAC standard are omitted from the bitstream, thereby reducing control overhead in the bitstream. Typically, if a parameter specified in the AAC standard has an equivalent parameter specified in the USAC standard, then the equivalent parameter specified in the USAC standard has the same value as the parameter specified in the AAC standard, such as an envelope scaling factor E _OrigMapped . However, the equivalent parameter specified in the USAC standard typically has a different value that is “tuned” for the extended SBR processing specified in the USAC standard, rather than for the SBR processing specified in the AAC standard.

Чтобы улучшить субъективное качество для аудиоконтента со структурой гармонических частот и строгими тональными характеристиками, в частности на низких битовых скоростях, рекомендуется активация расширенной SBR. Значения соответствующего элемента битового потока (т.е. esbr_data()), управляющего этими инструментами, может определяться в кодере путем применения зависимого от сигнала механизма классификации. В общем, использование способа гармонической вставки заплаты (sbrPatchingMode==1) предпочтительно для кодирования музыкальных сигналов при очень низких битовых скоростях, где базовый кодек может быть значительно ограничен в ширине полосы аудио. Это особенно верно, если эти сигналы включают в себя структуру с явно выраженными гармоническими колебаниями. Напротив, использование способа вставки заплаты в виде регулярной SBR является предпочтительным для речевых и смешанных сигналов, поскольку оно обеспечивает лучшее сохранение временной структуры в речи.In order to improve the subjective quality for audio content with harmonic frequency structure and strong tonal characteristics, in particular at low bit rates, the activation of extended SBR is recommended. The values of the corresponding bitstream element (i.e. esbr_data()) controlling these tools can be determined in the encoder by applying a signal-dependent classification mechanism. In general, the use of the harmonic patching method (sbrPatchingMode==1) is preferable for encoding music signals at very low bit rates, where the underlying codec may be significantly limited in audio bandwidth. This is especially true if these signals include a structure with pronounced harmonic oscillations. In contrast, the use of the regular SBR patching method is preferable for speech and mixed signals, since it provides better preservation of the temporal structure in speech.

Чтобы улучшить выполнение гармонического транспозера, может активироваться этап предварительной обработки (bs_sbr_preprocessing==1), который стремится избежать появления спектральных прерываний сигнала, поступающего в последующий корректор огибающей. Операция данного инструмента выгодна для типов сигнала, где грубая огибающая спектра сигнала в полосе низких частот, используемого для высокочастотного восстановления, демонстрирует большие вариации в уровне.To improve the performance of the harmonic transposer, a preprocessing step (bs_sbr_preprocessing==1) can be activated, which aims to avoid the occurrence of spectral discontinuities in the signal entering the subsequent envelope equalizer. The operation of this tool is beneficial for signal types where the coarse spectral envelope of the low-frequency signal used for high-frequency reconstruction exhibits large variations in level.

Чтобы улучшить отклик переходного процесса вставки заплаты в виде гармонической SBR, может применяться адаптивная к сигналу избыточная дискретизация частотной области (sbrOversamplingFlag==1). Поскольку адаптивная к сигналу избыточная дискретизация частотной области повышает вычислительную сложность транспозера, но приносит выгоды только для кадров, которые содержат переходные процессы, использование этого инструмента управляется элементом битового потока, который передается однократно на кадр и на независимый канал SBR.To improve the transient response of the harmonic SBR patch insertion, signal-adaptive frequency domain oversampling (sbrOversamplingFlag==1) can be applied. Since signal-adaptive frequency domain oversampling increases the computational complexity of the transposer but only benefits frames that contain transients, the use of this tool is controlled by a bitstream element that is transmitted once per frame and per independent SBR channel.

Декодер, работающий в предложенном режиме расширенной SBR, обычно должен быть способен переключаться между вставкой заплаты в виде унаследованной и расширенной SBR. Поэтому, может возникнуть задержка, которая может быть равна длительности одного базового кадра аудио, в зависимости от настройки декодера. Обычно, задержка для вставки заплаты в виде как унаследованной, так и расширенной SBR, будет аналогичной.A decoder operating in the proposed extended SBR mode must typically be able to switch between legacy and extended SBR patch insertion. Therefore, a delay may be introduced that can be as long as one basic audio frame, depending on the decoder setup. Typically, the delay for both legacy and extended SBR patch insertion will be similar.

В дополнение к многочисленным параметрам, другие элементы данных могут также повторно использоваться расширенным декодером HE-AAC при выполнении расширенной формы репликации спектрального диапазона в соответствии с вариантами осуществления изобретения. Например, данные огибающей и данные уровня шума могут также извлекаться из данных bs_data_env (коэффициенты масштабирования огибающей) и bs_noise_env (коэффициенты масштабирования уровня шума) и использоваться во время расширенной формы репликации спектрального диапазона. In addition to numerous parameters, other data elements may also be reused by the extended HE-AAC decoder when performing the extended form of spectral range replication according to embodiments of the invention. For example, envelope data and noise level data may also be extracted from the bs_data_env (envelope scaling factors) and bs_noise_env (noise level scaling factors) data and used during the extended form of spectral range replication.

По существу, эти варианты осуществления используют параметры конфигурации и данные огибающей, уже поддерживаемые унаследованным декодером HE-AAC или HE-AAC v2 в полезной нагрузке расширения SBR, для обеспечения расширенной формы репликации спектрального диапазона, требующей по возможности меньших дополнительно передаваемых данных. Метаданные исходно настраивались для базовой формы HFR (например, операция спектрального переноса SBR), но, в соответствии с вариантами осуществления, используются для расширенной формы HFR (например, гармонической транспозиции eSBR). Как обсуждено ранее, метаданные, в общем, представляют рабочие параметры (например, коэффициенты масштабирования огибающей, коэффициенты масштабирования уровня шума, параметры временной/частотной сетки, информация добавления синусоид, переменная частота перехода/диапазон, режим обратной фильтрации, разрешение огибающей, режим сглаживания, режим частотной интерполяции), настраиваемые и предназначенные для использования с базовой формой HFR (например, линейным спектральным переносом). Однако, эти метаданные, в сочетании с дополнительными параметрами метаданных, специфическими для расширенной формы HFR (например, гармонической транспозиции), могут использоваться, чтобы эффективно и результативно обрабатывать данные аудио с использованием расширенной формы HFR.In essence, these embodiments use the configuration parameters and envelope data already supported by a legacy HE-AAC or HE-AAC v2 decoder in the SBR extension payload to provide an extended form of spectral range replication that requires as little additional data as possible to be transmitted. The metadata was originally configured for the basic form of HFR (e.g., the SBR spectral transfer operation), but is used for the extended form of HFR (e.g., the eSBR harmonic transposition) in accordance with the embodiments. As discussed previously, the metadata generally represents operating parameters (e.g., envelope scaling factors, noise level scaling factors, time/frequency grid parameters, sinusoid addition information, variable crossover frequency/range, inverse filtering mode, envelope resolution, smoothing mode, frequency interpolation mode) that are configured and intended for use with the basic form of HFR (e.g., linear spectral transfer). However, this metadata, in combination with additional metadata parameters specific to the extended form of HFR (such as harmonic transposition), can be used to efficiently and effectively process audio data using the extended form of HFR.

Соответственно, расширенные декодеры, которые поддерживают расширенную форму репликации спектрального диапазона, могут создаваться очень эффективным образом с опорой на уже определенные элементы битового потока (например, элементы в полезной нагрузке расширения SBR) и путем добавления только тех параметров, которые необходимы для поддержки расширенной формы репликации спектрального диапазона (в полезной нагрузке расширения элемента наполнения). Эта особенность уменьшения данных в сочетании с помещением вновь добавленных параметров в зарезервированное поле данных, такое как контейнер расширения, существенно уменьшает препятствия к созданию декодера, который поддерживает расширенную форму репликации спектрального диапазона, за счет обеспечения того, что битовый поток является обратносовместимым с унаследованным декодером, не поддерживающим расширенную форму репликации спектрального диапазона. Будет понятно, что зарезервированное поле данных является обратносовместимым полем данных, то есть, представляет собой такое поле данных, которое уже поддерживается более ранними декодерами, такими как унаследованные декодеры HE-AAC или HE-AAC v2. Аналогично, контейнер расширения является обратносовместимым, то есть, представляет собой такой контейнер расширения, который уже поддерживается более ранними декодерами, такими как унаследованные декодеры HE-AAC или HE-AAC v2.Accordingly, extended decoders that support the extended form of spectral range replication can be created in a very efficient manner by relying on already defined elements of the bitstream (e.g., elements in the SBR extension payload) and by adding only those parameters that are necessary to support the extended form of spectral range replication (in the filler element extension payload). This data reduction feature, combined with placing the newly added parameters in a reserved data field, such as an extension container, significantly reduces the barrier to creating a decoder that supports the extended form of spectral range replication by ensuring that the bitstream is backward compatible with a legacy decoder that does not support the extended form of spectral range replication. It will be understood that the reserved data field is a backward compatible data field, i.e., it is a data field that is already supported by earlier decoders, such as legacy HE-AAC or HE-AAC v2 decoders. Similarly, an extension container is backward compatible, that is, it is an extension container that is already supported by earlier decoders, such as the legacy HE-AAC or HE-AAC v2 decoders.

В Таблице 3, число в правом столбце указывает количество битов соответствующего параметра в левом столбце. In Table 3, the number in the right column indicates the number of bits of the corresponding parameter in the left column.

В некоторых вариантах осуществления, тип объекта SBR, определенный в MPEG-4 AAC, обновляется, чтобы содержать инструмент SBR и аспекты инструмента расширенной SBR (eSBR), как сигнализируется в элементе расширения SBR (bs_extension_id== EXTENSION_ID_ESBR). Если декодер обнаруживает этот элемент расширения SBR, декодер использует сигнализированные аспекты инструмента расширенной SBR.In some embodiments, the SBR object type defined in MPEG-4 AAC is updated to contain the SBR tool and aspects of the extended SBR (eSBR) tool, as signaled in an SBR extension element (bs_extension_id==EXTENSION_ID_ESBR). If the decoder detects this SBR extension element, the decoder uses the signaled aspects of the extended SBR tool.

В некоторых вариантах осуществления, изобретение представляет собой способ, включающий в себя этап кодирования данных аудио, чтобы генерировать закодированный битовый поток (например, битовый поток MPEG-4 AAC), включающий в себя метаданные eSBR в по меньшей мере одном сегменте по меньшей мере одного блока закодированного битового потока и данные аудио в по меньшей мере одном другом сегменте блока. В типовых вариантах осуществления, способ включает в себя этап мультиплексирования данных аудио с метаданными eSBR в каждом блоке закодированного битового потока. В типовом декодировании закодированного битового потока в декодере eSBR, декодер извлекает метаданные eSBR из битового потока (в том числе путем синтаксического анализа и демультиплексирования метаданных eSBR и данных аудио) и использует метаданные eSBR, чтобы обрабатывать данные аудио, чтобы сгенерировать поток декодированных данных аудио.In some embodiments, the invention is a method that includes the step of encoding audio data to generate an encoded bitstream (e.g., an MPEG-4 AAC bitstream) that includes eSBR metadata in at least one segment of at least one block of the encoded bitstream and audio data in at least one other segment of the block. In exemplary embodiments, the method includes the step of multiplexing audio data with the eSBR metadata in each block of the encoded bitstream. In exemplary decoding of the encoded bitstream in an eSBR decoder, the decoder extracts the eSBR metadata from the bitstream (including by parsing and demultiplexing the eSBR metadata and the audio data) and uses the eSBR metadata to process the audio data to generate a stream of decoded audio data.

Другим аспектом изобретения является декодер eSBR, сконфигурированный, чтобы выполнять обработку eSBR (например, с использованием по меньшей мере одного из инструментов eSBR, известных как гармоническая транспозиция или предварительное сглаживание) во время декодирования закодированного битового потока аудио (например, битового потока MPEG-4 AAC), который не включает в себя метаданные eSBR. Пример такого декодера будет описан со ссылкой на фиг. 5.Another aspect of the invention is an eSBR decoder configured to perform eSBR processing (e.g., using at least one of the eSBR tools known as harmonic transposition or pre-dithering) during decoding of an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream) that does not include eSBR metadata. An example of such a decoder will be described with reference to Fig. 5.

Декодер (400) eSBR согласно фиг. 5 включает в себя буферную память 201 (которая идентична памяти 201 на фиг. 3 и 4), блок 215 расформатирования нагрузки битового потока (который идентичен блоку 215 расформатирования на фиг. 4), подсистему 202 декодирования аудио (иногда называемую каскадом “базового” декодирования или подсистемой “базового” декодирования и которая идентична подсистеме 202 базового декодирования на фиг. 3), подсистему 401 генерации управляющих данных eSBR и каскад 203 обработки eSBR (который идентичен каскаду 203 на фиг. 3), соединенные, как показано. Обычно также, декодер 400 включает в себя другие элементы обработки (не показаны). The eSBR decoder (400) according to Fig. 5 includes a buffer memory 201 (which is identical to the memory 201 in Figs. 3 and 4), a bitstream payload deformatting unit 215 (which is identical to the deformatting unit 215 in Fig. 4), an audio decoding subsystem 202 (sometimes called a “core” decoding stage or a “core” decoding subsystem and which is identical to the core decoding subsystem 202 in Fig. 3), an eSBR control data generation subsystem 401 and an eSBR processing stage 203 (which is identical to the stage 203 in Fig. 3), connected as shown. Typically, the decoder 400 also includes other processing elements (not shown).

При работе декодера 400, последовательность блоков закодированного битового потока аудио (битового потока MPEG-4 AAC), принятая декодером 400, обеспечивается из буфера 201 в блок 215 расформатирования. When the decoder 400 operates, a sequence of blocks of the encoded audio bitstream (MPEG-4 AAC bitstream) received by the decoder 400 is provided from the buffer 201 to the deformatting block 215.

Блок 215 расформатирования подсоединен и сконфигурирован, чтобы демультиплексировать каждый блок битового потока, чтобы извлекать из него метаданные SBR (включающие в себя квантованные данные огибающей) и обычно также другие метаданные. Блок 215 расформатирования сконфигурирован, чтобы обеспечивать по меньшей мере метаданные SBR в каскад 203 обработки eSBR. Блок 215 расформатирования также подсоединен и сконфигурирован, чтобы извлекать данные аудио из каждого блока битового потока и обеспечивать извлеченные данные аудио в подсистему (каскад декодирования) 202 декодирования. The deformatting unit 215 is connected and configured to demultiplex each block of the bitstream to extract SBR metadata (including quantized envelope data) and usually also other metadata from it. The deformatting unit 215 is configured to provide at least the SBR metadata to the eSBR processing stage 203. The deformatting unit 215 is also connected and configured to extract audio data from each block of the bitstream and to provide the extracted audio data to the decoding subsystem (decoding stage) 202.

Подсистема 202 декодирования аудио декодера 400 сконфигурирована, чтобы декодировать данные аудио, извлеченные блоком 215 расформатирования (такое декодирование может упоминаться как операция “базового” декодирования), чтобы генерировать декодированные данные аудио и обеспечивать декодированные данные аудио в каскад 203 обработки eSBR. Декодирование выполняется в частотной области. Обычно, конечная стадия обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным данным аудио частотной области, так что выход подсистемы представляет собой декодированные данные аудио временной области. Каскад 203 сконфигурирован, чтобы применять инструменты SBR (и инструменты eSBR), указанные метаданными SBR (извлеченными блоком 215 расформатирования) и метаданными eSBR, сгенерированными в подсистеме 401, к декодированным данным аудио (т.е., чтобы выполнять обработку SBR и eSBR над выходом подсистемы 202 декодирования с использованием метаданных SBR и eSBR), чтобы генерировать полностью декодированные данные аудио, которые представляют собой выход декодера 400. Обычно, декодер 400 включает в себя память (доступ к которой осуществляется подсистемой 202 и каскадом 203), которая хранит расформатированные данные аудио и метаданные, выведенные из блока 215 расформатирования (и опционально также подсистемы 401), и каскад 203 сконфигурирован, чтобы осуществлять доступ к данным аудио и метаданным по мере необходимости во время обработки SBR и eSBR. Обработка SBR в каскаде 203 может рассматриваться как пост-обработка выхода подсистемы 202 базового декодирования. Опционально, декодер 400 также включает в себя подсистему конечного повышающего микширования (которая может применять инструменты параметрического стерео (“PS”), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных блоком 215 расформатирования), которая подсоединена и сконфигурирована, чтобы выполнять повышающее микширование выхода каскада 203, чтобы генерировать полностью декодированное, микшированное с повышением аудио, которое представляет собой выход APU 210. The decoding subsystem 202 of the audio decoder 400 is configured to decode the audio data extracted by the deformatting unit 215 (such decoding may be referred to as a "core" decoding operation) to generate decoded audio data and provide the decoded audio data to the eSBR processing stage 203. The decoding is performed in the frequency domain. Typically, the final processing stage in the subsystem 202 applies a transform from the frequency domain to the time domain to the decoded frequency domain audio data, so that the output of the subsystem is decoded time domain audio data. The cascade 203 is configured to apply SBR tools (and eSBR tools) specified by the SBR metadata (extracted by the deformatting unit 215) and the eSBR metadata generated in the subsystem 401 to the decoded audio data (i.e., to perform SBR and eSBR processing on the output of the decoding subsystem 202 using the SBR and eSBR metadata) in order to generate fully decoded audio data, which is the output of the decoder 400. Typically, the decoder 400 includes a memory (accessed by the subsystem 202 and the cascade 203), which stores the deformatted audio data and the metadata output from the deformatting unit 215 (and optionally also the subsystem 401), and the cascade 203 is configured to access the audio data and the metadata as needed during the SBR and eSBR processing. The SBR processing in the stage 203 can be considered as post-processing of the output of the core decoding subsystem 202. Optionally, the decoder 400 also includes a final upmix subsystem (which can apply parametric stereo (“PS”) tools defined in the MPEG-4 AAC standard using PS metadata extracted by the deformatting unit 215), which is connected and configured to upmix the output of the stage 203 to generate fully decoded, upmixed audio, which is the output of the APU 210.

Параметрическое стерео является инструментом кодирования, который представляет стерео-сигнал с использованием линейного микширования с понижением левого и правого каналов стерео-сигнала и наборов пространственных параметров, описывающих стерео-изображение. Параметрическое стерео обычно применяет три типа пространственных параметров: (1) межканальные разности интенсивности (IID), описывающие разности интенсивности между каналами; (2) межканальные разности фазы (IPD), описывающие разности фазы между каналами; и (3) межканальная когерентность (ICC), описывающая когерентность (или сходство) между каналами. Когерентность может быть измерена как максимум кросс-корреляции в функции времени или фазы. Эти три параметра, в общем, обеспечивают возможность высококачественного восстановления стерео-изображения. Однако параметры IPD специфицируют только относительные разности фаз между каналами входного стерео-сигнала и не указывают распределение этих разностей фаз по левому и правому каналам. Поэтому, может дополнительно использоваться четвертый тип параметра, описывающий общий сдвиг фазы или общую разность фаз (OPD). В процессе восстановления стерео, последовательные оконные сегменты принятого микшированного с понижением сигнала, s[n], и декоррелированной версии принятого микширования с понижением, d[n], обрабатываются вместе с пространственными параметрами, чтобы сгенерировать левый (l_k(n)) и правый (r_k(n)) восстановленные сигналы в соответствии с:Parametric stereo is a coding tool that represents a stereo signal using a linear downmix of the left and right channels of the stereo signal and sets of spatial parameters that describe the stereo image. Parametric stereo typically employs three types of spatial parameters: (1) interchannel intensity differences (IID), which describe the intensity differences between channels; (2) interchannel phase differences (IPD), which describe the phase differences between channels; and (3) interchannel coherence (ICC), which describes the coherence (or similarity) between channels. Coherence can be measured as the maximum cross-correlation as a function of time or phase. These three parameters generally provide the ability to reconstruct a stereo image in high quality. However, the IPD parameters specify only the relative phase differences between the channels of the input stereo signal and do not indicate the distribution of these phase differences across the left and right channels. Therefore, a fourth type of parameter may be additionally used, describing the overall phase shift or overall phase difference (OPD). In the stereo reconstruction process, successive window segments of the received downmix signal, s[n], and the decorrelated version of the received downmix, d[n], are processed together with the spatial parameters to generate left (l _k (n)) and right (r _k (n)) reconstructed signals according to:

l_k(n)=H₁₁(k, n)s_k(n)+H₂₁(k, n)d_k(n)l _k (n)=H ₁₁ (k, n)s _k (n)+H ₂₁ (k, n)d _k (n)

r_k(n)=H₁₂(k, n)s_k(n)+H₂₂(k, n)d_k(n)r _k (n)=H ₁₂ (k, n)s _k (n)+H ₂₂ (k, n)d _k (n)

где H₁₁, H₁₂, H₂₁ и H₂₂ определяются параметрами стерео. Сигналы l_k(n) и r_k(n) в итоге преобразуются обратно во временную область посредством частотно-временного преобразования.where H ₁₁ , H ₁₂ , H ₂₁ and H ₂₂ are determined by the stereo parameters. The signals l _k (n) and r _k (n) are finally transformed back to the time domain by means of the time-frequency transform.

Подсистема 401 генерации управляющих данных согласно фиг. 5 подсоединена и сконфигурирована, чтобы обнаруживать по меньшей мере одно свойство закодированного битового потока аудио, подлежащего декодированию, и генерировать управляющие данные eSBR (которые могут представлять собой или включать в себя метаданные eSBR любого из типов, включенные в закодированные битовые потоки аудио в соответствии с другими вариантами осуществления изобретения) в ответ на по меньшей мере один результат этапа обнаружения. Управляющие данные eSBR обеспечиваются в каскад 203, чтобы запустить применение отдельных инструментов eSBR или комбинаций инструментов eSBR после обнаружения конкретного свойства (или комбинаций свойств) битового потока и/или чтобы управлять применением таких инструментов eSBR. Например, чтобы управлять выполнением обработки eSBR с использованием гармонической транспозиции, некоторые варианты осуществления подсистемы 401 генерации управляющих данных будут включать в себя: детектор музыки (например, упрощенная версия традиционного детектора музыки) для установки параметра sbrPatchingMode[ch] (и обеспечения установленного параметра в каскад 203) в ответ на обнаружение, что битовый поток указывает или не указывает музыку; детектор переходных процессов для установки параметра sbrOversamplingFlag[ch] (и обеспечения установленного параметра в каскад 203) в ответ на обнаружение наличия или отсутствия переходных процессов в аудиоконтенте, указанном битовым потоком; и/или детектор высоты тона для установки параметров sbrPitchInBinsFlag[ch] и sbrPitchInBins[ch] (и обеспечения установленных параметров в каскад 203) в ответ на обнаружение высоты тона аудиоконтента, указанного битовым потоком. Другими аспектами изобретения являются способы декодирования битового потока аудио, выполняемые любым вариантом осуществления соответствующего изобретению декодера, описанного в этом абзаце и предшествующем абзаце.The control data generation subsystem 401 according to Fig. 5 is connected and configured to detect at least one property of the encoded audio bitstream to be decoded and to generate eSBR control data (which may be or include any type of eSBR metadata included in the encoded audio bitstreams according to other embodiments of the invention) in response to at least one result of the detection step. The eSBR control data is provided to the cascade 203 to trigger the application of individual eSBR tools or combinations of eSBR tools after detecting a specific property (or combinations of properties) of the bitstream and/or to control the application of such eSBR tools. For example, to control the execution of eSBR processing using harmonic transposition, some embodiments of the control data generation subsystem 401 will include: a music detector (e.g., a simplified version of a traditional music detector) for setting the sbrPatchingMode[ch] parameter (and providing the set parameter to the cascade 203) in response to detecting that the bitstream indicates music or does not indicate music; a transient detector for setting the sbrOversamplingFlag[ch] parameter (and providing the set parameter to the cascade 203) in response to detecting the presence or absence of transients in the audio content indicated by the bitstream; and/or a pitch detector for setting the sbrPitchInBinsFlag[ch] and sbrPitchInBins[ch] parameters (and providing the set parameters to the cascade 203) in response to detecting the pitch of the audio content indicated by the bitstream. Other aspects of the invention are methods for decoding an audio bitstream performed by any embodiment of the inventive decoder described in this paragraph and the preceding paragraph.

Аспекты изобретения включают в себя способ кодирования или декодирования такого типа, для выполнения которого сконфигурирован (например, запрограммирован) любой вариант осуществления соответствующего изобретению APU, системы или устройства. Другие аспекты изобретения включают в себя систему или устройство, сконфигурированное (например, запрограммированное), чтобы выполнять любой вариант осуществления соответствующего изобретению способа, и считываемый компьютером носитель (например, диск), который хранит код (например, не-временным образом) для реализации любого варианта осуществления соответствующего изобретению способа или его этапов. Например, соответствующая изобретению система может представлять собой или включать в себя программируемый универсальный процессор, цифровой сигнальный процессор или микропроцессор, запрограммированный при помощи программного обеспечения или прошивки и/или иным образом сконфигурированный, чтобы выполнять любые из разнообразия операций на данных, включая вариант осуществления соответствующего изобретению способа или его этапы. Такой универсальный процессор может представлять собой или включать в себя компьютерную систему, включающую в себя устройство ввода, память и схему обработки, запрограммированную (и/или иным образом сконфигурированную), чтобы выполнять вариант осуществления соответствующего изобретению способа (или его этапы) в ответ на обеспеченные в нее данные.Aspects of the invention include a method for encoding or decoding of the type that any embodiment of the inventive APU, system, or device is configured (e.g., programmed) to perform. Other aspects of the invention include a system or device configured (e.g., programmed) to perform any embodiment of the inventive method, and a computer-readable medium (e.g., a disk) that stores code (e.g., in a non-transitory manner) for implementing any embodiment of the inventive method or its steps. For example, the inventive system may be or include a programmable general-purpose processor, a digital signal processor, or a microprocessor programmed with software or firmware and/or otherwise configured to perform any of a variety of operations on data, including an embodiment of the inventive method or its steps. Such a general-purpose processor may be or include a computer system including an input device, a memory, and a processing circuit programmed (and/or otherwise configured) to perform an embodiment of the inventive method (or its steps) in response to data provided thereto.

Варианты осуществления настоящего изобретения могут быть реализованы в аппаратных средствах, прошивке или программном обеспечении или комбинации обоих (например, как программируемая логическая матрица). Если не специфицировано иное, алгоритмы или процессы, включенные в качестве части изобретения, не обязательно относятся к какому-либо конкретному компьютеру или другому устройству. В частности, различные универсальные машины могут использоваться с программами, написанными в соответствии с изложенными здесь принципами, или может быть удобнее создать более специализированное устройство (например, интегральные схемы) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программах, исполняющихся на одной или более программируемых компьютерных системах (например, реализация любого из элементов согласно фиг. 1 или кодера 100 согласно фиг. 2 (или его элемента) или декодера 200 согласно фиг. 3 (или его элемента) или декодера 210 согласно фиг. 4 (или его элемента) или декодера 400 согласно фиг. 5 (или его элемента)), каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (включая энергозависимую или энергонезависимую память и/или элементы хранения), по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Программный код применяется к входным данным для выполнения функций, описанных здесь, и генерации выходной информации. Выходная информация подается на одно или более устройств вывода известным образом.Embodiments of the present invention may be implemented in hardware, firmware, or software, or a combination of both (e.g., as a programmable logic array). Unless otherwise specified, algorithms or processes included as part of the invention do not necessarily relate to any particular computer or other device. In particular, various general-purpose machines may be used with programs written in accordance with the principles set forth herein, or it may be more convenient to create a more specialized device (e.g., integrated circuits) to perform the required method steps. Thus, the invention can be implemented in one or more computer programs running on one or more programmable computer systems (for example, an implementation of any of the elements according to Fig. 1 or the encoder 100 according to Fig. 2 (or an element thereof) or the decoder 200 according to Fig. 3 (or an element thereof) or the decoder 210 according to Fig. 4 (or an element thereof) or the decoder 400 according to Fig. 5 (or an element thereof)), each of which comprises at least one processor, at least one data storage system (including volatile or non-volatile memory and/or storage elements), at least one input device or port and at least one output device or port. The program code is applied to the input data to perform the functions described herein and to generate output information. The output information is supplied to one or more output devices in a known manner.

Каждая такая программа может быть реализована на любом желательном компьютерном языке (включая машинные, ассемблерные, или высокоуровневые процедурные, логические языки или языки объектно-ориентированного программирования) для коммуникации с компьютерной системой. В любом случае, язык может представлять собой компилируемый или интерпретируемый язык.Each such program may be implemented in any desired computer language (including machine, assembly, or high-level procedural, logical, or object-oriented programming languages) for communicating with the computer system. In any case, the language may be a compiled or interpreted language.

Например, при реализации последовательностями компьютерных инструкций программного обеспечения, различные функции и этапы вариантов осуществления изобретения могут быть реализованы последовательностями инструкций многопоточного программного обеспечения, исполняющимися в подходящих аппаратных средствах обработки цифровых сигналов, в этом случае различные устройства, этапы и функции вариантов осуществления могут соответствовать частям инструкций программного обеспечения.For example, when implemented by sequences of computer software instructions, the various functions and steps of embodiments of the invention may be implemented by sequences of multi-threaded software instructions running in suitable digital signal processing hardware, in which case the various devices, steps and functions of the embodiments may correspond to portions of the software instructions.

Каждая такая компьютерная программа предпочтительно хранится на или загружается в носители или устройство хранения (например, твердотельную память или носители или магнитные или оптические носители), считываемые универсальным или специализированным программируемым компьютером, для конфигурирования и работы компьютера, когда носитель или устройство хранения считывается компьютерной системой для выполнения процедур, описанных здесь. Соответствующая изобретению система может также быть реализована как считываемый компьютером носитель хранения, сконфигурированный с (т.е., хранящий) компьютерной программой, где носитель хранения, сконфигурированный таким образом, побуждает компьютерную систему работать конкретным и предварительно определенным образом для выполнения функций, описанных здесь.Each such computer program is preferably stored on or loaded into a storage medium or device (e.g., solid-state memory or media, or magnetic or optical media) readable by a general-purpose or specialized programmable computer, for configuring and operating the computer when the medium or storage device is read by the computer system to perform the procedures described herein. The inventive system may also be implemented as a computer-readable storage medium configured with (i.e., storing) the computer program, where the storage medium, so configured, causes the computer system to operate in a specific and predetermined manner to perform the functions described herein.

Был описан ряд вариантов осуществления изобретения. Тем не менее, будет понятно, что различные модификации могут быть выполнены без отклонения от сущности и объема изобретения. Многочисленные модификации и вариации настоящего изобретения возможны в свете изложенного выше. Например, чтобы облегчить эффективные реализации, фазовые сдвиги могут использоваться в комбинации с банками комплексных фильтров анализа и синтеза QMF. Банк фильтров анализа отвечает за фильтрацию сигнала в полосе низких частот временной области, сгенерированного базовым декодером, на множество поддиапазонов (например, QMF-поддиапазонов). Банк фильтров синтеза отвечает за комбинирование регенерированного высокого диапазона, сформированного выбранным методом HFR (как указано принятым параметром sbrPatchingMode), с декодированным низким диапазоном, чтобы сформировать широкополосный выходной аудиосигнал. Данная реализация банка фильтров, работающая в определенном режиме частоты дискретизации, таком как нормальная операция с двойной скоростью или режим SBR понижающей дискретизации, не должна, однако, иметь фазовые сдвиги, которые зависят от битового потока. Банки QMF, используемые в SBR, представляют собой комплексно-экспоненциальное расширение теории косинусно-модулированных банков фильтров. Можно показать, что ограничения компенсации помех дискретизации становятся устаревшими при расширении косинусно-модулированного банка фильтров с комплексно-экспоненциальной модуляцией. Таким образом, для банков SBR QMF, как фильтры анализа, h_k(n), так и фильтры синтеза, f_k(n), могут определяться посредством:A number of embodiments of the invention have been described. However, it will be understood that various modifications can be made without departing from the spirit and scope of the invention. Numerous modifications and variations of the present invention are possible in light of the above. For example, to facilitate efficient implementations, phase shifts can be used in combination with complex QMF analysis and synthesis filter banks. The analysis filter bank is responsible for filtering the time-domain low-pass band signal generated by the core decoder into a plurality of sub-bands (e.g., QMF sub-bands). The synthesis filter bank is responsible for combining the regenerated high band formed by the selected HFR method (as indicated by the received sbrPatchingMode parameter) with the decoded low band to form a wideband output audio signal. A given filter bank implementation operating in a particular sampling frequency mode, such as normal double-rate operation or SBR downsampling mode, should not, however, have phase shifts that depend on the bitstream. The QMF banks used in SBR are a complex-exponential extension of the cosine-modulated filter bank theory. It can be shown that the limitations of sampling noise compensation become obsolete when extending the cosine-modulated filter bank with complex-exponential modulation. Thus, for SBR QMF banks, both the analysis filters, h _k (n), and the synthesis filters, f _k (n), can be defined by:

(1) (1)

где p₀(n) представляет собой вещественно-значный симметричный или асимметричный фильтр-прототип (обычно, фильтр-прототип нижних частот), M обозначает количество каналов, и N представляет собой порядок фильтра-прототипа. Количество каналов, используемых в банке фильтров анализа, может отличаться от количества каналов, используемых в банке фильтров синтеза. Например, банк фильтров анализа может иметь 32 канала, а банк фильтров синтеза может иметь 64 канала. При применении банка фильтров синтеза в режиме понижающей дискретизации, банк фильтров синтеза может иметь только 32 канала. Поскольку поддиапазонные выборки из банка фильтров являются комплексно-значными, дополнительный возможный этап канально-зависимого фазового сдвига может быть добавлен к банку фильтров анализа. Эти дополнительные фазовые сдвиги должны быть скомпенсированы перед банком фильтров синтеза. В то время как члены фазового сдвига в принципе могут иметь произвольные значения без нарушения работы цепи анализа/синтеза QMF, они могут также быть ограничены определенными значениями для верификации согласованности. Сигнал SBR будет испытывать влияние выбора фазовых коэффициентов, в то время как сигнал нижних частот, поступающих из базового декодера, не будет его испытывать. Качество аудио выходного сигнала не испытывает влияния. where _p0 (n) is a real-valued symmetric or asymmetric prototype filter (usually a low-pass prototype filter), M denotes the number of channels, and N is the order of the prototype filter. The number of channels used in the analysis filter bank may be different from the number of channels used in the synthesis filter bank. For example, the analysis filter bank may have 32 channels, and the synthesis filter bank may have 64 channels. When using the synthesis filter bank in downsampling mode, the synthesis filter bank may have only 32 channels. Since the subband samples from the filter bank are complex-valued, an additional possible channel-dependent phase shift stage may be added to the analysis filter bank. These additional phase shifts must be compensated before the synthesis filter bank. While the phase shift terms can in principle have arbitrary values without disturbing the operation of the QMF analysis/synthesis chain, they may also be limited to certain values for consistency verification. The SBR signal will be affected by the choice of phase coefficients, while the low-pass signal coming from the base decoder will not be affected. The quality of the audio output signal is not affected.

Коэффициенты фильтра-прототипа, p₀(n), могут определяться длиной, L, 640, как показано в Таблице 4 ниже. The prototype filter coefficients, p ₀ (n), can be defined by the length, L, 640, as shown in Table 4 below.

Таблица 4Table 4

nn p₀(n)p ₀ (n) nn p₀(n)p ₀ (n) nn p₀(n)p ₀ (n) 00 0,00000000000,0000000000 214214 0,00197656010.0019765601 428428 0,01176238320.0117623832 11 -0,0005525286-0.0005525286 215215 -0,0032086896-0.0032086896 429429 0,01637012580.0163701258 22 -0,0005617692-0.0005617692 216216 -0,0085711749-0.0085711749 430430 0,02079970720.0207997072 33 -0,0004947518-0.0004947518 217217 -0,0141288827-0.0141288827 431431 0,02503075610.0250307561 44 -0,0004875227-0.0004875227 218218 -0,0198834129-0.0198834129 432432 0,02908240060.0290824006 55 -0,0004893791-0.0004893791 219219 -0,0258227288-0.0258227288 433433 0,03295839300.0329583930 66 -0,0005040714-0.0005040714 220220 -0,0319531274-0.0319531274 434434 0,03664181160.0366418116 77 -0,0005226564-0.0005226564 221221 -0,0382776572-0.0382776572 435435 0,04014582780.0401458278 88 -0,0005466565-0.0005466565 222222 -0,0447806821-0.0447806821 436436 0,04347687820.0434768782 99 -0,0005677802-0.0005677802 223223 -0,0514804176-0.0514804176 437437 0,04663033050.0466303305 1010 -0,0005870930-0.0005870930 224224 -0,0583705326-0.0583705326 438438 0,04959786760.0495978676 1111 -0,0006132747-0.0006132747 225225 -0,0654409853-0.0654409853 439439 0,05240938210.0524093821 1212 -0,0006312493-0.0006312493 226226 -0,0726943300-0.0726943300 440440 0,05504600340.0550460034 1313 -0,0006540333-0.0006540333 227227 -0,0801372934-0.0801372934 441441 0,05751526910.0575152691 1414 -0,0006777690-0.0006777690 228228 -0,0877547536-0.0877547536 442442 0,05981665700.0598166570 1515 -0,0006941614-0.0006941614 229229 -0,0955533352-0.0955533352 443443 0,06196027790.0619602779 1616 -0,0007157736-0.0007157736 230230 -0,1035329531-0.1035329531 444444 0,06394448050.0639444805 1717 -0,0007255043-0.0007255043 231231 -0,1116826931-0.1116826931 445445 0,06576906680.0657690668 1818 -0,0007440941-0.0007440941 232232 -0,1200077984-0.1200077984 446446 0,06745250210.0674525021 1919 -0,0007490598-0.0007490598 233233 -0,1285002850-0.1285002850 447447 0,06896640130.0689664013 2020 -0,0007681371-0.0007681371 234234 -0,1371551761-0.1371551761 448448 0,07035330730.0703533073 2121 -0,0007724848-0.0007724848 235235 -0,1459766491-0.1459766491 449449 0,07158263640.0715826364 2222 -0,0007834332-0.0007834332 236236 -0,1549607071-0.1549607071 450450 0,07267746420.0726774642 2323 -0,0007779869-0.0007779869 237237 -0,1640958855-0.1640958855 451451 0,07364060050.0736406005 2424 -0,0007803664-0.0007803664 238238 -0,1733808172-0.1733808172 452452 0,07446643940.0744664394 2525 -0,0007801449-0.0007801449 239239 -0,1828172548-0.1828172548 453453 0,07515762550.0751576255 2626 -0,0007757977-0.0007757977 240240 -0,1923966745-0.1923966745 454454 0,07573057560.0757305756 2727 -0,0007630793-0.0007630793 241241 -0,2021250176-0,2021250176 455455 0,07617483210.0761748321 2828 -0,0007530001-0.0007530001 242242 -0,2119735853-0.2119735853 456456 0,07650507180.0765050718 2929 -0,0007319357-0.0007319357 243243 -0,2219652696-0.2219652696 457457 0,07672049240.0767204924 3030 -0,0007215391-0.0007215391 244244 -0,2320690870-0.2320690870 458458 0,07682300110.0768230011 3131 -0,0006917937-0.0006917937 245245 -0,2423016884-0.2423016884 459459 0,07681739750.0768173975 3232 -0,0006650415-0.0006650415 246246 -0,2526480309-0.2526480309 460460 0,07670934900.0767093490 3333 -0,0006341594-0.0006341594 247247 -0,2631053299-0.2631053299 461461 0,07649921700.0764992170 3434 -0,0005946118-0.0005946118 248248 -0,2736634040-0.2736634040 462462 0,07619924790.0761992479 3535 -0,0005564576-0.0005564576 249249 -0,2843214189-0.2843214189 463463 0,07580083580.0758008358 3636 -0,0005145572-0.0005145572 250250 -0,2950716717-0.2950716717 464464 0,07531373360.0753137336 3737 -0,0004606325-0.0004606325 251251 -0,3059098575-0.3059098575 465465 0,07474525580.0747452558 3838 -0,0004095121-0.0004095121 252252 -0,3168278913-0.3168278913 466466 0,07410036420.0741003642 3939 -0,0003501175-0.0003501175 253253 -0,3278113727-0.3278113727 467467 0,07336202550.0733620255 4040 -0,0002896981-0.0002896981 254254 -0,3388722693-0.3388722693 468468 0,07256825830.0725682583 4141 -0,0002098337-0.0002098337 255255 -0,3499914122-0.3499914122 469469 0,07170026730.0717002673 4242 -0,0001446380-0.0001446380 256256 0,36115899030.3611589903 470470 0,07076287100.0707628710 4343 -0,0000617334-0.0000617334 257257 0,37237955460.3723795546 471471 0,06976302440.0697630244 4444 0,00001349490.0000134949 258258 0,38363500130.3836350013 472472 0,06870438280.0687043828 4545 0,00010943830.0001094383 259259 0,39492117610.3949211761 473473 0,06760759850.0676075985 4646 0,00020430170.0002043017 260260 0,40623176760.4062317676 474474 0,06643675120.0664367512 4747 0,00029495310.0002949531 261261 0,41756968960.4175696896 475475 0,06522471060.0652247106 4848 0,00040265400.0004026540 262262 0,42891199200.4289119920 476476 0,06397158980.0639715898 4949 0,00051073880.0005107388 263263 0,44025537540.4402553754 477477 0,06268578080.0626857808 5050 0,00062393760.0006239376 264264 0,45159965350.4515996535 478478 0,06134551710.0613455171 5151 0,00074580250.0007458025 265265 0,46293080850.4629308085 479479 0,05998374800.0599837480 5252 0,00086084430.0008608443 266266 0,47424532140.4742453214 480480 0,05859156830.0585915683 5353 0,00098859880.0009885988 267267 0,48552530910.4855253091 481481 0,05716164500.0571616450 5454 0,00112501550.0011250155 268268 0,49677082540.4967708254 482482 0,05571736480.0557173648 5555 0,00125778840.0012577884 269269 0,50798175000.5079817500 483483 0,05424527680.0542452768 5656 0,00139024940.0013902494 270270 0,51912349700.5191234970 484484 0,05276307460.0527630746 5757 0,00154432190.0015443219 271271 0,53022408950.5302240895 485485 0,05125561550.0512556155 5858 0,00168680830.0016868083 272272 0,54125534480.5412553448 486486 0,04973857550.0497385755 5959 0,00183482650.0018348265 273273 0,55220512580.5522051258 487487 0,04821657200.0482165720 6060 0,00198411400.0019841140 274274 0,56307891400.5630789140 488488 0,04668430270.0466843027 6161 0,00214615830.0021461583 275275 0,57385241310.5738524131 489489 0,04514884050.0451488405 6262 0,00230172540.0023017254 276276 0,58454032350.5845403235 490490 0,04360975420.0436097542 6363 0,00246256160.0024625616 277277 0,59511230860.5951123086 491491 0,04206490940.0420649094 6464 0,00262017580.0026201758 278278 0,60557835380.6055783538 492492 0,04053491700.0405349170 6565 0,00278704640.0027870464 279279 0,61591099320.6159109932 493493 0,03900536790.0390053679 6666 0,00294694470.0029469447 280280 0,62612426950.6261242695 494494 0,03748128500.0374812850 6767 0,00311254200.0031125420 281281 0,63619801070.6361980107 495495 0,03596975600.0359697560 6868 0,00327396130.0032739613 282282 0,64612696950.6461269695 496496 0,03446209480.0344620948 6969 0,00344188740.0034418874 283283 0,65590163020.6559016302 497497 0,03297540810.0329754081 7070 0,00360082680.0036008268 284284 0,66551398800.6655139880 498498 0,03150176080.0315017608 7171 0,00376039220.0037603922 285285 0,67496631900.6749663190 499499 0,03005026570.0300502657 7272 0,00392074320.0039207432 286286 0,68423532930.6842353293 500500 0,02860721730.0286072173 7373 0,00408197530.0040819753 287287 0,69332823760.6933282376 501501 0,02718594290.0271859429 7474 0,00422642690.0042264269 288288 0,70223887190.7022388719 502502 0,02578758470.0257875847 7575 0,00437307190.0043730719 289289 0,71094104260.7109410426 503503 0,02441609920.0244160992 7676 0,00452098520.0045209852 290290 0,71944626340.7194462634 504504 0,02306801690.0230680169 7777 0,00466064600.0046606460 291291 0,72774489000.7277448900 505505 0,02174675500.0217467550 7878 0,00479325600.0047932560 292292 0,73582117580.7358211758 506506 0,02045317930.0204531793 7979 0,00491376030.0049137603 293293 0,74368278630.7436827863 507507 0,01918724310.0191872431 8080 0,00503930220.0050393022 294294 0,75131374560.7513137456 508508 0,01794333810.0179433381 8181 0,00514073530.0051407353 295295 0,75870807600.7587080760 509509 0,01673247120.0167324712 8282 0,00524611660.0052461166 296296 0,76586748650.7658674865 510510 0,01554055530.0155405553 8383 0,00534716810.0053471681 297297 0,77277808810.7727780881 511511 0,01439046660.0143904666 8484 0,00541967750.0054196775 298298 0,77942875190.7794287519 512512 -0,0132718220-0.0132718220 8585 0,00548760400.0054876040 299299 0,78583531200.7858353120 513513 -0,0121849995-0.0121849995 8686 0,00554757140.0055475714 300300 0,79197358410.7919735841 514514 -0,0111315548-0.0111315548 8787 0,00559380230.0055938023 301301 0,79784664130.7978466413 515515 -0,0101150215-0.0101150215 8888 0,00562206430.0056220643 302302 0,80344857510.8034485751 516516 -0,0091325329-0.0091325329 8989 0,00564551960.0056455196 303303 0,80876950040.8087695004 517517 -0,0081798233-0.0081798233 9090 0,00563891990.0056389199 304304 0,81381912700.8138191270 518518 -0,0072615816-0.0072615816 9191 0,00562661140.0056266114 305305 0,81857760040.8185776004 519519 -0,0063792293-0.0063792293 9292 0,00559171280.0055917128 306306 0,82304198900.8230419890 520520 -0,0055337211-0.0055337211 9393 0,00554043630.0055404363 307307 0,82722753470.8272275347 521521 -0,0047222596-0.0047222596 9494 0,00547537830.0054753783 308308 0,83110384570.8311038457 522522 -0,0039401124-0.0039401124 9595 0,00538389750.0053838975 309309 0,83469373610.8346937361 523523 -0,0031933778-0.0031933778 9696 0,00527157580.0052715758 310310 0,83797173370.8379717337 524524 -0,0024826723-0.0024826723 9797 0,00513822750.0051382275 311311 0,84095413920.8409541392 525525 -0,0018039472-0.0018039472 9898 0,00498396870.0049839687 312312 0,84362382810.8436238281 526526 -0,0011568135-0.0011568135 9999 0,00481094690.0048109469 313313 0,84598184690.8459818469 527527 -0,0005464280-0.0005464280 100100 0,00460395300.0046039530 314314 0,84803157770.8480315777 528528 0,00002760450.0000276045 101101 0,00438018610.0043801861 315315 0,84978051980.8497805198 529529 0,00058322640.0005832264 102102 0,00412516420.0041251642 316316 0,85119715240.8511971524 530530 0,00109023290.0010902329 103103 0,00384564080.0038456408 317317 0,85230470350.8523047035 531531 0,00157846820.0015784682 104104 0,00354012460.0035401246 318318 0,85310209490.8531020949 532532 0,00202741760.0020274176 105105 0,00320918850.0032091885 319319 0,85357205730.8535720573 533533 0,00245085400.0024508540 106106 0,00284467570.0028446757 320320 0,85373856000.8537385600 534534 0,00284467570.0028446757 107107 0,00245085400.0024508540 321321 0,85357205730.8535720573 535535 0,00320918850.0032091885 108108 0,00202741760.0020274176 322322 0,85310209490.8531020949 536536 0,00354012460.0035401246 109109 0,00157846820.0015784682 323323 0,85230470350.8523047035 537537 0,00384564080.0038456408 110110 0,00109023290.0010902329 324324 0,85119715240.8511971524 538538 0,00412516420.0041251642 111111 0,00058322640.0005832264 325325 0,84978051980.8497805198 539539 0,00438018610.0043801861 112112 0,00002760450.0000276045 326326 0,84803157770.8480315777 540540 0,00460395300.0046039530 113113 -0,0005464280-0.0005464280 327327 0,84598184690.8459818469 541541 0,00481094690.0048109469 114114 -0,0011568135-0.0011568135 328328 0,84362382810.8436238281 542542 0,00498396870.0049839687 115115 -0,0018039472-0.0018039472 329329 0,84095413920.8409541392 543543 0,00513822750.0051382275 116116 -0,0024826723-0.0024826723 330330 0,83797173370.8379717337 544544 0,00527157580.0052715758 117117 -0,0031933778-0.0031933778 331331 0,83469373610.8346937361 545545 0,00538389750.0053838975 118118 -0,0039401124-0.0039401124 332332 0,83110384570.8311038457 546546 0,00547537830.0054753783 119119 -0,0047222596-0.0047222596 333333 0,82722753470.8272275347 547547 0,00554043630.0055404363 120120 -0,0055337211-0.0055337211 334334 0,82304198900.8230419890 548548 0,00559171280.0055917128 121121 -0,0063792293-0.0063792293 335335 0,81857760040.8185776004 549549 0,00562661140.0056266114 122122 -0,0072615816-0.0072615816 336336 0,81381912700.8138191270 550550 0,00563891990.0056389199 123123 -0,0081798233-0.0081798233 337337 0,80876950040.8087695004 551551 0,00564551960.0056455196 124124 -0,0091325329-0.0091325329 338338 0,80344857510.8034485751 552552 0,00562206430.0056220643 125125 -0,0101150215-0.0101150215 339339 0,79784664130.7978466413 553553 0,00559380230.0055938023 126126 -0,0111315548-0.0111315548 340340 0,79197358410.7919735841 554554 0,00554757140.0055475714 127127 -0,0121849995-0.0121849995 341341 0,78583531200.7858353120 555555 0,00548760400.0054876040 128128 0,01327182200.0132718220 342342 0,77942875190.7794287519 556556 0,00541967750.0054196775 129129 0,01439046660.0143904666 343343 0,77277808810.7727780881 557557 0,00534716810.0053471681 130130 0,01554055530.0155405553 344344 0,76586748650.7658674865 558558 0,00524611660.0052461166 131131 0,01673247120.0167324712 345345 0,75870807600.7587080760 559559 0,00514073530.0051407353 132132 0,01794333810.0179433381 346346 0,75131374560.7513137456 560560 0,00503930220.0050393022 133133 0,01918724310.0191872431 347347 0,74368278630.7436827863 561561 0,00491376030.0049137603 134134 0,02045317930.0204531793 348348 0,73582117580.7358211758 562562 0,00479325600.0047932560 135135 0,02174675500.0217467550 349349 0,72774489000.7277448900 563563 0,00466064600.0046606460 136136 0,02306801690.0230680169 350350 0,71944626340.7194462634 564564 0,00452098520.0045209852 137137 0,02441609920.0244160992 351351 0,71094104260.7109410426 565565 0,00437307190.0043730719 138138 0,02578758470.0257875847 352352 0,70223887190.7022388719 566566 0,00422642690.0042264269 139139 0,02718594290.0271859429 353353 0,69332823760.6933282376 567567 0,00408197530.0040819753 140140 0,02860721730.0286072173 354354 0,68423532930.6842353293 568568 0,00392074320.0039207432 141141 0,03005026570.0300502657 355355 0,67496631900.6749663190 569569 0,00376039220.0037603922 142142 0,03150176080.0315017608 356356 0,66551398800.6655139880 570570 0,00360082680.0036008268 143143 0,03297540810.0329754081 357357 0,65590163020.6559016302 571571 0,00344188740.0034418874 144144 0,03446209480.0344620948 358358 0,64612696950.6461269695 572572 0,00327396130.0032739613 145145 0,03596975600.0359697560 359359 0,63619801070.6361980107 573573 0,00311254200.0031125420 146146 0,03748128500.0374812850 360360 0,62612426950.6261242695 574574 0,00294694470.0029469447 147147 0,03900536790.0390053679 361361 0,61591099320.6159109932 575575 0,00278704640.0027870464 148148 0,04053491700.0405349170 362362 0,60557835380.6055783538 576576 0,00262017580.0026201758 149149 0,04206490940.0420649094 363363 0,59511230860.5951123086 577577 0,00246256160.0024625616 150150 0,04360975420.0436097542 364364 0,58454032350.5845403235 578578 0,00230172540.0023017254 151151 0,04514884050.0451488405 365365 0,57385241310.5738524131 579579 0,00214615830.0021461583 152152 0,04668430270.0466843027 366366 0,56307891400.5630789140 580580 0,00198411400.0019841140 153153 0,04821657200.0482165720 367367 0,55220512580.5522051258 581581 0,00183482650.0018348265 154154 0,04973857550.0497385755 368368 0,54125534480.5412553448 582582 0,00168680830.0016868083 155155 0,05125561550.0512556155 369369 0,53022408950.5302240895 583583 0,00154432190.0015443219 156156 0,05276307460.0527630746 370370 0,51912349700.5191234970 584584 0,00139024940.0013902494 157157 0,05424527680.0542452768 371371 0,50798175000.5079817500 585585 0,00125778840.0012577884 158158 0,05571736480.0557173648 372372 0,49677082540.4967708254 586586 0,00112501550.0011250155 159159 0,05716164500.0571616450 373373 0,48552530910.4855253091 587587 0,00098859880.0009885988 160160 0,05859156830.0585915683 374374 0,47424532140.4742453214 588588 0,00086084430.0008608443 161161 0,05998374800.0599837480 375375 0,46293080850.4629308085 589589 0,00074580250.0007458025 162162 0,06134551710.0613455171 376376 0,45159965350.4515996535 590590 0,00062393760.0006239376 163163 0,06268578080.0626857808 377377 0,44025537540.4402553754 591591 0,00051073880.0005107388 164164 0,06397158980.0639715898 378378 0,42891199200.4289119920 592592 0,00040265400.0004026540 165165 0,06522471060.0652247106 379379 0,41756968960.4175696896 593593 0,00029495310.0002949531 166166 0,06643675120.0664367512 380380 0,40623176760.4062317676 594594 0,00020430170.0002043017 167167 0,06760759850.0676075985 381381 0,39492117610.3949211761 595595 0,00010943830.0001094383 168168 0,06870438280.0687043828 382382 0,38363500130.3836350013 596596 0,00001349490.0000134949 169169 0,06976302440.0697630244 383383 0,37237955460.3723795546 597597 -0,0000617334-0.0000617334 170170 0,07076287100.0707628710 384384 -0,3611589903-0.3611589903 598598 -0,0001446380-0.0001446380 171171 0,07170026730.0717002673 385385 -0,3499914122-0.3499914122 599599 -0,0002098337-0.0002098337 172172 0,07256825830.0725682583 386386 -0,3388722693-0.3388722693 600600 -0,0002896981-0.0002896981 173173 0,07336202550.0733620255 387387 -0,3278113727-0.3278113727 601601 -0,0003501175-0.0003501175 174174 0,07410036420.0741003642 388388 -0,3168278913-0.3168278913 602602 -0,0004095121-0.0004095121 175175 0,07474525580.0747452558 389389 -0,3059098575-0.3059098575 603603 -0,0004606325-0.0004606325 176176 0,07531373360.0753137336 390390 -0,2950716717-0.2950716717 604604 -0,0005145572-0.0005145572 177177 0,07580083580.0758008358 391391 -0,2843214189-0.2843214189 605605 -0,0005564576-0.0005564576 178178 0,07619924790.0761992479 392392 -0,2736634040-0.2736634040 606606 -0,0005946118-0.0005946118 179179 0,07649921700.0764992170 393393 -0,2631053299-0.2631053299 607607 -0,0006341594-0.0006341594 180180 0,07670934900.0767093490 394394 -0,2526480309-0.2526480309 608608 -0,0006650415-0.0006650415 181181 0,07681739750.0768173975 395395 -0,2423016884-0.2423016884 609609 -0,0006917937-0.0006917937 182182 0,07682300110.0768230011 396396 -0,2320690870-0.2320690870 610610 -0,0007215391-0.0007215391 183183 0,07672049240.0767204924 397397 -0,2219652696-0.2219652696 611611 -0,0007319357-0.0007319357 184184 0,07650507180.0765050718 398398 -0,2119735853-0.2119735853 612612 -0,0007530001-0.0007530001 185185 0,07617483210.0761748321 399399 -0,2021250176-0,2021250176 613613 -0,0007630793-0.0007630793 186186 0,07573057560.0757305756 400400 -0,1923966745-0.1923966745 614614 -0,0007757977-0.0007757977 187187 0,07515762550.0751576255 401401 -0,1828172548-0.1828172548 615615 -0,0007801449-0.0007801449 188188 0,07446643940.0744664394 402402 -0,1733808172-0.1733808172 616616 -0,0007803664-0.0007803664 189189 0,07364060050.0736406005 403403 -0,1640958855-0.1640958855 617617 -0,0007779869-0.0007779869 190190 0,07267746420.0726774642 404404 -0,1549607071-0.1549607071 618618 -0,0007834332-0.0007834332 191191 0,07158263640.0715826364 405405 -0,1459766491-0.1459766491 619619 -0,0007724848-0.0007724848 192192 0,07035330730.0703533073 406406 -0,1371551761-0.1371551761 620620 -0,0007681371-0.0007681371 193193 0,06896640130.0689664013 407407 -0,1285002850-0.1285002850 621621 -0,0007490598-0.0007490598 194194 0,06745250210.0674525021 408408 -0,1200077984-0.1200077984 622622 -0,0007440941-0.0007440941 195195 0,06576906680.0657690668 409409 -0,1116826931-0.1116826931 623623 -0,0007255043-0.0007255043 196196 0,06394448050.0639444805 410410 -0,1035329531-0.1035329531 624624 -0,0007157736-0.0007157736 197197 0,06196027790.0619602779 411411 -0,0955533352-0.0955533352 625625 -0,0006941614-0.0006941614 198198 0,05981665700.0598166570 412412 -0,0877547536-0.0877547536 626626 -0,0006777690-0.0006777690 199199 0,05751526910.0575152691 413413 -0,0801372934-0.0801372934 627627 -0,0006540333-0.0006540333 200200 0,05504600340.0550460034 414414 -0,0726943300-0.0726943300 628628 -0,0006312493-0.0006312493 201201 0,05240938210.0524093821 415415 -0,0654409853-0.0654409853 629629 -0,0006132747-0.0006132747 202202 0,04959786760.0495978676 416416 -0,0583705326-0.0583705326 630630 -0,0005870930-0.0005870930 203203 0,04663033050.0466303305 417417 -0,0514804176-0.0514804176 631631 -0,0005677802-0.0005677802 204204 0,04347687820.0434768782 418418 -0,0447806821-0.0447806821 632632 -0,0005466565-0.0005466565 205205 0,04014582780.0401458278 419419 -0,0382776572-0.0382776572 633633 -0,0005226564-0.0005226564 206206 0,03664181160.0366418116 420420 -0,0319531274-0.0319531274 634634 -0,0005040714-0.0005040714 207207 0,03295839300.0329583930 421421 -0,0258227288-0.0258227288 635635 -0,0004893791-0.0004893791 208208 0,02908240060.0290824006 422422 -0,0198834129-0.0198834129 636636 -0,0004875227-0.0004875227 209209 0,02503075610.0250307561 423423 -0,0141288827-0.0141288827 637637 -0,0004947518-0.0004947518 210210 0,02079970720.0207997072 424424 -0,0085711749-0.0085711749 638638 -0,0005617692-0.0005617692 211211 0,01637012580.0163701258 425425 -0,0032086896-0.0032086896 639639 -0,0005525280-0.0005525280 212212 0,01176238320.0117623832 426426 0,00197656010.0019765601 213213 0,00696368620.0069636862 427427 0,00696368620.0069636862

Фильтр-прототип, p₀(n), может также выводиться из Таблицы 4 посредством одной или более математических операций, таких как округление, субдискретизация, интерполяция и прореживание. The prototype filter, p ₀ (n), can also be derived from Table 4 by one or more mathematical operations such as rounding, downsampling, interpolation, and decimation.

Хотя настройка связанной с SBR управляющей информации обычно не зависит от подробностей транспозиции (как рассмотрено ранее), в некоторых вариантах осуществления определенные элементы управляющих данных могут одновременно передаваться в контейнере расширения eSBR (bs_extension_id==EXTENSION_ID_ESBR) для улучшения качестве регенерированного сигнала. Некоторые из одновременно передаваемых элементов могут включать в себя данные уровня шума (например, коэффициенты масштабирования уровня собственных шумов и параметр, указывающий направление, направление по частоте или по времени, дельта-кодирования для каждого уровня шума), данные обратной фильтрации (например, параметр, указывающий режим обратной фильтрации, выбранный из отсутствия обратной фильтрации, низкого уровня обратной фильтрации, промежуточного уровня обратной фильтрации и высокого уровня обратной фильтрации, и данные отсутствующих гармоник (например, параметр, указывающий, должна ли синусоида добавляться в конкретный частотный диапазон регенерированного высокого диапазона). Все из этих элементов опираются на синтезированную эмуляцию транспозера декодера, выполняемого в кодере, и поэтому при настройке надлежащим образом для выбранного транспозера могут повышать качество регенерированного сигнала. Although the setting of the SBR-related control information is typically independent of the transposition details (as discussed previously), in some embodiments, certain control data elements may be simultaneously transmitted in the eSBR extension container (bs_extension_id==EXTENSION_ID_ESBR) to improve the quality of the regenerated signal. Some of the simultaneously transmitted elements may include noise level data (e.g., scaling factors of the noise floor and a parameter indicating the direction, frequency or time, of delta encoding for each noise level), inverse filtering data (e.g., a parameter indicating the inverse filtering mode selected from no inverse filtering, low inverse filtering, intermediate inverse filtering, and high inverse filtering), and missing harmonics data (e.g., a parameter indicating whether a sine wave should be added to a specific frequency range of the regenerated high band). All of these elements rely on the synthesized emulation of the decoder transposer performed in the encoder, and therefore, when properly configured for the selected transposer, can improve the quality of the regenerated signal.

Конкретно, в некоторых вариантах осуществления, данные отсутствующих гармоник и управляющие данные обратной фильтрации передаются в контейнере расширения eSBR (вместе с другими параметрами битового потока Таблицы 3) и настраиваются для гармонического транспозера eSBR. Дополнительная битовая скорость, требуемая для передачи этих двух классов метаданных для гармонического транспозера eSBR, является относительно низкой. Поэтому, отправка настроенных данных отсутствующих гармоник и/или управляющих данных обратной фильтрации в контейнере расширения eSBR повысит качество аудио, формируемого транспозером, при лишь минимальном влиянии на битовую скорость. Чтобы обеспечить обратную совместимость с унаследованными декодерами, параметры, настроенные для операции спектрального переноса SBR, могут также отправляться в битовом потоке как часть управляющих данных SBR с использованием либо неявной, либо явной сигнализации. Specifically, in some embodiments, the missing harmonics data and the inverse filtering control data are transmitted in an eSBR extension container (along with other bitstream parameters of Table 3) and are configured for the eSBR harmonic transposer. The additional bit rate required to transmit these two classes of metadata for the eSBR harmonic transposer is relatively low. Therefore, sending the configured missing harmonics data and/or the inverse filtering control data in an eSBR extension container will improve the quality of the audio generated by the transposer with only a minimal impact on the bit rate. To ensure backward compatibility with legacy decoders, the parameters configured for the SBR spectral transfer operation may also be sent in the bitstream as part of the SBR control data using either implicit or explicit signaling.

Следует понимать, что в пределах объема прилагаемой формулы изобретения, изобретение может быть практически реализовано иначе, чем конкретно описано здесь. Любые ссылочные позиции, содержащиеся в следующей формуле изобретения, приведены только в иллюстративных целях и не должны использоваться, чтобы толковать или ограничивать формулу изобретения каким-либо образом. Различные аспекты настоящего раскрытия будут понятны из следующих пронумерованных примерных вариантов осуществления (EEE):It is to be understood that within the scope of the appended claims, the invention may be practiced otherwise than as specifically described herein. Any reference signs contained in the following claims are for illustrative purposes only and are not to be used to interpret or limit the claims in any way. Various aspects of the present disclosure will be apparent from the following numbered exemplary embodiments (EEE):

EEE1. Способ выполнения высокочастотного восстановления аудиосигнала, причем способ содержит:EEE1. A method for performing high-frequency restoration of an audio signal, the method comprising:

прием закодированного битового потока аудио, причем закодированный битовый поток аудио включает в себя данные аудио, представляющие часть полосы низких частот аудиосигнала, и метаданные высокочастотного восстановления;receiving an encoded audio bitstream, wherein the encoded audio bitstream includes audio data representing a portion of a low frequency band of an audio signal and high frequency reconstruction metadata;

декодирование данных аудио, чтобы сгенерировать декодированный аудиосигнал в полосе низких частот;decoding the audio data to generate a decoded audio signal in the low frequency band;

извлечение из закодированного битового потока аудио метаданных высокочастотного восстановления, метаданные высокочастотного восстановления включают в себя рабочие параметры для процесса высокочастотного восстановления, рабочие параметры включают в себя параметр режима вставки заплаты, расположенный в контейнере расширения закодированного битового потока аудио, причем первое значение параметра режима вставки заплаты указывает спектральный перенос, и второе значение параметра режима вставки заплаты указывает гармоническую транспозицию посредством расширения частоты фазового вокодера;extracting high frequency restoration metadata from an encoded audio bitstream, the high frequency restoration metadata including operating parameters for a high frequency restoration process, the operating parameters including a patch insertion mode parameter located in an extension container of the encoded audio bitstream, wherein a first value of the patch insertion mode parameter indicates a spectral transposition, and a second value of the patch insertion mode parameter indicates a harmonic transposition by frequency extension of a phase vocoder;

фильтрацию декодированного аудиосигнала в полосе низких частот, чтобы сгенерировать отфильтрованный аудиосигнал в полосе низких частот;low-pass filtering the decoded audio signal to generate a low-pass filtered audio signal;

регенерацию части полосы высоких частот аудиосигнала с использованием отфильтрованного аудиосигнала в полосе низких частот и метаданных высокочастотного восстановления, причем регенерация включает в себя спектральный перенос, если параметр режима вставки заплаты имеет первое значение, и регенерация включает в себя гармоническую транспозицию посредством расширения частоты фазового вокодера, если параметр режима вставки заплаты имеет второе значение; иregenerating a portion of the highband of the audio signal using the filtered lowband audio signal and the highband reconstruction metadata, wherein the regeneration includes a spectral transposition if the patch insertion mode parameter has a first value, and the regeneration includes a harmonic transposition by frequency extension of a phase vocoder if the patch insertion mode parameter has a second value; and

комбинирование отфильтрованного аудиосигнала в полосе низких частот с регенерированной частью полосы высоких частот для формирования широкополосного аудиосигнала.combining a filtered low-pass audio signal with a regenerated portion of the high-pass band to form a wideband audio signal.

EEE2. Способ по EEE 1, причем контейнер расширения включает в себя управляющие данные обратной фильтрации, подлежащие использованию, когда параметр режима вставки заплаты равен второму значению.EEE2. The method according to EEE 1, wherein the extension container includes reverse filtering control data to be used when the patch insertion mode parameter is equal to the second value.

EEE3. Способ по любому одному из EEE 1-2, причем контейнер расширения дополнительно включает в себя управляющие данные отсутствующих гармоник, подлежащие использованию, когда параметр режима вставки заплаты равен второму значению.EEE3. The method according to any one of EEE 1-2, wherein the expansion container further includes control data of missing harmonics to be used when the patch insertion mode parameter is equal to the second value.

EEE4. Способ по любому предшествующему EEE, причем закодированный битовый поток аудио дополнительно включает в себя элемент наполнения с идентификатором, указывающим начало элемента наполнения, и данными наполнения после идентификатора, причем данные наполнения включают в себя контейнер расширения.EEE4. The method according to any preceding EEE, wherein the encoded audio bitstream further includes a fill element with an identifier indicating the start of the fill element and fill data after the identifier, wherein the fill data includes an extension container.

EEE5. Способ по EEE 4, причем идентификатор представляет собой трех-битное целое число без знака со старшим битом, передаваемым первым, и имеет значение 0×6.EEE5. The method according to EEE 4, wherein the identifier is a three-bit unsigned integer with the most significant bit transmitted first and has the value 0x6.

EEE6. Способ по EEE 4 или EEE 5, причем данные наполнения включают в себя нагрузку расширения, нагрузка расширения включает в себя данные расширения репликации спектрального диапазона, и нагрузка расширения идентифицируется первым четырех-битным целым числом без знака со старшим битом, передаваемым первым, и имеющим значение ‘1101’ или ‘1110’, и, опционально,EEE6. The method of EEE 4 or EEE 5, wherein the fill data includes an extension payload, the extension payload includes spectral range replication extension data, and the extension payload is identified by a first four-bit unsigned integer with the most significant bit transmitted first and having a value of ‘1101’ or ‘1110’, and, optionally,

причем данные расширения репликации спектрального диапазона включают в себя: wherein these spectral range replication expansion data include:

опциональный заголовок репликации спектрального диапазона, optional spectral range replication header,

данные репликации спектрального диапазона после заголовка, иspectral range replication data after the header, and

элемент расширения репликации спектрального диапазона после данных репликации спектрального диапазона, и причем метка включена в элемент расширения репликации спектрального диапазона. a spectral range replication extension element after the spectral range replication data, and wherein the label is included in the spectral range replication extension element.

EEE7. Способ по любому одному из EEE 1-6, причем метаданные высокочастотного восстановления включают в себя коэффициенты масштабирования огибающей, коэффициенты масштабирования уровня собственных шумов, информацию временной/частотной сетки или параметр, указывающий частоту перехода.EEE7. The method of any one of EEE 1-6, wherein the high frequency reconstruction metadata includes envelope scaling factors, noise floor scaling factors, time/frequency grid information, or a parameter indicating a transition frequency.

EEE8. Способ по любому одному из EEE 1-7, причем фильтрация выполняется банком фильтров анализа, который включает в себя фильтры анализа, h_k(n), которые представляют собой модулированные версии фильтра-прототипа, p₀(n), в соответствии с:EEE8. The method of any one of EEE 1-7, wherein the filtering is performed by an analysis filter bank that includes analysis filters, h _k (n), that are modulated versions of a prototype filter, p ₀ (n), according to:

где p₀(n) представляет собой вещественно-значный симметричный или асимметричный фильтр-прототип, M представляет собой количество каналов в банке фильтров анализа, и N представляет собой порядок фильтра-прототипа.where p ₀ (n) is a real-valued symmetric or asymmetric prototype filter, M is the number of channels in the analysis filter bank, and N is the order of the prototype filter.

EEE9. Способ по EEE 8, причем фильтр-прототип, p₀(n), выводится из коэффициентов Таблицы 4 в настоящем документе.EEE9. The method of EEE 8, wherein the prototype filter, p ₀ (n), is derived from the coefficients of Table 4 in this document.

EEE10. Способ по EEE 8, причем фильтр-прототип, p₀(n), выводится из коэффициентов Таблицы 4 в настоящем документе посредством одной или более математических операций, выбранных из группы, состоящей из округления, субдискретизации, интерполяции или прореживания.EEE10. The method of EEE 8, wherein the prototype filter, p ₀ (n), is derived from the coefficients of Table 4 herein by one or more mathematical operations selected from the group consisting of rounding, subsampling, interpolation, or decimation.

EEE11. Способ по любому одному из EEE 1-10, причем фазовый сдвиг добавляется в отфильтрованный аудиосигнал в полосе низких частот после фильтрации и компенсируется перед комбинированием, чтобы уменьшить сложность способа.EEE11. The method of any one of EEE 1-10, wherein the phase shift is added to the filtered audio signal in the low-pass band after filtering and compensated before combining to reduce the complexity of the method.

EEE12. Способ по любому предшествующему EEE, причем контейнер расширения дополнительно включает в себя метку, указывающую, используется ли дополнительная предварительная обработка во избежание прерываний в форме спектральной огибающей части полосы высоких частот, когда параметр режима вставки заплаты равен первому значению, причем первое значение метки включает дополнительную предварительную обработку, и второе значение метки отключает дополнительную предварительную обработку.EEE12. The method according to any preceding EEE, wherein the extension container further includes a label indicating whether additional pre-processing is used to avoid interruptions in the shape of the spectral envelope of the high-frequency band portion when the patch insertion mode parameter is equal to a first value, wherein the first label value enables the additional pre-processing, and the second label value disables the additional pre-processing.

EEE13. Способ по EEE 12, причем дополнительная предварительная обработка включает в себя вычисление кривой предварительного усиления с использованием коэффициента линейного фильтра предсказания.EEE13. The method of EEE 12, wherein the additional pre-processing comprises calculating a pre-gain curve using a linear prediction filter coefficient.

EEE14. Способ по любому одному из EEE 1-13, причем контейнер расширения представляет собой обратносовместимый контейнер расширения.EEE14. The method according to any one of EEE 1-13, wherein the extension container is a backward compatible extension container.

EEE15. Способ по любому одному из EEE 1-14, причем закодированный поток аудио закодирован в соответствии с форматом, и причем контейнер расширения представляет собой контейнер расширения, который определен по меньшей мере в одной унаследованной версии упомянутого формата.EEE15. The method according to any one of EEE 1-14, wherein the encoded audio stream is encoded in accordance with a format, and wherein the extension container is an extension container that is defined in at least one legacy version of said format.

EEE16. Не-временный считываемый компьютером носитель, содержащий инструкции, которые при исполнении процессором выполняют способ по любому одному из EEE 1-15.EEE16. A non-transitory computer-readable medium containing instructions that, when executed by a processor, perform the method of any one of EEE 1-15.

EEE17. Модуль обработки аудио для выполнения высокочастотного восстановления аудиосигнала, причем модуль обработки аудио сконфигурирован, чтобы выполнять способ по любому одному из EEE 1-15.EEE17. An audio processing module for performing high-frequency restoration of an audio signal, wherein the audio processing module is configured to perform the method according to any one of EEE 1-15.

Claims

1. A method for performing high-frequency restoration of an audio signal, comprising:

receiving an encoded audio bitstream, wherein the encoded audio bitstream includes audio data representing a portion of a low frequency band of an audio signal and high frequency reconstruction metadata;

decoding the audio data to generate a decoded audio signal in the low frequency band;

extracting high frequency restoration metadata from an encoded audio bitstream, wherein the high frequency restoration metadata includes operating parameters for a high frequency restoration process, the operating parameters including a patch insertion mode parameter located in a backward compatible expansion container of the encoded audio bitstream, wherein a first value of the patch insertion mode parameter indicates a spectral transposition and a second value of the patch insertion mode parameter indicates a harmonic transposition by frequency extension of a phase vocoder, wherein the encoded audio bitstream further includes a filler element with an identifier indicating the start of the filler element and filler data following the identifier, wherein the filler data includes a backward compatible expansion container and wherein the identifier is a three-bit unsigned integer with the most significant bit transmitted first, having a value of 0x6;

low-band filtering the decoded audio signal to generate a low-band filtered audio signal, the filtering being performed using an analysis filter bank that includes analysis filters, h _k (n), that are modulated versions of a prototype filter, p ₀ (n), according to

, ,

where p ₀ (n) is a real-valued symmetric or asymmetric prototype filter, M is the number of channels in the analysis filter bank, and N is the order of the prototype filter; and

regenerating a portion of the high-band audio signal using the filtered low-band audio signal and high-frequency restoration metadata, wherein the regeneration includes spectral transposition if the patch insertion mode parameter has a first value, and the regeneration includes harmonic transposition by frequency expansion of a phase vocoder if the patch insertion mode parameter has a second value.

2. The method according to claim 1, wherein the backward compatible extension container includes reverse filtering control data to be used when the patch insertion mode parameter is equal to the second value.

3. The method according to claim 1, wherein the backward compatible expansion container further includes control data of missing harmonics to be used when the patch insertion mode parameter is equal to the second value.

4. The method according to claim 1, wherein the phase shift is added to the filtered audio signal in the low-frequency band after filtering and compensated before combining in order to reduce the complexity of the method.

5. The method of claim 1, wherein the backward compatible extension container further includes a label indicating whether additional pre-processing is used to avoid interruptions in the shape of the spectral envelope of the high frequency band portion when the patch insertion mode parameter is equal to the first value, wherein the first label value enables additional pre-processing, and the second label value disables additional pre-processing.

6. The method of claim 5, wherein the additional pre-processing comprises calculating a pre-gain curve using a linear prediction filter coefficient.

7. A non-transitory computer-readable medium containing instructions that, when executed by a processor, perform the method of claim 1.

8. An audio processing module for performing high-frequency restoration of an audio signal, wherein the audio processing module comprises:

an input interface for receiving an encoded audio bitstream, wherein the encoded audio bitstream includes audio data representing a portion of a low frequency band of an audio signal and high frequency reconstruction metadata;

a basic audio decoder for decoding audio data to generate a decoded audio signal in the low-frequency band;

a deformatting unit for extracting high-frequency restoration metadata from an encoded audio bitstream, wherein the high-frequency restoration metadata includes operating parameters for a high-frequency restoration process, wherein the operating parameters include a fill element with an identifier indicating the start of the fill element and fill data following the identifier, wherein the fill data includes a backward-compatible extension container including a patch insertion mode parameter, wherein a first value of the patch insertion mode parameter indicates a spectral transfer and a second value of the patch insertion mode parameter indicates a harmonic transposition by means of frequency extension of a phase vocoder, and wherein the identifier is a three-bit unsigned integer with the most significant bit transmitted first, having a value of 0×6;

an analysis filter bank for low-band filtering the decoded audio signal to generate a low-band filtered audio signal, the filtering being performed using an analysis filter bank that includes analysis filters, h _k (n), that are modulated versions of a prototype filter, p ₀ (n), according to

, ,

a high-frequency regenerator for regenerating a portion of a high-frequency band of an audio signal using the filtered low-frequency band audio signal and high-frequency regeneration metadata, wherein the regeneration includes spectral transposition if the patch insertion mode parameter has a first value, and the regeneration includes harmonic transposition by frequency extension of a phase vocoder if the patch insertion mode parameter has a second value.