[go: up one dir, main page]

DE60305712T2 - Lautstärkeregelung von sprache in signalen, die sprache oder andere arten von audiosignalen enthalten - Google Patents

Lautstärkeregelung von sprache in signalen, die sprache oder andere arten von audiosignalen enthalten Download PDF

Info

Publication number
DE60305712T2
DE60305712T2 DE60305712T DE60305712T DE60305712T2 DE 60305712 T2 DE60305712 T2 DE 60305712T2 DE 60305712 T DE60305712 T DE 60305712T DE 60305712 T DE60305712 T DE 60305712T DE 60305712 T2 DE60305712 T2 DE 60305712T2
Authority
DE
Germany
Prior art keywords
volume
segments
speech
audio signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60305712T
Other languages
English (en)
Other versions
DE60305712T8 (de
DE60305712D1 (de
Inventor
Stuart Mark San Francisco VINTON
Quito Charles San Francisco ROBINSON
James Kenneth San Francisco GUNDRY
Joseph Steven San Francisco VENEZIA
Charles Jeffrey San Francisco RIEDMILLER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of DE60305712D1 publication Critical patent/DE60305712D1/de
Publication of DE60305712T2 publication Critical patent/DE60305712T2/de
Publication of DE60305712T8 publication Critical patent/DE60305712T8/de
Active legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf Audiosysteme und Verfahren, die sich mit dem Messen und Steuern der Lautstärke von Sprache in Audiosignalen befassen, welche Sprache und andere Arten von Audiomaterial enthalten.
  • EINSCHLÄGIGER STAND DER TECHNIK
  • Wenn Hörer Rundfunk- oder Fernsehsendungen lauschen, wählen sie häufig eine Lautstärkeeinstellung, um eine zufriedenstellende Lautstärke der Sprache zu erhalten. Die gewünschte Lautstärkeneinstellung wird von einer Reihe von Faktoren, beispielsweise Umgebungsrauschen in der Hörumgebung, den Frequenzgang des Wiedergabesystems sowie persönliche Präferenzen beeinflußt. Wenn die Lautstärkensteuerung eingestellt worden ist, möchte der Zuhörer normalerweise, daß die Lautstärke der Sprache verhältnismäßig gleich bleibt, auch wenn anderes Programmmaterial, beispielsweise Musik oder Schalleffekte vorhanden oder abwesend sind.
  • Wenn sich das Programm ändert oder ein anderer Kanal gewählt wird, ist häufig die Lautstärke der Sprache im neuen Programm anders, was wiederum eine Änderung der Lautstärkeneinstellung erfordert, um die gewünschte Lautstärke wiederherzustellen. Normalerweise ist, wenn überhaupt, nur eine schwache Änderung der Einstellung nötig, um die Lautstärke der Sprache in Programmen einzustellen, die mittels analogen Sendetechniken ankommen, denn die meisten Sender strahlen Programme mit Sprache in der Nähe des maximal möglichen Pegels aus, der mit dem analogen Sendesystem übermittelt werden kann. Das geschieht allgemein durch Komprimieren des Dynamikbereichs von Hörprogrammaterial, um den Sprachsignalpegel im Verhältnis zu dem von verschiedenen Bauelementen im Sendesystem eingeführten Rauschen anzuheben. Trotzdem bleiben ungewünschte Unterschiede in der Lautstärke der Sprache von Programmen, die auf verschiedenen Kanälen oder bei verschiedenen Arten von Programmen auf dem gleichen Kanal empfangen werden, beispielsweise kommerzielle Ankündigungen oder Werbung in den Programmen, die hierdurch unterbrochen werden.
  • Mit der Einführung digitaler Sendetechniken wird dieses Problem wahrscheinlich noch verstärkt, denn digitale Sender können Signale mit angemessenem Rauschabstand liefern, ohne den Dynamikbereich zu komprimieren und ohne den Pegel der Sprache auf die Nähe des maximal erlaubten Pegels zu setzen. Es ist daher sehr wahrscheinlich, daß es viel größere Unterschiede in der Lautstärke von Sprache zwischen verschiedenen Programmen auf dem gleichen Kanal und zwischen Programmen von unterschiedlichen Kanälen geben wird. So ist beispielsweise festgestellt worden, daß der Unterschied im Sprachpegel zwischen Programmen, die von analogen und digitalen Fernsehkanälen empfangen werden, manchmal über 20 dB hinausgeht.
  • Eine Möglichkeit, mit der dieser Unterschied in der Lautstärke verringert werden kann, besteht darin, daß sämtliche digitalen Sender den Sprachpegel auf eine standardisierte Lautstärke einstellen, die deutlich unterhalb des maximalen Pegels liegt, denn das würde genügend Spielraum für Material mit breitem Dynamikbereich bieten, ohne daß komprimiert oder begrenzt werden müßte. Leider würde diese Lösung eine Änderung in der Sendepraxis erforderlich machen, die vermutlich nicht geschehen wird.
  • Eine weitere Lösung bietet die AC-3 Audiokodiertechnik, die in den Vereinigten Staaten für digitale Fernsehsendungen angenommen wurde. Eine digitale Sendung, die der AC-3 Norm entspricht, übermittelt zusammen mit kodierten Audiodaten auch Metadaten. Zu den Metadaten gehört Steuerinformation, die als "Reglerstandard" bekannt ist und benutzt werden kann, um den Signalpegel am Empfänger einzustellen, damit eine gleichförmige oder standardisierte Sprachlautstärke geboten wird. Mit anderen Worten, die Reglerstandardinformation ermöglicht es, daß ein Empfänger automatisch das tut, was sonst der Zuhörer tun müßte, nämlich die Lautstärke angemessen für jedes Programm oder jeden Kanal einzustellen. Der Zuhörer justiert die Lautstärkeeinstellung so, daß er für ein bestimmtes Programm eine Lautstärke für den Sprachpegel erhält, und der Empfänger benutzt die Reglerstandardinformation um sicherzustellen, daß der gewünschte Pegel trotz der Unterschiede beibehalten bleibt, die sonst zwischen verschiedenen Programmen oder Kanälen bestünden. Weitere Auskünfte, die die Benutzung der Reglerstandardinformation beschreiben, finden sich in der Veröffentlichung A/52A mit dem Titel "Revision A to Digital Audio Compression (AC-3) Standard" vom 20. August 2001 des Advanced Television Systems Committee (ATSC) und der ATSC Veröffentlichung A/54 mit dem Titel "Guide to the Use of the ATSC Digital Television Standard" vom 4. Oktober 1995.
  • Der geeignete Wert des Reglerstandards muß für den Teil des Kodiersystems verfügbar sein, der das AC-3 kompatible, kodierte Signal erzeugt. Der Kodierprozeß braucht eine Möglichkeit, die Lautstärke von Sprache in einem bestimmten Programm zu messen oder zu beurteilen, um den Wert des Reglerstandards festzusetzen, der verwendet werden kann, um die Sprachlautstärke im Programm aufrechtzuerhalten, das aus dem Empfänger herauskommt.
  • Die Lautstärke von Sprache kann auf verschiedene Weise geschätzt werden. Die Norm IEC 60804 (2000-10) mit dem Titel "Integrating-averaging sound level meters", veröffentlicht von der International Electrotechnical Commission (IEC) beschreibt eine Messung auf der Grundlage von frequenzgewichteten und zeitgemittelten Schalldruckpegeln. Die ISO Norm 532:1975 mit dem Titel "Method for calculating loudness level", veröffentlicht von der International Organisation for Standardization beschreibt Methoden, mit denen man ein Maß der Lautstärke aus einer Kombination von Stärkepegeln erhält, die für Frequenzteilbänder errechnet werden. Beispiele für zum Schätzen von Lautstärke verwendbare psychoakustische Modelle wurden beschrieben von Moore, Glasberg und Baer "A model for the prediction of thresholds, loudness and partial loudness", J. Audio Eng. Soc., Bd.45, Nr. 4, April 1997 und von Glasberg und Moore "A model of loudness applicable to timevarying sounds," J. Audio Eng. Soc., Bd. 50, Nr. 5, Mai 2002.
  • Leider gibt es keinen bequemen Weg, um diese und weitere bekannte Techniken anzuwenden. Bei Rundfunkanwendungen ist beispielsweise der Sender gezwungen, aus Audiomaterial ein Intervall auszuwählen, die Lautstärke der Sprache im gewählten Intervall zu messen oder zu schätzen und die Messung an ein Gerät zu übertragen, welches die Reglerstandardinformation in den AC-3 kompatiblen digitalen Datenstrom einblendet. Das gewählte Intervall sollte repräsentative Sprache enthalten, aber keine anderen Arten von Audiomaterial, welches die Lautstärkemessung verzerren würde. Es ist insgesamt nicht akzeptabel, die Gesamtlautstärke eines Hörprogramms zu messen, denn das Programm enthält andere Bestandteile, die absichtlich lauter oder leiser sind als Sprache. Häufig ist es wünschenswert, daß lautere Passagen von Musik und Schalleffekte deutlich lauter sind als der bevorzugte Sprachpegel. Es liegt außerdem auf der Hand, daß es höchst unerwünscht ist, daß Hintergrundschalleffekte, wie Wind, entfernter Verkehr oder sanft plätscherndes Wasser die gleiche Lautstärke haben wie Sprache.
  • Ein weiteres Beispiel einer bekannten Technik zum Einstellen von Sprache und Hintergrundschalleffekten in einem Hörprogramm ist in der am 21. Dezember 2000 veröffentlichten internationalen Patentanmeldung WO 00/78093 offenbart.
  • Die Erfinder haben erkannt, daß eine Technik zum Feststellen, ob ein Audiosignal Sprache enthält, in einem verbesserten Prozeß angewandt werden kann, um einen geeigneten Wert für die Reglerstandardinformation zu erhalten. Dafür kann aus einer Vielfalt an Techniken irgendeine zur Sprachwahrnehmung herangezogen werden. Ein paar Verfahren sind in den nachfolgend genannten Vorveröffentlichungen beschrieben.
  • US Patent 4 281 218, Erteilungsdatum 28. Juli 1981, beschreibt eine Technik, mit der ein Signal als entweder Sprache oder Nichtsprache klassifiziert wird, indem ein oder mehr Merkmale des Signals, beispielsweise kurzfristige Stärke extrahiert werden. Diese Einteilung wird dann benutzt, um die geeignete Signalverarbeitungsmethodik für Sprach- und Nichtsprachsignale auszuwählen.
  • US Patent 5 097 510, Erteilungsdatum 17. März 1992, beschreibt eine Technik, mit der Änderungen in der Eingangssignal-Amplitudenhüllkurve analysiert werden. Rasch wechselnde Änderungen werden für Sprache gehalten und aus dem Signal herausgefiltert. Der Rest wird in eine von vier Rauschklassen eingeteilt und diese Einteilung benutzt, um eine andere Art von Rauschminderungsfiltern für das Eingangssignal zu wählen.
  • US Patent 5 457 769, Erteilungsdatum 10. Oktober 1995, beschreibt eine Technik zum Erfassen von Sprache für die Bedienung eines mittels Sprache betätigten Schalters. Sprache wird durch Erkennen von Signalen erfaßt, die Frequenzkomponenten haben, welche um etwa 150 Hz auseinanderliegen. Diese Bedingung zeigt an, daß das Signal wahrscheinlich Formanten von Sprache übermittelt.
  • In der europäischen Patentschrift 0 737 011, Tag der Bekanntmachung 14. Oktober 1009, und dem US-Patent 5 878 391, erteilt am 2. März 1999, wird ein Verfahren beschrieben, mit dem ein Signal hervorgebracht wird, das eine Wahrscheinlichkeit wiedergibt, daß ein Audiosignal ein Sprachsignal ist. Die Wahrscheinlichkeit wird durch Extrahieren eines oder mehrerer Merkmale aus dem Signal abgeleitet, beispielsweise Änderungen in den Stärkeverhältnissen zwischen unterschiedlichen Teilen des Spektrums. Diese Vorveröffentlichungen geben einen Hinweis darauf, daß die Zuverlässigkeit der abgeleiteten Wahrscheinlichkeit verbessert werden kann, wenn man für die Ableitung eine größere Anzahl Merkmale benutzt.
  • US Patent 6 061 647, Erteilungsdatum 9. Mai 2000, offenbart eine Technik zur Wahrnehmung von Sprache durch Speichern eines Rauschmodells ohne Sprache, Vergleichen eines Eingangssignals mit dem Modell zur Entscheidung darüber, ob Sprache vorhanden ist, und Benutzung eines Hilfsdetektors zur Entscheidung darüber, wann das Eingangssignal verwendet werden kann, um das Rauschmodell zu aktualisieren.
  • Die am 25. Juni 1998 veröffentlichte internationale Patentanmeldung WO 98/27543 offenbart eine Technik, mit der durch Extrahieren eines Merkmalsatzes aus einem Eingangssignal und Anwenden einer von verschiedenen Klassifizierungstechniken für jedes Merkmal Sprache von Musik unterschieden wird. Der beste Merkmalssatz und die für jedes Merkmal anzuwendende geeignete Klassifizierungstechnik werden empirisch bestimmt.
  • Mit den in den genannten Veröffentlichungen offenbarten Techniken und allen weiteren bekannten Techniken zur Sprachwahrnehmung wird versucht, Sprache festzustellen oder Audiosignale zu klassifizieren, so daß die Sprache mittels eines Verfahrens verarbeitet oder manipuliert werden kann, welches sich von dem zum Verarbeiten oder Manipulieren von Nichtsprachsignalen angewandten Verfahren unterscheidet.
  • US Patent 5 819 247, Erteilungsdatum 6. Oktober 1998, offenbart eine Technik zur Konstruktion einer Hypothese, die in Klassifizierungsvorrichtungen, beispielsweise Geräten zur optischen Zeichenerkennung anwendbar ist. Aus Beispielen werden schwache Hypothesen konstruiert und dann bewertet. Ein iterativer Prozeß konstruiert stärkere Hypothesen aus den schwächsten Hypothesen. Die Erfassung von Sprache ist nicht erwähnt, aber die Erfinder haben erkannt, daß diese Technik zum Verbessern von Spracherfassungstechniken angewandt werden kann.
  • OFFENBARUNG DER ERFINDUNG
  • Es ist eine Aufgabe der vorliegenden Erfindung, eine Steuerung der Lautstärke von Sprache in Signalen zu schaffen, die Sprache und andere Arten von Audiomaterial enthalten.
  • Gemäß der vorliegenden Erfindung wird ein Signal dadurch verarbeitet, daß ein Eingangssignal empfangen und aus dem Eingangssignal Audioinformation erhalten wird, die ein Intervall eines Audiosignals wiedergibt, die Audioinformation geprüft wird, um Segmente der Audioinformation als entweder Sprachsegmente oder Nichtsprachsegmente einzuteilen, die Audioinformation geprüft wird, um eine geschätzte Lautstärke der Sprachsegmente zu erhalten, und daß eine Angabe über die Lautstärke des Audiosignalintervalls gegeben wird, indem Steuerinformation erzeugt wird, die auf die geschätzte Lautstärke der Sprachsegmente stärker anspricht als auf die Lautstärke derjenigen Teile des Audiosignals, die von den Nichtsprachsegmenten wiedergegeben werden.
  • Die Angabe über die Lautstärke kann benutzt werden, um die Lautstärke des Audiosignals zu steuern, damit Änderungen in der Lautstärke der Sprachsegmente verringert werden können. Die Lautstärke derjenigen Teile des Audiosignals, die von Nichtsprachsegmenten wiedergegeben werden, wird erhöht, wenn die Lautstärke der durch die Sprachsegmente wiedergegebenen Teile des Audiosignals steigt.
  • Die verschiedenen Merkmale der vorliegenden Erfindung und ihrer bevorzugten Ausführungsbeispiele sind unter Hinweis auf die folgende Beschreibung und die beigefügten Zeichnungen besser verständlich, in denen gleiche Bezugszeichen sich auf gleiche Elemente in den verschiedenen Figuren beziehen. Der Inhalt der folgenden Beschreibungen und Zeichnungen dient lediglich als Beispiel und ist nicht so zu verstehen, daß der Umfang der Erfindung dadurch eingeschränkt wird.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Es zeigt:
  • 1 ein Blockschaltbild eines Audiosystems, welches verschiedene Aspekte der vorliegenden Erfindung beinhalten kann;
  • 2 ein Blockschaltbild einer Vorrichtung, die zum Steuern der Lautstärke eines Sprache und weitere Arten von Audiomaterial enthaltenden Audiosignals benutzt werden kann;
  • 3 ein Blockschaltbild einer Vorrichtung, die zum Erzeugen und Senden von Audioinformation benutzt werden kann, die ein Audiosignal und Steuerinformation über die Lautstärke von Sprache wiedergibt;
  • 4 ein Blockschaltbild einer Vorrichtung, die benutzt werden kann, um eine Angabe über die Lautstärke von Sprache in einem Audiosignal zu geben, welches Sprache und weitere Arten von Audiomaterial enthält;
  • 5 ein Blockschaltbild einer Vorrichtung, die zum Klassifizieren von Segmenten von Audioinformation benutzt werden kann;
  • 6 ein Blockschaltbild einer Vorrichtung, die zur Verwirklichung verschiedener Aspekte der vorliegenden Erfindung benutzt werden kann.
  • MÖGLICHE AUSFÜHRUNGEN DER ERFINDUNG
  • A. Systemübersicht
  • 1 ist ein schematisches Blockschaltbild eines Audiosystems, in welchem der Sender 2 ein Audiosignal von einem Weg 1 empfängt, das Audiosignal verarbeitet, um das Audiosignal wiedergebende Audioinformation zu erzeugen, und die Audioinformation längs des Weges 3 sendet. Der Weg 3 kann einen Kommunikationsweg darstellen, der die Audioinformation zur unmittelbaren Benutzung übermittelt, oder er kann einen Signalweg darstellen, der mit einem Speicherträger gekoppelt ist, welcher die Audioinformation für späteren Abruf und Benutzung speichert. Der Empfänger 4 empfängt die Audioinformation vom Weg 3, verarbeitet die Audioinformation, um ein Audiosignal zu erzeugen und sendet das Audiosignal längs des Weges 5 als Angebot an einen Zuhörer.
  • Das in 1 gezeigte System umfaßt einen einzigen Sender und Empfänger, aber die vorliegende Erfindung kann auch in Systemen angewandt werden, die mehrere Sender und/oder mehrere Empfänger umfassen. Verschiedene Aspekte der vorliegenden Erfindung können auch nur im Sender 2, nur im Empfänger 4 oder sowohl im Sender 2 und im Empfänger 4 verwirklicht sein.
  • Bei einer Verwirklichung führt der Sender 2 eine Verarbeitung durch, mit der das Audiosignal zu kodierter Audioinformation kodiert wird, die geringere Informationskapazitätserfordernisse als das Audiosignal hat, so daß die Audioinformation über Kanäle gesendet werden kann, die eine geringere Bandbreite haben, oder auf Trägern gespeichert werden kann, die weniger Raum verfügbar haben. Der Dekodierer 4 führt eine Verarbeitung durch, mit der die kodierte Audioinformation zu einer Form dekodiert wird, die verwendbar ist, um ein Audiosignal zu erzeugen, welches dem eingegebenen Audiosignal vorzugsweise perzeptuell ähnlich oder mit ihm identisch ist. Der Sender 2 und Empfänger 4 können beispielsweise digitale Bitströme kodieren und dekodieren, die mit der AC-3 Kodiernorm oder einer von verschiedenen von der Motion Picture Experts Group (MPEG) veröffentlichten Normen kompatible sind. Die vorliegende Erfindung läßt sich mit Vorteil in Systemen anwenden, die Kodier- und Dekodierprozesse anwenden; aber diese Prozesse sind nicht nötig, um die vorliegende Erfindung auszuführen.
  • Auch wenn die vorliegende Erfindung durch analoge Signalverarbeitungstechniken verwirklicht werden kann, ist eine Verwirklichung mittels digitaler Signalverarbeitungstechniken meistens zweckmäßiger. Die folgenden Beispiele beziehen sich mehr auf die digitale Signalverarbeitung.
  • B. Sprachlautstärke
  • Die vorliegende Erfindung ist auf das Steuern der Lautstärke von Sprache in Signalen gerichtet, die Sprache und andere Arten von Audiomaterial enthalten. Die Einträge in den Tabellen I und III geben Schallpegel für verschiedene Arten von Audiomaterial in verschiedenen Programmen wieder.
  • Tabelle I umfaßt Information für die relative Lautstärke von Sprache in drei Programmen, wie sie beispielsweise an Fernsehempfänger gesendet werden können. Bei der Nachrichtensendung 1 sprechen zwei Menschen mit unterschiedlichen Pegeln. Bei der Nachrichtensendung 2 spricht eine Person auf niedrigem Pegel an einem Ort mit weiterem Schall, der manchmal lauter ist als die Sprache. Gelegentlich ist Musik auf niedrigem Pegel vorhanden. Bei der Werbung spricht eine Person auf sehr hohem Pegel, und Musik ist manchmal noch lauter.
    Figure 00070001
    Tabelle I
  • Die vorliegende Erfindung macht es möglich, daß ein Audiosystem die Lautstärke von Audiomaterial in den drei Programmen automatisch steuert, so daß Lautstärkenänderungen der Sprache automatisch verringert werden. Die Lautstärke des Audiomaterials in der Nachrichtensendung 1 kann auch so gesteuert werden, daß Unterschiede zwischen den Pegeln der beiden Stimmen verringert werden. Wenn beispielsweise der gewünschte Pegel für Sprache insgesamt –24 dB ist, könnte die Lautstärke des Audiomaterials in Tabelle I auf die nachfolgend in Tabelle II gezeigten Pegel eingestellt werden.
    Figure 00070002
    Tabelle II
  • Tabelle III umfaßt Information über die relative Lautstärke von unterschiedlichem Schall in drei unterschiedlichen Szenen eines oder mehrerer Filme. In der Szene 1 sprechen Leute an Deck eines Schiffs. Zum Hintergrundschall gehört das Plätschern von Wellen und ein fernes Nebelhorn auf deutlich niedrigeren Pegeln als der Sprachpegel. Die Szene enthält auch einen Stoß aus dem Schiffshorn, der erheblich lauter ist als die Sprache. In der Szene 2 flüstern Leute, und im Hintergrund tickt eine Uhr. Die Stimmen in dieser Szene sind nicht so laut wie normale Sprache, und die Lautstärke des Tickens der Uhr ist sogar noch leiser. In der Szene 3 schreien Leute in der Nähe einer Maschine, die noch mehr Lärm von sich gibt. Das Schreien ist lauter als normale Sprache.
    Figure 00070003
    Tabelle III
  • Die vorliegende Erfindung macht es möglich, daß ein Audiosystem die Lautstärke des Audiomaterials in den drei Szenen automatisch so steuert, daß Unterschiede in der Lautstärke der Sprache verringert werden. Die Lautstärke des Audiomaterials könnte beispielsweise so eingestellt werden, daß die Lautstärke der Sprache in allen Szenen die gleiche oder im wesentlichen die gleiche ist.
  • Als Alternative kann die Lautstärke des Audiomaterials auch so eingestellt werden, daß die Sprachlautstärke innerhalb eines spezifizierten Intervalls liegt. Wenn beispielsweise das spezifizierte Intervall der Sprachlautstärke von –24 dB bis –30 dB reicht, könnten die Pegel des in Tabelle III gezeigten Audiomaterials auf die in Tabelle IV gezeigten Pegel eingestellt werden.
    Figure 00080001
    Tabelle IV
  • Bei einer anderen Verwirklichung wird der Audiosignalpegel so gesteuert, daß ein Durchschnitt der geschätzten Lautstärke auf einem gewünschten Pegel gehalten wird. Der Durchschnitt kann für ein bestimmtes Intervall, beispielsweise zehn Minuten, oder für ein gesamtes oder einen bestimmten Teil eines Programms erhalten werden. Um noch einmal auf die Lautstärkeinformation gemäß Tabelle III zurückzukommen, sei angenommen, daß die drei Szenen in dem selben Film vorkommen. Dann wird eine Durchschnittslautstärke der Sprache für den gesamten Film auf –25 dB geschätzt, und die gewünschte Lautstärke der Sprache ist –27 dB. Signalpegel für die drei Szenen werden so gesteuert, daß die geschätzte Lautstärke für jede Szene wie in Tabelle V gezeigt, abgewandelt wird. Bei dieser Verwirklichung werden Wechsel der Lautstärke der Sprache innerhalb des Programms oder Films zwar erhalten, aber Abweichungen gegenüber der durchschnittlichen Lautstärke der Sprache in anderen Programmen oder Filmen werden verringert. Mit anderen Worten, Änderungen der Lautstärke der Sprache zwischen Programmen oder Teilen von Programmen können erreicht werden, ohne daß eine Komprimierung des Dynamikbereichs innerhalb dieser Programme oder Teile von Programmen nötig ist.
    Figure 00080002
    Tabelle V
  • Eine Komprimierung des Dynamikbereichs kann auch erwünscht sein; aber dieses Merkmal steht zur Wahl und kann nach Wunsch vorgesehen sein.
  • C. Steuern der Sprachlautstärke
  • Die vorliegende Erfindung kann entweder in einem selbständigen Prozeß, der innerhalb entweder eines Senders oder eines Empfängers durchgeführt wird, oder in kooperativen Prozessen ausgeführt werden, die innerhalb eines Senders und Empfängers gemeinsam durchgeführt werden.
  • 1. Selbständiger Prozeß
  • 2 ist ein schematisches Blockschaltbild einer Vorrichtung, die zum Verwirklichen eines selbständigen Prozesses in einem Sender oder einem Empfänger benutzt werden kann. Die Vorrichtung empfängt vom Pfad 11 Audioinformation, die ein Intervall eines Audiosignals wiedergibt. Der Klassifizierer 12 prüft die Audioinformation und klassifiziert Segmente der Audioinformation als "Sprachsegmente", die Teile des Audiosignals wiedergeben, welche als Sprache eingeteilt werden, oder als "Nichtsprachsegmente", die Teile des Audiosignals wiedergeben, die nicht als Sprache eingeteilt werden. Der Klassifizierer 12 kann auch die Nichtsprachsegmente in eine Anzahl von Klassifikationen einteilen. Zur Klassifizierung von Segmenten von Audioinformation anwendbare Techniken sind vorstehend genannt. Eine bevorzugte Technik wird nachfolgend beschrieben.
  • Jeder Teil des Audiosignals, der durch ein Segment von Audioinformation wiedergegeben ist, hat eine jeweilige Lautstärke. Der Lautstärkenschätzer 14 prüft die Sprachsegmente und erhält eine Schätzung der Lautstärke für die Sprachsegmente. Eine Angabe über die geschätzte Lautstärke wird längs des Weges 15 weitergegeben. Bei einer alternativen Verwirklichung prüft der Lautstärkenschätzer 14 auch mindestens einige der Nichtsprachsegmente und erhält eine geschätzte Lautstärke für diese Segmente. Einige Möglichkeiten zum Schätzen der Lautstärke sind vorstehend genannt.
  • Die Steuerung 16 empfängt die Angabe über auf Lautstärke vom Weg 15, empfängt die Audioinformation vom Weg 11 und modifiziert die Audioinformation nach Bedarf, um Unterschiede in der Lautstärke der Teile des Audiosignals zu verringern, die von Sprachsegmenten wiedergegeben werden. Wenn die Steuerung 16 die Lautstärke der Sprachsegmente erhöht, erhöht sie auch die Lautstärke in allen Nichtsprachsegmenten, einschließlich derjenigen, die sogar noch lauter sind als die Sprachsegmente. Die abgewandelte Audioinformation wird längs des Weges 17 zur späteren Verarbeitung weitergegeben. In einem Sender kann beispielsweise die abgewandelte Audioinformation kodiert oder anderweitig zum Senden oder Speichern vorbereitet werden. In einem Empfänger kann die abgewandelte Audioinformation zur Präsentation für einen Zuhörer bearbeitet werden.
  • Der Klassifizierer 12, der Lautstärkenschätzer 14 und die Steuerung 16 sind auf solche Weise angeordnet, daß die geschätzte Lautstärke der Sprachsegmente zum Steuern der Lautstärke der Nichtsprachsegmente ebenso wie der Sprachsegmente benutzt wird. Das kann auf verschiedene Art und Weise geschehen. Bei einer Verwirklichung bietet der Lautstärkenschätzer 14 eine geschätzte Lautstärke für jedes Sprachsegment. Die Steuerung 16 benutzt die geschätzte Lautstärke, um möglicherweise erforderliche Einstellungen an der Lautstärke des Sprachsegments vorzunehmen, für das die Lautstärke geschätzt wurde, und sie benutzt die gleiche Schätzung, um möglicherweise nötige Einstellungen an der Lautstärke nachfolgender Nichtsprachsegmente vorzunehmen, bis eine neue Schätzung für das nächste Sprachsegment empfangen wird. Diese Verwirklichung ist geeignet, wenn Signalpegel in Echtzeit für Audiosignale eingestellt werden müssen, die nicht im voraus geprüft werden können. Bei einer anderen Verwirklichung, die vielleicht geeigneter ist, wenn ein Audiosignal im voraus geprüft werden kann, wird eine durchschnittliche Lautstärke für die Sprachsegmente in einem ganzen oder einem großen Teil eines Programms geschätzt und diese Schät zung benutzt, um nötige Einstellungen am Audiosignal vorzunehmen. Bei noch einer weiteren Verwirklichung wird der geschätzte Pegel in Abhängigkeit von einer oder mehr Eigenschaften der Sprach- und Nichtsprachsegmente von Audioinformation angepaßt, die der Klassifizierer 12 über den mittels gestrichelter Linie gezeigten Weg liefern kann.
  • Bei einer bevorzugten Verwirklichung empfängt die Steuerung 16 auch eine Angabe über die Lautstärke oder Signalenergie aller Segmente und nimmt Einstellungen an der Lautstärke nur innerhalb von Segmenten vor, deren Lautstärke oder Energiepegel unterhalb der gleichen Schwelle liegt. Als Alternative kann der Klassifizierer 12 oder Lautstärkenschätzer 14 der Steuerung 16 einen Hinweis auf diejenigen Segmente geben, innerhalb der eine Einstellung der Lautstärke vorgenommen werden kann.
  • 2. Kooperativer Prozeß
  • 3 ist ein schematisches Blockschaltbild einer Vorrichtung, die zur Verwirklichung eines Teils eines kooperativen Prozesses in einem Sender benutzt werden kann. Der Sender empfängt vom Weg 11 Audioinformation, die ein Intervall eines Audiosignals wiedergibt. Der Klassifizierer 12 und der Lautstärkenschätzer 14 arbeiten im wesentlichen so wie vorstehend schon beschrieben. Ein vom Lautstärkenschätzer 14 gelieferter Hinweis auf die geschätzte Lautstärke wird längs des Weges 15 weitergeleitet. Bei der in dieser Figur gezeigten Verwirklichung erzeugt ein Kodierer 18 längs des Weges 19 eine kodierte Darstellung der vom Weg 11 empfangenen Audioinformation. Der Kodierer 18 kann im wesentlichen jede beliebige, gewünschte Art von Kodierung anwenden, einschließlich der sogenannten perzeptuellen Kodierung. Beispielsweise kann die in 3 gezeigte Vorrichtung in einen Audiokodierer eingebaut werden, um Reglerstandardinformation zum Einfügen in einen mit AC-3 kompatiblen Datenstrom bereitzustellen. Der Kodierer 18 ist für die vorliegende Erfindung nicht wesentlich. In einer alternativen Verwirklichung, bei der der Kodierer 18 fehlt, wird die Audioinformation selbst längs des Weges 19 weitergeleitet. Der Formatierer 20 fügt die Darstellung der vom Weg 19 empfangenen Audioinformation und den vom Weg 15 empfangenen Hinweis auf die geschätzte Lautstärke zu einem Ausgabesignal zusammen, welches längs des Weges 21 zum Senden oder Speichern weitergeleitet wird.
  • In einem in keiner der Figuren gezeigten komplementären Empfänger wird das längs des Weges 21 erzeugte Signal empfangen und weiterverarbeitet, um die Darstellung der Audioinformation und die Angabe über auf die geschätzte Lautstärke zu extrahieren. Die Angabe über geschätzte Lautstärke wird benutzt, um die Signalpegel eines Audiosignals zu steuern, welches aus der Darstellung der Audioinformation erzeugt wird.
  • 3. Lautstärkemeßgerät
  • 4 ist ein schematisches Blockschaltbild einer Vorrichtung, die benutzt werden kann, um einen Hinweis auf Sprachlautstärke für die Sprache in einem Audiosignal zu liefern, welches Sprache und weitere Arten von Audiomaterial enthält. Die Vorrichtung empfängt vom Pfad 11 Audioinformation, die ein Intervall eines Audiosignals wiedergibt. Der Klassifizierer 12 und der Lautstärkenschätzer 14 arbeiten im wesentlichen so wie vorstehend schon beschrieben. Eine Angabe über die geschätzte Lautstärke von selten des Lautstärkenschätzers 14 wird längs des Weges 15 weitergeleitet. Dieser Hinweis kann auf beliebige Weise angezeigt werden, oder er kann an eine weitere Vorrichtung zur späteren Verarbeitung weitergegeben werden.
  • D. Segmenteinteilung
  • Die vorliegende Erfindung kann im wesentlichen mit jeder Technik arbeiten, die Segmente von Audioinformation in zwei oder mehr Klassen, einschließlich einer Sprachklasse einteilen kann. Verschiedene Beispiele geeigneter Klassifizierungstechniken wurden schon genannt. Bei einer bevorzugten Verwirklichung werden Segmente von Audioinformation mittels einer Form der Technik eingeteilt, die nachfolgend beschrieben wird.
  • 5 ist ein schematisches Blockschaltbild einer Vorrichtung, die zum Einteilen von Segmenten von Audioinformation gemäß der bevorzugten Klassifizierungstechnik benutzt werden kann. Der Abtastfrequenzkonverter empfängt digitale Abtastwerte von Audioinformation vom Weg 11 und tastet diese nach Bedarf neu ab, um digitale Abtastwerte mit spezifizierter Frequenz zu erhalten. Bei der nachfolgend beschriebenen Verwirklichung ist die spezifizierte Frequenz 16 k Abtastwerte pro Sekunde. Die Konvertierung der Abtastfrequenz ist nicht erforderlich, um die vorliegende Erfindung durchzuführen; aber sie ist meistens erwünscht, um die Audioinformationsabtastfrequenz zu konvertieren, wenn die eingegebene Abtastfrequenz größer ist als zum Einteilen der Audioinformation nötig, und eine niedrigere Abtastfrequenz es ermöglicht, den Einteilungsprozeß mit höherem Wirkungsgrad durchzuführen. Ferner kann die Verwirklichung der Bauelemente, welche die Merkmale extrahieren, normalerweise vereinfacht werden, wenn jedes Bauelement zum Arbeiten mit nur einer Abtastfrequenz ausgelegt wird.
  • Bei der gezeigten Verwirklichung werden drei Merkmale oder Eigenschaften der Audioinformation mittels Extraktionsbauelementen 31, 32 und 33 extrahiert. Bei alternativen Verwirklichungen kann auch nur ein Merkmal oder so viele Merkmale, wie von vorhandenen Verarbeitungsmitteln gehandhabt werden können, extrahiert werden. Der Sprachdetektor 35 empfängt die extrahierten Merkmale und benutzt sie zur Feststellung, ob ein Segment der Audioinformation als Sprache klassifiziert werden sollte. Die Extraktion von Merkmalen und Erfassung von Sprache werden nachfolgend beschrieben.
  • 1. Merkmale
  • In der in 5 gezeigten Verwirklichung sind aus Gründen der zweckmäßigeren Darstellung Bauelemente gezeigt, die nur drei Merkmale aus der Audioinformation extrahieren. Bei einer bevorzugten Verwirklichung beruht jedoch die Segmentklassifizierung auf sieben Merkmalen, die nachfolgend beschrieben werden. Jedes Extraktionsbauelement extrahiert ein Merkmal der Audioinformation, indem es Rechnungen an Blöcken von Abtastwerten durchführt, die in Rahmen angeordnet sind. Die Blockgröße und die Anzahl der Blöcke pro Rahmen, die für jedes von sieben spezifischen Merkmalen benutzt werden, sind in der folgenden Tabelle 6 gezeigt.
    Figure 00120001
    Tabelle VI
  • Bei dieser Verwirklichung ist jeder Rahmen 32.768 Abtastwerte oder etwa 2,057 Sekunden lang. Jedes der sieben Merkmale, die in der Tabelle gezeigt sind, wird nachfolgend beschrieben. Durchgehend über die folgende Beschreibung ist die Anzahl von Abtastwerten in einem Block mit dem Symbol N bezeichnet, und die Anzahl von Blöcken pro Rahmen ist mit dem Symbol M bezeichnet.
  • a) Mittlere quadratische I2-Norm des gewichteten Spektralflusses
  • Die mittlere quadratische I2-Norm des gewichteten Spektralflusses nutzt die Tatsache, daß Sprache normalerweise ein rasch variierendes Spektrum besitzt. Sprachsignale haben gewöhnlich eine von zwei Formen: Ein tonähnliches Signal, das als stimmhafte Sprache bezeichnet wird, oder ein rauschartiges Signal, das als stimmlose Sprache bezeichnet wird. Ein Übergang zwischen diesen beiden Formen bewirkt abrupte Änderungen im Spektrum. Außerdem ändern in Perioden stimmhafter Sprache die meisten Sprecher die Tonhöhe zur Betonung, als Sprachstil oder weil solche Änderungen natürlicher Teil der Sprache sind. Nichtsprachsignale wie Musik können ebenfalls rasche Spektraländerungen aufweisen, jedoch sind diese Änderungen gewöhnlich weniger häufig. Selbst vokale Segmente von Musik haben weniger häufige Änderungen, weil ein Sänger gewöhnlich für eine gewisse Zeitspanne bei derselben Frequenz singt.
  • Der erste Schritt in einem Prozeß zur Berechnung der mittleren quadratischen I2-Norm des gewichteten Spektralflusses führt eine Transformation, etwa die Diskrete-Fourier-Transformation (DFT) an einem Block aus Audioinformationsabtastwerten aus und gewinnt die Größe der resultierenden Transformationskoeffizienten. Vorzugsweise wird der Abtastwertblock vor der Transformation mit einer Fensterfunktion w[n] gewichtet, etwa einer Hamming-Fensterfunktion. Die Größe der DFT-Koeffizienten kann gemäß der nachfolgend gezeigten Gleichung berechnet werden.
    Figure 00130001
    wobei
  • N
    = die Anzahl von Abtastwerten in einem Block,
    x[n]
    = Abtastwertnummer n im block m, und
    Xm[k]
    = Transformationskoeffizient k für die Abtastwerte im Block m.
  • Der nächste Schritt berechnet ein Gewicht W für den momentanen Block aus der mittleren Leistung des momentanen und des vorhergehenden Blocks. Unter Verwendung des Parseval'schen Theorems kann die mittlere Leistung aus dem Transformationskoeffizienten mit der nachfolgend gezeigten Gleichung berechnet werden, wenn Abtastwerte x[n] reelle anstelle von komplexen oder imaginären Werten besitzen.
    Figure 00130002
    wobei
  • Wm
    = das Gewicht für den momentanen Block m.
  • Der nächste Schritt quadriert die Größe der Differenz zwischen den Spektralkomponenten des momentanen und des vorhergehenden Blocks und teilt das Ergebnis durch das Blockgewicht Wm des momentanen Blocks, das gemäß Gleichung 2 berechnet wurde, um einen gewichteten Spektralfluß zu ergeben. Dann wird die I2-Norm oder die Euklid'sche Distanz berechnet. Die Berechnungen des gewichteten Spektralflusses und der I2-Norm sind in folgender Gleichung gezeigt:
    Figure 00130003
    wobei
    • Figure 00130004
      = I2-Norm des gewichteten Spektralflusses für Block m.
  • Das Merkmal für einen Rahmen aus Blöcken wird durch Berechnung der Summe der I2-Normen für jeden der Blöcke in dem Rahmen berechnet. Diese Summierung ist in folgender Gleichung gezeigt.
    Figure 00130005
    wobei
  • M
    = die Anzahl von Blöcken in einem Rahmen, und
    F1(t)
    = das Merkmal für die mittlere quadratische I2-Norm des gewichteten Spektralflusses für den Rahmen t.
  • b) Schiefe der Regressionslinie bester Anpassung durch die geschätzte spektrale Leistungsdichte
  • Der Gradient oder die Neigung der Regressionslinie bester Anpassung durch den Logarithmus der spektralen Leistungsdichte gibt einen Schätzwert der spektralen Neigung oder spektralen Betonung eines Signals. Wenn ein Signal niedrige Frequenzen betont, neigt sich eine Linie, die die spektrale Form des Signals annähert, in Richtung auf die höheren Frequenzen nach unten, und die Neigung ist negativ. Wenn ein Signal höhere Frequenzen betont, neigt sich eine Linie, die die Spektralform des Signals annähert, in Richtung auf höhere Frequenzen nach oben, und die Neigung der Linie ist positiv.
  • Sprache betont niedrigere Frequenzen während Intervallen stimmhafter Sprache und betont höhere Frequenzen während Intervallen stimmloser Sprache. Die Neigung einer Linie, die die Spektralform stimmhafter Sprache annähert, ist negativ, und die Neigung einer Linie, die die Spektralform stimmloser Sprache annähert, ist positiv. Da Sprache vorherrschend stimmhaft statt stimmlos ist, sollte die Neigung einer Linie, die die Spektralform von Sprache annähert, die meiste Zeit negativ sein aber rasch zwischen positiven und negativen Neigungen umschalten. Als Folge sollte die Verteilung der Neigung oder des Gradienten der Linie stark zu negativen Werten neigen. Für Musik und andere Arten von Audiomaterial ist die Verteilung der Neigung symmetrischer.
  • Eine Linie, die die Spektralform eines Signals annähert kann durch Berechnung einer Regressionslinie bester Anpassung durch den Schätzwert der logarithmischen Leistungsdichte des Signals berechnet werden. Die spektrale Leistungsdichte des Signals kann durch Berechnung des Quadrats von Transformationskoeffizienten unter Verwendung einer Transformation gewonnen werden, wie sie oben in Gleichung 1 gezeigt ist. Die Berechnung für die spektrale Leistungsdichte ist in nachfolgender Gleichung gezeigt.
  • Figure 00140001
  • Die spektrale Leistungsdichte, die mit Gleichung 5 errechnet wird, wird dann in den logarithmischen Bereich umgewandelt, wie mit nachfolgender Gleichung gezeigt.
  • Figure 00140002
  • Der Gradient der Regressionslinie bester Anpassung wird dann berechnet, wie in folgender Gleichung gezeigt, die von dem Verfahren kleinster Quadrate abgeleitet ist.
    Figure 00150001
    wobei
  • Gm
    = der Regressionskoeffizient für Block m.
  • Das Merkmal für den Rahmen t ist der Schätzwert der Schiefe über den Rahmen, wie durch folgende Gleichung gegeben.
    Figure 00150002
    wobei
  • F2(t)
    = das Merkmal für den Gradienten der Regressionslinie bester Anpassung durch die logarithmische spektrale Leistungsdichte für den Rahmen t.
  • c) Pausenzählung
  • Das Pausenzählungsmerkmal nutzt die Tatsache, daß Pausen oder kurze Intervalle eines Signals mit wenig oder keiner Audioleistung gewöhnlich in Sprache vorhanden sind, während andere Arten von Audiomaterial solche Pausen normalerweise nicht aufweisen.
  • Der erste Schritt für die Merkmalsextraktion berechnet die Leistung P[m] der Audioinformation in jedem Block m innerhalb eines Rahmens. Dies kann gemäß der folgenden Gleichung erfolgen
    Figure 00150003
    wobei
  • P[m]
    = die berechnete Leistung im Block m.
  • Der zweite Schritt berechnet die Leistung PF der Audioinformation innerhalb des Rahmens. Das Merkmal für die Anzahl Pausen F3(t) innerhalb des Rahmens t ist gleich der Anzahl von Blöcken innerhalb des Rahmens, deren jeweilige Leistung P[m] geringer oder gleich 1/4PF ist. Der Wert ein Viertel ist empirisch abgeleitet.
  • d) Schiefe-Koeffizient der Nulldurchgangsrate
  • Die Nulldurchgangsrate ist die Häufigkeit mit der das Audiosignal, das durch die Audioinformation repräsentiert wird, innerhalb eines Zeitintervalls Null durchläuft. Die Nulldurchgangsrate kann aus einem Zählwert der Anzahl von Nulldurchgängen in einem kurzen Block von Audioinformationsab tastwerten geschätzt werden. Bei der hier beschriebenen Verwirklichung besitzen die Blöcke eine Dauer von 256 Abtastwerten für 16 ms.
  • Obwohl einfach im Konzept, kann die von der Nulldurchgangsrate abgeleitete Information eine ziemlich zuverlässige Aussage darüber bieten, ob in einem Audiosignal Sprache vorhanden ist. Stimmhafte Sprachabschnitte haben eine relativ niedrige Nulldurchgangsrate, während stimmlose Sprachabschnitte eine relativ hohe Nulldurchgangsrate aufweisen. Da außerdem Sprache typischerweise mehr stimmhafte Abschnitte und Pausen als stimmlose Abschnitte umfaßt, neigt sich die Verteilung von Nulldurchgangsraten allgemein in Richtung auf niedrigere Raten. Ein Merkmal, das eine Angabe der Neigung innerhalb eines Rahmens t liefern kann, ist ein Schiefe-Koeffizient der Nulldurchgangsrate, der aus folgender Gleichung errechnet werden kann.
    Figure 00160001
    wobei
  • Zm
    = der Nulldurchgangszählwert im Block m, und
    F4(t)
    = das Merkmal für den Schiefe-Koeffizienten der Nulldurchgangsrate für den Rahmen t.
  • e) Verhältnis von Durchschnitts- zu Zentralwert der Nulldurchgangsrate
  • Ein weiteres Merkmal, das eine Angabe über die Verteilungsschiefe der Nulldurchgangsraten innerhalb eines Rahmens t geben kann, ist das Verhältnis von Mittelwert zu Zentralwert der Nulldurchgangsrate. Dieses kann man aus folgender Gleichung erhalten.
    Figure 00160002
    wobei
  • Zmedian
    = der Zentralwert (Median) der Blocknulldurchgangsraten für alle Blöcke im Rahmen t; und
    FS(t)
    = das Merkmal für das Verhältnis von Zentralwert zu Durchschnittswert der Nulldurchgangsrate für den Rahmen t.
  • f) Maß kurzer Rhythmen
  • Techniken, die die zuvor beschriebenen Merkmale verwenden, können Sprache in vielen Arten von Audiomaterial feststellen. Jedoch werden diese Techniken in stark rhythmischem Audiomaterial wie dem sogenannten "Rap" und in vielen Fällen von Popmusik falsche Feststellungen liefern. Segmente von Audioinformation können dadurch zuverlässiger als Sprache klassifiziert werden, daß stark rhythmisches Material erkannt wird und solches Material entweder von der Klassifizierung entfernt wird oder der zur Klassifizierung des Materials erforderliche Vertrauenswert erhöht wird.
  • Das Maß kurzer Rhythmen kann für einen Rahmen dadurch berechnet werden, daß zuerst die Varianz der Abtastwerte in jedem Block berechnet wird, wie mit nachfolgender Gleichung gezeigt.
    Figure 00170001
    wobei
    σ 2 / x[m] = die Varianz der Abtastwerte x im Block m; und
    x m = der Durchschnitt der Abtastwerte x im block m.
  • Eine Nulldurchschnittsfolge wird aus den Varianzen für alle Blöcke in dem Rahmen gemäß folgender Gleichung abgeleitet. δ[m] = σ2x [m] – σ 2x für 0 ≤ m < M (13)wobei
    δ[m] = das Element in der Nulldurchschnittsfolge für Block m; und
    σ 2 / x = der Durchschnitt der Varianzen für alle Blöcke in dem Rahmen.
  • Die Autokorrelation der Nulldurchschnittsfolge wird aus folgender Gleichung gewonnen.
    Figure 00170002
    wobei
  • At[l]
    = der Autokorrelationswert für den Rahmen t mit einem Blocknachlauf l.
  • Das Merkmal des Maßes kurzer Rhythmen wird von einem Maximalwert der Autokorrelationspunkte abgeleitet. Dieser maximale Punkt enthält nicht den Punkt für einen Blocknachlauf l = 0, das heißt der Maximalwert wird von dem Wertesatz für einen Blocknachlauf l ≥ L genommen. Die Größe L stellt die Periode des erwarteten schnellsten Rhythmus dar. Bei einer Verwirklichung wird L auf 10 gesetzt, was eine minimale Periode von 160 ms repräsentiert. Das Merkmal wird in der mit der folgenden Gleichung gezeigten Weise durch Teilen des maximalen Punkts durch den Autokorrelationspunkt für den Blocknachlauf l = 0 berechnet.
    Figure 00170003
    wobei
  • F6(t)
    = das Merkmal für das Maß kurzer Rhythmen für den Rahmen t.
  • g) Maß langer Rhythmen
  • Das Maß langer Rhythmen wird in ähnlicher Weise abgeleitet wie das oben beschriebene Maß kurzer Rhythmen mit Ausnahme dessen, daß die Nulldurchschnittsfolgenwerte durch spektrale Gewichte ersetzt werden. Diese spektralen Gewichte werden dadurch berechnet, daß man zuerst die logarithmische Spektralleistungsdichte ermittelt, wie oben in den Gleichungen 5 und 6 gezeigt und in Verbindung mit der Schiefe des Gradienten der Regressionslinie bester Anpassung durch die logarithmische Spektralleistungsdichte beschrieben. Es kann hilfreich sein, darauf hinzuweisen, daß bei der hier beschriebenen Verwirklichung die Blocklänge zur Berechnung des Maßes langer Rhythmen nicht gleich der Blocklänge ist, die für die Berechnung der Gradientenschiefe eingesetzt wurde.
  • Der nächste Schritt gewinnt das Maximum des Leistungsspektrumwerts im logarithmischen Bereich für jeden Block, wie in nachfolgender Gleichung gezeigt.
    Figure 00180001
    wobei
  • Om
    = der maximale logarithmische Leistungsspektralwert im Block m.
  • Ein Spektralgewicht für jeden Block wird aus der Anzahl von Spitzen der Leistungsspektralwerte im logarithmischen Bereich ermittelt, die größer sind als ein Schwellenwert gleich (Om·α). Diese Ermittlung ist durch die folgende Gleichung ausgedrückt.
    Figure 00180002
    wobei
  • W[m]
    = das Spektralgewicht für Block m, sign(n + 1), falls n ≥ 0 und –1, falls n < 0, und
    α
    = eine empirisch abgeleitete Konstante gleich 0,1.
  • Am Ende jedes Rahmens werden die Folge von M Spektralgewichten des vorherigen Rahmens und die Folge von M Spektralgewichten des momentanen Rahmens aneinandergehängt, um eine Folge von 2M Spektralgewichten zu bilden. Die Autokorrelation dieser langen Folge wird dann gemäß folgender Gleichung berechnet.
    Figure 00180003
    wobei
  • ALt[l]
    = der Autokorrelationspunkt für den Rahmen t.
  • Das Merkmal für das Maß langer Rhythmen wird von einem Maximalwert der Autokorrelationspunkte abgeleitet. Dieser maximale Punkt enthält nicht den Punkt für einen Blocknachlauf l = 0, so das der Maximalwert von dem Wertesatz für einen Blocknachlauf l ≥ LL genommen wird. Die Größe LL stellt die Periode des erwarteten schnellsten Rhythmus dar. Bei der hier beschriebenen Verwirklichung ist LL auf 10 gesetzt. Das Merkmal wird, wie in der folgenden Gleichung gezeigt, dadurch berechnet, daß der maximale Punkt durch den Autokorrelationspunkt für den Blocknachlauf l = 0 dividiert wird.
    Figure 00190001
    wobei
  • F7(t)
    = das Merkmal für das Maß langer Rhythmen für den Rahmen t.
  • 2. Spracherfassung
  • Der Sprachdetektor 35 kombiniert die Merkmale, die für jeden Rahmen extrahiert wurden um zu ermitteln, ob ein Audioinformationssegment als Sprache eingeordnet werden sollte. Ein Weg, der verwendet werden kann, um die Merkmale zu kombinieren, implementiert einen Satz einfacher oder vorübergehender Klassifizierer. Ein vorübergehender Klassifizierer berechnet einen Binärwert durch Vergleich eines der oben erörterten Merkmale mit einem Schwellenwert. Dieser Binärwert wird dann mit einem Koeffizienten gewichtet. Ein vorübergehender Klassifizierer macht eine vorrübergehende Klassifizierung auf der Basis eines Merkmals. Ein spezielles Merkmal kann von einem oder mehreren vorübergehenden Klassifizierern verwendet werden. Ein vorübergehender Klassifizierer kann durch Berechnungen implementiert werden, die gemäß folgender Gleichung ausgeführt werden. Cj = cj·sign(Fi – Thj) (20)wobei
  • Cj
    = die binärwertige Klassifizierung, die vom vorübergehenden Klassifizierer j geliefert wird,.
    cj
    = ein Koeffizient für den vorübergehenden Klassifizierer j,
    Fi
    = das von der Audioinformation extrahierte Merkmal i, und
    THj
    = ein Schwellenwert für den vorübergehenden Klassifizierer j.
  • Bei dieser besonderen Verwirklichung zeigt ein vorübergehende Klassifizierung Cj = 1 an, daß der vorübergehende Klassifizierer j den Schluß zu stützen scheint, daß ein jeweiliger Rahmen der Audioinformation als Sprache klassifiziert werden sollte. Eine vorübergehende Klassifikation Cj = –1 gibt an, daß der vorübergehende Klassifizierer j den Schluß zu stützen scheint, daß ein jeweiliger Rahmen der Audioinformation nicht als Sprache klassifiziert werden sollte.
  • Die Einträge in Tabelle VII zeigen Koeffizienten- und Schwellenwerte sowie das geeignete Merkmal für etliche vorübergehende Klassifizierer, die in einer Verwirklichung verwendet werden können, um Rahmen von Audioinformation zu klassifizieren.
    Figure 00200001
    Tabelle VII
  • Die endgültige Klassifikation basiert auf einer Kombination der vorübergehenden Klassifikationen. Dies kann in der Weise erfolgen, wie in der folgenden Gleichung gezeigt.
    Figure 00200002
    wobei
  • Cfinal
    = die endgültige Klassifikation eines Audioinformationsrahmens, und
    J
    = die Anzahl vorübergehender Klassifizierer, die für diese Klassifikation verwendet wurden.
  • Die Zuverlässigkeit des Sprachdetektors kann durch Optimierung der Wahl der vorübergehenden Klassifizierer verbessert werden sowie durch Optimierung der Koeffizienten und der Schwellenwerte für diese vorübergehenden Klassifizierer. Diese Optimierung kann in verschiedenster Weise einschließlich der Techniken ausgeführt werden, die im US Patent 5,819,247 offenbart sind, das oben genannt wurde, sowie in Schapire, "A Brief Introduction to Boosting", Proc. of the 16th Int. Joint Conf. on Artificial Intelligence, 1999.
  • Bei einer alternativen Verwirklichung ist die Spracherfassung nicht durch eine binärwertige Entscheidung angegeben, sondern statt dessen durch eine graduiertes Klassifikationsmaß repräsentiert. Das Maß könnte eine geschätzte Wahrscheinlichkeit von Sprache oder einen Vertrauenswert in die Sprachklassifikation repräsentieren. Dies kann auf verschiedenste Weisen erfolgen, beispielsweise dadurch, daß die endgültige Klassifikation aus einer Summe der vorübergehenden Klassifikationen gewonnen wird anstelle der Gewinnung eines binärwertigen Ergebnisses, wie in Gleichung 21 gezeigt.
  • 3. Abtastblöcke
  • Mit der vorstehend beschriebenen Verwirklichung werden Merkmale aus benachbarten, nicht überlappenden Blöcken fester Länge extrahiert. Die Klassifizierungstechnik kann gemäß einer Alternative auch auf benachbarte, nicht überlappende Blöcke variabler Länge angewandt werden, auf überlappende Blöcke fester oder veränderlicher Länge oder auf nicht benachbarte Böcke fester oder variierender Länge. Die Blocklänge kann zum Beispiel in Abhängigkeit von Übergangskomponenten, Pausen oder Intervallen mit geringer oder gar keiner Audioenergie angepaßt werden, so daß die Audioinformation in jedem Block stationärer wird. Die Rahmenlängen können auch dadurch angepaßt werden, daß die Anzahl der Blöcke pro Rahmen und/oder die Länge der Blöcke innerhalb eines Rahmens unterschiedlich gewählt wird.
  • E. Lautstärkenschätzung
  • Der Lautstärkenschätzer 14 prüft Segmente der Audioinformation, um eine geschätzte Lautstärke für die Sprachsegmente zu erhalten. Bei einer Verwirklichung wird die Lautstärke für jeden Rahmen geschätzt, der als ein Sprachsegment eingeteilt ist. Die Lautstärke kann im wesentlichen für jede gewünschte Dauer geschätzt werden.
  • Bei einer anderen Verwirklichung beginnt der Schätzprozeß in Abhängigkeit von einer Aufforderung, mit dem Prozeß zu beginnen, und setzt sich fort, bis eine Aufforderung empfangen wird, den Prozeß anzuhalten. Im Empfänger 4 können diese Aufforderungen beispielsweise mit speziellen Codes in dem vom Weg 3 empfangenen Signal übermittelt werden. Als Alternative können diese Aufforderungen auch durch Betätigung eines Schalters oder einer sonstigen Steuerung bereitgestellt werden, die an der Vorrichtung vorgesehen ist, die zum Schätzen der Lautstärke benutzt wird. Es kann auch eine zusätzliche Steuerung vorgesehen sein, die den Lautstärkenschätzer 14 veranlaßt, die Verarbeitung zu unterbrechen und die gegenwärtige Schätzung zu halten.
  • Bei einer Verwirklichung wird die Lautstärke für alle Segmente der Audioinformation geschätzt, die als Sprache eingeteilt sind. Im Prinzip jedoch könnte die Lautstärke auch nur für ausgewählte Sprachsegmente geschätzt werden, beispielsweise nur für diejenigen Segmente, deren Pegel an Audioenergie oberhalb einer Schwelle liegt. Eine ähnliche Wirkung könnte auch erhalten werden, wenn man den Klassifizierer 12 die Segmente mit niedriger Energie als Nichtsprache einteilen läßt und dann die Lautstärke für alle Sprachsegmente schätzt. Es sind auch andere Abwandlungen möglich. So kann beispielsweise älteren Segmenten bei Berechnungen der geschätzten Lautstärke geringeres Gewicht gegeben werden.
  • Bei noch einer weiteren Alternative schätzt der Lautstärkenschätzer 14 die Lautstärke mindestens für einige der Nichtsprachsegmente. Die geschätzte Lautstärke für Nichtsprachsegmente kann in Berechnungen der Lautstärke für ein Audioinformationsintervall benutzt werden; aber diese Berechnungen sollten stärker auf Schätzungen für die Sprachsegmente ansprechen. Die Schätzungen für Nichtsprachsegmente können auch in Verwirklichungen benutzt werden, die ein abgestuftes Maß der Klassifizierung für die Segmente bieten. Die Berechnungen der Lautstärke für ein Intervall der Audioinformation können auf die geschätzte Lautstärke von Sprach- und Nichtsprachsegmenten auf eine Weise reagieren, die das abgestufte Maß der Klassifizierung berücksichtigt. Zum Beispiel kann das abgestufte Maß einen Hinweis des Vertrauens darauf wiedergeben, daß ein Segment der Audioinformation Sprache enthält. Die Lautstärkenschätzungen können so gestaltet werden, daß sie auf Segmente mit einem höheren Grad an Vertrauen stärker reagieren, indem diesen Segmenten in Berechnungen geschätzter Lautstärke mehr Gewicht gegeben wird.
  • Die Lautstärke kann auf verschiedenerlei Art und Weise, einschließlich der oben beschriebenen geschätzt werden. Für die vorliegende Erfindung ist keine bestimmte Schätztechnik von kritischer Bedeutung; aber vermutlich werden in praktischen Verwirklichungen einfachere Techniken normalerweise bevorzugt werden, für die weniger Rechneraufwand erforderlich ist.
  • F. Verwirklichung
  • Verschiedene Aspekte der vorliegenden Erfindung können auf vielfältigste Weise verwirklicht werden, einschließlich mittels Software in einem Universalrechnersystem oder in einer sonstigen Vorrichtung, die stärker spezialisierte Bauelemente umfaßt, beispielsweise digitale Signalverarbeitungsschaltungen (DSP), die mit Bauelementen ähnlich denen in einem Universalrechnersystem gekoppelt sind. 6 ist ein Blockschaltbild eines Bausteins 70, der zum Verwirklichen verschiedener Aspekte der vorliegenden Erfindung in einem Audiokodiersender oder einem Audiodekodierempfänger benutzt werden kann. DSP 72 bietet die Rechnerressourcen, RAM 73 ist ein Direktzugriffspeicher für das System (RAM), den der DSP 72 für die Signalverarbeitung nutzt. ROM 74 stellt irgendeine Form eines dauerhaften Speichers dar, beispielsweise einen Festwertspeicher (ROM) zum Speichern von Programmen, die für den Betrieb des Bausteins 70 nötig sind. I/O Steuerung 75 stellt die Schnittstellenschaltungsanordnung dar, um Signale über Kommunikationskanäle 76, 77 zu empfangen und zu senden. In der I/O Steuerung 75 können nach Wunsch Analog/Digital-Umsetzer und Digital/Analog-Umsetzer eingeschlossen sein, um analoge Audiosignale zu empfangen und/oder zu senden. Im gezeigten Ausführungsbeispiel sind alle hauptsächlichen Systemkomponenten an einen Bus 71 angeschlossen, der mehr als nur einen physischen Bus darstellen kann. Allerdings ist eine Busarchitektur nicht erforderlich, um die vorliegende Erfindung zu verwirklichen.
  • In Ausführungsbeispielen, die in einem Universalrechnersystem verwirklicht sind, können zusätzliche Bauelemente mit vorgesehen sein, um als Schnittstelle zu Bausteinen, wie einer Tastatur oder Maus und einem Bildschirm zu dienen, und zum Steuern einer Speichervorrichtung mit einem Datenträger, beispielsweise in Form eines Magnetbandes oder einer Magnetplatte oder eines optischen Datenträgers. Der Speicherdatenträger kann benutzt werden, um Programme mit Anweisungen für Betriebssysteme, Dienstprogramme und Anwendungen aufzuzeichnen und kann Ausführungsbeispiele von Programmen umfassen, die verschiedene Aspekte der vorliegenden Erfindung verwirklichen.
  • Die für die praktische Anwendung der vorliegenden Erfindung erforderlichen Funktionen können auch von Bauelementen für spezielle Zwecke durchgeführt werden, die auf verschiedenerlei Weise verwirklicht sind, einschließlich mittels diskreter logischer Komponenten, einem oder mehreren ASIC und/oder programmgesteuerten Prozessoren. Die Art und Weise, in der diese Bauelemente verwirklicht sind, ist für die vorliegende Erfindung nicht wichtig.
  • Verwirklichungen der vorliegenden Erfindung in Software können mittels verschiedener maschinenlesbarer Datenträger übermittelt werden, beispielsweise mittels Basisband oder modulierter Kommunikationswege übers gesamte Spektrum hinweg, einschließlich von Ultraschall- bis Ultravioq lettfrequenzen, oder Datenträger, einschließlich solcher, die Informationen im wesentlichen mittels jeder beliebigen magnetischen oder optischen Aufzeichnungstechnologie übermitteln, einschließlich Magnetband, Magnetplatte und optische Platte. Verschiedene Aspekte können auch in verschiedenen Bauelementen des Rechnersystems 70 mittels Verarbeitungsschaltungen, beispielsweise ASIC, integrierten Universalschaltungen, Mikroprozessoren, die von in verschiedenen Formen von ROM oder RAM verkörperten Programmen gesteuert werden, und weiteren Techniken verwirklicht werden.

Claims (36)

  1. Verfahren zur Signalverarbeitung, umfassend: Empfangen eines Eingangssignals und Erhalten von Audioinformation aus dem Eingangssignal, bei dem die Audioinformation ein Intervall eines Audiosignals wiedergibt; Prüfen der Audioinformation zum Einteilen von Segmenten der Audioinformation als Sprachsegmente, die Teile des Audiosignals wiedergeben, welche als Sprache klassifiziert wurden, oder als Nichtsprachsegmente, die Teile des Audiosignals wiedergeben, welche nicht als Sprache klassifiziert wurden, bei dem jeder Teil des von einem Segment wiedergegebenen Audiosignals eine jeweilige Lautstärke hat und die Lautstärke der Sprachsegmente geringer ist als die Lautstärke eines oder mehrerer lauter Nichtsprachsegmente; Prüfen der Audioinformation zum Erhalten einer geschätzten Lautstärke der Sprachsegmente; und Bereitstellen einer Angabe über die Lautstärke des Intervalls des Audiosignals durch Erzeugen von Steuerinformation, die mehr auf die geschätzte Lautstärke der Sprachsegmente als auf die Lautstärke der Teile des Audiosignals anspricht, welche von den Nichtsprachsegmenten wiedergegeben werden.
  2. Verfahren nach Anspruch 1, umfassend: Steuern der Lautstärke des Intervalls des Audiosignals in Abhängigkeit von der Steuerinformation zum Verringern von Lautstärkenänderungen der Sprachsegmente, bei dem die Lautstärke der Teile des Audiosignals, die von dem einen oder mehreren lauten Nichtsprachsegmenten wiedergegeben werden, erhöht wird, wenn die Lautstärke der Teile des Audiosignals, die von den Sprachsegmenten wiedergegeben werden, erhöht wird.
  3. Verfahren nach Anspruch 1, umfassend: Zusammenfügen einer Darstellung der Audioinformation und der Steuerinformation zu einem Ausgangssignal und Senden des Ausgangssignals.
  4. Verfahren nach Anspruch 1 oder 2, mit dem die geschätzte Lautstärke der Sprachsegmente durch Berechnen durchschnittlicher Leistung einer frequenzgewichteten Version des Audiosignals, wiedergegeben durch die Sprachsegmente, erhalten wird.
  5. Verfahren nach Anspruch 1 oder 2, mit dem die geschätzte Lautstärke der Sprachsegmente durch Anwenden eines psychoakustischen Modells der Lautstärke auf die Audioinformation erhalten wird.
  6. Verfahren nach Anspruch 1 oder 2, mit dem Segmente dadurch klassifiziert werden, daß aus der Audioinformation eine Vielzahl von Eigenschaften des Audiosignals abgeleitet werden, jede Eigenschaft mit einem jeweiligen Maß an Wichtigkeit gewichtet wird, und die Segmente entsprechend einer Kombination der gewichteten Eigenschaften klassifiziert werden.
  7. Verfahren nach Anspruch 1 oder 2, mit dem die Lautstärke des Intervalls des Audiosignals durch Einstellen der Lautstärke nur während Intervallen des Audiosignals gesteuert wird, die ein Maß an Audioenergie unterhalb einer Schwelle haben.
  8. Verfahren nach Anspruch 1 oder 2, bei dem die Angabe über die Lautstärke des Intervalls des Audiosignals nur auf die geschätzte Lautstärke der Sprachsegmente reagiert.
  9. Verfahren nach Anspruch 1 oder 2, welches umfaßt, die Lautstärke eines oder mehrerer Nichtsprachsegmente zu schätzen, wobei die Angabe über die Lautstärke des Intervalls des Audiosignals empfindlicher ist für die geschätzte Lautstärke der Sprachsegmente als die geschätzte Lautstärke des einen oder der mehreren Nichtsprachsegmente.
  10. Verfahren nach Anspruch 1 oder 2, welches umfaßt: Bereitstellen eines Sprachmaßes, welches einen Grad anzeigt, in dem das von einem jeweiligen Segment wiedergegebene Audiosignal Eigenschaften von Sprache hat; und Bereitstellen der Lautstärkeangabe so, daß sie empfindlich ist für die geschätzte Lautstärke jeweiliger Segmente entsprechend den Sprachmaßen der jeweiligen Segmente.
  11. Verfahren nach Anspruch 1 oder 2, welches umfaßt, die Lautstärkeangabe so bereitzustellen, daß sie empfindlich ist für die geschätzte Lautstärke jeweiliger Segmente entsprechend der Zeitfolge der Segmente.
  12. Verfahren nach Anspruch 1 oder 2, welches umfaßt, die Längen der Segmente von Audioinformation in Abhängigkeit von Eigenschaften der Audioinformation anzupassen.
  13. Von einer Vorrichtung lesbarer Träger, der ein Programm von Anweisungen übermittelt, die von der Vorrichtung ausführbar sind, um ein Verfahren zur Signalverarbeitung durchzuführen, welches die Schritte umfaßt, folgende Handlungen durchzuführen: Empfangen eines Eingangssignals und Erhalten von Audioinformation aus dem Eingangssignal, bei dem die Audioinformation ein Intervall eines Audiosignals wiedergibt; Prüfen der Audioinformation zum Einteilen von Segmenten der Audioinformation als Sprachsegmente, die Teile des Audiosignals wiedergeben, welche als Sprache klassifiziert wurden, oder als Nichtsprachsegmente, die Teile des Audiosignals wiedergeben, welche nicht als Sprache klassifiziert wurden, bei dem jeder Teil des von einem Segment wiedergegebenen Audiosignals eine jeweilige Lautstärke hat und die Lautstärke der Sprachsegmente geringer ist als die Lautstärke eines oder mehrerer lauter Nichtsprachsegmente; Prüfen der Audioinformation zum Erhalten einer geschätzten Lautstärke der Sprachsegmente; und Bereitstellen einer Angabe über die Lautstärke des Intervalls des Audiosignals durch Erzeugen von Steuerinformation, die mehr auf die geschätzte Lautstärke der Sprachsegmente als auf die Lautstärke der Teile des Audiosignals anspricht, welche von den Nichtsprachsegmenten wiedergegeben werden.
  14. Träger nach Anspruch 13, bei dem das Verfahren umfaßt: Steuern der Lautstärke des Intervalls des Audiosignals in Abhängigkeit von der Steuerinformation zum Verringern von Lautstärkenänderungen der Sprachsegmente, bei dem die Lautstärke der Teile des Audiosignals, die von dem einen oder mehreren lauten Nichtsprachsegmenten wiedergegeben werden, erhöht wird, wenn die Lautstärke der Teile des Audiosignals, die von den Sprachsegmenten wiedergegeben werden, erhöht wird.
  15. Träger nach Anspruch 13, bei dem das Verfahren umfaßt: Zusammenfügen einer Darstellung der Audioinformation und der Steuerinformation zu einem Ausgangssignal und Senden des Ausgangssignals.
  16. Träger nach Anspruch 13 oder 14, bei dem mit dem Verfahren die geschätzte Lautstärke der Sprachsegmente durch Berechnen durchschnittlicher Leistung einer frequenzgewichteten Version des Audiosignals, wiedergegeben durch die Sprachsegmente, erhalten wird.
  17. Träger nach Anspruch 13 oder 14, bei dem mit dem Verfahren die geschätzte Lautstärke der Sprachsegmente durch Anwenden eines psychoakustischen Modells der Lautstärke auf die Audioinformation erhalten wird.
  18. Träger nach Anspruch 13 oder 14, bei dem mit dem Verfahren Segmente dadurch klassifiziert werden, daß aus der Audioinformation eine Vielzahl von Eigenschaften des Audiosignals abgeleitet werden, jede Eigenschaft mit einem jeweiligen Maß an Wichtigkeit gewichtet wird, und die Segmente entsprechend einer Kombination der gewichteten Eigenschaften klassifiziert werden.
  19. Träger nach Anspruch 13 oder 14, bei dem mit dem Verfahren die Lautstärke des Intervalls des Audiosignals durch Einstellen der Lautstärke nur während Intervallen des Audiosignals gesteuert wird, die ein Maß an Audioenergie unterhalb einer Schwelle haben.
  20. Träger nach Anspruch 13 oder 14, bei dem die Angabe über die Lautstärke des Intervalls des Audiosignals nur auf die geschätzte Lautstärke der Sprachsegmente reagiert.
  21. Träger nach Anspruch 13 oder 14, bei dem das Verfahren umfaßt, die Lautstärke eines oder mehrerer Nichtsprachsegmente zu schätzen, wobei die Angabe über die Lautstärke des Intervalls des Audiosignals empfindlicher ist für die geschätzte Lautstärke der Sprachsegmente als die geschätzte Lautstärke des einen oder der mehreren Nichtsprachsegmente.
  22. Träger nach Anspruch 13 oder 14, bei dem das Verfahren umfaßt: Bereitstellen eines Sprachmaßes, welches einen Grad anzeigt, in dem das von einem jeweiligen Segment wiedergegebene Audiosignal Eigenschaften von Sprache hat; und Bereitstellen der Lautstärkeangabe so, daß sie empfindlich ist für die geschätzte Lautstärke jeweiliger Segmente entsprechend den Sprachmaßen der jeweiligen Segmente.
  23. Träger nach Anspruch 13 oder 14, bei dem das Verfahren umfaßt, die Lautstärkeangabe so bereitzustellen, daß sie empfindlich ist für die geschätzte Lautstärke jeweiliger Segmente entsprechend der Zeitfolge der Segmente.
  24. Träger nach Anspruch 13 oder 14, bei dem das Verfahren umfaßt, Längen der Segmente der Audioinformation in Abhängigkeit von Eigenschaften der Audioinformation anzupassen.
  25. Vorrichtung zur Signalverarbeitung, die folgendes aufweist: einen Eingangsanschluß, der ein Eingangssignal empfängt; einen Speicher; und eine Verarbeitungsschaltkreisanordnung, die mit dem Eingangsanschluß und dem Speicher gekoppelt ist; wobei die Verarbeitungsschaltkreisanordnung angepaßt ist, ein Eingangssignal zu empfangen und aus dem Eingangssignal Audioinformation zu erhalten, wobei die Audioinformation ein Intervall eines Audiosignals wiedergibt; die Audioinformation zu prüfen, um Segmente der Audioinformation als Sprachsegmente, die Teile des Audiosignals wiedergeben, welche als Sprache klassifiziert wurden, oder als Nichtsprachsegmente, welche Teile des Audiosignals wiedergeben, die nicht als Sprache klassifiziert wurden, einzuteilen, wobei jeder Teil des Audiosignals, der von einem Segment wiedergegeben wird, eine jeweilige Lautstärke hat und die Lautstärke der Sprachsegmente geringer ist als die Lautstärke eines oder mehrerer lauter Nichtsprachsegmente; die Audioinformation zu prüfen, um eine geschätzte Lautstärke der Sprachsegmente zu erhalten; und eine Angabe über die Lautstärke des Intervalls des Audiosignals bereitzustellen durch das Erzeugen von Steuerinformation, die mehr anspricht auf die geschätzte Lautstärke der Sprachsegmente als auf die Lautstärke der Teile des Audiosignals, die von den Nichtsprachsegmenten wiedergegeben werden.
  26. Vorrichtung nach Anspruch 25, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, die Lautstärke des Intervalls des Audiosignals in Abhängigkeit von der Steuerinformation zur Verringerung von Änderungen in der Lautstärke der Sprachsegmente zu steuern, wobei die Lautstärke der Teile des Audiosignals, die von dem einem oder mehreren lauten Nichtsprachsegmenten wiedergegeben werden, erhöht wird, wenn die Lautstärke der Teile des Audiosignals, die von den Sprachsegmenten wiedergegeben werden, erhöht wird.
  27. Vorrichtung nach Anspruch 25, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, eine Darstellung der Audioinformation und der Steuerinformation zu einem Ausgangssignal zusammenzufügen und das Ausgangssignal zu senden.
  28. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, die geschätzte Lautstärke der Sprachsegmente durch Berechnen durchschnittlicher Leistung einer frequenzgewichteten Version des Audiosignals, wiedergegeben durch die Sprachsegmente, zu erhalten.
  29. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, die geschätzte Lautstärke der Sprachsegmente durch Anwenden eines psychoakustischen Modells der Lautstärke an die Audioinformation zu erhalten.
  30. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, Segmente dadurch einzuteilen, daß aus der Audioinformation eine Vielzahl von Eigenschaften des Audiosignals abgeleitet wird, jede Eigenschaft mit einem jeweiligen Maß an Wichtigkeit gewichtet wird, und die Segmente entsprechend einer Kombination der gewichteten Eigenschaften klassifiziert werden.
  31. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, die Lautstärke des Intervalls des Audiosignals dadurch zu steuern, daß die Lautstärke nur während Intervallen des Audiosignals eingestellt wird, die ein Maß an Audioenergie unterhalb einer Schwelle haben.
  32. Vorrichtung nach Anspruch 25 oder 26, bei der die Angabe über die Lautstärke des Intervalls des Audiosignals nur auf die geschätzte Lautstärke der Sprachsegmente reagiert.
  33. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, die Lautstärke eines oder mehrerer Nichtsprachsegmente zu schätzen, wobei die Angabe über die Lautstärke des Intervalls des Audiosignals empfindlicher ist für die geschätzte Lautstärke der Sprachsegmente als die geschätzte Lautstärke des einen oder mehrerer Nichtsprachsegmente.
  34. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, ein Sprachmaß bereitzustellen, welches einen Grad anzeigt, in dem das Audiosignal, welches von einem jeweiligen Segment wiedergegeben wird, Eigenschaften von Sprache hat; und die Lautstärkeangabe in solcher Weise zu geben, daß sie für die geschätzte Lautstärke jeweiliger Segmente entsprechend den Sprachmaßen der jeweiligen Segmente empfindlich ist.
  35. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, die Lautstärkeangabe so zu geben, daß sie auf die geschätzte Lautstärke jeweiliger Segmente entsprechend der Zeitfolge der Segmente anspricht.
  36. Vorrichtung nach Anspruch 25 oder 26, bei der die Verarbeitungsschaltkreisanordnung geeignet ist, Eigenschaften der Audioinformation zu erfassen und Längen der Segmente der Audioinformation in Abhängigkeit von den erfaßten Eigenschaften anzupassen.
DE60305712T 2002-08-30 2003-08-15 Lautstärkeregelung von sprache in signalen, die sprache oder andere arten von audiosignalen enthalten Active DE60305712T8 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US233073 2002-08-30
US10/233,073 US7454331B2 (en) 2002-08-30 2002-08-30 Controlling loudness of speech in signals that contain speech and other types of audio material
PCT/US2003/025627 WO2004021332A1 (en) 2002-08-30 2003-08-15 Controlling loudness of speech in signals that contain speech and other types of audio material

Publications (3)

Publication Number Publication Date
DE60305712D1 DE60305712D1 (de) 2006-07-06
DE60305712T2 true DE60305712T2 (de) 2007-03-08
DE60305712T8 DE60305712T8 (de) 2007-07-12

Family

ID=31977143

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60305712T Active DE60305712T8 (de) 2002-08-30 2003-08-15 Lautstärkeregelung von sprache in signalen, die sprache oder andere arten von audiosignalen enthalten

Country Status (14)

Country Link
US (2) US7454331B2 (de)
EP (1) EP1532621B1 (de)
JP (1) JP4585855B2 (de)
KR (1) KR101019681B1 (de)
CN (1) CN100371986C (de)
AT (1) ATE328341T1 (de)
AU (1) AU2003263845B2 (de)
CA (1) CA2491570C (de)
DE (1) DE60305712T8 (de)
IL (1) IL165938A (de)
MX (1) MXPA05002290A (de)
MY (1) MY133623A (de)
TW (1) TWI306238B (de)
WO (1) WO2004021332A1 (de)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US20040045022A1 (en) * 2002-09-03 2004-03-04 Steven Riedl Digital message insertion technique for analog video services
AU2004248544B2 (en) * 2003-05-28 2010-02-18 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US7970144B1 (en) 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
MY145083A (en) * 2004-03-01 2011-12-15 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information.
US7376890B2 (en) * 2004-05-27 2008-05-20 International Business Machines Corporation Method and system for checking rotate, shift and sign extension functions using a modulo function
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
CA2604496C (en) * 2005-04-18 2013-08-06 Basf Aktiengesellschaft Preparation containing at least one conazole fungicide a further fungicide and a stabilising copolymer
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007045797A1 (fr) * 2005-10-20 2007-04-26 France Telecom Procede, programme et dispositif de description d'un fichier musical, procede et programme de comparaison de deux fichiers musicaux entre eux, et serveur et terminal pour la mise en oeuvre de ces procedes
US8494193B2 (en) * 2006-03-14 2013-07-23 Starkey Laboratories, Inc. Environment detection and adaptation in hearing assistance devices
US8068627B2 (en) 2006-03-14 2011-11-29 Starkey Laboratories, Inc. System for automatic reception enhancement of hearing assistance devices
US7986790B2 (en) * 2006-03-14 2011-07-26 Starkey Laboratories, Inc. System for evaluating hearing assistance device settings using detected sound environment
JP5185254B2 (ja) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
CN101432965B (zh) 2006-04-27 2012-07-04 杜比实验室特许公司 使用基于特性响度的听觉事件检测的音频增益控制
AU2007309691B2 (en) 2006-10-20 2011-03-10 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
CN101569092A (zh) 2006-12-21 2009-10-28 皇家飞利浦电子股份有限公司 用于处理音频数据的系统
CN101573866B (zh) * 2007-01-03 2012-07-04 杜比实验室特许公司 响度补偿音量控制方法和装置
WO2008106036A2 (en) 2007-02-26 2008-09-04 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
CN101681618B (zh) * 2007-06-19 2015-12-16 杜比实验室特许公司 利用频谱修改的响度测量
US8054948B1 (en) * 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
CN101790758B (zh) * 2007-07-13 2013-01-09 杜比实验室特许公司 用于控制音频信号的信号处理的设备和方法
US8369972B2 (en) 2007-11-12 2013-02-05 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
US20090226152A1 (en) * 2008-03-10 2009-09-10 Hanes Brett E Method for media playback optimization
US8355908B2 (en) * 2008-03-24 2013-01-15 JVC Kenwood Corporation Audio signal processing device for noise reduction and audio enhancement, and method for the same
US8892228B2 (en) 2008-06-10 2014-11-18 Dolby Laboratories Licensing Corporation Concealing audio artifacts
EP2329492A1 (de) 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Signalverarbeitung zur upstream-qualitätsverbesserung für ressourceneingeschränkte client-vorrichtungen
JP5273688B2 (ja) * 2008-09-19 2013-08-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 小型セル無線ネットワーク内のクライアントデバイスのための上流の信号処理
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
EP2374211B1 (de) * 2008-12-24 2012-04-04 Dolby Laboratories Licensing Corporation Audiosignallautheitbestimmung und modifikation im frequenzbereich
CN101483416B (zh) * 2009-01-20 2011-09-14 杭州火莲科技有限公司 一种语音的响度均衡处理方法
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2237269B1 (de) * 2009-04-01 2013-02-20 Motorola Mobility LLC Vorrichtung und Verfahren zur Verarbeitung eines enkodierten Audiodatensignals
KR101616054B1 (ko) * 2009-04-17 2016-04-28 삼성전자주식회사 음성 검출 장치 및 방법
WO2010126709A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
US8761415B2 (en) 2009-04-30 2014-06-24 Dolby Laboratories Corporation Controlling the loudness of an audio signal in response to spectral localization
US8302047B2 (en) 2009-05-06 2012-10-30 Texas Instruments Incorporated Statistical static timing analysis in non-linear regions
US8996538B1 (en) * 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
WO2011015237A1 (en) * 2009-08-04 2011-02-10 Nokia Corporation Method and apparatus for audio signal classification
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI525987B (zh) 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US9998081B2 (en) 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
TWI854548B (zh) * 2010-12-03 2024-09-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
JP2013041197A (ja) * 2011-08-19 2013-02-28 Funai Electric Co Ltd デジタル放送受信装置
US9373334B2 (en) 2011-11-22 2016-06-21 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
WO2013101342A1 (en) * 2011-12-29 2013-07-04 Raytheon Bbn Technologies Corp. Non-contiguous spectral-band modulator and method for non-contiguous spectral-band modulation
WO2013154868A1 (en) 2012-04-12 2013-10-17 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header
CN102946520B (zh) * 2012-10-30 2016-12-21 深圳创维数字技术有限公司 一种自动控制频道音量的方法及数字电视终端
CN103841241B (zh) * 2012-11-21 2017-02-08 联想(北京)有限公司 音量调整方法及装置
US8958586B2 (en) 2012-12-21 2015-02-17 Starkey Laboratories, Inc. Sound environment classification by coordinated sensing using hearing assistance devices
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
KR20240055146A (ko) 2013-01-21 2024-04-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
UA122560C2 (uk) * 2013-01-21 2020-12-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
CN107276551B (zh) * 2013-01-21 2020-10-02 杜比实验室特许公司 解码具有保留数据空间中的元数据容器的编码音频比特流
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US20140278911A1 (en) * 2013-03-15 2014-09-18 Telemetry Limited Method and apparatus for determining digital media audibility
WO2014148845A1 (ko) * 2013-03-21 2014-09-25 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN107093991B (zh) * 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
TWI502582B (zh) * 2013-04-03 2015-10-01 Chung Han Interlingua Knowledge Co Ltd 服務點之語音客服系統
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9344825B2 (en) 2014-01-29 2016-05-17 Tls Corp. At least one of intelligibility or loudness of an audio program
US9578436B2 (en) * 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US9473094B2 (en) * 2014-05-23 2016-10-18 General Motors Llc Automatically controlling the loudness of voice prompts
US9842608B2 (en) 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
WO2016057530A1 (en) * 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6395558B2 (ja) * 2014-10-21 2018-09-26 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
US20160283566A1 (en) * 2015-03-27 2016-09-29 Ca, Inc. Analyzing sorted mobile application operational state sequences based on sequence metrics
KR102686742B1 (ko) 2015-10-28 2024-07-19 디티에스, 인코포레이티드 객체 기반 오디오 신호 균형화
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
RU2768224C1 (ru) * 2018-12-13 2022-03-23 Долби Лабораторис Лайсэнзин Корпорейшн Двусторонняя медийная аналитика
CN110231087B (zh) * 2019-06-06 2021-07-23 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备
US11138477B2 (en) * 2019-08-15 2021-10-05 Collibra Nv Classification of data using aggregated information from multiple classification modules
US11595730B2 (en) * 2021-03-08 2023-02-28 Tencent America LLC Signaling loudness adjustment for an audio scene

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) * 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
DE69214882T2 (de) 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JP2961952B2 (ja) * 1991-06-06 1999-10-12 松下電器産業株式会社 音楽音声判別装置
JP2737491B2 (ja) * 1991-12-04 1998-04-08 松下電器産業株式会社 音楽音声処理装置
US5548638A (en) * 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (de) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DE19509149A1 (de) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Codierverfahren
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
EP0820212B1 (de) 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
EP1089242B1 (de) * 1999-04-09 2006-11-08 Texas Instruments Incorporated Bereitstellen von digitalen Audio- und Videoprodukten
AR024353A1 (es) * 1999-06-15 2002-10-02 He Chunhong Audifono y equipo auxiliar interactivo con relacion de voz a audio remanente
JP3473517B2 (ja) * 1999-09-24 2003-12-08 ヤマハ株式会社 指向性拡声装置
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
US6625433B1 (en) * 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions

Also Published As

Publication number Publication date
KR101019681B1 (ko) 2011-03-07
KR20050057045A (ko) 2005-06-16
IL165938A (en) 2010-04-15
HK1073917A1 (en) 2005-10-21
ATE328341T1 (de) 2006-06-15
IL165938A0 (en) 2006-01-15
WO2004021332A1 (en) 2004-03-11
MXPA05002290A (es) 2005-06-08
US20040044525A1 (en) 2004-03-04
CA2491570A1 (en) 2004-03-11
TW200404272A (en) 2004-03-16
CA2491570C (en) 2011-10-18
JP2005537510A (ja) 2005-12-08
AU2003263845B2 (en) 2008-08-28
US7454331B2 (en) 2008-11-18
MY133623A (en) 2007-11-30
EP1532621B1 (de) 2006-05-31
CN1679082A (zh) 2005-10-05
JP4585855B2 (ja) 2010-11-24
CN100371986C (zh) 2008-02-27
AU2003263845A1 (en) 2004-03-19
DE60305712T8 (de) 2007-07-12
DE60305712D1 (de) 2006-07-06
TWI306238B (en) 2009-02-11
USRE43985E1 (en) 2013-02-05
EP1532621A1 (de) 2005-05-25

Similar Documents

Publication Publication Date Title
DE60305712T2 (de) Lautstärkeregelung von sprache in signalen, die sprache oder andere arten von audiosignalen enthalten
DE102004036154B3 (de) Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
DE69131095T2 (de) Verständlichkeitsverbesserungsanordnung für eine Beschallungsanlage
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE68913139T2 (de) Störunterdrückung.
DE60212696T2 (de) Bandbreitenvergrösserung für audiosignale
DE3856280T2 (de) Rauschunterdrückungssystem
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE60217484T2 (de) Schätzung der signalleistung in einem komprimierten audiosignal
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69903334T2 (de) Vorrichtung zur signal-rauschverhältnismessung in einem sprachsignal
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE10041512A1 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP0954909A1 (de) Verfahren zum codieren eines audiosignals
DE112014000945B4 (de) Sprachbetonungsgerät
DE3331231A1 (de) Analoge und digitale signalvorrichtung
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
WO1998048531A1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE60124079T2 (de) Sprachverarbeitung
DE69533259T2 (de) Nichtlineares quantisieren eines informationssignales
EP1430750B1 (de) Verfahren und vorrichtung zur auswahl eines klangalgorithmus
DE4001747A1 (de) Anpassbares hochpassfilter mit steuerbarer abschneidefrequenz in abhaengigkeit vom eingangssignal und betriebsverfahren hierfuer
EP0658874B1 (de) Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen
HK40084252A (en) Audio processing method, device, electronic equipment and computer-readable storage medium
DE69532932T2 (de) Verfahren zum nicht linearen Quantisieren eines Informationssignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8381 Inventor (new situation)

Inventor name: VINTON, MARK,STUART, SAN FRANCISCO, CA 94103-4, US

Inventor name: ROBINSON, CHARLES,QUITO, SAN FRANCISCO, CA 941, US

Inventor name: GUNDRY, KENNETH,JAMES, SAN FRANCISCO, CA 94103, US

Inventor name: VENEZIA, STEVEN,JOSEPH, SAN FRANCISCO, CA 9410, US

Inventor name: RIEDMILLER, JEFFREY,CHARLES, SAN FRANCISCO, CA, US