[go: up one dir, main page]

DE60127274T2 - Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen - Google Patents

Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen Download PDF

Info

Publication number
DE60127274T2
DE60127274T2 DE60127274T DE60127274T DE60127274T2 DE 60127274 T2 DE60127274 T2 DE 60127274T2 DE 60127274 T DE60127274 T DE 60127274T DE 60127274 T DE60127274 T DE 60127274T DE 60127274 T2 DE60127274 T2 DE 60127274T2
Authority
DE
Germany
Prior art keywords
waveform
speech
segments
energy
concatenation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60127274T
Other languages
English (en)
Other versions
DE60127274D1 (de
Inventor
Geert Coorman
Bert Van Coile
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lernout and Hauspie Speech Products NV
Original Assignee
Lernout and Hauspie Speech Products NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lernout and Hauspie Speech Products NV filed Critical Lernout and Hauspie Speech Products NV
Publication of DE60127274D1 publication Critical patent/DE60127274D1/de
Application granted granted Critical
Publication of DE60127274T2 publication Critical patent/DE60127274T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Electromechanical Clocks (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft die Sprachsynthese und insbesondere die Änderung der Sprachgeschwindigkeit gesampelter Sprachsignale und die Verkettung von Sprachsegmenten durch ihr wirksames Zusammenfügen in der Zeit-Domäne.
  • Hintergrund der Erfindung
  • Die Sprachsegment-Verkettung wird häufig als Teil von Algorithmen zur Spracherzeugung und -modifikation verwendet. Beispielsweise verketten viele Text-zu-Sprache- (TTS-) Anwendungen vorgespeicherte Sprachsegmente, um synthetisierte Sprache zu erzeugen. Einige Time-Scale-ModIfikations- (TSM-) Systeme zerlegen Eingangsprache auch in kleine Segmente und verbinden die Segmente nach einer erneuten Anordnung wieder miteinander. Verbindungen zwischen Sprachsegmenten sind eine mögliche Quelle für eine Verschlechterung der Sprachqualität. Daher sollten Signaldiskontinuitäten an jeder Verbindung minimiert werden.
  • Sprachsegmente können entweder in der Zeit-, der Frequenz- oder der Zeit-Frequenz-Domäne verkettet werden. Die vorliegende Erfindung befasst sich mit der Durchführung der Zeit-Domäne-Verkettung (TDC) von digitalen Sprachwellenformen. Eine hoch qualitative Zusammenfügung von digitalen Sprachwellenformen ist bei einer Vielzahl von akustischen Verarbeitungsanwendungen wichtig, die Text-zu-Sprache- (TTS-) Verkettungssysteme wie beispielsweise dasjenige, das beschrieben ist in der US-Patentanmeldung 09/438.603 von G. Coorman et al.; per Funk übertragene Mitteilungen wie beispielsweise beschrieben in L. F. Lamel, J. L. Gauvain, B. Prouts, C. Bouhier & R. Boesch, "Generation and Synthesis of Broadcast Messages", Proc. ESCA-NATO Workshop on Applications of Speech Technology, Lautrach, Deutschland, September 1993; Implementierung von Carrier-Slot-Anwendungen wie beispielsweise beschrieben in US Patent No. 6.052.664 von S. Leys, B. Van Coile und S. Willems; und Time-Scale-Modifikationen (TSM) wie beispielsweise beschrieben in der US-Patentanmeldung 09/776.018, G. Coorman, P. Rutten, J. De Moortel und B. Van Coile, "Time Scale Modification of Digitally Sampled Waveforms in the Time Domain", eingereicht am 2. Februar 2001 umfassen, die alle hier durch Bezugnahme aufgenommen werden.
  • TDC vermeidet berechnungstechnisch teure Transformationen in andere und aus anderen Domänen und weist den weiteren Vorteil der Beibehaltung intrinsischer Segmentinformationen in der Wellenform auf. Als eine Folge werden für längere Sprachsegmente die natürlichen prosodischen Informationen (die die Mikro-Prosodie enthalten – einen der Schlüsselfaktoren für in hohem Maße natürlich klingende Sprache) in die synthetisierte Sprache übertragen. Ein wichtiges Problem bei TDC ist es, hörbare Wellenformunregelmäßigkeiten, beispielsweise Diskontinuitäten und Übergänge, die in der Nachbarschaft der Zusammenfügung auftreten können, zu vermeiden. Diese werden gemeinhin als "Verkettungsartifakte" bzw. ungewollte Verkettungsänderungen bezeichnet.
  • Um Verkettungsartefakte zu vermeiden, können zwei Sprachsegmente durch Ausblenden des hinteren Randes des linken Segments und Einblenden des vorderen Randes des rechten Segments vor ihrem Überlappen und Hinzufügen zusammengefügt werden. Mit anderen Worten wird eine glatte Verkettung durch gewichtetes Überlappen und Hinzufügen, eine Technik, die auf dem Gebiet der digitalen Sprachverarbeitung bekannt ist, durchgeführt. Ein solches Verfahren ist in dem US Patent No. 5.490.234 von Narayan offenbart, das durch Bezugnahme hier aufgenommen wird.
  • Daher hilft eine schnelle und wirksame Synchronisation von Wellenformen dabei, Real-Time-TDC hoher Qualität zu erreichen. Die Länge der betroffenen Sprachsegmente hängt von den Anwendungen ab. Kleine Sprachsegmente (beispielsweise Sprachframes) werden typischerweise bei Zeit-Scale-Modifikations-Anwendungen verwendet, während längere Elemente, beispielsweise Diphone, bei Text-zu-Sprach-Anwendungen verwendet werden, und längere Elemente können sogar bei Domäne-spezifischen Anwendungen, wie beispielsweise Carrier-Slot-Anwendungen verwendet werden.
  • Einige bekannte Wellenformsynchronisationstechniken befassen sich mit der Wellenformähnlichkeit wie beschrieben in W. Verhelst & M. Roelands, "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speech", ICASSP-93, IEEE International Conference on Acoustics, Speech, and Signal Processing, Seiten 554-557, Band 2, 1993; durch Bezugnahme hier aufgenommen. Nachfolgend werden Wellenform-Synchronisationsverfahren, die bei TDC verwendet werden, die von der Gestalt der Wellenform Gebrauch machen, beschrieben. Diese Art der Synchronisation minimiert Wellenform-Diskontinuitäten in gesprochener Sprache, die auftreten könnten, wenn zwei Sprachwellenformsegmente zusammengefügt werden.
  • Ein gemeinsames Verfahren der Synthetisierung von Sprache bei Text-zu-Sprache- (TTS-) Systemen besteht in dem Kombinieren von aus aufgezeichneter Sprache extrahierten, digitalen Sprachwellenformsegmenten, die in einer Datenbank gespeichert sind. Diese Segmente werden in der Sprachverarbeitungsliteratur häufig als "Spracheinheiten" bezeichnet. Eine in einem Text-zu-Sprache-Synthesizer verwendete Spracheinheit ist ein Satz, der aus einer Sequenz von Samplings bzw. Abtastungen oder Parametern, die zu Wellenformabtastungen umgewandelt werden können, die aus einem kontinuierlichen Block gesampelter Sprache entnommen werden, und aus einigen begleitenden Merkmalsvektoren (die Informationen wie beispielsweise den Grad der Auffällig keit, den phonetischen Zusammenhang, die Teilung ... enthält) besteht, um beispielsweise das Auswahlverfahren für die Spracheinheiten zu führen. Einige gemeinsame und beschriebene Darstellungen von bei TTS-Verkettungssystemen verwendeten Spracheinheiten sind Frames wie beschrieben in R. Hoory & D. Chazan, "Speech synthesis for a specific speaker based on labeled speech database", 12th International Conference On Pattern Recognition 1994, Band 3, Seiten 146-148, Phone wie beschrieben in A. W. Black, N. Campbell, "Optimizing selection of unit from speech databases for concatenative synthesis", Proc. Eurospeech '95, Madrid, Seiten 581-584, 1995, Diphone wie beschrieben in P. Rutten, G. Coorman, J. Fackrell & B. Van Coile, "Issues in Corpus-based Speech Synthesis", Proc. IEE symposium on state-of-the-art in Speech Synthesis, Savoy Place, London, April 2000, Demi-Phone wie beschrieben in M. Balestri, A. Pacchiotti, S. Quazza, P. L. Salza, S. Sandri, "Choose the best to modify the least: a new generation concatenative synthesis system", Proc. Eurospeech '99, Budapest, Seiten 2291-2294, September 1999, und längere Segmente wie beispielsweise Silben, Worte und Phrasen, wie beschrieben in E. Klabbers, "High-quality speech output generation through advanced phrase concatenation", Proc. of the COST Workshop on Speech Technology in the Public Telephone Network: Where are we today?, Rhodos, Griechenland, Seiten 85-88, 1997, die alle durch Bezugnahme hier aufgenommrn werden.
  • Ein bekanntes Sprachsyntheseverfahren, das implizit von der Wellenformverkettung Gebrauch macht, ist in einer Veröffentlichung von E. Moulines und F. Charpentier "Pitch Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones", Speech Communication, Band 9, Nr. 5/6, Dezember 1990, Seiten 453-467 beschrieben, die durch Bezugnahme hier aufgenommen wird. Diese Veröffentlichung beschreibt eine als TD-PSOLA (Time-Domain Pitch-Synchronous Over-Lap and Add) bekannte Technik, die für die Prosodie-Manipulierung der Wellenform und Verkettung von Sprachwellenformsegmenten verwendet wird. Ein TD-PSOLA-Synthesizer verkettet Sprachsegmente in Form von Fenstern, die im Augenblick des Glottal- bzw. Stimmritzenverschlusses (GCI) zentriert werden, damit sie eine typische Dauer von zwei Teilungsperioden aufweisen. Einige Techniken sind dazu verwendet worden, den GCI zu berechnen. Unter anderen:
    • • B. Yegnanarayana und R. N. J. Veldhuis, "Extraction Of Vocal-Tract System Characteristics From Speech Signals", IEEE Transactions on Speech and Audio Processing, Band 6, Seiten 313-327, 1998;
    • • C. Ma, Y. Kamp & L. Willems, "A Frobenius Norm Approach To Glottal Closure Detection From The Speech Signal", IEEE Transactions on Speech and Audio Processing, 1994;
    • • S. Kadambe und G. F. Boudreaux-Bartels, "Application Of The Wavelet Transform For Pitch Detection Of Speech Signals", IEEE Transactions on Information Theory, Band 38, Nr. 2, Seiten 917-924,1992;
    • • R. Di Francesco & E. Moulines, "Detection Of The Glottal Closure By Jumps In The Statistical Properties Of The Signal", Proc. of Eurospeech 1989, Paris, Band 2, Seiten 39-41,1989; die alle durch Bezugnahme hier aufgenommen werden.
  • Bei der PSOLA-Synthese wird die Diphon-Verkettung durch Überlappung-und-Hinzufügung (d.h. Wellenformvermischung) durchgeführt. Die Synchronisation basiert auf einem einzigen Merkmal, nämlich dem Augenblick des Stimmritzenverschlusses (Teilungsmarker, GCI). Das PSOLA-Verfahren ist schnell und für eine Offline-Berechnung der Teilungsmarker geeignet, was zu einer sehr schnellen Synchronisation führt. Ein Nachteil dieser Technik besteht darin, dass Phasendifferenzen zwischen Segmentgrenzen Wellenform-Diskontinuitäten verursachen und somit zu hörbaren Klicks führen können. Eine Technik, die darauf abzielt, diese Probleme zu vermeiden, ist das MBROLA-Syntheseverfahren, das beschrieben ist in T. Dutoit & H. Leich, "MBR-PSOLA: Text-to-Speech Synthesis Based on an MBE Re Synthesis of the Segments Database", Speech Communication, Band 13, Seiten 435 440, was durch Bezugnahme hier aufgenommen wird. Die MBROLA-Technik vorverarbeitet die Segmente des Verzeichnisses durch Ausgleichung der Teilungsperiode in der gesamten Segmentdatenbank und durch Neueinstellung der Tieffrequenzphasen-Komponenten auf einen vordefinierten Wert. Diese Technik erleichtert die spektrale Interpolation. MBROLA weist die gleiche berechnungstechnische Effizienz wie PSOLA auf, und ihre Verkettung ist glatter. Jedoch lässt MBROLA die synthetisierte Sprache wegen der Neueinstellungen der teilungssynchronen Phase metallischer klingen.
  • Auf dem Gebiet der auf einem Korpus basierenden Synthese ist kürzlich ein weiteres effizientes Segmentverkettungsverfahren vorgeschlagen worden in Y. Stylianou, "Synchronization of Speech Frames Based on Phase Data with Application to Concatenative SpeechSynthesis", Proceedings of 6th European Conference on Speech Communication and Technology, September 5-9, 1999, Budapest, Ungarn, Band 5, Seiten 2343-2346, was durch Bezugnahme hier aufgenommen wird. Das Stylianou-Verfahren beruht auf der Berechnung des Schwerpunkts. Dieses verfahren ist etwas ähnlich dem Epoche-Abschätzungsverfahren, das für die TD-PSOALA-Synthese verwendet wird, ist jedoch robuster, da es sich nicht auf eine genaue Teilungsabschätzung verlässt.
  • Eine weitere effiziente Wellenformsynchronisationstechnik, die beschrieben ist in S. Yim & B. I. Pawate,"Computationally Efficient Algorifhm for Time Scale Modification (GLS-TSM)", IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, Seiten 1009-1012, Band 2, 1996, durch Bezugnahme hier aufgenommen, (siehe auch US Patent Nr. 5.749.064) beruht auf einer Kaskade einer globalen Synchronisation mit einer lokalen Synchronisation auf der Grundlage eines Vektors von Signalmerkmalen.
  • Bei dem Verfahren, das beschrieben ist in B. Lawlor & A. D. Fagan, "A Novel High Quality Efficient Algorithm for Time-Scale Modification of Speech", Proceedings of Eurospeech conference, Budapest, Band 6, Seiten 2785-2788, 1999, das durch Bezugnahme hier aufgenommen wird, werden die größten Spitzen- oder Tälerwerte als Synchronisationskriterium verwendet.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung stellt ein digitales Wellenformverkettungssystem nach Anspruch 1 zur Verfügung.
  • Kurze Beschreibung der Zeichnungen
  • Die vorliegende Erfindung ist leichter unter Bezugnahme auf die nachfolgende detaillierte Beschreibung zusammen mit den beigefügten Zeichnungen zu verstehen, in denen:
  • 1 eine allgemeine funktionelle Ansicht der Wellenformsynchronisationseinrichtung zeigt, die in einem Wellenformverketter eingebaut ist.
  • 2 eine allgemeine funktionelle Ansicht der Wellenformsynchronisations- und Vermischungseinrichtung zeigt.
  • 3 die typischen Formen der Einblend- und Ausblendfunktionen zeigt, die bei dem Wellenformvermischungsverfahren verwendet werden.
  • 4 zeigt, wie der Vermischungsanker auf der Grundlage einiger Merkmale des Signals in der Nachbarschaft der Zusammenfügung berechnet wird.
  • Detaillierte Beschreibung besonderer Ausführungsformen
  • Vor dem Übergang zu den speziellen Details unserer Erfindung werden einige ihr zugrunde liegende Signalverarbeitungsaspekte erörtert ausgehend von der Theorie, die den Hintergrund der Feststellung der Verkettungspunkte und der Verzerrung bildet, die durch die Verkettung von zwei Sprachsegmenten x1(n) und x2(n) verursacht werden. Das Signal nach der Verkettung wird als y(n) beschrieben.
  • Zur Minimierung der Verkettungsartifakte wird das verkettete Signal y(n) in der Nachbarschaft der Zusammenfügung analysiert. In der Folge entspricht der Index L dem Zeitindex der Zusammenfügung, und es wird auch angenommen, dass die Verzerrung zur linken und zur rechten Seite der Zusammenfügung die gleiche Bedeutung (d.h. die gleiche Gewichtung) haben. Innerhalb des Verkettungsintervalls ist y(n) eine Vermischung aus x1(n) und x2(n). Das Signal y(n) in Richtung zu der linken Seite der Verkettungszone entspricht einem Teil des aus x1(n) extrahierten Segments, und in Richtung zu der rechten Seite der Verkettungszone entspricht es einem Teil des aus x2(n) extrahierten Segments. Ihre jeweiligen Verkettungspunkte werden als E1 und E2 beschrieben. Zur Minimierung der durch die Verkettung verursachten Verzerrung wird ein Verkettungspunkt auf der Grundlage einer Synchronisationsmaßnahme aus einem Satz von potenziellen Verkettungspunkten ausgewählt, die in einem (kurzen) Zeitintervall liegen, das als Optimierungszone bezeichnet wird. Die Optimierungszone befindet sich typischerweise an den Rändern der Sprachsegmente (wo die Verkettung stattfinden sollte).
  • In einem Abstand D von der linken Seite der Zusammenfügung nach der Verkettung wird ein Kurzzeit- bzw. Short-Tim- (ST-) Fourier-Spektrum Y(ω,L-D) von y(n) erwartet, das stark demjenigen von X1(ω,E1-D), dem ST-Fourier-Spektrum von x1(n) um E1, stark ähnelt. In gleicher Weise wird an der rechten Seite der Zusammenfügung ein ST-Spektrum Y(ω,L+D) erwartet, das stark X2(ω,E2+D), dem ST-Spektrum von x2(n) um den Zeitindex E2, ähnelt.
  • Als Annäherung für die wahrgenommene Qualität kann die spektrale Verzerrung als der mittlere quadratische Fehler zwischen den Spektren definiert werden:
    Figure 00090001
  • Das bekannte Parsevalsche-Theorem kann dazu verwendet werden, ξ in der Zeit-Domäne neu zu formulieren:
    Figure 00090002
    wobei w(n) das Fenster (beispielsweise das Blackman-Fenster) ist, das dazu verwendet wurde, die Kurzzeit-Fourier-Transformation abzuleiten.
  • Verkettungsartifakte werden durch Minimierung von ξ minimiert (in dem Sinne der kleinsten Quadrate). Die Minimierung der spektralen Verzerrung ξ durch die Bedingung
    Figure 00090003
    führt zu einem Ausdruck für das "optimale" verkettete Signal y(n) in der Nachbarschaft von L:
    Figure 00090004
  • Die Verkettung der zwei Segmente kann somit leicht in der bekannten gewichteten Überlappungs- und Hinzufügungs- (OLA-Darstellung ausgedrückt, wie in D.W. Griffin & J.S. Lim "Signal Estimation From Modified Short-Time Fourier Transform", IEEE Trans. Acoustics, Speech and Signal Processing, Band ASSP-32(2), Seiten 236-243, April 1984 beschrieben ist, was durch Bezugnahme hier aufgenommen wird. Das Überlappungs- und Hinzufügungsverfahren für die Segmentverkettung ist nicht mehr als eine (nicht lineare) Kurzzeit-Überblendung der Sprachsegmente. Die Minimierung der Verzerrung besteht jedoch in der Technik, die die Bereiche der optimalen Überlappung durch geeignete Modifizierung von E1 und E2 um einen kleinen Wert in einer Weise findet, dass E1 und E2 in ihren jeweiligen Optimierungsintervallen bleiben.
  • Durch Wahl der Länge des Fensters w(n) gleich 4D+1 kann eine Klasse symmetrischer Fenster (um den Zeitindex n=0) definiert werden, die den Nenner der obigen Gleichung normalisiert: w2(n + D) + w2(n – D) = 1 for n ∈ [–D, D] (3)
  • Um die Signalkontinuität an den Grenzen der Verkettungszone sicherzustellen, wird w(0)=1 gewählt. Dies bedeutet, dass die wirksame Länge des Fensters w nur 4D-1 Sample lang ist.
  • Der Ausdruck für das verkettete Signal y(n) kann weiter vereinfacht werden durch Substituieren von (3) in (2):
    Figure 00100001
  • Die obige Gleichung (4) kann jetzt in dem Ausdruck für die Verzerrung ξ(1) substituiert werden, um y(n) zu eliminieren. Auf diese Weise ist es möglich, den Fehler ausschließlich als eine Funktion der Positionen der linken und rechten Schneidepunkte auszudrücken.
  • Figure 00100002
  • Mit anderen Worten kann die Minimierung der Verkettungsartifakte durch Minimieren des gewichteten mittleren quadratischen Fehlers durchgeführt werden. Dies kann des Weiteren mit Bezug auf die Energie wie folgt erweitert werden:
    Figure 00100003
  • Die Gleichung (5) kann weiter vereinfacht werden, wenn das Fenster w(n) zu dem nachfolgend angegebenen trigonometrischen Fenster gewählt wird:
    Figure 00100004
    wobei w(n) die Normalisierungsbeschränkung (3) erfüllt und sich auf das bekannte Hanning-Fenster bezieht.
  • Der Fehler kann nun zu dem nachfolgend angegebenen Ausdruck vereinfacht werden:
    Figure 00110001
  • Die Einblend- und Ausblendfunktionen, die für das Mischen der Wellenform verwendet werden, was sich aus dem Fenster (6) ergibt, sind in 3 dargestellt.
  • In der obigen Gleichung (7) ist die Minimierung der Verzerrung ξ als Kompromiss zwischen der Minimierung der Energie des gewichteten Segments auf der linken und der rechten Seite der Zusammenfügung (d.h. die ersten zwei Terms) und der Maximierung der Querkorrelation zwischen dem linken und dem rechten gewichteten Segment (dritter Term) dargestellt.
  • Es sollte beachtet werden, dass die Minimierung der Verzerrung im Sinne des kleinsten mittleren Fehlerquadrats von Interesse ist, weil sie zu einer analytischen Darstellung führt, die Einblick in die Problemlösung gewährt. Die Verzerrung wie hier definiert berücksichtigt Wahrnehmungsaspekte wie Hörmaskierung und uneinheitliche Frequenzempfindlichkeit nicht. In dem Fall, bei dem zwei Wellenformen in der Nachbarschaft ihrer Zusammenfügungspunkte sehr ähnlich sind, ist dann die Minimierung der drei Terms in Gleichung (7) nur äquivalent zu der Maximierung der Querkorrelation (d.h. Wellenformähnlichkeitsbedingung), während dann, wenn die zwei Wellenformsegmente unkorreliert sind, das beste Optimierungskriterium, das gewählt werden kann, die Energieminimierung in der Nachbarschaft der Zusammenfügung ist.
  • Die Verkettung der ungesprochenen Sprachwellenformsegmente kann nur mittels der Energieminimierung durchgeführt werden, weil die Querkorrelation sehr gering ist. Jedoch sind bei dem Phonemnukleus die meisten ungesprochenen Segmente stationärer Art, was die Minimierung auf der Grundlage der Energie unbrauchbar macht. Eine auf OLA basierende unsynchronisierte Verkettung ist daher für den ungesprochenen Fall geeignet. Andererseits erfordert die Verkettung gesprochener Sprachwellenformen die Minimierung der Energieterms und die Maximierung des Querenergieterms. Gesprochene Sprache hat eine klare quasi-periodische Struktur, und ihre Wellengestalt kann zwischen den Sprachsegmenten verschieden sein, die für die Verkettung verwendet werden. Daher ist es wichtig, den richtigen Ausgleich zwischen der Bedingung der Wellenähnlichkeit und der Bedingung minimaler Energie zu finden.
  • Die durch Gleichung (7) dargestellte Verzerrung ist als Summe von drei unterschiedlichen Energieterms zusammengesetzt. Die ersten zwei Terms sind Energieterms, während der dritte Term ein "Querenergie"-Term ist. Es ist bekannt, dass die Darstellung der Energie in logarithmischer Weise statt in linearer Weise der menschlichen Wahrnehmungslautstärke besser entspricht. Zur Wichtung der Energieterms in geeigneter, wahrnehmungstechnischer, gleicher Weise kann der Logarithmus dieser Terms individuell verwendet werden.
  • Zur Vermeidung von Problemen mit möglichen negativen Querkorrelationen kann es nützlich sein, sich mit diesem Ansatz weiter zu befassen. Aus der Mathematik ist es bekannt, dass die Summe von Logarithmen der Logarithmus eines Produktes ist und dass die Subtraktion von Logarithmen dem Logarithmus eines Quotienten entspricht. Mit anderen Worten werden Additionen zu Multiplikationen und Subtraktionen zu Divisionen in der Optimierungsformel. Die Minimierung des Logarithmus einer Funktion, die durch 1 begrenzt ist, ist äquivalent zu der Maximierung der Funktion ohne den log-Operator. Die Minimierung der spektralen Verzerrung in der Log-Domäne entspricht der Maximierung der normalisierten Querkorrelationsfunktion:
    Figure 00130001
  • Höhrversuche empfehlen, dass die normalisierte Querkorrelation eine sehr gute Maßnahme ist, um die besten Verkettungspunkte E1 und E2 zu finden.
  • Die Verkettung der zwei Segmente kann leicht in der bekannten gewichteten Überlappungs- und Hinzufügungs- (OLA-Darstellung ausgedrückt werden. Das Kurzzeit-Einblenden/Ausblenden von Sprachsegmenten in OLA wird ferner als Wellenformvermischung bezeichnet. Das Zeitintervall, während dessen die Wellenformvermischung stattfindet, wird als Verkettungszone bezeichnet. Nach der Optimierung werden zwei Indizes E1 Opt und E2 Opt erhalten, die als die optimalen Vermischungsanker für das erste bzw. das zweite Wellenformsegment bezeichnet werden.
  • Um eine Wellenformvermischung mit hoher Qualität zu erreichen, verändern sich die zwei Vermischungsanker E1 und E2 während des Optimierungsintervalls in dem hinteren Teil des ersten Wellenformsegments bzw. dem vorderen Teil des zweiten Wellenformsegments derart, dass die spektrale Verzerrung infolge der Vermischung entsprechend einem gegebenen Kriterium minimiert wird; beispielsweise Maximierung der normalisierten Querkorrelation von Gleichung (8). Der hintere Teil des ersten Sprachsegments und der vordere Teil des zweiten Sprachsegments werden derart zeitlich zur Überlappung gebracht, dass die optimalen Vermischungsanker zusammenfallen. Die Wellenformvermischung selbst wird dann durch Überlappung und Hinzufügung, eine auf dem Gebiet der Sprachverarbeitung bekannte Technik, erreicht.
  • Bei einer repräsentativen Ausführungsform wird der Abstand D von der linken Seite der Zusammenfügung in geeigneter Weise gleich der mittleren Teilungsperiode P gewählt, die aus der Sprachdatenbank abgeleitet wird, von der die Wellenformen x1(n) und x2(n) bezogen werden. Die Optimierungszonen, während der sich E1 und E2 ändern, weisen ebenfalls die Größenordnung von P auf. Die Rechenlast dieses Optimierungsverfahrens ist von der Samplingrate abhängig und weist die Größenordnung von P3 auf.
  • Das Ziel der Ausführungsformen der vorliegenden Erfindung ist es, die Rechenlast für die Wellenformverkettung herabzusetzen, während Verkettungsartifakte vermieden werden. Eine Unterscheidung wird zwischen Sprachsynthesesystemen, die auf Verzeichnissen für kleine Sprachsegmente beruhen, wie den herkömmlichen Diphon-Synthezisern wie beispielsweise L&H TTS-3000TM, und Systemen gemacht, die auf Verzeichnissen für große Sprachsegmente beruhen, wie denjenigen, die bei der auf einem Korpus beruhenden Synthese verwendet werden. Es wird anerkannt, dass digitale Wellenformen, Kurzzeit-Fourier-Transformationen und die Bildung von Fenstern für Sprachsignale in der Audio-Technologie üblich sind.
  • Repräsentative Ausführungsformen der vorliegenden Erfindung stellen eine robuste und berechnungstechnische wirksame Technik für die Zeitdomäne-Wellenformverkettung von Sprachsegmenten zur Verfügung. Die berechnungstechnische Effizienz wird bei der Synchronisierung von benachbarten Wellenformensegmenten durch Berechnen eines kleinen Satzes von elementaren Wellenformmerkmalen und durch Verwendung derselben zum Auffinden geeigneter Verkettungspunkte erzielt. Diese von der Wellenform abgeleiteten Merkmale können offline berechnet und in Tabellen mäßiger Größe gespeichert werden, die ihrerseits durch den Real-Time- bzw. Echtzeit-Wellenformverketter verwendet werden können. Vor und nach der Verkettung können die digitalen Wellenformen weiter mit verfahren bearbeitet werden, mit denen der Fachmann auf dem Gebiet der Sprach- und Audioverarbeitung vertraut ist. Es ist es verständlich, dass das Verfahren der Erfindung in einer elektronischen Einrichtung durchgeführt wird und die Segmente in der Form digitaler Wellenformen vorgesehen werden, sodass das Verfahren dem Zusammenfügen von zwei oder mehr Eingabewellenformen in eine kleinere Anzahl von Ausgabewellenformen entspricht.
  • Kombinationsmatrixverfahren für eine polyphone Verkettung auf der Grundlage von kleinen Sprachsegmentverzeichnissen
  • Sprachsyntheziser mit einer kleiner Plattform, wie die beispielsweise L&H TTS-3000TM oder TD-PSOLA-Synthese, weisen ein verhältnismäßig kleines Verzeichnis für Sprachsegmente, beispielsweise diphone und triphone Sprachsegmente, auf. Zur Herabsetzung der berechnungstechnischen Komplexität kann eine Kombinationsmatrix, die die optimalen Vermischungsanker E1 Opt und E2 Opt für jede Wellenformkombination enthalten, vorab für alle möglichen Sprachsegment-Kombinationen berechnet werden.
  • Für die meisten Sprachen enthält eine typische Diphon-Datenbank mehr als 1000 unterschiedliche Segmente. Dies würde mehr als eine Million (= 1000×1000) unterschiedliche Eintragungen in der Kombinationsmatrix erforderlich machen. Eine derartige Matrix ist für Systeme mit kleiner Plattform häufig ungeeignet. Stattdessen ist es möglich, für jedes Phonem separat eine Kombinationsmatrix zu schaffen. Diese Verfahrensweise führt zu einem Satz von Phonem-abhängigen Kombinationsmatrizen, die nur einen Teil des Speichers einnehmen, der erforderlich wäre, um die globale Kombinationsmatrix zu speichern, die für die komplette Wellenformsegment-Datenbank berechnet wird.
  • Beim Arbeiten in einer Phonem-abhängigen Weise sollte der Ausführung einer Phonem-Substitution Beachtung geschenkt werden. Die Phonem-Substitution ist eine auf dem Gebiet der Sprachsynthese bekannte Technik. Die Phonem-Substitution wird angewendet, wenn bestimmte Phonem-Kombinationen in der Sprachsegment-Datenbank nicht auftreten. Wenn Phonem-Substitutionen auftreten, weisen die Wellenformsegmente, die zu verketten sind, einen anderen phonetischen Gehalt auf, und sind die optimalen Vermischungsanker in den Phonem-abhängigen Kombinationsmatrizen nicht gespeichert. Zur Vermeidung dieses Problems sollte die Substitution vor der Berechnung der Kombinationsmatrizen durchgeführt werden.
  • Der leichteste Weg hierfür die ist die Offline-Substitution. Die Offline-Substitution reorganisiert die Segment-Nachschlagedatenstrukturen, die die Segmentstichwörter enthalten, in einer solchen Weise, dass das Substitutionsverfahren für den Synthesizer transparent wird. Ein typisches Substitutionsverfahren füllt die leeren Slots in der Segment-Nachschlagedatenstruktur durch neue Sprachsegmentstichwörter, die ein Wellenformsegment in der Datenbank in einer solchen Weise bezeichnen, dass das Wellenformsegment der phonetischen Darstellung des Stichwortes mehr oder weniger ähnlich ist.
  • Es ist nicht notwendig, Kombinationsmatrizen für ungesprochene Phoneme, wie beispielsweise ungesprochene Reiblaute, zu erstellen. Dies kann des Weiteren zu einer bedeutenden, jedoch sprachabhängigen Einsparung von Speicherplatz führen.
  • Schnelles Wellenformsynchronisationsverfahren
  • Die auf einem Korpus beruhende Synthese, wie von P. Rutten, G. Coorman, J. Fackrell & B. Van Coile in "Issues in Corpus-Based Speech Synthesis", Proc. IEEE symposium on State-of-the-Art in Speech Synthesis, Savoy Place, London, April 2000 beschrieben, verwendet große Datenbanken, die typischerweise Hunderttausende von Sprachsegmenten enthalten, um natürlich klingende Sprache hoher Qualität zu synthetisieren. Die Bildung einer Kombinationsmatrix wie oben erörtert ist nicht immer zweckmäßig, weil die Größe der Kombinationsmatrix in einer mehr oder weniger quadratischen Beziehung zu der Größe der Segmentdatenbank steht, während gegenwärtige Hardwareplattformen eine begrenzte Speicherkapazität aufweisen. Die gleichen Anmerkungen gelten für die Time-Scale-Modifikation.
  • Die Minimierung des Fehlers auf der Grundlage der in Gleichung (7) angegebenen drei Energieterms ist zeitraubend und hängt stark von der Samplingrate ab. Bei einer repräsentativen Ausführungsform der Erfindung wird eine einfachere Technik verwendet, um die optimalen Vermischungsanker zu berechnen. Dies führt zu einer wirksamen Offline-Berechnung sogar für große Sprachdatenbanken. Aus den Gleichungen (7) und (8) ist ersichtlich, dass zwei Aspekte bei dem Verkettungsintervall niedriger Energie und hohe Wellenformähnlichkeit beachtet werden müssen.
  • Höhrversuche zeigen, dass im Vergleich mit einer nicht-synchronisierten Wellenformvermischung Verkettungsartifakte reduziert werden können, indem eine synchronisierte Wellenformvermischung durchgeführt wird, die nur Bedingungen minimaler Energie berücksichtigt, d.h. indem die Vermischungsanker E1 und E2 während der Minimierung der nachfolgend angegebenen Fehlerfunktion ausgewählt werden:
    Figure 00170001
  • Das oben angegebene Minimierungskriterium behandelt zwei Wellenformen unabhängig (Fehlen des Querterms), was das Verfahren für die Offline-Berechnung möglich macht. Mit anderen Worten wird der erste Vermischungsanker E1 bestimmt durch Minimierung:
    Figure 00170002
    und wird der zweite Vermischungsanker E2 bestimmt durch Minimierung:
    Figure 00180001
  • Im Nachfolgenden werden diese als Anker minimaler Energie bezeichnet.
  • Um die Anker minimaler Energie zu finden, würden die oben angegebenen Terms für unterschiedliche Werte von E1 und E2 in dem Optimierungsintervall berechnet. Das ist zeitraubend. Im Allgemeinen sind die zwei Optimierungsintervalle, während der E1 und E2 variieren können, konvexe Intervalle. Die Berechnung der gewichteten Energie kann berechnet werden als gleitende gewichtete Energie, und dies ist ein Kandidat für die Optimierung.
  • x wird als das Signal angenommen, aus dem die gleitende gewichtete Energie zu berechnen ist. Die Wichtung erfolgt mittels einer punktweisen Multiplikation des Signals x mittels eines Fensters. In der unkompliziertesten Weise kann die Berechnung der gewichteten Energie durchgeführt werden als
    Figure 00180002
  • Dies macht 2(M+1)(N+1) Multiplikationen und 2M(N+1) Additionen erforderlich unter der Annahme, dass das Signal x quadriert und in einem Puffer nur einmal vor der Fensterbildung gespeichert wird, Wenn das Fenster als eine trigonometrische Summe (wie das Hanning-, das Hamming- und das Blackman-Fenster) ausgedrückt werden kann, kann die berechnungstechnische Komplexität drastisch herabgesetzt werden.
  • Für Verwendung des Hanning-Fensters (d.h. des erhöhten Cosinus-Fensters) als Beispiel gilt:
    Figure 00180003
  • Dies kann neu geschrieben werden als
    Figure 00190001
  • Die Berechnung der Energie auf der Grundlage eines erhöhten Cosinus-Fensters wird durch Substituieren von Gleichung (10) in Gleichung (9) erreicht, was führt zu:
    Figure 00190002
  • Die gewichtete Energie besteht deutlich erkennbar aus zwei Terms: en = en u + en c; einem ungewichteten Kurzterm der Energie
    Figure 00190003
    und einem Energiemodulationsterm
  • Figure 00190004
  • Diese zwei Energiekomponenten können rekursiv berechnet werden. Unter der Annahme, dass en u bekannt ist, kann der nächste Term en+1 u als Funktion von en u berechnet werden:
    Figure 00190005
  • Eine rekursive Formulierung des Terms der modulierten Energie kann mittels einfacher Mathematik erhalten werden, die auf einigen bekannten trigonometrischen Beziehungen beruht:
    Figure 00190006
  • Wenn wir
    Figure 00190007
    definieren, dann wird die folgende Rekursion erreicht:
    Figure 00190008
  • Eine rekursive Formulierung für en s wird durch Anwendung von einigen bekannten trigonometrischen Beziehungen erreicht:
    Figure 00190009
  • Der Wellenformsynchronisationsalgorithmus, der weiter unten beschrieben wird, benötigt nur die Position der minimalen Energie und einen Vergleich der minimalen Energie des linken Segments mit dem der minimalen Energie des rechten Segments. Daher kann der Faktor 1/2 in der Fensterdefinition (10) weggelassen werden, was zu einfacheren Ausdrücken führt. Daher nehmen wir an, das A der Zeitindex ist, der der gewichteten Energie entspricht. Wir nehmen auch an, dass die Länge des Intervalls, während dessen wir die gewichtete Energie berechnen, N ist. Dies führt zu dem folgenden effizienten Algorithmus: Quadrieren von x im betroffenen Intervall und speichern im Puffer
  • Algorithmus
    • uk = x2k k = [A – M, A + N + M]
  • Komplexität
  • Null Additionen und N + 2M + 1 Multiplikationen Ausgangswerte berechnen
  • Algorithmus
    Figure 00200001
    eA = euA + ecA
  • Komplexität
  • 2(3M + 2) Additionen und 2(2M + 1) Multiplikationen Verwenden der nachfolgenden rekursiven Beziehungen zur Berechnung der anderen Werte Algorithmus
    Figure 00200002
  • Komplexität
    • 7N Additionen und 4N Multiplikationen.
  • Gesamtkomplexität
    • 7N + 6M + 4 Additionen
    • 5N + 6M + 3 Multiplikationen
  • N und 2M sind von derselben Größenordnung und viel größer als 10. Dies bedeutet, dass die etwaige Steigerung der berechnungstechnischen Effizienz
    Figure 00210001
    ist. Bei 22 kHz mit N=150 erreichen wir einen Steigerungsfaktor der Effizienz von 15.
  • Leider bleiben einige Verkettungsartifakte hörbar, wenn die Synchronisation ausschließlich auf den Ankern der minimalen Energie beruht, weil die Wellenformähnlichkeit vollständig vernachlässigt wird. Diesem Problem kann durch Einführen eines zweiten Optimierungskriteriums begegnet werden, dass eine Wellenformenähnlichkeit einbaut und daher die Verkettungsartifakte weiter herabsetzt.
  • Bei einer repräsentativen Ausführungsform wird die Zeitposition des größten Spitzen- oder Tälerwertes der tiefpass-gefilterten Wellenform in der örtlichen Nachbarschaft der Zusammenfügung bei dem Wellenformähnlichkeitsverfahren verwendet. Dieses Wellenformähnlichkeitsverfahren kann das linke und das rechte Signal auf der Grundlage der Position des größten Spitzenwertes statt der Verwendung eines teuren Querkorrelationkriteriums synchronisieren. Das Tiefpassfilter dient dazu, die Aufnahme von unechten Signalspitzenwerten zu vermeiden, die sich von dem Spitzenwert unterscheiden können, der den (niedrigeren) Oberschwingungen entspricht, die den größten Beitrag zu der Signalstärke der gesprochenen Sprache leisten. Die Größenordnung des Tiefpassfilters ist mäßig bis niedrig und hängt von der Samplingrate ab. Das Tiefpassfilter kann beispielsweise als ein multiplikationsfreier Null-Phasen-Summenbilder mit neun Zapfstellen für mit einer Samplingrate von 22 kHz aufgezeichnete Sprache sein.
  • Die Entscheidung, eine Synchronisation bei dem größten Spitzen- oder Tälerwert durchzuführen, hängt von der Polarität der aufgezeichneten Wellenformen ab. In den meisten Sprachen wird gesprochene Sprache während des Ausatmens erzeugt, was zu einem unidirektionalen Stimmritzen-Luftstrom führt, der eine konstante Polarität der Sprachwellenformen verursacht. Die Polarität der gesprochenen Sprachwellenform kann durch Untersuchung der Richtung der Impulse des inversen, gefilterten Sprachsignals (d.h. des Restsignals) festgestellt werden und kann häufig auch durch Untersuchung der Sprachwellenform erkennbar sein. Die Polarität von irgendwelchen zwei Sprachaufzeichnungen ist trotz des nicht gegebenen unveränderlichen Charakters der Sprache die gleiche, solange bestimmte Aufzeichnungsbedingungen die gleichen bleiben, unter anderem: die Sprache wird stets beim Ausatmen erzeugt, und die Polarität der elektrischen Aufzeichnungseinrichtung ist zeitlich gesehen unverändert.
  • Um eine optimale Wellenformähnlichkeit (d.h. maximale Querkorrelation) zu erreichen, sollten die Wellenformen der zu verkettenden gesprochenen Segmente, die gleiche Polarität aufweisen. Wenn jedoch die Aufzeichnungseinrichtungseinstellungen, die die Polaritätsänderung im Laufe der Zeit steuern, ist es noch möglich, die aufgezeichneten Sprachwellenformen, die durch eine Polaritätsänderung beeinträchtigt werden, durch Multiplizieren der Samplingwerte mit minus eins derart zu transformieren, dass ihre Polarität für alle Aufzeichnungen die gleiche ist.
  • Hörversuche zeigen, dass die besten Verkettungsergebnisse durch Synchronisation auf der Grundlage der größten Spitzenwerte erreicht werden, wenn die größten Spitzenwerte eine höhere Durchschnittsgröße als die tiefsten Täler aufweisen (dies wurde bei vielen unterschiedlichen Sprachsignalen beobachtet, die mit der gleichen Einrichtung und mit gleichen Aufzeichnungsbedingungen aufgezeichnet worden sind, beispielsweise in einer Sprachdatenbank eines einzigen Sprechers). In dem anderen Fall werden die niedrigsten Täler für die Synchronisation in Betracht gezogen. Im Nachfolgenden werden diese Spitzen- oder Tälerwerte, die für die Synchronisation verwendet werden, als Synchronisationsspitzenwerte bezeichnet. (Die Täler werden dann als negative Spitzenwerte betrachtet.) Hörversuche zeigen des Weiteren, dass die Wellenformsynchronisation auf der Grundlage der Positionen der Synchronisationsspitzenwerte allein zu einer wesentlichen Verbesserung im Vergleich zu einer unsynchronisierten Verkettung führt. Eine weitere Verbesserung der Verkettungsqualität kann durch Kombinieren der Anker minimaler Energie mit den Synchronisationsspitzenwerten erreicht werden.
  • 4 zeigt das linke Sprachsegment in der Nachbarschaft der Zusammenfügung J. Die Zusammenfügung J identifiziert ein Intervall, während dessen eine Verkettung stattfinden kann. Die Länge dieses Intervalls ist typischerweise eine solche in der Größenordnung einer oder mehrerer Teilungsperioden und wird häufig als eine Konstante betrachtet. In 4 sind die gewichtete Energie, das tiefpass-gefilterte Signal und das gewichtete Signal (Ausblenden) ebenfalls dargestellt. Aus Gründen der Deutlichkeit sind die Signale maßstäblich unterschiedlich dargestellt. 4 hilft bei dem Verständnis des Verfahrens des Bestimmens der Anker des linken Segments. Der Zeitindex D bezeichnet die Position der minimalen gewichteten Energie in der Nachbarschaft der Zusammenfügung J. Dies ist der so genannte Anker minimaler Energie wie oben definiert. In diesem besonderen Fall wird angenommen, dass der erste Vermischungsanker als der Anker minimaler Energie verwendet wird (eine detailliertere Erörterung der Auswahl des Ankers ist in den nachfolgenden Algorithmusbeschreibungen zu finden).
  • Bei einer repräsentativen Ausführungsform wird angenommen, dass die Mitte der Verkettungszone dem Vermischungsanker D entspricht. Der Zeitindex A in 4 entspricht dem Beginn der Verkettungszone (d.h. des Ausblendintervalls), und der Zeitindex B bezeichnet das Ende der Verkettungszone. D entspricht A plus dem halben Ausblendintervall. Dies ist jedoch für diese Erfindung keine strikte Bedingung. (Beispielsweise kann eine Ausblendfunktion, die sich von 0,5 in ihrer Mitte unterscheidet, zu unterschiedlichen Positionen des Ausblendintervalls in Hinblick auf den Vermischungsanker führen.) C ist der Zeitindex, der dem Synchronisationsspitzenwert in der Nachbarschaft des Ankers minimaler Energie entspricht. Die Synchronisation macht es erforderlich, dass die Synchronisationsspitzenwerte von zwei benachbarten Segmenten zusammenfallen, wenn die Wellenformen in den Einblend- und Ausblend-Zonen einander überlappen. Wenn der Synchronisationsspitzenwert für das rechte Segment durch C' gegeben ist, erfordert dann die Synchronisation, dass für den Vermischungsanker für das rechte Segment gilt D' = C' – (C – D). Der sich ergebende Vermischungsanker D' definiert die Position des Einblendintervalls des rechten Segments. Das Einblend- und das Ausblendintervall weisen die gleiche Länge auf, da sie während der Wellenformvermischung zur Bildung der Verkettungszone einander überlappen.
  • Es wird angenommen, dass die linke und die rechte Optimierungszone für die beiden Segmente vorab bekannt sind oder dass sie durch die Anwendung gegeben werden, die die Segmentverkettung verwendet. Beispielsweise entspricht in einem Diphon-Synthesizer die Optimierungszone der linken (d.h. der ersten) Wellenform dem Bereich (typischerweise in dem Nukleusteil des rechten Phonems des Diphons), wo das Diphon geschnitten werden kann, und entspricht die Optimierungszone für die rechte (d.h. die zweite) Wellenform der Position des linken Phonems des rechten Diphons, wo das Diphon geschnitten werden kann. Diese Schneidestellen werden typischerweise mit Hilfe von (sprachabhängigen) Regeln oder mit Hilfe von Signalverarbeitungstechniken bestimmt, die beispielsweise nach der Unveränderlichkeit suchen. Die Schneidestellen für die TSM-Anwendung werden in einer unterschiedlichen Weise durch Schneiden der Sprache in kurze (typischerweise äquidistante) Frames der Sprache erhalten.
  • Die Durchführung des Synchronisationsalgorithmus zum Verketten eines linken und eines rechten Wellenformsegments besteht aus den nachfolgend angegebenen Schritten:
    • 1. Suchen in der Optimierungszone, die sich im hinteren Teil des linken Wellenformsegments befindet, und in der Optimierungszone, die sich im vorderen Teil des rechten digitalen Wellenformsegments befindet, nach den Ankern minimaler Energie; beispielsweise unter Verwendung des oben beschriebenen effizienten Berechnungsalgorithmus für die sich verschiebende gewichtete Energie. Die Optimierungszone ist vorzugsweise ein konvexes Intervall um die Zusammenfügung herum, dessen Länge mindestens einer Teilungsperiode entspricht.
    • 2. Auf der Grundlage des linken und des rechten tiefpassgefilterten Sprachsignals wird nach den zwei Synchronisationsspitzenwerten in der (engen) Nachbarschaft der zwei Anker minimaler Energie, die in Schritt 1 erhalten wurden, gesucht. Die "Nachbarschaft" eines Ankers minimaler Energie entspricht einem konvexen Intervall, das den Anker minimaler Energie enthält und dessen Länge vorzugsweise mindestens einer Teilungsperiode entspricht. Eine typische Wahl der "Nachbarschaft" könnte beispielsweise das Optimierungsintervall sein.
    • 3. Ein erster Vermischungsanker wird als Anker minimaler Energie gewählt, der der niedrigsten Energie entspricht. Diese Wahl minimiert eine der Bedingungen minimaler Energie. Der andere Vermischungsanker, der in dem anderen Sprachwellenformsegment vorhanden ist, wird in einer solchen Weise gewählt, dass die Synchronisationsspitzenwerte zusammenfallen, wenn die Wellenformen in der Verkettungszone vor dem Vermischen einander (teilweise) überlappen.
  • Obwohl weniger optimal kann der Algorithmus auch funktionieren, wenn die Synchronisation den Wert der minimalen gewichteten Energie der zwei Anker minimaler Energie (wie in Schritt 3 beschrieben) nicht berücksichtigt. Dies entspricht einer blinden Zuordnung eines Ankers minimaler Energie zu dem Vermischungsanker. Bei dieser Verfahrensweise wird ein (der linke oder der rechte) Anker minimaler Energie systematisch als Vermischungsanker gewählt. In diesem Fall ist die Berechnung des anderen Ankers minimaler Energie überflüssig und kann somit entfallen.
  • Bei einer repräsentativen Ausführungsform wird die Länge der Verkettungszone als maximale Teilungsperiode der Sprache eines gegebenen Sprechers verwendet; jedoch ist es nicht notwendig, so zu verfahren. Man könnte stattdessen beispielsweise das Maximum der lokalen Teilungsperiode des ersten Segments und der lokalen Teilungsperiode des zweiten Segments eines größeren Intervalls verwenden.
  • Bei einer anderen Variante des schnellen Synchronisationsalgorithmus können die Funktionen des Synchronisationsspitzenwertes und die Anker minimaler Energie vertauscht werden:
    • 1. Suchen in der Optimierungszone, die sich im hinteren Teil des linken Wellenformsegments befindet, und in der Optimierungszone, die sich im vorderen Teil des rechten digitalen Wellenformsegments befindet, nach den Synchronisationsspitzenwerten, die auf dem linken und dem rechten tiefpass-gefilterten Sprachwellenformsegment beruhen.
    • 2. Nach den zwei Ankern minimaler Energie wird in der (engen) Nachbarschaft der zwei Synchronisationsspitzenwerte, die in Schritt 1 erhalten wurden, gesucht. Die nahe "Nachbarschaft" eines Synchronisationsspitzenwerts entspricht einem konvexen Intervall, das den Synchronisationsspitzenwert enthält und dessen Länge vorzugsweise länger als eine Teilungsperiode ist. Eine typische Wahl der "Nachbarschaft" könnte beispielsweise das Optimierungsintervall sein.
    • 3. Ein erster Vermischungsanker wird als Anker minimaler Energie gewählt, der der niedrigsten Energie entspricht. Diese Wahl minimiert eine der Bedingungen minimaler Energie. Der andere Vermischungsanker, der in dem anderen Sprachwellenformsegment vorhanden ist, wird in einer solchen Weise gewählt, dass die Synchronisationsspitzenwerte zusammenfallen, wenn die Wellenformen in der Verkettungszone vor dem Vermischen einander teilweise überlappen.
  • Analog zur obigen Erörterung kann der Algorithmus auch funktionieren, wenn die Synchronisation den Wert der minimalen gewichteten Energie, die den zwei Ankern minimaler Energie (wie in Schritt 3 beschrieben) entspricht, nicht berücksichtigt. Dies entspricht einer blinden Zuordnung eines Ankers minimaler Energie zu einem Vermischungsanker. Bei dieser Verfahrensweise wird ein (der linke oder der rechte) Anker minimaler Energie systematisch als Vermischungsanker gewählt. Dies bedeutet, dass in diesem Fall die Berechnung des anderen Ankers minimaler Energie überflüssig ist und somit entfallen kann.
  • Bei den oben beschriebenen Algorithmen können einige Alternativen für den Synchronisationsspitzenwert verwendet werden, beispielsweise der maximale Spitzenwert der Ableitung des tiefpass-gefilterten Sprachsignals oder der maximale Spitzenwert des tiefpass-gefilterten Restsignals, das nach LPC-inverser Filterung erhalten wird.
  • Ein Funktionsdiagramm des Sprachwellenformverketters ist in 2 dargestellt, das den Synchronisations- und den Vermischungsvorgang zeigt. Ein Teil des hinteren Randes des linken (ersten) Wellenformsegments, das größer als die Optimierungszone ist, ist in einem Puffer 200 gespeichert. Der Teil des vorderen Randes des zweiten Wellenformsegments einer Größe, die größer als die Optimierungszone ist, ist in einem zweiten Puffer 201 gespeichert.
  • Bei einer Ausführungsform der Erfindung wird der Anker minimaler Energie der Wellenform in dem Puffer 200 in einem Detektor 210 für minimale Energie berechnet, und diese Informationen wird an einen Wellenform-Vermischer/Synchronisator 240 zusammen mit dem Wert der minimalen gewichteten Energie an dem Anker minimaler Energie weitergegeben. Analog führt ein Detektor 211 für minimale Energie eine Suche durch, um den Ankerpunkt minimaler Energie der in dem Puffer 201 gespeicherten Wellenform festzustellen, und gibt diesen zusammen mit dem entsprechenden gewichteten Energiewert an den Wellenform-Vermischer/Synchronisator 240 weiter. (Bei einer anderen Ausführungsform der Erfindung wird nur einer der zwei Detektoren 210 oder 211 für minimale Energie verwendet, um den ersten Vermischungsanker auszuwählen.) Für einige Anwendungen, beispielsweise TTS, kann die Position der Anker minimaler Energie offline gespeichert werden, was zu einer schnelleren Synchronisation führt. Im letztgenannten Fall ist die Verfahrensweise der Feststellung minimaler Energie äquivalent zu dem Nachschlagen in einer Tabelle.
  • Als Nächstes wird die Wellenform des Puffers 200 mit einer Null-Phasen-Filter 220 tiefpass-gefiltert, um eine andere Wellenform zu erzeugen. Diese neue Wellenform wird dann einer Spitzenwertauswahlsuche 230 unter Berücksichtung der Polarität der Wellenformen (wie oben beschrieben) unterzogen. Diese Position des maximalen Spitzenwertes wird an den Wellenform-Vermischer/Synchronisator 240 weitergegeben. An dem Signal des Puffers 201 werden die gleichen Verarbeitungsschritte mittels des Null-Phasen Tiefpassfilters 221 und des Spitzenwertdetektors 231 durchgeführt, was zu der Position des anderen Synchronisationsspitzenwertes führt. Diese Position wird an den Wellenform-Vermischer/Synchronisator 240 weitergegeben.
  • Wie oben beschriebenen wählt der Wellenform-Vermischer/Synchronisator 240 einen ersten Vermischungsanker auf der Grundlage der Energiewerte oder auf der Grundlage irgendeiner heuristischen Methode und einen zweiten Vermischungsanker auf der Grundlage des Ausrichtungszustands der Synchronisationsspitzenwerte. Der Wellenform-Vermischer/Synchronisator 240 bringt das Ausblendintervall des linken (ersten) Wellenformsegments und den Einblendbereich des rechten (zweiten) Wellenformsegments, die aus den Puffern 200 und 201 erhalten werden, vor ihrem Wichten und Hinzufügen zur Überlappung. Das Wichtungs- und Hinzufügungsverfahren ist auf dem Gebiet der Sprachverarbeitung bekannt und wird häufig als gewichtete Überlappung- und Hinzufügungsverarbeitung bezeichnet.
  • Speicherung von Merkmalen
  • Aufgrund der hohen berechnungstechnischen Effizienz des verwendeten Synchronisationsalgorithmus ist es für viele Anwendungen nicht notwendig, dass die in dem Synchronisationsverfahren verwendeten Parameter offline berechnet und gespeichert werden. Jedoch könnte es in einigen kritischen Fällen von Nutzen sein, einen oder mehrere Synchronisationsparameter zu speichern. Im Allgemeinen werden die Anker minimaler Energie wegen der großen Steigerung der berechnungstechnischen Effizienz und wegen ihrer Unabhängigkeit von der benachbarten Wellenform gespeichert. Beispielsweise kann bei einem TTS-System die berechnungstechnische Last durch Speicherung dieser Merkmale in Tabellen verringert werden. Die meisten TTS-Systeme verwenden eine Tabelle mit Diphon- oder Polyphongrenzen, um die geeigneten Segmente abzurufen. Es ist möglich, diese Tabelle polyphoner Grenzen zu "korrigieren", indem die Grenzen durch ihren nächstliegenden Anker minimaler Energie ersetzt werden. In dem Fall eines TTS-System macht diese Vorgehensweise keine zusätzliche Speicherung notwendig, und setzt sie die CPU-Last für die Synchronisation erheblich herab. Bei einigen Hardwaresystemen könnte es jedoch von Nutzen sein, die in engster Nachbarschaft liegenden Synchronisationsanker statt der in engster Nachbarschaft liegenden Anker minimaler Energie zu speichern.

Claims (14)

  1. Digitales Wellenformverkettungssystem zum Gebrauch in einer akustischen Verarbeitungsanwendung, wobei das System gekennzeichnet ist durch: eine Einheit (130) zur Bereitstellung von digitalen Wellenformen, welche zur Erzeugung einer Eingabesequenz von zumindest zwei digitalen Wellenformsegmenten ausgebildet ist, wobei jedes Wellenformsegment eine Sequenz von Mustern ist; und einen Wellenformverketter (100), der zur Synchronisation, Gewichtung und überlappender Addition von ausgewählten Abschnitten der Eingabesegmente ausgebildet ist, um die Eingabesegmente unter Verwendung von Wellenformvermischung innerhalb einer Verkettungszone zur Erzeugung einer einzelnen digitalen Wellenform zu verketten; dadurch gekennzeichnet, dass der Verketter (100) zur Synchronisation der ausgewählten Abschnitte der Eingabesegmente ausgebildet ist, basierend auf Ausrichtung: (i) von Ankern mit minimaler Energie in jedem Eingabesegment, wobei jede Stelle des Ankers mit minimaler Energie auf Grundlage einer Festlegung von minimaler gewichteter Energie in dem ausgewählten Abschnitt optimiert ist; und (ii) eines größten Wellenformspitzenwertes oder -trogs in der nächsten Nachbarschaft eines jeden Ankers mit minimaler Energie.
  2. Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Text-zu-Sprache-Anwendung aufweist.
  3. Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Sprachübertragungs- bzw. Speech-Broadcast-Anwendung aufweist.
  4. Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Carrier-Slot-Anwendung aufweist.
  5. Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Zeitskalenmodifikations- bzw. Time-Scale-Modification-Anwendung aufweist.
  6. Verkettungssystem nach Anspruch 1, wobei die Wellenformsegmente zumindest einen von Sprachdiphonen und Sprachtriphonen aufweisen.
  7. Verkettungssystem nach Anspruch 1, wobei die Wellenformsegmente zumindest einen von Sprachphonen und Sprachhalbphonen aufweisen.
  8. Verkettungssystem nach Anspruch 1, wobei die Wellenformsegmente zumindest eins von Sprachhalbsilben, Sprachsilben, Worten und Phrasen aufweisen.
  9. Verkettungssystem nach Anspruch 1, wobei der Verketter (100) zur Festlegung von minimaler gewichteter Energie in dem ausgewählten Abschnitt einschließlich einer Verwendung eines gleitenden Rechenalgorithmus für gewichete Energie ausgebildet ist.
  10. Verkettungssystem nach Anspruch 1, welches zur Filterung der Eingabesegmente vor einer Synchronisation ausgebildet ist.
  11. Verkettungssystem nach Anspruch 1, wobei die nächste Nachbarschaft ein Intervall von zumindest einer Teilungs- bzw. Pitch-Periode ist, welche den Anker mit minimaler Energie aufweist.
  12. Verkettungssystem nach Anspruch 1, wobei die nächste Nachbarschaft der ausgewählte Abschnitt des Eingabesegmentes ist.
  13. Verkettungssystem nach Anspruch 1, wobei die Stelle des Ankers mit minimaler Energie die Stelle mit der geringsten gewichteten Energie in dem ausgewählten Abschnitt ist.
  14. Verkettungssystem nach Anspruch 13, wobei eine weitere Stelle eines Ankers mit minimaler Energie so ausgewählt ist, dass der vorherige festgelegte Wellenformspitzenwert oder -trog in jedem ausgewählten Abschnitt übereinstimmt, wenn die Eingabesegmente überlappend addiert sind.
DE60127274T 2000-09-15 2001-09-14 Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen Expired - Lifetime DE60127274T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US23303100P 2000-09-15 2000-09-15
US233031P 2000-09-15
PCT/US2001/028672 WO2002023523A2 (en) 2000-09-15 2001-09-14 Fast waveform synchronization for concatenation and time-scale modification of speech

Publications (2)

Publication Number Publication Date
DE60127274D1 DE60127274D1 (de) 2007-04-26
DE60127274T2 true DE60127274T2 (de) 2007-12-20

Family

ID=22875602

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60127274T Expired - Lifetime DE60127274T2 (de) 2000-09-15 2001-09-14 Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen

Country Status (6)

Country Link
US (1) US7058569B2 (de)
EP (1) EP1319227B1 (de)
AT (1) ATE357042T1 (de)
AU (1) AU2001290882A1 (de)
DE (1) DE60127274T2 (de)
WO (1) WO2002023523A2 (de)

Families Citing this family (172)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7363232B2 (en) * 2000-08-09 2008-04-22 Thomson Licensing Method and system for enabling audio speed conversion
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
DE60303688T2 (de) * 2002-09-17 2006-10-19 Koninklijke Philips Electronics N.V. Sprachsynthese durch verkettung von sprachsignalformen
KR100486734B1 (ko) 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
EP1849156B1 (de) 2005-01-31 2012-08-01 Skype Verfahren für gewichtetes überlappen-addieren
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070276657A1 (en) * 2006-04-27 2007-11-29 Technologies Humanware Canada, Inc. Method for the time scaling of an audio signal
US8731913B2 (en) * 2006-08-03 2014-05-20 Broadcom Corporation Scaled window overlap add for mixed signals
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8630857B2 (en) * 2007-02-20 2014-01-14 Nec Corporation Speech synthesizing apparatus, method, and program
US9251782B2 (en) * 2007-03-21 2016-02-02 Vivotext Ltd. System and method for concatenate speech samples within an optimal crossing point
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
EP2242045B1 (de) * 2009-04-16 2012-06-27 Université de Mons Verfahren zur Sprachsynthese und Kodierung
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
FR2993088B1 (fr) * 2012-07-06 2014-07-18 Continental Automotive France Procede et systeme de synthese vocale
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
CN102855884B (zh) * 2012-09-11 2014-08-13 中国人民解放军理工大学 基于短时连续非负矩阵分解的语音时长调整方法
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR102746303B1 (ko) 2013-02-07 2024-12-26 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN112230878B (zh) 2013-03-15 2024-09-27 苹果公司 对中断进行上下文相关处理
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (de) 2014-05-30 2019-01-16 Apple Inc. Eingabeverfahren durch einzelne äusserung mit mehreren befehlen
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
WO2017137069A1 (en) * 2016-02-09 2017-08-17 Telefonaktiebolaget Lm Ericsson (Publ) Processing an audio waveform
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108830232B (zh) * 2018-06-21 2021-06-15 浙江中点人工智能科技有限公司 一种基于多尺度非线性能量算子的语音信号周期分割方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4665548A (en) * 1983-10-07 1987-05-12 American Telephone And Telegraph Company At&T Bell Laboratories Speech analysis syllabic segmenter
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
SE9200817L (sv) * 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
WO1996032711A1 (en) * 1995-04-12 1996-10-17 British Telecommunications Public Limited Company Waveform speech synthesis
EP0774152B1 (de) * 1995-06-02 2000-08-23 Koninklijke Philips Electronics N.V. Vorrichtung zur erzeugung kodierter sprachelemente in einem fahrzeug
EP0786132B1 (de) * 1995-08-14 2000-04-26 Koninklijke Philips Electronics N.V. Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme
US5862519A (en) * 1996-04-02 1999-01-19 T-Netix, Inc. Blind clustering of data with application to speech processing systems
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
US6173255B1 (en) * 1998-08-18 2001-01-09 Lockheed Martin Corporation Synchronized overlap add voice processing using windows and one bit correlators

Also Published As

Publication number Publication date
US7058569B2 (en) 2006-06-06
US20020143526A1 (en) 2002-10-03
WO2002023523A3 (en) 2002-06-20
ATE357042T1 (de) 2007-04-15
DE60127274D1 (de) 2007-04-26
AU2001290882A1 (en) 2002-03-26
EP1319227B1 (de) 2007-03-14
EP1319227A2 (de) 2003-06-18
WO2002023523A2 (en) 2002-03-21

Similar Documents

Publication Publication Date Title
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE69932786T2 (de) Tonhöhenerkennung
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE60213653T2 (de) Verfahren und system zur echtzeit-sprachsynthese
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE69826446T2 (de) Stimmumwandlung
DE69811656T2 (de) Stimmentransformation nach einer zielstimme
DE69620399T2 (de) Sprachsynthese
DE69719825T2 (de) Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69617581T2 (de) System und Verfahren zur Bestimmung des Verlaufs der Grundfrequenz
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition