DE60127274T2

DE60127274T2 - Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen

Info

Publication number: DE60127274T2
Application number: DE60127274T
Authority: DE
Inventors: Geert Coorman; Bert Van Coile
Original assignee: Lernout and Hauspie Speech Products NV
Current assignee: Lernout and Hauspie Speech Products NV
Priority date: 2000-09-15
Filing date: 2001-09-14
Publication date: 2007-12-20
Anticipated expiration: 2021-09-15
Also published as: US7058569B2; US20020143526A1; WO2002023523A3; ATE357042T1; DE60127274D1; AU2001290882A1; EP1319227B1; EP1319227A2; WO2002023523A2

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft die Sprachsynthese und insbesondere die Änderung der Sprachgeschwindigkeit gesampelter Sprachsignale und die Verkettung von Sprachsegmenten durch ihr wirksames Zusammenfügen in der Zeit-Domäne.
Hintergrund der Erfindung
Die Sprachsegment-Verkettung wird häufig als Teil von Algorithmen zur Spracherzeugung und -modifikation verwendet. Beispielsweise verketten viele Text-zu-Sprache- (TTS-) Anwendungen vorgespeicherte Sprachsegmente, um synthetisierte Sprache zu erzeugen. Einige Time-Scale-ModIfikations- (TSM-) Systeme zerlegen Eingangsprache auch in kleine Segmente und verbinden die Segmente nach einer erneuten Anordnung wieder miteinander. Verbindungen zwischen Sprachsegmenten sind eine mögliche Quelle für eine Verschlechterung der Sprachqualität. Daher sollten Signaldiskontinuitäten an jeder Verbindung minimiert werden.
Sprachsegmente können entweder in der Zeit-, der Frequenz- oder der Zeit-Frequenz-Domäne verkettet werden. Die vorliegende Erfindung befasst sich mit der Durchführung der Zeit-Domäne-Verkettung (TDC) von digitalen Sprachwellenformen. Eine hoch qualitative Zusammenfügung von digitalen Sprachwellenformen ist bei einer Vielzahl von akustischen Verarbeitungsanwendungen wichtig, die Text-zu-Sprache- (TTS-) Verkettungssysteme wie beispielsweise dasjenige, das beschrieben ist in der US-Patentanmeldung 09/438.603 von G. Coorman et al.; per Funk übertragene Mitteilungen wie beispielsweise beschrieben in L. F. Lamel, J. L. Gauvain, B. Prouts, C. Bouhier & R. Boesch, "Generation and Synthesis of Broadcast Messages", Proc. ESCA-NATO Workshop on Applications of Speech Technology, Lautrach, Deutschland, September 1993; Implementierung von Carrier-Slot-Anwendungen wie beispielsweise beschrieben in US Patent No. 6.052.664 von S. Leys, B. Van Coile und S. Willems; und Time-Scale-Modifikationen (TSM) wie beispielsweise beschrieben in der US-Patentanmeldung 09/776.018, G. Coorman, P. Rutten, J. De Moortel und B. Van Coile, "Time Scale Modification of Digitally Sampled Waveforms in the Time Domain", eingereicht am 2. Februar 2001 umfassen, die alle hier durch Bezugnahme aufgenommen werden.
TDC vermeidet berechnungstechnisch teure Transformationen in andere und aus anderen Domänen und weist den weiteren Vorteil der Beibehaltung intrinsischer Segmentinformationen in der Wellenform auf. Als eine Folge werden für längere Sprachsegmente die natürlichen prosodischen Informationen (die die Mikro-Prosodie enthalten – einen der Schlüsselfaktoren für in hohem Maße natürlich klingende Sprache) in die synthetisierte Sprache übertragen. Ein wichtiges Problem bei TDC ist es, hörbare Wellenformunregelmäßigkeiten, beispielsweise Diskontinuitäten und Übergänge, die in der Nachbarschaft der Zusammenfügung auftreten können, zu vermeiden. Diese werden gemeinhin als "Verkettungsartifakte" bzw. ungewollte Verkettungsänderungen bezeichnet.
Um Verkettungsartefakte zu vermeiden, können zwei Sprachsegmente durch Ausblenden des hinteren Randes des linken Segments und Einblenden des vorderen Randes des rechten Segments vor ihrem Überlappen und Hinzufügen zusammengefügt werden. Mit anderen Worten wird eine glatte Verkettung durch gewichtetes Überlappen und Hinzufügen, eine Technik, die auf dem Gebiet der digitalen Sprachverarbeitung bekannt ist, durchgeführt. Ein solches Verfahren ist in dem US Patent No. 5.490.234 von Narayan offenbart, das durch Bezugnahme hier aufgenommen wird.
Daher hilft eine schnelle und wirksame Synchronisation von Wellenformen dabei, Real-Time-TDC hoher Qualität zu erreichen. Die Länge der betroffenen Sprachsegmente hängt von den Anwendungen ab. Kleine Sprachsegmente (beispielsweise Sprachframes) werden typischerweise bei Zeit-Scale-Modifikations-Anwendungen verwendet, während längere Elemente, beispielsweise Diphone, bei Text-zu-Sprach-Anwendungen verwendet werden, und längere Elemente können sogar bei Domäne-spezifischen Anwendungen, wie beispielsweise Carrier-Slot-Anwendungen verwendet werden.
Einige bekannte Wellenformsynchronisationstechniken befassen sich mit der Wellenformähnlichkeit wie beschrieben in W. Verhelst & M. Roelands, "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speech", ICASSP-93, IEEE International Conference on Acoustics, Speech, and Signal Processing, Seiten 554-557, Band 2, 1993; durch Bezugnahme hier aufgenommen. Nachfolgend werden Wellenform-Synchronisationsverfahren, die bei TDC verwendet werden, die von der Gestalt der Wellenform Gebrauch machen, beschrieben. Diese Art der Synchronisation minimiert Wellenform-Diskontinuitäten in gesprochener Sprache, die auftreten könnten, wenn zwei Sprachwellenformsegmente zusammengefügt werden.
Ein gemeinsames Verfahren der Synthetisierung von Sprache bei Text-zu-Sprache- (TTS-) Systemen besteht in dem Kombinieren von aus aufgezeichneter Sprache extrahierten, digitalen Sprachwellenformsegmenten, die in einer Datenbank gespeichert sind. Diese Segmente werden in der Sprachverarbeitungsliteratur häufig als "Spracheinheiten" bezeichnet. Eine in einem Text-zu-Sprache-Synthesizer verwendete Spracheinheit ist ein Satz, der aus einer Sequenz von Samplings bzw. Abtastungen oder Parametern, die zu Wellenformabtastungen umgewandelt werden können, die aus einem kontinuierlichen Block gesampelter Sprache entnommen werden, und aus einigen begleitenden Merkmalsvektoren (die Informationen wie beispielsweise den Grad der Auffällig keit, den phonetischen Zusammenhang, die Teilung ... enthält) besteht, um beispielsweise das Auswahlverfahren für die Spracheinheiten zu führen. Einige gemeinsame und beschriebene Darstellungen von bei TTS-Verkettungssystemen verwendeten Spracheinheiten sind Frames wie beschrieben in R. Hoory & D. Chazan, "Speech synthesis for a specific speaker based on labeled speech database", 12th International Conference On Pattern Recognition 1994, Band 3, Seiten 146-148, Phone wie beschrieben in A. W. Black, N. Campbell, "Optimizing selection of unit from speech databases for concatenative synthesis", Proc. Eurospeech '95, Madrid, Seiten 581-584, 1995, Diphone wie beschrieben in P. Rutten, G. Coorman, J. Fackrell & B. Van Coile, "Issues in Corpus-based Speech Synthesis", Proc. IEE symposium on state-of-the-art in Speech Synthesis, Savoy Place, London, April 2000, Demi-Phone wie beschrieben in M. Balestri, A. Pacchiotti, S. Quazza, P. L. Salza, S. Sandri, "Choose the best to modify the least: a new generation concatenative synthesis system", Proc. Eurospeech '99, Budapest, Seiten 2291-2294, September 1999, und längere Segmente wie beispielsweise Silben, Worte und Phrasen, wie beschrieben in E. Klabbers, "High-quality speech output generation through advanced phrase concatenation", Proc. of the COST Workshop on Speech Technology in the Public Telephone Network: Where are we today?, Rhodos, Griechenland, Seiten 85-88, 1997, die alle durch Bezugnahme hier aufgenommrn werden.
Ein bekanntes Sprachsyntheseverfahren, das implizit von der Wellenformverkettung Gebrauch macht, ist in einer Veröffentlichung von E. Moulines und F. Charpentier "Pitch Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones", Speech Communication, Band 9, Nr. 5/6, Dezember 1990, Seiten 453-467 beschrieben, die durch Bezugnahme hier aufgenommen wird. Diese Veröffentlichung beschreibt eine als TD-PSOLA (Time-Domain Pitch-Synchronous Over-Lap and Add) bekannte Technik, die für die Prosodie-Manipulierung der Wellenform und Verkettung von Sprachwellenformsegmenten verwendet wird. Ein TD-PSOLA-Synthesizer verkettet Sprachsegmente in Form von Fenstern, die im Augenblick des Glottal- bzw. Stimmritzenverschlusses (GCI) zentriert werden, damit sie eine typische Dauer von zwei Teilungsperioden aufweisen. Einige Techniken sind dazu verwendet worden, den GCI zu berechnen. Unter anderen:

• B. Yegnanarayana und R. N. J. Veldhuis, "Extraction Of Vocal-Tract System Characteristics From Speech Signals", IEEE Transactions on Speech and Audio Processing, Band 6, Seiten 313-327, 1998;
• C. Ma, Y. Kamp & L. Willems, "A Frobenius Norm Approach To Glottal Closure Detection From The Speech Signal", IEEE Transactions on Speech and Audio Processing, 1994;
• S. Kadambe und G. F. Boudreaux-Bartels, "Application Of The Wavelet Transform For Pitch Detection Of Speech Signals", IEEE Transactions on Information Theory, Band 38, Nr. 2, Seiten 917-924,1992;
• R. Di Francesco & E. Moulines, "Detection Of The Glottal Closure By Jumps In The Statistical Properties Of The Signal", Proc. of Eurospeech 1989, Paris, Band 2, Seiten 39-41,1989; die alle durch Bezugnahme hier aufgenommen werden.

Bei der PSOLA-Synthese wird die Diphon-Verkettung durch Überlappung-und-Hinzufügung (d.h. Wellenformvermischung) durchgeführt. Die Synchronisation basiert auf einem einzigen Merkmal, nämlich dem Augenblick des Stimmritzenverschlusses (Teilungsmarker, GCI). Das PSOLA-Verfahren ist schnell und für eine Offline-Berechnung der Teilungsmarker geeignet, was zu einer sehr schnellen Synchronisation führt. Ein Nachteil dieser Technik besteht darin, dass Phasendifferenzen zwischen Segmentgrenzen Wellenform-Diskontinuitäten verursachen und somit zu hörbaren Klicks führen können. Eine Technik, die darauf abzielt, diese Probleme zu vermeiden, ist das MBROLA-Syntheseverfahren, das beschrieben ist in T. Dutoit & H. Leich, "MBR-PSOLA: Text-to-Speech Synthesis Based on an MBE Re Synthesis of the Segments Database", Speech Communication, Band 13, Seiten 435 440, was durch Bezugnahme hier aufgenommen wird. Die MBROLA-Technik vorverarbeitet die Segmente des Verzeichnisses durch Ausgleichung der Teilungsperiode in der gesamten Segmentdatenbank und durch Neueinstellung der Tieffrequenzphasen-Komponenten auf einen vordefinierten Wert. Diese Technik erleichtert die spektrale Interpolation. MBROLA weist die gleiche berechnungstechnische Effizienz wie PSOLA auf, und ihre Verkettung ist glatter. Jedoch lässt MBROLA die synthetisierte Sprache wegen der Neueinstellungen der teilungssynchronen Phase metallischer klingen.
Auf dem Gebiet der auf einem Korpus basierenden Synthese ist kürzlich ein weiteres effizientes Segmentverkettungsverfahren vorgeschlagen worden in Y. Stylianou, "Synchronization of Speech Frames Based on Phase Data with Application to Concatenative SpeechSynthesis", Proceedings of 6th European Conference on Speech Communication and Technology, September 5-9, 1999, Budapest, Ungarn, Band 5, Seiten 2343-2346, was durch Bezugnahme hier aufgenommen wird. Das Stylianou-Verfahren beruht auf der Berechnung des Schwerpunkts. Dieses verfahren ist etwas ähnlich dem Epoche-Abschätzungsverfahren, das für die TD-PSOALA-Synthese verwendet wird, ist jedoch robuster, da es sich nicht auf eine genaue Teilungsabschätzung verlässt.
Eine weitere effiziente Wellenformsynchronisationstechnik, die beschrieben ist in S. Yim & B. I. Pawate,"Computationally Efficient Algorifhm for Time Scale Modification (GLS-TSM)", IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, Seiten 1009-1012, Band 2, 1996, durch Bezugnahme hier aufgenommen, (siehe auch US Patent Nr. 5.749.064) beruht auf einer Kaskade einer globalen Synchronisation mit einer lokalen Synchronisation auf der Grundlage eines Vektors von Signalmerkmalen.
Bei dem Verfahren, das beschrieben ist in B. Lawlor & A. D. Fagan, "A Novel High Quality Efficient Algorithm for Time-Scale Modification of Speech", Proceedings of Eurospeech conference, Budapest, Band 6, Seiten 2785-2788, 1999, das durch Bezugnahme hier aufgenommen wird, werden die größten Spitzen- oder Tälerwerte als Synchronisationskriterium verwendet.
Zusammenfassung der Erfindung
Die vorliegende Erfindung stellt ein digitales Wellenformverkettungssystem nach Anspruch 1 zur Verfügung.
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung ist leichter unter Bezugnahme auf die nachfolgende detaillierte Beschreibung zusammen mit den beigefügten Zeichnungen zu verstehen, in denen:
1 eine allgemeine funktionelle Ansicht der Wellenformsynchronisationseinrichtung zeigt, die in einem Wellenformverketter eingebaut ist.
2 eine allgemeine funktionelle Ansicht der Wellenformsynchronisations- und Vermischungseinrichtung zeigt.
3 die typischen Formen der Einblend- und Ausblendfunktionen zeigt, die bei dem Wellenformvermischungsverfahren verwendet werden.
4 zeigt, wie der Vermischungsanker auf der Grundlage einiger Merkmale des Signals in der Nachbarschaft der Zusammenfügung berechnet wird.
Detaillierte Beschreibung besonderer Ausführungsformen
Vor dem Übergang zu den speziellen Details unserer Erfindung werden einige ihr zugrunde liegende Signalverarbeitungsaspekte erörtert ausgehend von der Theorie, die den Hintergrund der Feststellung der Verkettungspunkte und der Verzerrung bildet, die durch die Verkettung von zwei Sprachsegmenten x₁(n) und x₂(n) verursacht werden. Das Signal nach der Verkettung wird als y(n) beschrieben.
Zur Minimierung der Verkettungsartifakte wird das verkettete Signal y(n) in der Nachbarschaft der Zusammenfügung analysiert. In der Folge entspricht der Index L dem Zeitindex der Zusammenfügung, und es wird auch angenommen, dass die Verzerrung zur linken und zur rechten Seite der Zusammenfügung die gleiche Bedeutung (d.h. die gleiche Gewichtung) haben. Innerhalb des Verkettungsintervalls ist y(n) eine Vermischung aus x₁(n) und x₂(n). Das Signal y(n) in Richtung zu der linken Seite der Verkettungszone entspricht einem Teil des aus x₁(n) extrahierten Segments, und in Richtung zu der rechten Seite der Verkettungszone entspricht es einem Teil des aus x₂(n) extrahierten Segments. Ihre jeweiligen Verkettungspunkte werden als E₁ und E₂ beschrieben. Zur Minimierung der durch die Verkettung verursachten Verzerrung wird ein Verkettungspunkt auf der Grundlage einer Synchronisationsmaßnahme aus einem Satz von potenziellen Verkettungspunkten ausgewählt, die in einem (kurzen) Zeitintervall liegen, das als Optimierungszone bezeichnet wird. Die Optimierungszone befindet sich typischerweise an den Rändern der Sprachsegmente (wo die Verkettung stattfinden sollte).
In einem Abstand D von der linken Seite der Zusammenfügung nach der Verkettung wird ein Kurzzeit- bzw. Short-Tim- (ST-) Fourier-Spektrum Y(ω,L-D) von y(n) erwartet, das stark demjenigen von X₁(ω,E₁-D), dem ST-Fourier-Spektrum von x₁(n) um E₁, stark ähnelt. In gleicher Weise wird an der rechten Seite der Zusammenfügung ein ST-Spektrum Y(ω,L+D) erwartet, das stark X₂(ω,E₂+D), dem ST-Spektrum von x₂(n) um den Zeitindex E₂, ähnelt.
Als Annäherung für die wahrgenommene Qualität kann die spektrale Verzerrung als der mittlere quadratische Fehler zwischen den Spektren definiert werden:
Das bekannte Parsevalsche-Theorem kann dazu verwendet werden, ξ in der Zeit-Domäne neu zu formulieren:
wobei w(n) das Fenster (beispielsweise das Blackman-Fenster) ist, das dazu verwendet wurde, die Kurzzeit-Fourier-Transformation abzuleiten.
Verkettungsartifakte werden durch Minimierung von ξ minimiert (in dem Sinne der kleinsten Quadrate). Die Minimierung der spektralen Verzerrung ξ durch die Bedingung
führt zu einem Ausdruck für das "optimale" verkettete Signal y(n) in der Nachbarschaft von L:
Die Verkettung der zwei Segmente kann somit leicht in der bekannten gewichteten Überlappungs- und Hinzufügungs- (OLA-Darstellung ausgedrückt, wie in D.W. Griffin & J.S. Lim "Signal Estimation From Modified Short-Time Fourier Transform", IEEE Trans. Acoustics, Speech and Signal Processing, Band ASSP-32(2), Seiten 236-243, April 1984 beschrieben ist, was durch Bezugnahme hier aufgenommen wird. Das Überlappungs- und Hinzufügungsverfahren für die Segmentverkettung ist nicht mehr als eine (nicht lineare) Kurzzeit-Überblendung der Sprachsegmente. Die Minimierung der Verzerrung besteht jedoch in der Technik, die die Bereiche der optimalen Überlappung durch geeignete Modifizierung von E₁ und E₂ um einen kleinen Wert in einer Weise findet, dass E₁ und E₂ in ihren jeweiligen Optimierungsintervallen bleiben.
Durch Wahl der Länge des Fensters w(n) gleich 4D+1 kann eine Klasse symmetrischer Fenster (um den Zeitindex n=0) definiert werden, die den Nenner der obigen Gleichung normalisiert: w2(n + D) + w2(n – D) = 1 for n ∈ [–D, D] (3)
Um die Signalkontinuität an den Grenzen der Verkettungszone sicherzustellen, wird w(0)=1 gewählt. Dies bedeutet, dass die wirksame Länge des Fensters w nur 4D-1 Sample lang ist.
Der Ausdruck für das verkettete Signal y(n) kann weiter vereinfacht werden durch Substituieren von (3) in (2):
Die obige Gleichung (4) kann jetzt in dem Ausdruck für die Verzerrung ξ(1) substituiert werden, um y(n) zu eliminieren. Auf diese Weise ist es möglich, den Fehler ausschließlich als eine Funktion der Positionen der linken und rechten Schneidepunkte auszudrücken.
Mit anderen Worten kann die Minimierung der Verkettungsartifakte durch Minimieren des gewichteten mittleren quadratischen Fehlers durchgeführt werden. Dies kann des Weiteren mit Bezug auf die Energie wie folgt erweitert werden:
Die Gleichung (5) kann weiter vereinfacht werden, wenn das Fenster w(n) zu dem nachfolgend angegebenen trigonometrischen Fenster gewählt wird:
wobei w(n) die Normalisierungsbeschränkung (3) erfüllt und sich auf das bekannte Hanning-Fenster bezieht.
Der Fehler kann nun zu dem nachfolgend angegebenen Ausdruck vereinfacht werden:
Die Einblend- und Ausblendfunktionen, die für das Mischen der Wellenform verwendet werden, was sich aus dem Fenster (6) ergibt, sind in 3 dargestellt.
In der obigen Gleichung (7) ist die Minimierung der Verzerrung ξ als Kompromiss zwischen der Minimierung der Energie des gewichteten Segments auf der linken und der rechten Seite der Zusammenfügung (d.h. die ersten zwei Terms) und der Maximierung der Querkorrelation zwischen dem linken und dem rechten gewichteten Segment (dritter Term) dargestellt.
Es sollte beachtet werden, dass die Minimierung der Verzerrung im Sinne des kleinsten mittleren Fehlerquadrats von Interesse ist, weil sie zu einer analytischen Darstellung führt, die Einblick in die Problemlösung gewährt. Die Verzerrung wie hier definiert berücksichtigt Wahrnehmungsaspekte wie Hörmaskierung und uneinheitliche Frequenzempfindlichkeit nicht. In dem Fall, bei dem zwei Wellenformen in der Nachbarschaft ihrer Zusammenfügungspunkte sehr ähnlich sind, ist dann die Minimierung der drei Terms in Gleichung (7) nur äquivalent zu der Maximierung der Querkorrelation (d.h. Wellenformähnlichkeitsbedingung), während dann, wenn die zwei Wellenformsegmente unkorreliert sind, das beste Optimierungskriterium, das gewählt werden kann, die Energieminimierung in der Nachbarschaft der Zusammenfügung ist.
Die Verkettung der ungesprochenen Sprachwellenformsegmente kann nur mittels der Energieminimierung durchgeführt werden, weil die Querkorrelation sehr gering ist. Jedoch sind bei dem Phonemnukleus die meisten ungesprochenen Segmente stationärer Art, was die Minimierung auf der Grundlage der Energie unbrauchbar macht. Eine auf OLA basierende unsynchronisierte Verkettung ist daher für den ungesprochenen Fall geeignet. Andererseits erfordert die Verkettung gesprochener Sprachwellenformen die Minimierung der Energieterms und die Maximierung des Querenergieterms. Gesprochene Sprache hat eine klare quasi-periodische Struktur, und ihre Wellengestalt kann zwischen den Sprachsegmenten verschieden sein, die für die Verkettung verwendet werden. Daher ist es wichtig, den richtigen Ausgleich zwischen der Bedingung der Wellenähnlichkeit und der Bedingung minimaler Energie zu finden.
Die durch Gleichung (7) dargestellte Verzerrung ist als Summe von drei unterschiedlichen Energieterms zusammengesetzt. Die ersten zwei Terms sind Energieterms, während der dritte Term ein "Querenergie"-Term ist. Es ist bekannt, dass die Darstellung der Energie in logarithmischer Weise statt in linearer Weise der menschlichen Wahrnehmungslautstärke besser entspricht. Zur Wichtung der Energieterms in geeigneter, wahrnehmungstechnischer, gleicher Weise kann der Logarithmus dieser Terms individuell verwendet werden.
Zur Vermeidung von Problemen mit möglichen negativen Querkorrelationen kann es nützlich sein, sich mit diesem Ansatz weiter zu befassen. Aus der Mathematik ist es bekannt, dass die Summe von Logarithmen der Logarithmus eines Produktes ist und dass die Subtraktion von Logarithmen dem Logarithmus eines Quotienten entspricht. Mit anderen Worten werden Additionen zu Multiplikationen und Subtraktionen zu Divisionen in der Optimierungsformel. Die Minimierung des Logarithmus einer Funktion, die durch 1 begrenzt ist, ist äquivalent zu der Maximierung der Funktion ohne den log-Operator. Die Minimierung der spektralen Verzerrung in der Log-Domäne entspricht der Maximierung der normalisierten Querkorrelationsfunktion:
Höhrversuche empfehlen, dass die normalisierte Querkorrelation eine sehr gute Maßnahme ist, um die besten Verkettungspunkte E₁ und E₂ zu finden.
Die Verkettung der zwei Segmente kann leicht in der bekannten gewichteten Überlappungs- und Hinzufügungs- (OLA-Darstellung ausgedrückt werden. Das Kurzzeit-Einblenden/Ausblenden von Sprachsegmenten in OLA wird ferner als Wellenformvermischung bezeichnet. Das Zeitintervall, während dessen die Wellenformvermischung stattfindet, wird als Verkettungszone bezeichnet. Nach der Optimierung werden zwei Indizes E₁ ^Opt und E₂ ^Opt erhalten, die als die optimalen Vermischungsanker für das erste bzw. das zweite Wellenformsegment bezeichnet werden.
Um eine Wellenformvermischung mit hoher Qualität zu erreichen, verändern sich die zwei Vermischungsanker E₁ und E₂ während des Optimierungsintervalls in dem hinteren Teil des ersten Wellenformsegments bzw. dem vorderen Teil des zweiten Wellenformsegments derart, dass die spektrale Verzerrung infolge der Vermischung entsprechend einem gegebenen Kriterium minimiert wird; beispielsweise Maximierung der normalisierten Querkorrelation von Gleichung (8). Der hintere Teil des ersten Sprachsegments und der vordere Teil des zweiten Sprachsegments werden derart zeitlich zur Überlappung gebracht, dass die optimalen Vermischungsanker zusammenfallen. Die Wellenformvermischung selbst wird dann durch Überlappung und Hinzufügung, eine auf dem Gebiet der Sprachverarbeitung bekannte Technik, erreicht.
Bei einer repräsentativen Ausführungsform wird der Abstand D von der linken Seite der Zusammenfügung in geeigneter Weise gleich der mittleren Teilungsperiode P gewählt, die aus der Sprachdatenbank abgeleitet wird, von der die Wellenformen x₁(n) und x₂(n) bezogen werden. Die Optimierungszonen, während der sich E₁ und E₂ ändern, weisen ebenfalls die Größenordnung von P auf. Die Rechenlast dieses Optimierungsverfahrens ist von der Samplingrate abhängig und weist die Größenordnung von P³ auf.
Das Ziel der Ausführungsformen der vorliegenden Erfindung ist es, die Rechenlast für die Wellenformverkettung herabzusetzen, während Verkettungsartifakte vermieden werden. Eine Unterscheidung wird zwischen Sprachsynthesesystemen, die auf Verzeichnissen für kleine Sprachsegmente beruhen, wie den herkömmlichen Diphon-Synthezisern wie beispielsweise L&H TTS-3000^TM, und Systemen gemacht, die auf Verzeichnissen für große Sprachsegmente beruhen, wie denjenigen, die bei der auf einem Korpus beruhenden Synthese verwendet werden. Es wird anerkannt, dass digitale Wellenformen, Kurzzeit-Fourier-Transformationen und die Bildung von Fenstern für Sprachsignale in der Audio-Technologie üblich sind.
Repräsentative Ausführungsformen der vorliegenden Erfindung stellen eine robuste und berechnungstechnische wirksame Technik für die Zeitdomäne-Wellenformverkettung von Sprachsegmenten zur Verfügung. Die berechnungstechnische Effizienz wird bei der Synchronisierung von benachbarten Wellenformensegmenten durch Berechnen eines kleinen Satzes von elementaren Wellenformmerkmalen und durch Verwendung derselben zum Auffinden geeigneter Verkettungspunkte erzielt. Diese von der Wellenform abgeleiteten Merkmale können offline berechnet und in Tabellen mäßiger Größe gespeichert werden, die ihrerseits durch den Real-Time- bzw. Echtzeit-Wellenformverketter verwendet werden können. Vor und nach der Verkettung können die digitalen Wellenformen weiter mit verfahren bearbeitet werden, mit denen der Fachmann auf dem Gebiet der Sprach- und Audioverarbeitung vertraut ist. Es ist es verständlich, dass das Verfahren der Erfindung in einer elektronischen Einrichtung durchgeführt wird und die Segmente in der Form digitaler Wellenformen vorgesehen werden, sodass das Verfahren dem Zusammenfügen von zwei oder mehr Eingabewellenformen in eine kleinere Anzahl von Ausgabewellenformen entspricht.
Kombinationsmatrixverfahren für eine polyphone Verkettung auf der Grundlage von kleinen Sprachsegmentverzeichnissen
Sprachsyntheziser mit einer kleiner Plattform, wie die beispielsweise L&H TTS-3000^TM oder TD-PSOLA-Synthese, weisen ein verhältnismäßig kleines Verzeichnis für Sprachsegmente, beispielsweise diphone und triphone Sprachsegmente, auf. Zur Herabsetzung der berechnungstechnischen Komplexität kann eine Kombinationsmatrix, die die optimalen Vermischungsanker E₁ ^Opt und E₂ ^Opt für jede Wellenformkombination enthalten, vorab für alle möglichen Sprachsegment-Kombinationen berechnet werden.
Für die meisten Sprachen enthält eine typische Diphon-Datenbank mehr als 1000 unterschiedliche Segmente. Dies würde mehr als eine Million (= 1000×1000) unterschiedliche Eintragungen in der Kombinationsmatrix erforderlich machen. Eine derartige Matrix ist für Systeme mit kleiner Plattform häufig ungeeignet. Stattdessen ist es möglich, für jedes Phonem separat eine Kombinationsmatrix zu schaffen. Diese Verfahrensweise führt zu einem Satz von Phonem-abhängigen Kombinationsmatrizen, die nur einen Teil des Speichers einnehmen, der erforderlich wäre, um die globale Kombinationsmatrix zu speichern, die für die komplette Wellenformsegment-Datenbank berechnet wird.
Beim Arbeiten in einer Phonem-abhängigen Weise sollte der Ausführung einer Phonem-Substitution Beachtung geschenkt werden. Die Phonem-Substitution ist eine auf dem Gebiet der Sprachsynthese bekannte Technik. Die Phonem-Substitution wird angewendet, wenn bestimmte Phonem-Kombinationen in der Sprachsegment-Datenbank nicht auftreten. Wenn Phonem-Substitutionen auftreten, weisen die Wellenformsegmente, die zu verketten sind, einen anderen phonetischen Gehalt auf, und sind die optimalen Vermischungsanker in den Phonem-abhängigen Kombinationsmatrizen nicht gespeichert. Zur Vermeidung dieses Problems sollte die Substitution vor der Berechnung der Kombinationsmatrizen durchgeführt werden.
Der leichteste Weg hierfür die ist die Offline-Substitution. Die Offline-Substitution reorganisiert die Segment-Nachschlagedatenstrukturen, die die Segmentstichwörter enthalten, in einer solchen Weise, dass das Substitutionsverfahren für den Synthesizer transparent wird. Ein typisches Substitutionsverfahren füllt die leeren Slots in der Segment-Nachschlagedatenstruktur durch neue Sprachsegmentstichwörter, die ein Wellenformsegment in der Datenbank in einer solchen Weise bezeichnen, dass das Wellenformsegment der phonetischen Darstellung des Stichwortes mehr oder weniger ähnlich ist.
Es ist nicht notwendig, Kombinationsmatrizen für ungesprochene Phoneme, wie beispielsweise ungesprochene Reiblaute, zu erstellen. Dies kann des Weiteren zu einer bedeutenden, jedoch sprachabhängigen Einsparung von Speicherplatz führen.
Schnelles Wellenformsynchronisationsverfahren
Die auf einem Korpus beruhende Synthese, wie von P. Rutten, G. Coorman, J. Fackrell & B. Van Coile in "Issues in Corpus-Based Speech Synthesis", Proc. IEEE symposium on State-of-the-Art in Speech Synthesis, Savoy Place, London, April 2000 beschrieben, verwendet große Datenbanken, die typischerweise Hunderttausende von Sprachsegmenten enthalten, um natürlich klingende Sprache hoher Qualität zu synthetisieren. Die Bildung einer Kombinationsmatrix wie oben erörtert ist nicht immer zweckmäßig, weil die Größe der Kombinationsmatrix in einer mehr oder weniger quadratischen Beziehung zu der Größe der Segmentdatenbank steht, während gegenwärtige Hardwareplattformen eine begrenzte Speicherkapazität aufweisen. Die gleichen Anmerkungen gelten für die Time-Scale-Modifikation.
Die Minimierung des Fehlers auf der Grundlage der in Gleichung (7) angegebenen drei Energieterms ist zeitraubend und hängt stark von der Samplingrate ab. Bei einer repräsentativen Ausführungsform der Erfindung wird eine einfachere Technik verwendet, um die optimalen Vermischungsanker zu berechnen. Dies führt zu einer wirksamen Offline-Berechnung sogar für große Sprachdatenbanken. Aus den Gleichungen (7) und (8) ist ersichtlich, dass zwei Aspekte bei dem Verkettungsintervall niedriger Energie und hohe Wellenformähnlichkeit beachtet werden müssen.
Höhrversuche zeigen, dass im Vergleich mit einer nicht-synchronisierten Wellenformvermischung Verkettungsartifakte reduziert werden können, indem eine synchronisierte Wellenformvermischung durchgeführt wird, die nur Bedingungen minimaler Energie berücksichtigt, d.h. indem die Vermischungsanker E₁ und E₂ während der Minimierung der nachfolgend angegebenen Fehlerfunktion ausgewählt werden:
Das oben angegebene Minimierungskriterium behandelt zwei Wellenformen unabhängig (Fehlen des Querterms), was das Verfahren für die Offline-Berechnung möglich macht. Mit anderen Worten wird der erste Vermischungsanker E₁ bestimmt durch Minimierung:
und wird der zweite Vermischungsanker E₂ bestimmt durch Minimierung:
Im Nachfolgenden werden diese als Anker minimaler Energie bezeichnet.
Um die Anker minimaler Energie zu finden, würden die oben angegebenen Terms für unterschiedliche Werte von E₁ und E₂ in dem Optimierungsintervall berechnet. Das ist zeitraubend. Im Allgemeinen sind die zwei Optimierungsintervalle, während der E₁ und E₂ variieren können, konvexe Intervalle. Die Berechnung der gewichteten Energie kann berechnet werden als gleitende gewichtete Energie, und dies ist ein Kandidat für die Optimierung.
x wird als das Signal angenommen, aus dem die gleitende gewichtete Energie zu berechnen ist. Die Wichtung erfolgt mittels einer punktweisen Multiplikation des Signals x mittels eines Fensters. In der unkompliziertesten Weise kann die Berechnung der gewichteten Energie durchgeführt werden als
Dies macht 2(M+1)(N+1) Multiplikationen und 2M(N+1) Additionen erforderlich unter der Annahme, dass das Signal x quadriert und in einem Puffer nur einmal vor der Fensterbildung gespeichert wird, Wenn das Fenster als eine trigonometrische Summe (wie das Hanning-, das Hamming- und das Blackman-Fenster) ausgedrückt werden kann, kann die berechnungstechnische Komplexität drastisch herabgesetzt werden.
Für Verwendung des Hanning-Fensters (d.h. des erhöhten Cosinus-Fensters) als Beispiel gilt:
Dies kann neu geschrieben werden als
Die Berechnung der Energie auf der Grundlage eines erhöhten Cosinus-Fensters wird durch Substituieren von Gleichung (10) in Gleichung (9) erreicht, was führt zu:
Die gewichtete Energie besteht deutlich erkennbar aus zwei Terms: e_n = e_n ^u + e_n ^c; einem ungewichteten Kurzterm der Energie
und einem Energiemodulationsterm
Diese zwei Energiekomponenten können rekursiv berechnet werden. Unter der Annahme, dass e_n ^u bekannt ist, kann der nächste Term e_n+1 ^u als Funktion von e_n ^u berechnet werden:
Eine rekursive Formulierung des Terms der modulierten Energie kann mittels einfacher Mathematik erhalten werden, die auf einigen bekannten trigonometrischen Beziehungen beruht:
Wenn wir
definieren, dann wird die folgende Rekursion erreicht:
Eine rekursive Formulierung für e_n ^s wird durch Anwendung von einigen bekannten trigonometrischen Beziehungen erreicht:
Der Wellenformsynchronisationsalgorithmus, der weiter unten beschrieben wird, benötigt nur die Position der minimalen Energie und einen Vergleich der minimalen Energie des linken Segments mit dem der minimalen Energie des rechten Segments. Daher kann der Faktor 1/2 in der Fensterdefinition (10) weggelassen werden, was zu einfacheren Ausdrücken führt. Daher nehmen wir an, das A der Zeitindex ist, der der gewichteten Energie entspricht. Wir nehmen auch an, dass die Länge des Intervalls, während dessen wir die gewichtete Energie berechnen, N ist. Dies führt zu dem folgenden effizienten Algorithmus: Quadrieren von x im betroffenen Intervall und speichern im Puffer
Algorithmus

uk = x2k k = [A – M, A + N + M]

Komplexität
Null Additionen und N + 2M + 1 Multiplikationen Ausgangswerte berechnen
Algorithmus
eA = euA + ecA
Komplexität
2(3M + 2) Additionen und 2(2M + 1) Multiplikationen Verwenden der nachfolgenden rekursiven Beziehungen zur Berechnung der anderen Werte Algorithmus
Komplexität

7N Additionen und 4N Multiplikationen.

Gesamtkomplexität

7N + 6M + 4 Additionen
5N + 6M + 3 Multiplikationen

N und 2M sind von derselben Größenordnung und viel größer als 10. Dies bedeutet, dass die etwaige Steigerung der berechnungstechnischen Effizienz
ist. Bei 22 kHz mit N=150 erreichen wir einen Steigerungsfaktor der Effizienz von 15.
Leider bleiben einige Verkettungsartifakte hörbar, wenn die Synchronisation ausschließlich auf den Ankern der minimalen Energie beruht, weil die Wellenformähnlichkeit vollständig vernachlässigt wird. Diesem Problem kann durch Einführen eines zweiten Optimierungskriteriums begegnet werden, dass eine Wellenformenähnlichkeit einbaut und daher die Verkettungsartifakte weiter herabsetzt.
Bei einer repräsentativen Ausführungsform wird die Zeitposition des größten Spitzen- oder Tälerwertes der tiefpass-gefilterten Wellenform in der örtlichen Nachbarschaft der Zusammenfügung bei dem Wellenformähnlichkeitsverfahren verwendet. Dieses Wellenformähnlichkeitsverfahren kann das linke und das rechte Signal auf der Grundlage der Position des größten Spitzenwertes statt der Verwendung eines teuren Querkorrelationkriteriums synchronisieren. Das Tiefpassfilter dient dazu, die Aufnahme von unechten Signalspitzenwerten zu vermeiden, die sich von dem Spitzenwert unterscheiden können, der den (niedrigeren) Oberschwingungen entspricht, die den größten Beitrag zu der Signalstärke der gesprochenen Sprache leisten. Die Größenordnung des Tiefpassfilters ist mäßig bis niedrig und hängt von der Samplingrate ab. Das Tiefpassfilter kann beispielsweise als ein multiplikationsfreier Null-Phasen-Summenbilder mit neun Zapfstellen für mit einer Samplingrate von 22 kHz aufgezeichnete Sprache sein.
Die Entscheidung, eine Synchronisation bei dem größten Spitzen- oder Tälerwert durchzuführen, hängt von der Polarität der aufgezeichneten Wellenformen ab. In den meisten Sprachen wird gesprochene Sprache während des Ausatmens erzeugt, was zu einem unidirektionalen Stimmritzen-Luftstrom führt, der eine konstante Polarität der Sprachwellenformen verursacht. Die Polarität der gesprochenen Sprachwellenform kann durch Untersuchung der Richtung der Impulse des inversen, gefilterten Sprachsignals (d.h. des Restsignals) festgestellt werden und kann häufig auch durch Untersuchung der Sprachwellenform erkennbar sein. Die Polarität von irgendwelchen zwei Sprachaufzeichnungen ist trotz des nicht gegebenen unveränderlichen Charakters der Sprache die gleiche, solange bestimmte Aufzeichnungsbedingungen die gleichen bleiben, unter anderem: die Sprache wird stets beim Ausatmen erzeugt, und die Polarität der elektrischen Aufzeichnungseinrichtung ist zeitlich gesehen unverändert.
Um eine optimale Wellenformähnlichkeit (d.h. maximale Querkorrelation) zu erreichen, sollten die Wellenformen der zu verkettenden gesprochenen Segmente, die gleiche Polarität aufweisen. Wenn jedoch die Aufzeichnungseinrichtungseinstellungen, die die Polaritätsänderung im Laufe der Zeit steuern, ist es noch möglich, die aufgezeichneten Sprachwellenformen, die durch eine Polaritätsänderung beeinträchtigt werden, durch Multiplizieren der Samplingwerte mit minus eins derart zu transformieren, dass ihre Polarität für alle Aufzeichnungen die gleiche ist.
Hörversuche zeigen, dass die besten Verkettungsergebnisse durch Synchronisation auf der Grundlage der größten Spitzenwerte erreicht werden, wenn die größten Spitzenwerte eine höhere Durchschnittsgröße als die tiefsten Täler aufweisen (dies wurde bei vielen unterschiedlichen Sprachsignalen beobachtet, die mit der gleichen Einrichtung und mit gleichen Aufzeichnungsbedingungen aufgezeichnet worden sind, beispielsweise in einer Sprachdatenbank eines einzigen Sprechers). In dem anderen Fall werden die niedrigsten Täler für die Synchronisation in Betracht gezogen. Im Nachfolgenden werden diese Spitzen- oder Tälerwerte, die für die Synchronisation verwendet werden, als Synchronisationsspitzenwerte bezeichnet. (Die Täler werden dann als negative Spitzenwerte betrachtet.) Hörversuche zeigen des Weiteren, dass die Wellenformsynchronisation auf der Grundlage der Positionen der Synchronisationsspitzenwerte allein zu einer wesentlichen Verbesserung im Vergleich zu einer unsynchronisierten Verkettung führt. Eine weitere Verbesserung der Verkettungsqualität kann durch Kombinieren der Anker minimaler Energie mit den Synchronisationsspitzenwerten erreicht werden.
4 zeigt das linke Sprachsegment in der Nachbarschaft der Zusammenfügung J. Die Zusammenfügung J identifiziert ein Intervall, während dessen eine Verkettung stattfinden kann. Die Länge dieses Intervalls ist typischerweise eine solche in der Größenordnung einer oder mehrerer Teilungsperioden und wird häufig als eine Konstante betrachtet. In 4 sind die gewichtete Energie, das tiefpass-gefilterte Signal und das gewichtete Signal (Ausblenden) ebenfalls dargestellt. Aus Gründen der Deutlichkeit sind die Signale maßstäblich unterschiedlich dargestellt. 4 hilft bei dem Verständnis des Verfahrens des Bestimmens der Anker des linken Segments. Der Zeitindex D bezeichnet die Position der minimalen gewichteten Energie in der Nachbarschaft der Zusammenfügung J. Dies ist der so genannte Anker minimaler Energie wie oben definiert. In diesem besonderen Fall wird angenommen, dass der erste Vermischungsanker als der Anker minimaler Energie verwendet wird (eine detailliertere Erörterung der Auswahl des Ankers ist in den nachfolgenden Algorithmusbeschreibungen zu finden).
Bei einer repräsentativen Ausführungsform wird angenommen, dass die Mitte der Verkettungszone dem Vermischungsanker D entspricht. Der Zeitindex A in 4 entspricht dem Beginn der Verkettungszone (d.h. des Ausblendintervalls), und der Zeitindex B bezeichnet das Ende der Verkettungszone. D entspricht A plus dem halben Ausblendintervall. Dies ist jedoch für diese Erfindung keine strikte Bedingung. (Beispielsweise kann eine Ausblendfunktion, die sich von 0,5 in ihrer Mitte unterscheidet, zu unterschiedlichen Positionen des Ausblendintervalls in Hinblick auf den Vermischungsanker führen.) C ist der Zeitindex, der dem Synchronisationsspitzenwert in der Nachbarschaft des Ankers minimaler Energie entspricht. Die Synchronisation macht es erforderlich, dass die Synchronisationsspitzenwerte von zwei benachbarten Segmenten zusammenfallen, wenn die Wellenformen in den Einblend- und Ausblend-Zonen einander überlappen. Wenn der Synchronisationsspitzenwert für das rechte Segment durch C' gegeben ist, erfordert dann die Synchronisation, dass für den Vermischungsanker für das rechte Segment gilt D' = C' – (C – D). Der sich ergebende Vermischungsanker D' definiert die Position des Einblendintervalls des rechten Segments. Das Einblend- und das Ausblendintervall weisen die gleiche Länge auf, da sie während der Wellenformvermischung zur Bildung der Verkettungszone einander überlappen.
Es wird angenommen, dass die linke und die rechte Optimierungszone für die beiden Segmente vorab bekannt sind oder dass sie durch die Anwendung gegeben werden, die die Segmentverkettung verwendet. Beispielsweise entspricht in einem Diphon-Synthesizer die Optimierungszone der linken (d.h. der ersten) Wellenform dem Bereich (typischerweise in dem Nukleusteil des rechten Phonems des Diphons), wo das Diphon geschnitten werden kann, und entspricht die Optimierungszone für die rechte (d.h. die zweite) Wellenform der Position des linken Phonems des rechten Diphons, wo das Diphon geschnitten werden kann. Diese Schneidestellen werden typischerweise mit Hilfe von (sprachabhängigen) Regeln oder mit Hilfe von Signalverarbeitungstechniken bestimmt, die beispielsweise nach der Unveränderlichkeit suchen. Die Schneidestellen für die TSM-Anwendung werden in einer unterschiedlichen Weise durch Schneiden der Sprache in kurze (typischerweise äquidistante) Frames der Sprache erhalten.
Die Durchführung des Synchronisationsalgorithmus zum Verketten eines linken und eines rechten Wellenformsegments besteht aus den nachfolgend angegebenen Schritten:

1. Suchen in der Optimierungszone, die sich im hinteren Teil des linken Wellenformsegments befindet, und in der Optimierungszone, die sich im vorderen Teil des rechten digitalen Wellenformsegments befindet, nach den Ankern minimaler Energie; beispielsweise unter Verwendung des oben beschriebenen effizienten Berechnungsalgorithmus für die sich verschiebende gewichtete Energie. Die Optimierungszone ist vorzugsweise ein konvexes Intervall um die Zusammenfügung herum, dessen Länge mindestens einer Teilungsperiode entspricht.
2. Auf der Grundlage des linken und des rechten tiefpassgefilterten Sprachsignals wird nach den zwei Synchronisationsspitzenwerten in der (engen) Nachbarschaft der zwei Anker minimaler Energie, die in Schritt 1 erhalten wurden, gesucht. Die "Nachbarschaft" eines Ankers minimaler Energie entspricht einem konvexen Intervall, das den Anker minimaler Energie enthält und dessen Länge vorzugsweise mindestens einer Teilungsperiode entspricht. Eine typische Wahl der "Nachbarschaft" könnte beispielsweise das Optimierungsintervall sein.
3. Ein erster Vermischungsanker wird als Anker minimaler Energie gewählt, der der niedrigsten Energie entspricht. Diese Wahl minimiert eine der Bedingungen minimaler Energie. Der andere Vermischungsanker, der in dem anderen Sprachwellenformsegment vorhanden ist, wird in einer solchen Weise gewählt, dass die Synchronisationsspitzenwerte zusammenfallen, wenn die Wellenformen in der Verkettungszone vor dem Vermischen einander (teilweise) überlappen.

Obwohl weniger optimal kann der Algorithmus auch funktionieren, wenn die Synchronisation den Wert der minimalen gewichteten Energie der zwei Anker minimaler Energie (wie in Schritt 3 beschrieben) nicht berücksichtigt. Dies entspricht einer blinden Zuordnung eines Ankers minimaler Energie zu dem Vermischungsanker. Bei dieser Verfahrensweise wird ein (der linke oder der rechte) Anker minimaler Energie systematisch als Vermischungsanker gewählt. In diesem Fall ist die Berechnung des anderen Ankers minimaler Energie überflüssig und kann somit entfallen.
Bei einer repräsentativen Ausführungsform wird die Länge der Verkettungszone als maximale Teilungsperiode der Sprache eines gegebenen Sprechers verwendet; jedoch ist es nicht notwendig, so zu verfahren. Man könnte stattdessen beispielsweise das Maximum der lokalen Teilungsperiode des ersten Segments und der lokalen Teilungsperiode des zweiten Segments eines größeren Intervalls verwenden.
Bei einer anderen Variante des schnellen Synchronisationsalgorithmus können die Funktionen des Synchronisationsspitzenwertes und die Anker minimaler Energie vertauscht werden:

1. Suchen in der Optimierungszone, die sich im hinteren Teil des linken Wellenformsegments befindet, und in der Optimierungszone, die sich im vorderen Teil des rechten digitalen Wellenformsegments befindet, nach den Synchronisationsspitzenwerten, die auf dem linken und dem rechten tiefpass-gefilterten Sprachwellenformsegment beruhen.
2. Nach den zwei Ankern minimaler Energie wird in der (engen) Nachbarschaft der zwei Synchronisationsspitzenwerte, die in Schritt 1 erhalten wurden, gesucht. Die nahe "Nachbarschaft" eines Synchronisationsspitzenwerts entspricht einem konvexen Intervall, das den Synchronisationsspitzenwert enthält und dessen Länge vorzugsweise länger als eine Teilungsperiode ist. Eine typische Wahl der "Nachbarschaft" könnte beispielsweise das Optimierungsintervall sein.
3. Ein erster Vermischungsanker wird als Anker minimaler Energie gewählt, der der niedrigsten Energie entspricht. Diese Wahl minimiert eine der Bedingungen minimaler Energie. Der andere Vermischungsanker, der in dem anderen Sprachwellenformsegment vorhanden ist, wird in einer solchen Weise gewählt, dass die Synchronisationsspitzenwerte zusammenfallen, wenn die Wellenformen in der Verkettungszone vor dem Vermischen einander teilweise überlappen.

Analog zur obigen Erörterung kann der Algorithmus auch funktionieren, wenn die Synchronisation den Wert der minimalen gewichteten Energie, die den zwei Ankern minimaler Energie (wie in Schritt 3 beschrieben) entspricht, nicht berücksichtigt. Dies entspricht einer blinden Zuordnung eines Ankers minimaler Energie zu einem Vermischungsanker. Bei dieser Verfahrensweise wird ein (der linke oder der rechte) Anker minimaler Energie systematisch als Vermischungsanker gewählt. Dies bedeutet, dass in diesem Fall die Berechnung des anderen Ankers minimaler Energie überflüssig ist und somit entfallen kann.
Bei den oben beschriebenen Algorithmen können einige Alternativen für den Synchronisationsspitzenwert verwendet werden, beispielsweise der maximale Spitzenwert der Ableitung des tiefpass-gefilterten Sprachsignals oder der maximale Spitzenwert des tiefpass-gefilterten Restsignals, das nach LPC-inverser Filterung erhalten wird.
Ein Funktionsdiagramm des Sprachwellenformverketters ist in 2 dargestellt, das den Synchronisations- und den Vermischungsvorgang zeigt. Ein Teil des hinteren Randes des linken (ersten) Wellenformsegments, das größer als die Optimierungszone ist, ist in einem Puffer 200 gespeichert. Der Teil des vorderen Randes des zweiten Wellenformsegments einer Größe, die größer als die Optimierungszone ist, ist in einem zweiten Puffer 201 gespeichert.
Bei einer Ausführungsform der Erfindung wird der Anker minimaler Energie der Wellenform in dem Puffer 200 in einem Detektor 210 für minimale Energie berechnet, und diese Informationen wird an einen Wellenform-Vermischer/Synchronisator 240 zusammen mit dem Wert der minimalen gewichteten Energie an dem Anker minimaler Energie weitergegeben. Analog führt ein Detektor 211 für minimale Energie eine Suche durch, um den Ankerpunkt minimaler Energie der in dem Puffer 201 gespeicherten Wellenform festzustellen, und gibt diesen zusammen mit dem entsprechenden gewichteten Energiewert an den Wellenform-Vermischer/Synchronisator 240 weiter. (Bei einer anderen Ausführungsform der Erfindung wird nur einer der zwei Detektoren 210 oder 211 für minimale Energie verwendet, um den ersten Vermischungsanker auszuwählen.) Für einige Anwendungen, beispielsweise TTS, kann die Position der Anker minimaler Energie offline gespeichert werden, was zu einer schnelleren Synchronisation führt. Im letztgenannten Fall ist die Verfahrensweise der Feststellung minimaler Energie äquivalent zu dem Nachschlagen in einer Tabelle.
Als Nächstes wird die Wellenform des Puffers 200 mit einer Null-Phasen-Filter 220 tiefpass-gefiltert, um eine andere Wellenform zu erzeugen. Diese neue Wellenform wird dann einer Spitzenwertauswahlsuche 230 unter Berücksichtung der Polarität der Wellenformen (wie oben beschrieben) unterzogen. Diese Position des maximalen Spitzenwertes wird an den Wellenform-Vermischer/Synchronisator 240 weitergegeben. An dem Signal des Puffers 201 werden die gleichen Verarbeitungsschritte mittels des Null-Phasen Tiefpassfilters 221 und des Spitzenwertdetektors 231 durchgeführt, was zu der Position des anderen Synchronisationsspitzenwertes führt. Diese Position wird an den Wellenform-Vermischer/Synchronisator 240 weitergegeben.
Wie oben beschriebenen wählt der Wellenform-Vermischer/Synchronisator 240 einen ersten Vermischungsanker auf der Grundlage der Energiewerte oder auf der Grundlage irgendeiner heuristischen Methode und einen zweiten Vermischungsanker auf der Grundlage des Ausrichtungszustands der Synchronisationsspitzenwerte. Der Wellenform-Vermischer/Synchronisator 240 bringt das Ausblendintervall des linken (ersten) Wellenformsegments und den Einblendbereich des rechten (zweiten) Wellenformsegments, die aus den Puffern 200 und 201 erhalten werden, vor ihrem Wichten und Hinzufügen zur Überlappung. Das Wichtungs- und Hinzufügungsverfahren ist auf dem Gebiet der Sprachverarbeitung bekannt und wird häufig als gewichtete Überlappung- und Hinzufügungsverarbeitung bezeichnet.
Speicherung von Merkmalen
Aufgrund der hohen berechnungstechnischen Effizienz des verwendeten Synchronisationsalgorithmus ist es für viele Anwendungen nicht notwendig, dass die in dem Synchronisationsverfahren verwendeten Parameter offline berechnet und gespeichert werden. Jedoch könnte es in einigen kritischen Fällen von Nutzen sein, einen oder mehrere Synchronisationsparameter zu speichern. Im Allgemeinen werden die Anker minimaler Energie wegen der großen Steigerung der berechnungstechnischen Effizienz und wegen ihrer Unabhängigkeit von der benachbarten Wellenform gespeichert. Beispielsweise kann bei einem TTS-System die berechnungstechnische Last durch Speicherung dieser Merkmale in Tabellen verringert werden. Die meisten TTS-Systeme verwenden eine Tabelle mit Diphon- oder Polyphongrenzen, um die geeigneten Segmente abzurufen. Es ist möglich, diese Tabelle polyphoner Grenzen zu "korrigieren", indem die Grenzen durch ihren nächstliegenden Anker minimaler Energie ersetzt werden. In dem Fall eines TTS-System macht diese Vorgehensweise keine zusätzliche Speicherung notwendig, und setzt sie die CPU-Last für die Synchronisation erheblich herab. Bei einigen Hardwaresystemen könnte es jedoch von Nutzen sein, die in engster Nachbarschaft liegenden Synchronisationsanker statt der in engster Nachbarschaft liegenden Anker minimaler Energie zu speichern.

Claims

Digitales Wellenformverkettungssystem zum Gebrauch in einer akustischen Verarbeitungsanwendung, wobei das System gekennzeichnet ist durch: eine Einheit (130) zur Bereitstellung von digitalen Wellenformen, welche zur Erzeugung einer Eingabesequenz von zumindest zwei digitalen Wellenformsegmenten ausgebildet ist, wobei jedes Wellenformsegment eine Sequenz von Mustern ist; und einen Wellenformverketter (100), der zur Synchronisation, Gewichtung und überlappender Addition von ausgewählten Abschnitten der Eingabesegmente ausgebildet ist, um die Eingabesegmente unter Verwendung von Wellenformvermischung innerhalb einer Verkettungszone zur Erzeugung einer einzelnen digitalen Wellenform zu verketten; dadurch gekennzeichnet, dass der Verketter (100) zur Synchronisation der ausgewählten Abschnitte der Eingabesegmente ausgebildet ist, basierend auf Ausrichtung: (i) von Ankern mit minimaler Energie in jedem Eingabesegment, wobei jede Stelle des Ankers mit minimaler Energie auf Grundlage einer Festlegung von minimaler gewichteter Energie in dem ausgewählten Abschnitt optimiert ist; und (ii) eines größten Wellenformspitzenwertes oder -trogs in der nächsten Nachbarschaft eines jeden Ankers mit minimaler Energie.
Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Text-zu-Sprache-Anwendung aufweist.
Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Sprachübertragungs- bzw. Speech-Broadcast-Anwendung aufweist.
Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Carrier-Slot-Anwendung aufweist.
Verkettungssystem nach Anspruch 1, wobei die akustische Verarbeitungsanwendung eine Zeitskalenmodifikations- bzw. Time-Scale-Modification-Anwendung aufweist.
Verkettungssystem nach Anspruch 1, wobei die Wellenformsegmente zumindest einen von Sprachdiphonen und Sprachtriphonen aufweisen.
Verkettungssystem nach Anspruch 1, wobei die Wellenformsegmente zumindest einen von Sprachphonen und Sprachhalbphonen aufweisen.
Verkettungssystem nach Anspruch 1, wobei die Wellenformsegmente zumindest eins von Sprachhalbsilben, Sprachsilben, Worten und Phrasen aufweisen.
Verkettungssystem nach Anspruch 1, wobei der Verketter (100) zur Festlegung von minimaler gewichteter Energie in dem ausgewählten Abschnitt einschließlich einer Verwendung eines gleitenden Rechenalgorithmus für gewichete Energie ausgebildet ist.
Verkettungssystem nach Anspruch 1, welches zur Filterung der Eingabesegmente vor einer Synchronisation ausgebildet ist.
Verkettungssystem nach Anspruch 1, wobei die nächste Nachbarschaft ein Intervall von zumindest einer Teilungs- bzw. Pitch-Periode ist, welche den Anker mit minimaler Energie aufweist.
Verkettungssystem nach Anspruch 1, wobei die nächste Nachbarschaft der ausgewählte Abschnitt des Eingabesegmentes ist.
Verkettungssystem nach Anspruch 1, wobei die Stelle des Ankers mit minimaler Energie die Stelle mit der geringsten gewichteten Energie in dem ausgewählten Abschnitt ist.
Verkettungssystem nach Anspruch 13, wobei eine weitere Stelle eines Ankers mit minimaler Energie so ausgewählt ist, dass der vorherige festgelegte Wellenformspitzenwert oder -trog in jedem ausgewählten Abschnitt übereinstimmt, wenn die Eingabesegmente überlappend addiert sind.