[go: up one dir, main page]

DE68912692T2 - Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. - Google Patents

Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.

Info

Publication number
DE68912692T2
DE68912692T2 DE68912692T DE68912692T DE68912692T2 DE 68912692 T2 DE68912692 T2 DE 68912692T2 DE 68912692 T DE68912692 T DE 68912692T DE 68912692 T DE68912692 T DE 68912692T DE 68912692 T2 DE68912692 T2 DE 68912692T2
Authority
DE
Germany
Prior art keywords
signals
parameter
sound source
primary
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE68912692T
Other languages
English (en)
Other versions
DE68912692D1 (de
Inventor
Kazunori Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP63237727A external-priority patent/JP2992998B2/ja
Priority claimed from JP63316040A external-priority patent/JPH02160300A/ja
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Application granted granted Critical
Publication of DE68912692D1 publication Critical patent/DE68912692D1/de
Publication of DE68912692T2 publication Critical patent/DE68912692T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die Erfindung betrifft ein Kommunikationssystem mit einer Codiereinrichtung zum Codieren einer Folge digitaler Sprachsignale in einen Satz von Anregungsimpulsen und/oder eine mit der Codiereinrichtung verbindbare Decodiereinrichtung.
  • Es ist bekannt, daß ein herkömmliches Kommunikationssystem des beschriebenen Typs dazu geeignet ist, ein Sprachsignal bei einer niedrigen Übertragungs-Bitgeschwindigkeit, wie beispielsweise 4.8 kb/s, von einem Sendeende zu einem empfängerseitigen Ende zu übertragen. Das Sendeende und das empfängerseitige Ende weisen eine Codiereinrichtung bzw. eine Decodiereinrichtung auf, bei denen die Sprachsignale auf eine nachstehend ausführlicher beschriebene Weise codiert bzw. decodiert werden. Es wurden mehrere derartige Systeme vorgeschlagen, um die in der Decodiereinrichtung reproduzierte Sprachqualität zu verbessern und die Übertragungs-Bitgeschwindigkeit zu verringern.
  • Unter anderem wurden in der JP-A-61-15000 und der JP-A- 62-038500, die als erste bzw. zweite Quellenangabe bezeichnet werden können, ein Tonhöheninterpolation-Mehrfachimpulssystem vorgeschlagen. Bei diesem Tonhöheninterpolation- Mehrfachimpulssystem wird der Codiereinrichtung bei jedem Block von beispielsweise 20 Millisekunden eine Folge digitaler Sprachsignale zugeführt, wobei die Codiereinrichtung einen Spektrumparameter und einen Tonhöhenparameter extrahiert, die als erster bzw. zweiter primärer Parameter bezeichnet werden. Der Spektrumparameter stellt eine Spektrum- Hüllenkurve eines durch die digitale Sprachsignalfolge bestimmten Sprachsignals dar, während der Tonhöhenparameter die Tonhöhe des Sprachsignals darstellt. Anschließend wird die digitale Sprachsignalfolge in einen stimmhaften Laut und einen stimmlosen Laut klassifiziert, die für eine stimmhafte bzw. eine stimmlose Zeitdauer andauern. Außerdem wird die digitale Sprachsignalfolge bei jedem Block in mehrere Tonhöhenperioden unterteilt, die jeweils als Unterblöcke bezeichnet werden können. Bei diesen Verhältnissen wird in der Codiereinrichtung eine Funktion ausgeführt, bei der ein Satz von Anregungsimpulsen berechnet wird, die ein durch die digitale Sprachsignalfolge bestimmtes Lautquellensignal darstellen.
  • Im einzelnen wird das Lautquellensignal für die stimmhafte Zeitdauer durch den Satz von Anregungsimpulsen dargestellt, der bezüglich einer ausgewählten Tonhöhenperiode berechnet wird, die als repräsentative Zeitdauer bezeichnet werden kann. D.h., daß jeder Satz von Anregungsimpulsen aus intermittierenden Unterblöcken extrahiert wird. Daraufhin werden die Amplitude und der Ort jedes Anregungsimpulses zusammen mit dem Spektrum- und dem Tonhöhenparameter vom Sendeende an das empfängerseitige Ende übertragen. Andererseits wird ein Lautquellensignal eines einzelnen Blocks für die stimmlose Zeitdauer durch eine kleine Anzahl von Anregungsimpulsen und ein Rauschsignal dargestellt. Anschließend wird ein Lautquellensignal eines einzelnen Blocks für die stimmlose Zeitdauer zusammen mit der Verstärkung und dem Index des Rauschsignals übertragen. Die Amplituden und die Orte der Anregungsimpulse, der Spektrum- und der Tonhöhenparameter sowie die Verstärkungen und die Indizes der Rauschsignale werden als eine Folge von Ausgangssignalen vom Sendeende an ein empfängerseitiges Ende mit einer Decodiereinrichtung übertragen.
  • Am empfängerseitigen Ende wird der Decodiereinrichtung die Ausgangssignalfolge als eine Folge von Empfangssignalen zugeführt, die die mit den aus den Blöcken extrahierten Sätzen von Anregungsimpulsen verbundene Information tragen. Es wird ein aktueller Satz von Anregungsimpulsen betrachtet, der aus einer repräsentativen Zeitdauer eines aktuellen Blocks extrahiert wird, sowie ein folgender Satz von Anregungsimpulsen, der aus einer repräsentativen Zeitdauer eines dem aktuellen Block folgenden Blocks extrahiert wird. In diesem Fall wird die Interpolation für die stimmhafte Zeitdauer unter Verwendung der Amplituden und der Orte des aktuellen und des folgenden Satzes der Anregungsimpulse durchgeführt, um die Anregungsimpulse in den übrigen Unterblöcken, außer den repräsentativen Zeitdauern, zu rekonstruieren und eine Folge von Lautquellentreibsignalen für jeden Block zu reproduzieren. Andererseits wird eine Folge von Lautquellentreibsignalen für jeden Block für eine stimmlose Zeitdauer unter Verwendung von Indizes und Verstärkungen der Anregungsimpulse und der Rauschsignale reproduziert.
  • Anschließend werden die so reproduzierten Lautquellentreibsignale einem durch die Verwendung eines Spektrumparameters gebildeten Synthesefilter zugeführt und in ein sythetisiertes Lautsignal synthetisiert.
  • Durch diesen Aufbau wird jeder Satz der Anregungsimpulse in der Codiereinrichtung aus jedem Block intermittierend extrahiert und durch ein Interpolationsverfahren in der Decodiereinrichtung in das synthetisierte Lautsignal reproduziert. Durch das intermittierende Extrahieren der Anregungsimpulse wird das Reproduzieren des Lautquellentreibsignals in der Decodiereinrichtung an einem Übergangsabschnitt, bei dem die Kennlinie des Lautquellensignals sich ändert, schwierig. Ein derartiger Übergangsabschnitt tritt auf, wenn ein Vokal bei einer Verkettung von Vokalen sich in einen anderen Vokal ändert, oder wenn ein stimmhafter Laut in einen anderen stimmhaften Laut übergeht. In einem Block, der einen derartigen Übergangsabschnitt aufweist, unterscheidet sich das durch die Verwendung des Interpolationsverfahrens reproduzierte Lautquellentreibsignal wesentlich von aktuellen Lautquellensignalen, was zu einer Qualitätsverschlechterung des synthetisierten Lautsignals führt.
  • Außerdem ist das vorstehend erwähnte Tonhöheninterpolation-Mehrfachimpulssystem dazu geeignet, die Lautquellensignale bequem darzustellen, wenn die Lautquellensignale eine eindeutige Periodizität besitzen. Die Lautquellensignale haben jedoch an einem Nasalabschnitt innerhalb der stimmhaften Zeitdauer praktisch keine eindeutige Periodizität. Daher ist es schwierig, die Lautquellensignale an einem Nasallautabschnitt durch das Tonhöheninterpolation-Mehrfachimpulssystem korrekt bzw. vollständig darzustellen.
  • Andererseits wurde durch Wahrnehmungsexperimente bestätigt, daß der Übergangsabschnitt und der Nasallautabschnitt zur Wahrnehmung von Phonemen und zur Wahrnehmung der Natürlichkeit bzw. des natürlichen Gefühls sehr wichtig sind. Daher ist es verständlich, daß ein natürlicher Laut für die stimmhafte Zeitdauer aufgrund einer unvollständigen Reproduzierung des Übergangs- und des Nasallautabschnitts durch das herkömmliche Tonhöheninterpolation-Mehrfachimpulssystem nicht reproduziert werden kann.
  • Darüber hinaus werden die Lautquellensignale, wie vorstehend beschrieben, durch eine Kombination der Anregungsimpulse und der Rauschsignale für die stimmlose Zeitdauer im vorstehend erwähnten System dargestellt. Es ist bekannt, daß die Lautquelle eines Reibelauts ebenfalls durch ein Rauschsignal dargestellt wird, wenn während der stimmhaften Zeitdauer ein Konsonant auftritt. D.h., daß es schwierig ist, ein synthetisiertes Lautsignal mit hoher Güte zu reproduzieren, wenn die Sprachsignale in zwei Lautarten klassifiziert werden, wie beispielsweise in stimmhafte und stimmlose Laute.
  • Der Spektrumparameter für eine Spektrum-Hüllenkurve wird in einer Codiereinrichtung im allgemeinen durch das Analysieren der Sprachsignale durch Verwendung eines LPC- Verfahrens der Sprachsynthese berechnet und in einer Decodiereinrichtung verwendet, um einen Synthesefilter zu bilden. Der Synthesefilter wird daher durch den Spektrumparameter gebildet, der unter Verwendung des LPC-Verfahrens erhalten wird, und besitzt eine durch die Spektrum-Hüllenkurve bestimmte Filterkennlinie. Bei der Analyse von weiblichen Lauten, insbesondere bei "i" bzw. "u" durch das LPC-Verfahren zeigt sich, daß in einer Grundschwingung und ihren Oberwellen einer Tonhöhenfrequenz ein nachteiliger Einfluß auftritt. Daher ist die Bandbreite des Senthesefilters schmaler als eine praktische Bandbreite, die durch eine Spektrum-Hüllenkurve praktischer Sprachsignale bestimmt ist. Insbesondere wird die Bandbreite des Synthesefilters wesentlich schmaler in einem Frequenzband, das dem ersten Formant- Frequenzband entspricht. Daher tritt in einem reproduzierten Lautquellensignal keine Periodizität einer Tonhöhe auf. Deshalb wird die Sprachqualität des synthetisierten Lautsignals unvorteilhaft verschlechtert, wenn die Lautquellensignale durch die Anregungsimpulse dargestellt werden, die unter Voraussetzung der Periodizität der Lautquellensignale unter Verwendung des Interpolationsverfahrens extrahiert werden.
  • In einem Beitrag von S. Uno et al.: "2.4 kbps pitch interpolation multi-pulse speech coding" (Seite 752 ff) zur IEEE/IEICE-Konferenz, Tokyo, 15-18. November 1987 wird eine Codiereinrichtung gemäß der Präambel von Patentanspruch 1 beschrieben.
  • Es ist eine Aufgabe der Erfindung, ein Kommunikationssystem bereitzustellen, durch das die Sprachqualität verbessert werden kann, wenn digitale Sprachsignale an einem Sendeende codiert und an einem empfängerseitigen Ende reproduziert werden.
  • Ferner wird ein im Sendeende des Kommunikationssystems verwendeter Codierer bereitgestellt, der die digitalen Sprachsignale bei einem vergleichsweise geringen Rechenaufwand in eine Folge von Ausgangssignalen codiert, um die Sprachqualität zu verbessern.
  • Außerdem wird eine im empfängerseitigen Ende verwendete Decodiereinrichtung bereitgestellt, die ein synthetisiertes Lautsignal bei einer hohen Sprachqualität reproduzieren kann.
  • Diese Aufgaben werden durch die Merkmale der Patentansprüche gelöst.
  • Die Erfindung wird nachstehend unter Bezug auf die beigefügten Abbildungen ausführlich beschrieben, es zeigen:
  • Fig. 1 ein Blockdiagramm einer ersten Ausführungsform einer erfindungsgemäßen Codiereinrichtung;
  • Fig. 2 ein Diagramm zur Beschreibung einer Arbeitsweise eines Teils der in Fig. 1 dargestellten Codiereinrichtung;
  • Fig. 3 ein Lauf zeitdiagramm zur Beschreibung einer Arbeitsweise eines anderen Teils der in Fig. 1 dargestellten Codiereinrichtung;
  • Fig. 4 ein Blockdiagramm einer mit der in Fig. 1 dargestellten Codiereinrichtung verbindbaren Decodiereinrichtung, um zusammen mit der Codiereinrichtung ein Kommunikationssystem zu bilden;
  • Fig. 5 ein Blockdiagramm einer zweiten Ausführungsform einer erfindungsgemäßen Codiereinrichtung; und
  • Fig. 6 ein Blockdiagramm eines Kommunikationssystems gemäß einer dritten Ausführungsform der Erfindung.
  • Gemäß Fig. 1 wird der ersten Ausführungsform der erfindungsgemäßen Codiereinrichtung eine Folge von System-Eingangssprachsignalen IN zugeführt, um eine Folge von Ausgangssignalen OUT zu erzeugen. Die System-Eingangssprachsignalfolge IN ist in mehrere Blöcke unterteilbar, wobei vorausgesetzt wird, daß die Eingangssprachsignalfolge von einer externen Einrichtung, wie beispielsweise einem Analog/Digital-Wandler (nicht dargestellt), an die Codiereinrichtung gesendet wird. Die System-Eingangssignalfolge IN trägt stimmhafte und stimmlose Laute, die jeweils für stimmhafte bzw. stimmlose Zeitdauern andauern. Jeder Block kann ein Intervall von beispielsweise 20 Millisekunden besitzen. Die System-Eingangssprachsignale IN werden bei jedem Block in einem Puffer 21 gespeichert und anschließend bei jedem Block als Folge digitaler Sprachsignale DG einer Parameterberechnungsschaltung 22 zugeführt. Die dargestellte Parameterberechnungsschaltung 22 weist eine K-parameter- Berechnungseinrichtung 221 und eine Tonhöhenparameterberechnungseinrichtung 222 auf, denen die digitalen Sprachsignale DG parallel zugeführt werden, um K-Parameter und den Tonhöhenparameter auf bekannte Weise zu berechnen. Die K- Parameter und der Tonhöhenparameter werden als erste bzw. zweite Primärparameter bezeichnet.
  • Im einzelnen stellen die K-Parameter eine Spektrum-Hüllenkurve der digitalen Sprachsignale bei jedem Block dar und können zusammengefaßt als Spektrumparameter bezeichnet werden. Die K-Parameter-Berechnungseinrichtung 221 analysiert die digitalen Sprachsignale unter Verwendung des bekannten LPS-Verfahrens, um nur die ersten bis M-ten Ordnungen der K- Parameter zu berechnen. Die Berechnung der K-parameter wird ausführlich in der ersten und der zweiten Quellenangabe beschrieben, auf die in der vorliegenden Patentschrift verwiesen wird. Die K-Parameter sind mit PARCOR-Koeffizienten identisch. Die in der K-Parameter-Berechnungseinrichtung 221 berechneten K-Parameter werden an einen K-Parameter-Codierer 223 übertragen und in codierte K-Parameter Kc quantisiert und codiert, die jeweils aus einer vorgegebenen Anzahl von Bits bestehen. Die codierten K-Parameter Kc werden einem Multiplexer 24 zugeführt. Außerdem werden die codierten K-Parameter Kc in der K-Parameter-Berechnungseinrichtung 221 in decodierte K-Parameter decodiert und in lineare Voraussagekoeffizienten ai' (i=1 M) umgewandelt. Die linearen Voraussagekoeffizienten ai' werden in einer später ausführlich beschriebenen Weise einer primären Berechnungsschaltung 25 zugeführt. Die codierten K-Parameter und die linearen Voraussagekoeffizienten ai' werden aus den durch die K-Parameter-Berechnungseinrichtung 221 berechneten K- Parametern hergeleitet und in der Form elektrischer Signale erzeugt, die zusammengefaßt als erstes Parametersignal bezeichnet werden können.
  • In der Parameterberechnungseinrichtung 22 berechnet die Tonhöhenberechnungseinrichtung 222 aus den digitalen Sprachsignalen eine mittlere Tonhöhenperiode, um als Tonhöhenparameter bei jedem Block durch ein Korrelationsverfahren, das ebenfalls in der ersten und der zweiten Quellenangabe beschrieben und daher nachstehend nicht erwähnt wird, die mittlere Tonhöhenperiode zu erzeugen. Alternativ kann der Tonhöhenparameter durch andere bekannte Verfahren, wie beispielsweise ein Cepstrumverfahren, ein SIFT-Verfahren oder ein modifiziertes Korrelationsverfahren berechnet werden. Die so berechnete mittlere Tonhöhenperiode wird durch einen Tonhöhencodierer 224 in einen codierten Tonhöhenparameter Pc mit einer vorgewählten Bitanzahl codiert. Der codierte Tonhöhenparameter Pc wird als elektrisches Signal ausgesendet. Der Tonhöhenparameter wird außerdem durch den Tonhöhenparametercodierer 224 in einen decodierten Tonhöhenparameter Pd decodiert, der in Form eines elektrischen Signals erzeugt wird. Der codierte sowie der decodierte Tonhöhenparameter Pc bzw. Pd werden dem Multiplexer 24 bzw. der Anregungsimpuls-Berechnungsschaltung 25 als ein zweites primäres Parametersignal zugeführt, das die mittlere Tonhöhenperiode darstellt.
  • Im dargestellten Beispiel werden der primären Berechnungsschaltung 25 bei jedem Block die digitalen Sprachsignale DG zusammen mit den linearen Voraussagekoeffizienten ai' und dem decodierten Tonhöhenparameter Pd zugeführt, um in einer später beschriebenen Weise aufeinanderfolgend einen Satz von Berechnungsergebnissignalen EX zu erzeugen, die die Lautquellensignale darstellen. Zu diesem Zweck weist die primäre Berechnungsschaltung 25 ein Subtrahierglied 31 auf, das auf die digitalen Sprachsignale DG und eine Folge lokaler decodierter Sprachsignale Sd anspricht, um eine Folge von Fehlersignalen E zu erzeugen, die die Differenzen zwischen den digitalen und den lokalen decodierten Sprachsignalen DG bzw. Sd darstellen. Die Fehlersignale E werden an eine Gewichtungsschaltung 32 übertragen, der die linearen Voraussagekoeffizienten ai' zugeführt werden. In der Gewichtungsschaltung 32 werden die Fehlersignale E mit Gewichten gewichtet, die durch die linearen Voraussagekoeffizienten ai' festgelegt werden. Daher berechnet die Gewichtungsschaltung 32 auf bekannte Weise eine Folge gewichteter Fehler, um diese einem Kreuzkorrelator 33 zuzuführen.
  • Andererseits werden die linearen Voraussagekoeffizienten ai' vom K-Parameter-codierer 223 auch einer Iinpulsantwort-Berechnungseinrichtung 34 zugeführt. In Antwort auf die linearen Voraussagekoeffizienten ai' berechnet die Impulsantwort-Berechnungseinrichtung 34 in bekannter Weise eine Impulsantwort hw(n) eines Synthesefilters, die einer Wahrnehmungswichtung unterzogen und durch die linearen Voraussagekoeffizienten ai' bestimmt wird, wobei n die Abtastzeitpunkte der System-Eingangssprachsignale IN darstellt. Die so berechnete Impulsantwort hw(n) wird sowohl dem Kreuzkorrelator 33, als auch einem Autokorrelator 35 zugeführt.
  • Dem Kreuzkorrelator 33 werden die gewichteten Fehler Ew und die Impulsantwort hw(n) zugeführt, um auf bekannte Weise eine Kreuzkorrelationsfunktion bzw. einen Koeffizienten Rhe(nx) für eine vorgegebene Anzahl N von Abtastwerten zu berechnen, wobei n eine zwischen und einschließlich 1 und N ausgewählte ganze Zahl darstellt.
  • Der Autokorrelator 35 berechnet eine Autokorrelations- bzw. Kovarianzfunktion bzw. einen Koeffizienten Rhh(n) der Impulsantwort hw(n) für eine vorgegebene Verzögerungszeit t. Die Autokorrelationsfunktion Rhh(n) wird zusammen mit der Kreuzkorrelationsfunktion Rhe(nx) einer Lautquellensignal- Berechnungseinrichtung 36 zugeführt. Der Kreuzkorrelator 33 und der Autokorrelator 35 können den in der ersten und der zweiten Quellenangabe beschriebenen Vorrichtungen ähnlich sein und werden nicht näher beschrieben.
  • Die dargestellte Lautquellensignal-Berechnungseinrichtung 36 ist mit einem Rauschsignalspeicher 37 und mit einer Korrekturfaktor-Berechnungseinrichtung 39 verbunden, die in der primären Berechnungsschaltung 25 angeordnet sind, sowie mit einem Diskriminator bzw. einer Klassifizierungsschaltung 40, die außerhalb der primären Berechnungsschaltung 25 angeordnet ist.
  • Der Klassifizierungsschaltung 40 werden die digitalen Sprachsignale DG, der Tonhöhenparameter und die K-Parameter vom Pufferspeicher 21, der Tonhöhenparameter-Berechnungseinrichtung 222 bzw. der K-Parameter-Berechnungseinrichtung 221 zugeführt. Gemäß Fig. 2 zusammen mit Fig. 1 wird die dargestellte Klassifizierungsschaltung 40 zum Klassifizieren der Sprachsignale, d.h., der digitalen Sprachsignale DG, in Vokale und Konsonanten verwendet, die für eine Vokalzeitdauer bzw. eine Konsonantenzeitdauer andauern. Ein Vokal weist normalerweise eine Periodizität auf, ein Konsonant dagegen nicht. Wird dies berücksichtigt, werden die digitalen Sprachsignale, wie in Fig. 2 dargestellt, in periodische und unperiodische Laute klassifiziert. Darüber hinaus werden die periodischen Laute weiterhin in stimmhafte Laute und Nasallaute klassifiziert, während die unperiodischen Laute in Reibelaute und Explosivlaute klassifiziert werden, obwohl die Nasallaute verglichen mit den stimmhaften Lauten eine schwache Periodizität besitzen. D.h., eine Sprachsignalzeitdauer der digitalen Sprachsignale ist unterteilbar in eine Zeitdauer eines stimmhaften Lauts, eine Nasallaut-Zeitdauer, eine Reibelaut-Zeitdauer und eine Explosivlaut-Zeitdauer.
  • In Fig. 1 werden die stimmhaften Laute, die Nasallaute, die Reibelaute und die Explosivlaute als Hilfsparameter in der Klassifizierungsschaltung 40 überwacht. Im einzelnen klassifiziert die Klassifizierungsschaltung 40 die digitalen Sprachsignale in vier durch stimmhafte Laute, Nasallaute, Reibelaute und Explosivlaute festgelegte Klassen und bestimmt, welcher Klasse jedes der digitalen Sprachsignale zugeordnet ist. Dadurch erzeugt die Klassifizierungsschaltung 40 ein Überwachungssignal MR, das ein Überwachungsergebnis des Hilfsparameters darstellt. Dies zeigt, daß das Überwachungsergebnissignal MR eine aus der stimmhaften Zeitdauer, der Nasallaut-, der Reibelaut- bzw. der Explosivlaut-Zeitdauer ausgewählte Zeitdauer darstellt und für eine daraus ausgewählte Zeitdauer andauert. Zu diesem Zweck stellt die Klassifizierungsschaltung 40 einen quadratischen Mittelwert (rms-Wert) der Energie der digitalen Sprachsignale DG, die Variation der Energie bei jeder kurzen Zeitdauer von beispielsweise 5 Millisekunden, das Verhältnis der Variation der Energie und die Variation oder das Verhältnis der Variation eines für eine kurze Zeitdauer auftretenden Spektrums sowie eine Tonhöhenverstärkung fest, die aus dem Tonhöhenparameter berechnet werden kann. Die Klassifizierungsschaltung 40 stellt beispielsweise die Energie oder den quadratischen Mittelwert der digitalen Sprachsignale fest, um entweder die Vokalzeitdauer oder die Konsonantenzeitdauer zu bestimmen.
  • Wenn ein Vokal festgestellt wird, stellt die Klassifizierungsschaltung 40 entweder einen stimmhaften Laut oder einen Nasallaut fest. In diesem Fall stellt das Überwachungsergebnissignal MR entweder den stimmhaften Laut oder den Nasallaut dar. Hierbei kann die Nasallaut-Zeitdauer von der Zeitdauer des stimmhaften Lauts unterschieden werden, indem die Energie bzw. der quadratische Mittelwert, die Tonhöhenverstärkung und ein logarithmisches Bereichsverhältnis r&sub1; der K-Parameter in erster Ordnung verwendet werden, das gegeben ist durch:
  • r&sub1;= 20log[(1-K&sub1;)/(1+K&sub1;)],
  • wobei K&sub1; einen K-Parameter erster Ordnung darstellt. Im einzelnen stellt die Klassifizierungsschaltung 40 einen stimmhaften Laut fest, wenn die Energie bzw. der quadratische Mittelwert einen ersten vorgegebenen Schwellenwert überschreitet und die Tonhöhenverstärkung einen zweiten vorgegebenen Schwellenwert überschreitet. Ansonsten stellt die Klassifizierungsschaltung 40 einen Nasallaut fest.
  • Wenn ein Konsonant festgestellt wird, stellt die Klassifizierungsschaltung 40 fest, ob der Konsonant ein Reibelaut oder ein Explosivlaut ist, um die Reibelaut-Zeitdauer bzw. die Explosivlaut-Zeitdauer zu bestimmen, um das Überwachungsergebnissignal MR zu erzeugen, das den Reibelaut bzw. den Explosivlaut darstellt. Es ist bekannt, daß diese Unterscheidung eines Reibelauts von einem Explosivlaut durch das Überwachen der Energie des digitalen Sprachsignals DG bei jeder kurzen Zeitdauer von beispielsweise 5 Millisekunden, das Verhältnis der Energie zwischen einem niedrigen Frequenzband und einem hohen Frequenzband, die Variation des quadratischen Mittelwerts und das Variationsverhältnis ermöglicht wird. Daher kann die Feststellung eines stimmhaften Lauts, eines Nasallauts, eines Reibelauts bzw. eines Explosivlauts durch Verwendung eines herkömmlichen Verfahrens durchgeführt werden. Deshalb wird die Klassifizierungsschaltung 40 nicht näher beschrieben.
  • In Fig. 1 stellt das Überwachungsergebnissignal MR einen aus einem stimmhaften Laut, einem Nasallaut, einem Reibelaut bzw. einem Explosivlaut ausgewählten Laut dar, der zusammen mit dem Kreuzkorrelationskoeffizienten Rhe(nx), dem Autokorrelationskoeffizienten Rhh(n) und dem decodierten Tonhöhenparameter Pd an die Lautquellensignal- Berechnungseinrichtung 36 übertragen wird. Außerdem wird die Lautquellensignal-Berechnungseinrichtung 36 in einer später beschriebenen Weise in Kombination mit dem Rauschsignalspeicher 37 und der Korrekturfaktor-Berechnungseinrichtung 39 betrieben. Gemäß Fig. 3 zusammen mit Fig. 1 unterteilt die Lautquellensignal-Berechnungseinrichtung 36, wie in Fig. 3(a) dargestellt, zunächst einen einzelnen Block in eine vorgegebene Anzahl von Unterblöcken bzw. Tonhöhenperioden, die jeweils kürzer sind als jeder Block, wenn das Überwachungsergebnissignal MR einen stimmhaften Laut darstellt. Zu diesem Zweck wird die mittlere Tonhöhenperiode in der Lautquellensignal-Berechnungseinrichtung 36 auf bekannte Weise berechnet und in Fig. 3(a) als T' bezeichnet. In Fig. 3(a) wird der dargestellte Block in erste bis vierte Unterblöcke sf1 bis sf4 und eine verbleibende Zeitdauer sf5 unterteilt. Anschließend wird in der Lautquellensignal-Berechnungseinrichtung 36 einer der Unterblöcke durch ein Suchverfahren für den repräsentativen Unterblock als repräsentativer Unterblock bzw. repräsentative Zeitdauer ausgewählt.
  • Im einzelnen berechnet die Lautquellensignal- Berechnungseinrichtung 36, wie in Fig. 3(b) dargestellt, bei jedem Block eine vorgewählte Anzahl L von Anregungsimpulsen. Die vorgewählte Anzahl L beträgt in Fig. 3(b) gleich vier. Diese Berechnung der Anregungsimpulse kann unter Verwendung des Kreuzkorrelationskoeffizienten Rhe(nx) und des Autokorrelationskoeffizienten Rhh(n) gemäß den in der ersten und in der zweiten Quellenangabe bzw. einem in einem Beitrag von Areseki, Ozawa und Ochiai zur GLOBECOM 83, IEEE Global Telecommunications Conference, Nr. 23.3, 1983 mit dem Titel "Multi-pulse Excited Speech Coder Based on Maximum Crosscorrelation Search Algorithm" beschriebenen Verfahren durchgeführt werden. Dieser Artikel wird nachstehend als dritte Quellenangabe bezeichnet. Jeder der Anregungsimpulse ist durch eine Amplitude qi und einen Ort mi bestimmt, wobei i eine ganze Zahl zwischen und einschließlich 1 und L bezeichnet. Zur abkürzenden Beschreibung wird der zweite Unterblock sf2 als ein vorläufig repräsentativer Unterblock gewählt, wobei die Anregungsimpulse, deren Anzahl L beträgt, für den vorläufigen repräsentativen Unterblock berechnet werden. In diesem Fall berechnet die Korrekturfaktor-Berechnungseinrichtung 39 für die anderen Unterblöcke sf1, sf3, sf4 und sf5, außer für den vorläufigen repräsentativen Unterblock sf2, Amplitudenkorrekturfaktoren ck und Phasenkorrekturfaktoren dk, wobei in Fig. 3 k=1, 3, 4 oder 5 beträgt. Anstatt sowohl die Amplituden-, als auch die Phasenkorrekturfaktoren ck bzw. dk zu berechnen, können die Amplituden- und/oder die Phasenkorrekturfaktoren ck bzw. dk durch die Korrekturfaktor-Berechnungseinrichtung 39 berechnet werden. Die Berechnungen der Amplituden- und der Phasenkorrekturfaktoren ck bzw. dk können auf bekannte Weise durchgeführt werden und werden nicht näher beschrieben.
  • Der dargestellten Lautquellensignal-Berechnungseinrichtung 36 werden sowohl die Amplituden-, als auch die Phasenkorrekturfaktoren ck bzw. dk zugeführt, um einen vorläufigen Synthesefilter in der Lautquellensignal-Berechnungseinrichtung 36 zu bilden. Anschließend werden unter Verwendung der Amplituden- und der Phasenkorrekturfaktoren ck bzw. dk jeweils synthetisierte Sprachsignale xk(n) in den anderen Unterblöcken sfk synthetisiert und die Anregungsimpulse bezüglich dem vorläufigen repräsentativen Unterblock berechnet. Außerdem setzt die Lautquellensignal- Berechnungseinrichtung 36 die Verarbeitung zum Minimieren der gewichteten Fehlerenergie Ek bezüglich den synthetisierten Sprachsignalen xk(n) der anderen Unterblöcke sfk fort. Die gewichtete Fehlerenergie Ek ist gegeben durch:
  • wobei
  • und wobei w(n) eine Impulsantwort eines Wahrnehmungsgewichtfilters, * eine Faltung, und h(n) eine Impulsantwort des vorläufigen Synthesefilters darstellt. Bei der Berechnung der Gleichung (1) muß der Wahrnehmungsgewichtfilter nicht immer verwendet werden. Aus Gleichung (1) werden in der Lautquellensignal-Berechnungseinrichtung 36 die Minimalwerte der Amplituden- und der Phasenkorrekturfaktoren ck bzw. dk berechnet. Zu diesem Zweck wird bezüglich ck eine partielle Differentiation der Gleichung (1) ausgeführt, wobei dk festgehalten wird, um ein Ergebnis der partiellen Differentiation in Null zu erhalten. Bei diesen Verhältnissen ist der Amplitudenkorrekturfaktor ck gegeben durch
  • wobei xwk = xk(n)*w(n) (4a)
  • und xwk = Σ gi hi(n - mi -T' -dk)*w(n). (4b)
  • Anschließend berechnet die dargestellte Lautquellensignal-Berechnungseinrichtung 36 Werte von ck hinsichtlich verschiedener Werte von dk unter Verwendung von Gleichung (3), um eine bestimmte Kombination von dk und ck zu suchen, bei der Gleichung (3) minimiert wird. Durch eine solche bestimmte Kombination von dk und ck kann der Wert von Gleichung (1) minimiert werden. Eine ähnliche Funktion wird in Verbindung mit allen Unterblöcken, außer dem vorläufigen repräsentativen Unterblock sf&sub2; ausgeführt, um Kombinationen von dk und ck aufeinanderfolgend zu berechnen und die gewichtete Fehierenergie E zu erhalten, die gegeben ist durch:
  • wobei N die Anzahl der im in Frage kommenden Block enthaltenen Unterblöcke darstellt. Hierbei wird die gewichtete Fehlerenergie E&sub2; im zweiten Unterblock, d.h., im vorläufigen repräsentativen Unterblock sf2 berechnet durch:
  • Daher wird bezüglich des Unterblocks sf&sub2; eine Folge von Berechnungen abgeschlossen, um die gewichtete elektrische Fehlerenergie E zu erhalten.
  • Anschließend wird der dritte Unterblock sf&sub3; als vorläufig repräsentativer Unterblock ausgewählt. Unter Verwendung der Gleichungen (1) bis (6) werden bezüglich des Unterblocks sf&sub3; ähnliche Berechnungen wiederholt, um die gewichtete Fehlerenergie E zu erhalten. Daher wird die gewichtete Fehlerenergie E sukzessive berechnet, indem jeder der Unterblöcke als vorläufig repräsentativer Unterblock ausgewählt wird. Die Lautsignalquellen-Berechnungseinrichtung 36 wählt die für einen aus sf&sub1; bis sf&sub4; ausgewählten Unterblock bestimmte minimale gewichtete Fehlerenergie aus, wobei der ausgewählte Unterblock schließlich als der repräsentative Unterblock festgelegt wird. Die Anregungsimpulse des repräsentativen Unterblocks werden zusätzlich zu den aus den übrigen Unterblöcken berechneten Amplituden- und Phasenkorrekturfaktoren ck bzw. dk erzeugt. Als Ergebnis werden Lautquellensignale v(n) jedes Blocks durch eine Kombination der vorstehend erwähnten Anregungsimpulse und der Amplituden- und Phasenkorrekturfaktoren ck bzw. dk für die Zeitdauer des stimmhaften Lauts dargestellt und können als Satz primärer Lautquellensignale bezeichnet werden. In diesem Fall sind die Lautquellensignale vk(n) während der durch sfk bezeichneten Unterblöcke gegeben durch:
  • vk(n) = ck Σ gi δ(n - mi - T' -dk). (7)
  • Im nächsten Fall soll der Lautquellensignal- Berechnungseinrichtung 36 ein einen Nasallaut darstellendes Überwachungsergebnissignal MR zugeführt werden. Hierbei stellt die dargestellte Lautquellensignal-Berechnungseinrichtung 36 das Lautquellensignal durch Tonhöhenvoraussage- Mehrfachimpulse und Mehrfachimpulse für einen einzelnen Block dar. Solche Tonhöhenvoraussage-Mehrfachimpulse können durch ein in der JP-A-13/1984 (die als vierte Quellenangabe bezeichnet wird) beschriebenes Verfahren erzeugt werden, während die Mehrfachimpulse durch das in der dritten Quellenangabe beschriebene Verfahren berechnet werden können. Die Tonhöhenvoraussage-Mehrfachimpulse und die Mehrfachimpulse werden über den gesamten Block berechnet, bei dem der Nasallaut durch die Klassifizierungsschaltung 40 festgestellt wurde, und können als Anregungsimpulse bezeichnet werden.
  • Ferner wird vorausgesetzt, daß die Klassifizierungsschaltung 40 entweder einen Reibelaut oder einen Explosivlaut feststellt, um das entweder den Reibelaut oder den Explosivlaut darstellende Überwachungsergebnissignal MR zu erzeugen. Nachstehend soll ein Reibelaut durch das Überwachungsergebnissignal MR festgelegt werden. In diesem Fall arbeitet die dargestellte Lautquellensignal-Berechnungseinrichtung 36 mit dem Rauschsignalspeicher 37 zusammen, in dem die die Art der Rauschsignale darstellenden Indizes und Verstärkungen gespeichert sind. Die Indizes und die Verstärkungen können, wie in der ersten und der zweiten Quellenangabe erwähnt, in der Form von Codebelegungen tabuliert werden.
  • Bei diesen Verhältnissen unterteilt die Lautquellensignal-Berechnungseinrichtung 36, wenn ein Reibelaut festgestellt wird, zunächst einen einzelnen in Frage kommenden Block in mehrere Unterblöcke, wie bei der Zeitdauer für einen stimmhaften Laut. Anschließend wird in der Lautquellensignal-Berechnungseinrichtung 36 bei jedem Unterblock eine Verarbeitung ausgeführt, um die vorgegebene Anzahl L von Mehrfachimpulsen bzw. Anregungsimpulsen zu berechnen, um daraufhin eine aus Kombinationen der Indizes und der Verstärkungen ausgewählte Kombination aus dem Rauschsignalspeicher 37 auszulesen. Dadurch werden die Amplituden und die Orte der Anregungsimpulse durch die Lautquellensignal- Berechnungseinrichtung 36 zusammen mit dem Index und der Verstärkung des vom Rauschsignalspeicher 37 übertragenen Rauschsignals als Lautquellensignale erzeugt.
  • Nachstehend soll die Klassifizierungsschaltung 40 einen Explosivlaut feststellen, wobei das Überwachungsergebnissignal MR den Explosivlaut darstellt. In diesem Fall sucht die Lautquellensignal-Berechnungseinrichtung 36 Anregungsimpulse einer für einen gesamten einzelnen Block bestimmten Anzahl und berechnet die Amplituden und Orte der Anregungsimpulse über den gesamten einzelnen Block. Die Amplituden und die Orte der Anregungsimpulse werden als Lautquellensignale erzeugt, wie bei der Reibelaut-Zeitdauer.
  • Daher erzeugt die dargestellte Lautquellensignal- Berechnungseinrichtung 36 während der Nasallaut-, der Reibelaut- und der Explosivlaut-Zeitdauer die Lautquellensignale EX, die sich von den primären Lautquellensignalen unterscheiden und als Satz sekundärer Lautquellensignale bezeichnet werden können.
  • Die primären und die sekundären Lautquellensignale werden als das Berechnungsergebnissignal EX einer Codierschaltung 45 zugeführt und in einen Satz codierter Signale codiert. Im einzelnen werden der Codierschaltung 45 während der Zeitdauer für einen stimmhaften Laut die Amplituden gi und die Orte mi der aus der repräsentativen Zeitdauer erhaltenen Anregungsimpulse als ein Teil der primären Lautquellensignale zugeführt. Außerdem werden der Amplitudenkorrekturfaktor ck und der Phasenkorrekturfaktor dk als anderer Teil der primären Lautquellensignale der Codierschaltung 45 zugeführt. Ferner wird der Codierschaltung 45 ein Unterblock-Positionssignal ps zugeführt, das die Position des repräsentativen Unterblocks darstellt. Die Amplituden gi die Orte mi, das Unterblock-Positionssignal Ps, der Amplitudenkorrekturfaktor ck und der Phasenkorrekturfaktor dk werden durch die Codierschaltung 45 in einen Satz cadierter Signale codiert Der Satz codierter Signale wird aus codierten Amplituden, codierten Orten, einem codierten Unterblock-Positionssignal, einem codierten Amplitudenkorrekturfaktor und einem codierten Phasenkorrekturfaktor gebildet, die alle jeweils durch vorgewählte Bitanzahlen dargestellt und an den Multiplexer 24 übertragen werden, um als die Ausgangssignalfolge OUT erzeugt zu werden.
  • Darüber hinaus werden die codierten Amplituden, die codierten Orte, das codierte Unterblock-Positionssignal, der codierte Amplitudenkorrekturfaktor und der codierte Phasenkorrekturfaktor durch die Codierschaltung 45 in eine Folge decodierter Lautquellensignale DS decodiert.
  • Während eines Nasallauts, eines Reibelauts und eines Explosivlauts codiert die Codierschaltung 45 die Amplituden und die Orte der Mehrfachimpulse, d.h., der Anregungsimpulse, einerseits in den Satz codierter Signale und decodiert die Anregungsimpulse andererseits in die Folge DS decodierter Lautquellensignale. Außerdem werden die Verstärkung und der Index jedes Rauschsignals während der Reibelaut-Zeitdauer durch die Codierschaltung 45 in eine Folge codierter Rauschsignale als decodierte Lautquellensignale DS codiert.
  • Die dargestellte Lautquellensignal-Berechnungseinrichtung 36 kann durch einen Mikroprozessor gebildet werden, der ein Software-Programm ausführt. Weil jede einzelne, durch die Berechnungseinrichtung 36 ausgeführte Funktion bekannt ist, kann durch einen Fachmann leicht ein solches Software- Programm für die dargestellte Lautquellensignal- Berechnungseinrichtung 36 gebildet werden.
  • Die decodierten Lautquellensignale DS und das Überwachungsergebnissignal MR werden einer Treibsignal- Berechnungseinrichtung 46 zugeführt. Außerdem ist die Treibsignal-Berechnungseinrichtung 46 sowohl mit dem Rauschsignalspeicher 37, als auch mit dem Tonhöhenparametercodierer 224 verbunden. Der Treibsignal-Berechnungseinrichtung 46 wird außerdem der decodierte Tonhöhenparameter Pd zugeführt, der die mittlere Tonhöhenperiode T' darstellt, während die Treibsignal-Berechnungseinrichtung 46 während des Reibelauts selektiv auf den Rauschsignalspeicher 37 zugreift, um, wie die Lautquellensignal-Berechnungseinrichtung 36, die Verstärkung und den Index jedes Rauschsignals daraus zu extrahieren.
  • Für die Zeitdauer eines stimmhaften Lauts unterteilt die Treibsignal-Berechnungseinrichtung 46, wie die Anregungsimpuls-Berechnungseinrichtung 45, unter Verwendung der mittleren Tonhöhenperiode T' jeden Block in mehrere Unterblöcke und reproduziert mehrere Anregungsimpulse innerhalb des repräsentativen Unterblocks unter Verwendung des Unterblockpositionssignals ps und der durch die decodierten Lautquellensignale DS getragenen decodierten Amplituden und Orte. Die während des repräsentativen Unterblocks reproduzierten Anregungsimpulse können als repräsentative Anregungsimpulse bezeichnet werden. Während der übrigen Unterblöcke werden die Anregungsimpulse durch Verwendung der repräsentativen Anregungsimpulse und der durch die decodierten Lautquellensignale DS getragenen decodierten Amplituden- und Phasenkorrekturfaktoren in die durch die Gleichung (7) gegebenen Lautquellensignale v(n) reproduziert.
  • Während eines Nasallauts, eines Reibelauts und eines Explosivlauts erzeugt die Treibsignal-Berechnungseinrichtung 46 mehrere Anregungsimpulse in Antwort auf die decodierten Lautquellensignale DS. Außerdem reproduziert die Treibsignal-Berechnungseinrichtung 46 während des Reibelauts ein Rauschsignal durch den Zugriff auf den Rauschsignalspeicher 37 durch den Index des Rauschsignals und durch Multiplizieren eines aus dem Rauschsignalspeicher 37 ausgelesenen Rauschsignals mit der Verstärkung. Dieses Reproduzieren des Rauschsignals während des Reibelauts wird in der zweiten Quellenangabe beschrieben und daher nicht näher erläutert. Die Anregungsimpulse und das Rauschsignal werden als eine Folge von Lauttreibsignalen erzeugt.
  • Daher werden die durch die Treibsignal- Berechnungseinrichtung 46 reproduzierten Lauttreibsignale dem Synthesefilter 48 zugeführt. Der Synthesefilter 48 ist über einen Interpolator 50 mit dem K-Parameter-Codierer 223 gekoppelt. Der Interpolator 50 wandelt die linearen Voraussagekoeffizienten ai' in K-Parameter um und interpoliert die K-Parameter bei jedem Unterblock mit der mittleren Tonhöhenperiode T', um interpolierte K-Parameter zu erzeugen. Die interpolierten K-Parameter werden invers in lineare Voraussagekoeffizienten umgewandelt, die an den Synthesefilter 48 übertragen werden. Eine derartige Interpolation kann auch für bekannte Parameter außer den K-Parametern, wie beispielsweise für logarithmische Bereichsverhältnisse durchgeführt werden. Während eines Nasallauts und eines Konsonanten, wie einem Reibelaut oder einem Explosivlaut wird keine Interpolation durchgeführt. Daher führt der Interpolator 50 dem Synthesefilter 48, wie vorstehend erwähnt, die durch den Interpolator 50 während der stimmhaften Zeitdauer umgewandelten linearen Voraussagekoeffizienten zu.
  • Mit den zugeführten Lauttreibsignalen und linearen Voraussagekoeffizienten erzeugt der Synthesefilter 48 ein synthetisiertes Sprachsignal für einen einzelnen Block und ein Einflußsignal für den einzelnen Block. Das Einflußsignal zeigt einen auf den nachfolgenden Block ausgeübten Einfluß an und kann auf die in der JP-A-116794/1984, die als fünfte Quellenangabe bezeichnet werden kann, beschriebene Weise erzeugt werden. Eine Kombination aus dem synthetisierten Sprachsignal und dem Einflußsignal wird dem Subtrahierglied 31 als die lokale decodierte Sprachsignalfolge Sd zugeführt.
  • Beim dargestellten Beispiel ist der Multiplexer 24 mit der Klassifizierungsschaltung 40, der Codierschaltung 45, dem Tonhöhenparametercodierer 224 und dem K-Parameter-Codierer 223 verbunden. Daher erzeugt der Multiplexer 24 Codes, die die vorstehend erwähnten Lautquellen festlegen, sowie das Überwachungsergebnissignal MR, das die Art jedes Sprachsignals festlegt. In diesem Fall können die Codes für die Lautquellen und das Überwachungsergebnissignal als Lautquellencodes bzw. Lautbestimmungscodes bezeichnet werden. Die Lautquellencodes weisen einen Amplitudenkorrekturfaktorcode und einen Phasenkorrekturfaktorcode zusammen mit Anregungsimpulscodes auf, wenn durch das Überwachungsergebnissignal MR ein stimmhafter Laut angezeigt wird. Außerdem erzeugt der Multiplexer 45 Codes, die das Unterblockpositionssignal, die mittlere Tonhöhenperiode und die K-Parameter darstellen, und als Positionscodes, Tonhöhencodes bzw. K-Parametercodes bezeichnet werden können. Alle vorstehend erwähnten Codes werden als Ausgangssignalfolge OUT übertragen. In diesem Zusammenhang kann die Kombination aus der Codierschaltung 45 und dem Multiplexer 24 als Ausgangsschaltung zum Erzeugen der Ausgangssignalfolge OUT bezeichnet werden.
  • Gemäß Fig. 4 kann eine Decodiereinrichtung mit der in Fig. 1 dargestellten Codiereinrichtung verbunden werden, wobei der Decodiereinrichtung als Folge von Empfangssignalen RV die in Fig. 1 dargestellte Ausgangssignalfolge OUT zugeführt wird. Die Empfangssignale RV werden einem Demultiplexer 51 zugeführt und in die Lautquellencodes, die Lautartcodes, die Tonhöhencodes, die Positionscodes und die K-Parametercodes demultiplext, die alle von der in Fig. 1 dargestellten Codiereinrichtung übertragen werden und als SS, SP, PT, PO bzw. KP bezeichnet werden. Die Lautquellencodes SS weisen den Satz primärer Lautquellensignale und den Satz sekundärer Lautquellensignale auf. Die primären Lautquellensignale tragen die Amplituden- und die Phasenkorrekturfaktoren ck bzw. dk, die als Amplituden- und Phasenkorrekturfaktorcodes AM bzw. PH gegeben sind.
  • Die Lautquellencodes SS und die Lautartcodes SP werden einem Hauptdecodierer 55 zugeführt. Mit den zugeführten Lautquellencodes SS und den Lautartcodes SP reproduziert der Hauptdecodierer 55 Anregungsimpulse aus den durch die Lautquellencodes Ss getragenen Amplituden und Orten. Eine solche Reproduktion der Anregungsimpulse wird während des repräsentativen Unterblocks durchgeführt, wenn die Lautartcodes SP einen stimmhaften Laut darstellen. Ansonsten wird die Reproduktion der Anregungsimpulse während eines gesamten Blocks durchgeführt.
  • Im dargestellten Beispiel werden die Lautartcodes SP auch an den Treibsignalregenerator 56 gesendet. Die Amplituden- und die Phasenkorrekturfaktorcodes AM bzw. PH werden als ein Hilfsinformationscode an einen Hilfsdecodierer 57 übertragen, wo sie in decodierte Amplituden- und Phasenkorrekturfaktoren Am bzw. Ph decodiert werden, während die Tonhöhencodes PT und die K-Parametercodes KP einem Tonhöhendecodierer 58 bzw. einem K-Parameterdecodierer 59 zugeführt werden und in decodierte Tonhöhenparameter P' bzw. decodierte K-Parameter Ki' decodiert werden. Die decodierten K- Parameter Ki' werden zusammen mit den decodierten Tonhöhenparametern P' jeweils einem Decodier-Interpolator 61 zugeführt. Der Decodier-Interpolator 61 arbeitet in ähnlicher Weise wie der in Fig. 1 dargestellte Interpolator 50 und interpoliert eine Folge von K-Parametern über einen gesamten einzelnen Block von den decodierten K-Parametern Ki', um einem Reproduktions-Synthesefilter 62 interpolierte K-Parameter Kr zuzuführen. Andererseits werden die Amplituden- und die Phasenkorrekturfaktorcodes AM bzw. PH durch den Hilfsdecodierer 57 in decodierte Amplituden- und Phasenkorrekturfaktoren Am bzw. Ph decodiert, die dem Treibsignalregenerator 56 zugeführt werden.
  • Die Kombination aus dem Hauptdecodierer 55, dem Treibsignalregenerator 56, dem Hilfsdecodierer 57, dem Tonhöhendecodierer 58, dem K-Parameterdecodierer 59, dem Decodier- Interpolator 61 und dem Decodier-Rauschsignalspeicher 64 kann als eine Reproduzierschaltung zum Erzeugen einer Folge von Lautquellentreibsignalen bezeichnet werden.
  • In Antwort auf die decodierten Amplituden- und Phasenkorrekturfaktoren Am bzw. Ph, die decodierten Tonhöhenparameter P', die Lautartcodes SP und die Anregungsimpulse regeneriert der Anregungsimpuls-Regenerator 56 eine Folge von Lautquellentreibsignalen DS' für jeden Block. In diesem Fall werden die Lautquellentreibsignale DS' in Antwort auf die während des repräsentativen Unterblocks erzeugten Anregungsimpulse regeneriert, wenn die Lautartcodes SP einen stimmhaften Laut darstellen. Die decodierten Amplituden- und Phasenkorrekturfaktoren Am bzw. Ph werden verwendet, um innerhalb der übrigen Unterblöcke die Lautquellentreibsignale DS' zu erzeugen. Außerdem wird die vorgewählte Anzahl der Lautquellentreibsignale DS' für einen ganzen Block regeneriert, wenn die Lautartcodes SP einen Nasallaut, einen Reibelaut oder einen Explosivlaut darstellen. Wenn darüber hinaus durch die Lautartcodes SP ein Reibelaut angezeigt wird, hat der Anregungsimpuls-Regenerator 56 Zugriff auf den Decodier-Rauschsignalspeicher 64, der dem in Fig. 1 dargestellten Rauschsignalspeicher ähnlich ist. Dadurch können ein Index und eine Verstärkung eines Rauschsignals aus dem Decodier-Rauschsignalspeicher ausgelesen werden, um zusammen mit den Anregungsimpulsen für einen ganzen Block dem Anregungsimpuls-Regenerator 56 zugeführt zu werden.
  • Die Lautquellentreibsignale DS' werden zusammen mit den interpolierten K-Parametern Kr an die Synthesefilterschaltung 62 übertragen. Die Synthesefilterschaltung 62 arbeitet in einer in der fünften Quellenangabe beschriebenen Weise, um bei jedem Block eine Folge synthetisierter Sprachsignale RS zu erzeugen, die als (n) bezeichnet werden.
  • Gemäß Figur 5 ist eine zweite Ausführungsform einer erfindungsgemäßen Codiereinrichtung ähnlich aufgebaut und arbeitet ähnlich wie die in Fig. 1 dargestellte Ausführungsform, außer daß die in Fig. 5 dargestellte primäre Berechnungsschaltung 25 einen Periodizitätsdetektor 66 und eine mit dem Periodizitätsdetektor 66 verbundene Schwellenwertschaltung 67 aufweist. Der Periodizitätsdetektor 66 arbeitet in Zusammenwirkung mit einer Spektrum-Berechnungseinrichtung, d.h., der K-Parameter-Berechnungseinrichtung 221, um eine Periodizität eines durch die K-Parameter gegebenen Spektrumparameters festzustellen. Zu diesem Zweck wandelt der Periodizitätsdetektor 66 die K-Parameter in lineare Voraussagekoeffizienten ai um und bildet, wie bereits an verschiedenen Stellen der vorliegenden Patentbeschreibung erwähnt, einen Synthesefilter unter Verwendung der linearen Voraussagekoeffizienten ai. Hierbei wird vorausgesetzt, daß ein derartiger Synthesefilter im Periodizitätsdetektor 66 durch die linearen Voraussagekoeffizienten ai gebildet wird, die von den in der K-Parameter-Berechnungseinrichtung 221 analysierten K-Parametern erhalten wurden. In diesem Fall besitzt der Synthesefilter eine Übertragungsfunktion H(z), die gegeben ist durch:
  • wobei ai den Spektrumparameter und p eine Ordnung des Synthesefilters darstellt. Daraufhin berechnet der Periodizitätsdetektor 66 eine Impulsantwort h(n) des Synthesefilters, die gegeben ist durch:
  • wobei G die Amplitude einer Anregungsquelle darstellt.
  • Es ist bekannt, daß aus der Impulsantwort h(n) eine Tonhöhenverstärkung Pg berechnet werden kann. Bei diesen Verhältnissen berechnet der Periodizitätsdetektor 66 ferner die Tonhöhenverstärkung Pg aus der Impulsantwort h(n) des in der vorstehend beschriebenen Weise gebildeten Synthesefilters und vergleicht anschließend die Tonhöhenverstärkung Pg mit einem von der Schwellenwertschaltung 67 zugeführten Schwellenwert.
  • In der Praxis kann die Tonhöhenverstärkung Pg erhalten werden, indem eine Autokorrelationsfunktion von h(n) für eine vorgegebene Verzögerungszeit berechnet wird und der bei einer bestimmten Verzögerungszeit auftretende Maximalwert der Autokorrelationsfunktion ausgewählt wird. Diese Berechnung der Tonhöhenverstärkung kann in einer in der ersten und der zweiten Quellenangabe beschriebenen Weise durchgeführt werden und wird nachstehend nicht beschrieben.
  • Weil die Tonhöhenverstärkung Pg zunehmen kann, wenn die Periodizität der Impulsantwort stark wird, stellt der dargestellte Periodizitätsdetektor 66 fest, daß die Periodizität der in Frage kommenden Impulsantwort stark ist, wenn die Tonhöhenverstärkung Pg größer als der Schwellenwert ist. Wenn eine starke Periodizität der Impulsantwort festgestellt wird, wichtet der Periodizitätsdetektor 66 die linearen Voraussagekoeffizienten ai, indem die Koeffizienten ai in gewichtete Koeffizienten aw modifiziert werden, die gegeben sind durch:
  • aw = ai ri (1≤ i≤ p), (10)
  • wobei r einen Gewichtungsfaktor darstellt und eine positive Zahl ist, die kleiner als 1 ist.
  • Die Frequenzbandbreite des Synthesefilters hängt von den vorstehend erwähnten Gewichtungskoeffizienten aw ab, insbesondere vom Wert des Gewichtungsfaktors r. Wenn dies berücksichtigt wird, erhöht sich die Frequenzbandbreite des Synthesefilters mit zunehmendem Wert von r. Im einzelnen ist die erhöhte Frequenzbandbreite B (Hz) des Synthesefilters gegeben durch:
  • B = Fs/π ln(r) (Hz). (11)
  • Wenn r und Fs von Gleichung (11) gleich 0.98 bzw. 8 kHz betragen, beträgt die erhöhte Bandbreite B ca. 50 Hz.
  • Daher ist es verständlich, daß der Periodizitätsdetektor 66 die gewichteten Koeffizienten aw invers in gewichtete K-Parameter umwandelt, wenn die Tonhöhenverstärkung Pg größer als der Schwellenwert ist. Daher erzeugt die K-Parameter-Berechnungseinrichtung 221 die gewichteten K-Parameter. Wenn andererseits die Tonhöhenverstärkung Pg nicht höher als der Gewichtungsfaktor r ist, wandelt der Periodizitätsdetektor 66 die linearen Voraussagekoeffizienten invers in ungewichtete K-Parameter um.
  • Die inverse Umwandlung der linearen Voraussagekoeffizienten in gewichtete bzw. ungewichtete K-Parameter kann unter Verwendung eines von J. Makhoul et al. in "Linear Prediction of Speech" beschriebenen Verfahrens durchgeführt werden.
  • Daher stellt der in der Codiereinrichtung dargestellte Periodizitätsdetektor 66 die Tonhöhenverstärkung aus der Impulsantwort fest, um der K-Parameter-Berechnungseinrichtung 221 die durch den K-Parameter-Codierer 223 codierten, gewichteten bzw. ungewichteten K-Parameter zuzuführen. Durch diesen Aufbau wird die Frequenzbandbreite im Synthesefilter erhöht, wenn die Periodizität der Impulsantwort stark ist und die Tonhöhenverstärkung zunimmt. Daher kann verhindert werden, daß die Frequenzbandbreite für den Formant erster Ordnung nachteilig schmal wird. Dies zeigt, daß die Interpolation der Anregungsimpulse in der primären Berechnungsschaltung 25 vorteilhaft unter Verwendung der aus dem repräsentativen Unterblock hergeleiteten Anregungsimpulse durchgeführt werden kann.
  • Im Periodizitätsdetektor 66 muß die Periodizität der Impulsantwort nur für die Vokal-Zeitdauer festgestellt werden. Der Periodizitätsdetektor 66 kann durch ein von einem Mikroprozessor, wie die Lautquellensignal-Berechnungseinrichtung 36 oder die Treibsignal-Berechnungseinrichtung 46, die in Fig. 1 dargestellt sind, ausgeführtes Software-Programm verwirklicht werden. Daher überwacht der Periodizitätsdetektor 66 zusätzlich zu einem stimmhaften Laut, einem Nasallaut, einem Reibelaut und einem Explosivlaut die Periodizität der Impulsantwort als einen Hilfsparameter und kann als Diskriminator zum Unterscheiden der Periodizität bezeichnet werden.
  • Gemäß Fig. 6 weist eine dritte Ausführungsform eines erfindungsgemäßen Kommunikationssystems eine Codiereinrichtung 70 und eine mit der Codiereinrichtung 70 verbindbare Decodiereinrichtung 71 auf. Im dargestellten Beispiel ist die Codiereinrichtung 70 ähnlich aufgebaut wie die in Fig. 1 dargestellte Codiereinrichtung, außer daß die in Fig. 1 dargestellte Klassifizierungsschaltung 40 in Fig. 6 entfernt ist. Daher wird das Überwachungsergebnissignal MR (in Fig. 1 dargestellt) nicht einer Lautquellensignal- Berechnungseinrichtung, einer Treibsignal-Berechnungseinrichtung und einem Multiplexer zug führt, die daher durch 36', 46' bzw. 24' bezeichnet werden.
  • In dieser Verbindung arbeitet die Lautquellensignal-Berechnungseinrichtung 36' in Antwort auf den Kreuzkorrelationskoeffizienten Rhe(n), den Autokorrelationskoeffizienten Rhh(n) und den decodierten Tonhöhenparameter Pd, und ist, wie in Fig. 1, mit dem Rauschsignalspeicher 37 und der Korrekturfaktor-Berechnungseinrichtung 39 verbunden, während der Treibsignal-Berechnungseinrichtung 46', die wie in Fig. 1 mit dem Rauschsignalspeicher 37 verbunden ist, die decodierten Lautquellensignale DS und die decodierten Tonhöhenparameter Pd zugeführt werden.
  • Wie die Lautquellensignal-Berechnungseinrichtung 36 und die Treibsignal-Berechnungseinrichtung 46, die in Fig. 1 dargestellt sind, können die Lautquellensignal-Berechnungseinrichtung 36' bzw. die Treibsignal-Berechnungseinrichtung 46' jeweils durch einen Mikroprozessor verwirklicht werden, der ein Software-Programm ausführt, um nachstehend zu beschreibende Funktionen auszuführen. Weil der Aufbau und die Funktion der anderen Bauteile ähnlich den in Fig. 1 dargestellten Bauteilen ist, richtet sich die Beschreibung im wesentlichen auf die Lautquellensignal-Berechnungseinrichtung 36' und die Treibsignal-Berechnungseinrichtung 46'.
  • Die Lautquellensignal-Berechnungseinrichtung 36' berechnet in bekannter Weise eine Tonhöhenverstärkung Pg, um die Tonhöhenverstärkung mit einem Schwellenwert Th zu vergleichen und entweder einen stimmhaften oder einen stimmlosen Laut festzustellen. D.h., wenn die Tonhöhenverstärkung Pg höher ist als der Schwellenwert Th, bestimmt die Lautquellensignal-Berechnungseinrichtung 36' ein Sprachsignal als stimmhaften Laut. Ansonsten bestimmt die Lautquellensignal-Berechnungseinrichtung 36' das Sprachsignal als stimmlosen Laut.
  • Während des stimmhaften Lauts unterteilt die Lautquellensignal-Berechnungseinrichtung 36' unter Verwendung der durch die decodierten Tonhöhenparameter Pd festgelegten mittleren Tonhöhenperiode T' zunächst einen einzelnen Block in mehrere Unterblöcke. Die Lautquellensignal-Berechnungseinrichtung 36' berechnet während des repräsentativen Unterblocks in der im Zusammenhang mit Fig. 1 beschriebenen Weise eine vorgegebene Anzahl von Anregungsimpulsen als Lautquellensignale und berechnet anschließend die Amplituden und die Orte der Anregungsimpulse. In den übrigen Unterblöcken (durch k bezeichnet) außer dem repräsentativen Unterblock hat die Lautquellensignal-Berechnungseinrichtung 36' Zugriff auf die Korrekturfaktor-Berechnungseinrichtung 39, um die Amplituden- und die Phasenkorrekturfaktoren ck bzw. dk in der in Zusammenhang mit Fig. 1 beschriebenen Weise zu berechnen. Die Berechnung der Amplituden- und der Phasenkorrekturfaktoren ck bzw. dk wurde bereits unter Bezug auf Fig. 1 beschrieben und wird daher nicht näher erläutert. Die Amplituden und die Orte der Anregungsimpulse sowie die Amplituden- und die Phasenkorrekturfaktoren ck bzw. dk werden als die primären Lautquellensignale erzeugt.
  • Während des stimmlosen Lauts berechnet die Lautquellensignal-Berechnungseinrichtung 36' eine vorgewählte Anzahl von Mehrfachimpulsen bzw. Anregungsimpulsen sowie ein Rauschsignal als sekundäre Lautquellensignale. Zu diesem Zweck hat die Lautquellensignal-Berechnungseinrichtung 36' Zugriff auf den Rauschsignalspeicher 37, der mehrere Rauschsignale speichert, um Indizes und Verstärkungen zu berechnen. Diese Berechnungen der Anregungsimpulse und der Indizes und Verstärkungen der Rauschsignale werden bei jedem Unterblock in der in der zweiten Quellenangabe beschriebenen Weise ausgeführt. Daher erzeugt die Lautquellensignal-Berechnungseinrichtung 36' bei jedem Unterblock, außer dem repräsentativen Unterblock, Amplituden und Orte der Anregungsimpulse sowie die Indizes und Verstärkungen der Rauschsignale.
  • Während eines stimmhaften Lauts codiert die Codierschaltung 45 die Amplituden gi und die Orte mi der vom repräsentativen Unterblock extrahierten Anregungsimpulse in codierte Amplituden und Orte, die jeweils durch eine vorgegebene Anzahl von Bits dargestellt werden. Außerdem codiert die Codierschaltung 45 ein den repräsentativen Unterblock darstellendes Positionssignal sowie die Amplituden- und die Phasenkorrekturfaktoren in ein codiertes Positionssignal bzw. codierte Amplituden- und Phasenkorrekturfaktoren. Während eines stimmlosen Lauts codiert die Codierschaltung 45 die Indizes und die Verstärkungen zusammen mit den Amplituden und Orten der Anregungsimpulse. Darüber hinaus werden die vorstehend erwähnten codierten Signale, wie beispielsweise die codierten Amplituden und die codierten Orte in der Codierschaltung 45, wie im Zusammenhang mit Fig. 1 beschrieben, in eine Folge decodierter Lautquellensignale DS decodiert.
  • Die decodierten Lautquellensignale DS werden an die Treibsignal-Berechnungseinrichtung 46' übertragen, der außerdem die decodierten Tonhöhenparameter Pd vom Tonhöhenparametercodierer 224 zugeführt werden. Während eines stimmhaften Lauts unterteilt die Treibsignal-Berechnungseinrichtung 46' unter Verwendung der durch die decodierten Tonhöhenparameter Pd festgelegten mittleren Tonhöhenperiode einen einzelnen Block in mehrere Unterblöcke und reproduziert anschließend während des repräsentativen Unterblocks die Anregungsimpulse unter Verwendung des Positionssignals, der decodierten Amplituden und der decodierten Orte. Während der übrigen Unterblöcke werden die Lautquellensignale gemäß Gleichung (7) unter Verwendung der reproduzierten Anregungsimpulse und der decodierten Amplituden- und Phasenkorrekturfaktoren reproduziert.
  • Andererseits reproduziert die Treibsignal- Berechnungseinrichtung 46' während eines stimmlosen Lauts auf bekannte Weise die Anregungsimpulse sowie die Lautquellensignale, die durch den Zugriff auf den Rauschsignalspeicher 37 unter Verwendung der Indizes, um die Rauschsignale aus dem Rauschsignalspeicher 37 auszulesen, und durch Multiplizieren der Rauschsignale mit den Verstärkungen erhalten werden. Eine solche Reproduktion der Lautquellensignale ist durch die zweite Quellenangabe bekannt. Die reproduzierten Lautquellensignale werden in der Treibsignal-Berechnungseinrichtung 46' berechnet und als Folge von Treibsignalen während der stimmhaften und der stimmlosen Laute an den Synthesefilter 48 übertragen. Der Synthesefilter 48 ist in der in Fig. 1 dargestellten Weise mit dem Interpolator 50 verbunden und wird durch diesen gesteuert. Während eines stimmhaften Lauts interpoliert der Interpolator 50 bei jedem Unterblock K-Parameter, die durch Umwandlung der vom K-Parameter-Codierer 223 übergebenen linearen Voraussagekoeffizienten ai' erhalten werden, und wandelt anschließend die K-Parameter invers in umgewandelte lineare Voraussagekoeffizienten um. Während eines stimmlosen Lauts wird im Interpolator 50 jedoch keine Interpolation durchgeführt.
  • Mit den zugeführten Treibsignalen und den umgewandelten linearen Voraussagekoeffizienten synthetisiert der Synthesefilter 48 ein synthetisiertes Sprachsignal und erzeugt außerdem für den Signalblock ein Einflußsignal, das einen auf den nachfolgenden Block ausgeübten Einfluß anzeigt.
  • Der dargestellte Multiplexer 24' erzeugt eine Codekombination aus Lautquellensignalcodes, Codes, die entweder einen stimmhaften oder einen stimmlosen Laut anzeigen, einem Positionscode, der die Position des repräsentativen Unterblocks anzeigt, einem Code, der die mittlere Tonhöhenperiode anzeigt, Codes, die die K-Parameter anzeigen, und Codes, die die Amplituden- und Phasenkorrekturfaktoren anzeigen. Diese Codekombination wird als eine Folge von Ausgangssignalen OUT an die im unteren Abschnitt von Fig. 6 dargestellte Decodiereinrichtung 71 übertragen.
  • Die in Fig. 6 dargestellte Decodiereinrichtung 71 ist ähnlich aufgebaut und arbeitet ähnlich wie die in Fig. 4 dargestellte Decodiereinrichtung, außer daß vom Demultiplexer 51 anstelle des Lautartcodes SP (Fig. 4) ein Code VL für einen stimmhaften/stimmlosen Laut sowohl an den Hauptdecodierer 55 als auch an den Treibsignalregenerator 56 übergeben wird, um entweder einen stimmhaften oder einen stimmlosen Laut darzustellen. Deshalb führen der dargestellte Hauptdecodierer 55 und der Treibsignalregenerator 56 Funktionen unter Berücksichtigung des Codes VL für einen stimmhaften/stimmlosen Laut aus. Daher decodiert der Hauptdecodierer 55 während der stimmhaften bzw. der stimmlosen Laute die Lautquellencodes SS in Lautquellensignale. Außerdem führt der Treibsignalregenerator 56 der Synthesefilterschaltung 62 die Lautquellentreibsignale DS' zu. Alle anderen Funktionen der Decodiereinrichtung 71 sind ähnlich den in Fig. 4 dargestellten Funktionen und werden daher nicht beschrieben.
  • Es können weitere Modifikationen vorgenommen werden. Beispielsweise kann der Spektrumparameter jeder andere Parameter sein, wie beispielsweise ein LPS' ein Cepstrum, ein verbessertes Cepstrum, ein generalisiertes Cepstrum oder ein Melcepstrum. Im Interpolator 50 und im Decodier-Interpolator 61 wird die Interpolation durch ein Verfahren nach einem Beitrag von Atal et al. zu Journal Acoust. Cos. Am. mit dem Titel "Speech Analysis and Synthesis by Linear Prediction of Speech Waves" (Seiten 637-655) durchgeführt. Der Phasenkorrekturfaktor dk muß nicht immer übertragen werden, wenn die decodierte mittlere Tonhöhenperiode T' bei jedem Unterblock interpoliert wird. Der Amplitudenkorrekturfaktor ck kann jedem berechneten Amplitudenkorrekturfaktor durch zumindest eine Kurve bzw. Linie der kleinsten Fehlerquadrate angenähert werden und durch einen Faktor der Kurve bzw. Linie der kleinsten Fehlerquadrate dargestellt werden. In diesem Fall muß der Amplitudenkorrekturfaktor nicht bei jedem Unterblock sondern kann intermittierend übertragen werden. Dadurch kann die Informationsmenge zum Übertragen der Korrekturfaktoren verringert werden. Jeder Block kann aus einem vorhergehenden Block kontinuierlich in die Unterblöcke unterteilt werden oder durch die in der JP-A-272435/1984 und JP-A-178911/1985 beschriebenen Verfahren aufgeteilt werden.
  • Um die Menge der Berechnungen wesentlich zu verringern, kann in jedem Block während eines Vokals bzw. stimmhaften Lauts ein vorgewählter Unterblock als ein repräsentativer Unterblock festgelegt werden. Beispielsweise kann dieser vorgewählte Unterblock ein mittlerer Unterblock, der in der Mitte jedes Blocks angeordnet ist, oder ein Unterblock mit einer maximalen Energie innerhalb jedes Blocks sein. Dadurch werden die unter Verwendung der Gleichungen (5) und (6) ausgeführten Berechnungen überflüssig, um den repräsentativen Unterblock zu suchen, obwohl die Sprachqualität leicht verschlechtert werden kann. Außerdem muß das Einflußsignal am Sendeende nicht berechnet werden, wodurch die Anzahl der Berechnungen verringert wird. Am empfängerseitigen Ende kann hinter der Synthesefilterschaltung 62 ein adaptiver Nachfilter angeordnet werden, um entweder auf die Tonhöhen oder die Spektrum-Hüllenkurve anzusprechen. Der adaptive Nachfilter ist nützlich, um eine Wahrnehmungskennlinie durch Formen des Quantisierungsrauschsignals zu verbessern. Ein derartiger adaptiver Nachfilter wird von Kroon et al. in einem Bericht mit dem Titel "A Class of Analysis-by-synthesis Predictive Coders for High Quality at Rates between 4.8 and 16 kb/s" (IEEE JSAC, Band 6,2, Seiten 353-363, 1988) beschrieben.
  • Es ist bekannt, daß die Autokorrelationsfunktion und die Kreuzkorrelationsfunktion so gebildet werden können, daß sie dem Energiespektrum bzw. dem Kreuzenergiespektrum entsprechen, die entlang einer Frequenzachse berechnet werden. Daher kann eine ähnliche Funktion durch die Verwendung des Energiespektrums und des Kreuzenergiespektrums ausgeführt werden. Das Energie- und das Kreuzenergiespektrum können durch ein von Oppenheim et al. in "Digital Signal Processing" (Prentice-Hall, 1975) beschriebenes Verfahren berechnet werden.

Claims (7)

1. Codiervorrichtung, der bei jedem Block eine Folge digitaler Sprachsignale zugeführt wird, um eine Folge von Ausgangssignalen zu erzeugen, wobei die Codiervorrichtung aufweist:
eine auf die digitalen Sprachsignale ansprechende Parameterberechnungseinrichtung (22) zum Berechnen erster und zweiter primärer Parameter, die eine Spektrum- Hüllenkurve festlegen, und einer Tonhöhe der digitalen Sprachsignale bei jedem Block, um erste (Kc) und zweite (Pc) Parametersignale zu erzeugen, die die Spektrum- Hüllenkurve bzw. die Tonhöhe darstellen;
eine mit der Parameterberechnungseinrichtung (22) gekoppelte primäre Berechnungseinrichtung (25) zum Berechnen eines Satzes von die digitalen Sprachsignale darstellenden Berechnungsergebnissignalen; und
eine Ausgangssignalerzeugungseinrichtung zum Erzeugen des Satzes von Berechnungsergebnissignalen als die Ausgangssignalfolge;
dadurch gekennzeichnet, daß die Codiervorrichtung aufweist:
eine in Zusammenwirkung mit der Parameterberechnungseinrichtung (22) arbeitende Hilfsparameter-Überwachungseinheit (40) zum Überwachen eines Hilfsparameters, der die Periodizität der Sprachsignale darstellt und von den ersten und zweiten primären Parametern verschieden ist, um die digitalen Sprachsignale bei jedem Block zu bestimmen, wodurch die Hilfsparameter-Überwachungseinrichtung ein Überwachungsergebnissignal erzeugt, das ein Ergebnis der Überwachung der Hilfsparameter darstellt;
wobei die primäre Berechnungseinrichtung (25) aufweist:
eine Verarbeitungseinrichtung (36), der die digitalen Sprachsignale, die ersten und zweiten primären Parametersignale und das Überwachungsergebnissignal zum Verarbeiten der digitalen Sprachsignale zugeführt werden, um selektiv einen Satz primärer Lautquellensignale und einen vom Satz primärer Lautquellensignale verschiedenen Satz sekundärer Lautquellensignale zu erzeugen, wobei der Satz primärer Lautquellensignale gebildet wird durch einen Satz von Anregungsimpulsen, die berechnet werden bezüglich einem ausgewählten Unterblock von mehreren Unterblöcken, die sich durch Unterteilen jedes Blocks in Abhängigkeit des zweiten primären Parametersignals ergeben, wobei jeder der Unterblöcke kürzer ist als der Block, sowie durch ein Hilfsinformationssignal, das bezüglich der übrigen Unterblöcke, mit Ausnahme des ausgewählten Unterblocks, bei der Erzeugung des Satzes der Anregungsimpulse berechnet wird, und
einer Einrichtung (45) zum Zuführen einer Kombination der primären und der sekundären Lautquellensignale an die Ausgangssignalerzeugungseinrichtung als die Berechnungsergebnissignale.
2. Codiervorrichtung nach Anspruch 1, wobei der Hilfsparameter die Art der digitalen Sprachsignale darstellt und die Hilfsparameter-Überwachungseinrichtung (40) aufweist:
eine Klassifizierungseinrichtung, der die digitalen Sprachsignale zugeführt werden, zum Klassifizieren der Hilfsparameter in mehrere Klassen, die für die jeweilige Art der digitalen Sprachsignale festgelegt sind, um nach dem Extrahieren des Hilfsparameters aus den digitalen Sprachsignalen ein Klassenidentifizierungssignal zu erzeugen, das die Klassen darstellt; und
eine Einrichtung zum Zuführen des Klassenidentifizierungssignals an die primäre Berechnungseinrichtung (25) als das Überwachungsergebnissignal.
3. Codiervorrichtung nach Anspruch 2, wobei die Arten der digitalen Sprachsignale in stimmhafte Laute, Nasallaute, Reibelaute und Explosivlaute klassifiziert werden, und die Verarbeitungseinrichtung selektiv den Satz primärer Lautquellensignale erzeugt, wenn das Überwachungsergebnissignal einen stimmhaften Laut darstellt, und ansonsten den Satz sekundärer Lautquellensignale erzeugt.
4. Codiervorrichtung nach Anspruch 3, wobei die Verarbeitungseinrichtung (36) aufweist:
eine Anregungsimpulserzeugungseinrichtung, der die digitalen Sprachsignale bei jedem Block zugeführt werden, zum Erzeugen des Satzes von Anregungsimpulsen während des ausgewählten Unterblocks, wenn das Überwachungsergebnissignal einen stimmhaften Laut darstellt; und
eine Hilfsinformationserzeugungseinrichtung zum Erzeugen des Hilfsinformationssignals, während der übrigen Unterblöcke, das zum Einstellen mindestens einer Amplitude und/oder einer Phase der primären Anregungsimpulse dient.
5. Codiervorrichtung nach einem der Ansprüche 1 bis 4, wobei die Hilfsparameter-Überwachungseinrichtung (40) als Hilfsparameter die Periodizität einer Impulsantwort eines Synthesefilters überwacht, die durch den ersten primären Parameter festgelegt ist, um zu bestimmen, ob die Periodizität der Impulsantwort höher als ein vorgegebener Schwellenwert ist, wobei die Hilfsparameter- Überwachungseinrichtung aufweist:
eine Schwellenwerteinrichtung zum Erzeugen des vorgegebenen Schwellenwerts;
eine mit der Parameterberechnungseinrichtung (22) und der Schwellenwerteinrichtung verbundene Einrichtung zum Feststellen der Periodizität, der der erste primäre Parameter zugeführt wird, zum Feststellen, ob die Periodizität der Impulsantwort höher ist als der vorgegebene Schwellenwert, um ein Periodizitätssignal zu erzeugen, wenn die Periodizität höher ist als der vorgegebene Schwellenwert; und
eine Einrichtung zum Zuführen des Periodizitätssignals an die Parameterberechnungseinrichtung (22) als Überwachungsergebnissignal, um den ersten primären Parameter auf der Basis des Periodizitätssignals zu wichten und die Parameterberechnungseinrichtung zu veranlassen, den mit dem Periodizitätssignal gewichteten ersten Parameter zu erzeugen.
6. Decodiervorrichtung, die mit einer Codiervorrichtung nach einem der Ansprüche 1 bis 5 verbunden werden kann, um eine Folge synthetisierter Sprachsignale zu erzeugen, wobei der Decodiervorrichtung die Ausgangssignalfolge als Folge von Empfangssignalen zugeführt wird, die den Satz der primären Lautquellensignale, den Satz der sekundären Lautquellensignale, die ersten und zweiten primären Parameter und den Hilfsparameter beinhaltet, wobei die Decodiervorrichtung aufweist:
eine Demultiplexeinrichtung (51), der die Empfangssignalfolge zugeführt wird, zum Demultiplexen der Empfangssignalfolge in die primären und sekundären Lautquellensignale die ersten und die zweiten primären Parameter bzw. den Hilfsparameter als primäre und sekundäre Lautquellencodes, erste und zweite Parametercodes bzw. Hilfsparametercode, wobei die primären Lautquellencodes den Satz von Anregungsimpulsen und das Hilfsinformationssignal übertragen, die in Anregungsimpulscodes bzw. einen Hilfsinformationscode demultiplext werden;
eine mit der Demultiplexeinrichtung (51) verbundene Reproduziereinrichtung (55 bis 58) zum Reproduzieren der primären und der sekundären Lautquellencodes in eine Folge von Lautquellentreibsignalen unter Verwendung des Hilfsinformationssignals, der ersten und der zweiten Parametercodes und des Hilfsparametercodes; und
eine mit der Reproduziereinrichtung (55 bis 58) verbundene Einrichtung (62) zum Synthetisieren der Lautquellentreibsignale in die synthetisierten Sprachsignale.
7. Decodiereinrichtung nach Anspruch 6, wobei die Reproduziereinrichtung aufweist:
eine erste Decodiereinrichtung (55), der die primären und sekundären Lautquellencodes sowie der Hilfsparametercode zugeführt werden, zum Decodieren der primären und sekundären Lautquellencodes in primäre bzw. sekundäre decodierte Lautquellensignale;
eine zweite Decodiereinrichtung (57), der der Hilfsinformationscode von der Demultiplexeinrichtung (51) zugeführt wird, zum Decodieren des Hilfsinformationscodes in einen decodierten Hilfscode;
eine dritte Decodiereinrichtung (58), der die ersten und zweiten Parametercodes von der Demultiplexeinrichtung (51) zugeführt werden, zum Decodieren der ersten und zweiten Parametercodes in erste bzw. zweite decodierte Parametercodes; und
einer mit der ersten bis dritten Decodiereinrichtung verbundenen Einrichtung (56) zum Reproduzieren der primären und sekundären decodierten Lautquellensignale in die Lautquellentreibsignale unter Verwendung des decodierten Hilfscodes, der ersten und zweiten decodierten Parametercodes und des Hilfsparametercodes.
DE68912692T 1988-09-21 1989-09-21 Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. Expired - Lifetime DE68912692T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP63237727A JP2992998B2 (ja) 1988-09-21 1988-09-21 音声符号化復号化装置
JP63316040A JPH02160300A (ja) 1988-12-13 1988-12-13 音声符号化方式

Publications (2)

Publication Number Publication Date
DE68912692D1 DE68912692D1 (de) 1994-03-10
DE68912692T2 true DE68912692T2 (de) 1994-05-26

Family

ID=26533339

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68912692T Expired - Lifetime DE68912692T2 (de) 1988-09-21 1989-09-21 Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.

Country Status (4)

Country Link
US (1) US5018200A (de)
EP (1) EP0360265B1 (de)
CA (1) CA1333425C (de)
DE (1) DE68912692T2 (de)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
IT1257431B (it) * 1992-12-04 1996-01-16 Sip Procedimento e dispositivo per la quantizzazione dei guadagni dell'eccitazione in codificatori della voce basati su tecniche di analisi per sintesi
JP2655046B2 (ja) * 1993-09-13 1997-09-17 日本電気株式会社 ベクトル量子化装置
FI98163C (fi) * 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
FR2741744B1 (fr) * 1995-11-23 1998-01-02 Thomson Csf Procede et dispositif d'evaluation de l'energie du signal de parole par sous bande pour vocodeur bas debits
JP3094908B2 (ja) * 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
US6708146B1 (en) * 1997-01-03 2004-03-16 Telecommunications Research Laboratories Voiceband signal classifier
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
CN100361198C (zh) * 2002-09-17 2008-01-09 皇家飞利浦电子股份有限公司 一种清音语音信号合成的方法
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US7892648B2 (en) * 2005-01-21 2011-02-22 International Business Machines Corporation SiCOH dielectric material with improved toughness and improved Si-C bonding
US7529670B1 (en) 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US7675411B1 (en) 2007-02-20 2010-03-09 Avaya Inc. Enhancing presence information through the addition of one or more of biotelemetry data and environmental data
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN103474067B (zh) * 2013-08-19 2016-08-24 科大讯飞股份有限公司 语音信号传输方法及系统
CN103474075B (zh) * 2013-08-19 2016-12-28 科大讯飞股份有限公司 语音信号发送方法及系统、接收方法及系统
JP6759898B2 (ja) * 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN114566169B (zh) * 2022-02-28 2025-07-15 腾讯音乐娱乐科技(深圳)有限公司 喷麦检测方法、音频录制方法和计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0076234B1 (de) * 1981-09-24 1985-09-04 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
US4704730A (en) * 1984-03-12 1987-11-03 Allophonix, Inc. Multi-state speech encoder and decoder
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
CA1252568A (en) * 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
JP2586043B2 (ja) * 1987-05-14 1997-02-26 日本電気株式会社 マルチパルス符号化装置

Also Published As

Publication number Publication date
US5018200A (en) 1991-05-21
EP0360265B1 (de) 1994-01-26
DE68912692D1 (de) 1994-03-10
EP0360265A3 (en) 1990-09-26
EP0360265A2 (de) 1990-03-28
CA1333425C (en) 1994-12-06

Similar Documents

Publication Publication Date Title
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69928288T2 (de) Kodierung periodischer sprache
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60011051T2 (de) Celp-transkodierung
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69900786T2 (de) Sprachkodierung
DE69837822T2 (de) Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE69932460T2 (de) Sprachkodierer/dekodierer
DE68922134T2 (de) Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude.
DE60012760T2 (de) Multimodaler sprachkodierer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition