DE69232166T2

DE69232166T2 - Fehlerschutz für vielfachmodensprachkodierer

Info

Publication number: DE69232166T2
Application number: DE69232166T
Authority: DE
Inventors: A. Gerson; A. Jasiuk; H. Winter
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC
Priority date: 1991-09-05
Filing date: 1992-08-03
Publication date: 2002-06-06
Anticipated expiration: 2012-08-04
Also published as: EP0556354A1; JPH06502930A; EP1130576A1; DE9218980U1; ATE208082T1; JP3396480B2; DE69232166D1; EP0556354A4; US5642368A; EP0556354B1; WO1993005502A1; DK0556354T3; ES2167318T3

Description

Technisches Gebiet

Diese Erfindung betrifft im Allgemeinen die digitale Datenübertragung und insbesondere Sprachcodierer und bezieht sich insbesondere auf ein Verfahren zum Schaffen eines Fehlerschutzes für spezielle Bits.

Hintergrund der Erfindung

Die Zweiwege-Funkübertragung von Sprachsignalen ist eine wesentliche Errungenschaft der modernen Gesellschaft. Organisationen, die an der Polizeiarbeit, an der öffentlichen Sicherheit und am Transportwesen beteiligt sind, sind neben militärischen Anwendern die Hauptanwender der Sprachkommunikation. Bei dem steigenden Bedarf am verfügbaren Hochfrequenzspektrum ist eine umfassende Forschung durchgeführt worden, um die Effektivität des Spektrums zu maximieren. Ein Weg, um die Effektivität des Spektrums zu erhöhen, besteht darin, die Sprachsignale vor der Übertragung zu komprimieren. Diese Kompression, die in der Technik wohlbekannt ist, vermindert die Bandbreitenanforderung für die Übertragung von Sprachsignalen und ermöglicht die Zuweisung von einer größeren Anzahl von HF- (Hochfrequenz) Übertragungskanälen in einem vorgegebenen Frequenzbereich. Außerdem können in ähnlicher Weise Sprachkompressionsalgorithmen auf die Speichereinrichtung der digitalen Sprache angewendet werden.
Mit der wachsenden Bedeutung der digitalen Kommunikation wird Kompressionsschemen insbesondere bei digitalen Systemen eine große Aufmerksamkeit gewidmet. Kompressionsschemen, die speziell für digitalisierte Sprache geeignet sind, werden gewöhnlich als Sprachcodierer bezeichnet. US-Patent Nr. 4.933.957 an Bottau u. a. beschreibt ein Verfahren und ein System zur Sprachcodierung bei geringer Bitrate, wobei diese für die gewöhnlich in der Technik bekannten Verfahren und Systeme beispielhaft sind.
Die Codierung durch lineare Vorhersage oder LPC (linear predictive coding) ist ein Beispiel einer bekannten Technik zur Sprachcodierung, Bei LPC erfolgt ein Versuch, die menschliche Sprache nachzubilden, indem geeignete Modelle sowohl für das menschliche Klangbild als auch für Anregungen, die sich auf das Klangbild beziehen, abgeleitet werden. Da Sprache ein Signaltyp ist, der sich ständig wiederholt, kann der Umfang der Informationen, die es einem Decodierer ermöglichen, eine Sprachsignalform genau zu reproduzieren, sehr reduziert werden. In Abhängigkeit von der Natur der Sprache, die übertragen wird, können einige Bits für die Erkennung der rekonstruierten Sprache wesentlicher sein als andere.
Wie bei jedem Typ eines digitalen Signals müssen am Decodierer Entscheidungen getroffen werden, ob ursprünglich ein logischer "1"-Pegel oder ein logischer "0"-Pegel übertragen wurde. Codierung mit Fehlersteuerung; die ein in der Technik wohlbekanntes Konzept darstellt, wird oft verwendet, um die Wahrscheinlichkeit zu erhöhen, dass der Decodierer richtige Entscheidungen trifft. Es verbietet sich natürlich von selbst, digitale Sprache für die Übertragung zu komprimieren, nur um eine große Anzahl von Fehlersteuerbits anzuhängen. Es muss ein Kompromiss erreicht werden, um die Effektivität eines vorgegebenen Algorithmus der Sprachkompression zu maximieren, während versucht wird, die Sprachqualität zu gewährleisten, indem der fehlerfreie Empfang kritischer Bits garantiert wird. Natürlich können für eine Vielzahl von Szenarios der Datenübertragung, die keine Anwendungen der Sprachcodierung enthalten, kritische Bits identifiziert werden.
Es erwächst demzufolge eine Notwendigkeit an einem Verfahren zum Fehlerschutz für kritische Bits bei der Übertragung, wobei die speziellen Bits, die einen Schutz benötigen, von einer Untermenge von Eingabebits abhängen können, wie etwa beispielsweise die Menge der Bits, die den Typ der Sprachsignalform, die codiert wird, identifiziert. Die speziellen Bits, die einen Schutz benötigen, könnten außerdem durch die erwarteten Bedingungen des Kommunikationskanals bestimmt werden.
Die britische Patentanmeldung GB-A-2 238 933 des Standes der Technik offenbart ein Verfahren und eine Vorrichtung für den Fehlerschutz von Mehrfachimpuls-Sprachcodierern.
Gemäß GB-A-2 238 933 sollen Informationsbits des Sprachcodierers übertragen werden. Diese Bits werden vor der Übertragung in einer solchen Weise verarbeitet, dass der Schutz lediglich auf die Bits im übertragenen Rahmen angewendet wird, die für die Wahrnehmung wesentlich sind.
Die Wahl der Bits für den Schutz erfolgt bei GB-A-2 238 933 durch einen zweistufigen Prozess. Dieser zweistufige Prozess erfordert eine erste Stufe der Computersimulation und anschließend eine Handabstimmungsstufe. Die Handabstimmungsstufe basiert auf den Simulationsergebnissen und auf persönlicher Sachkenntnis. Ein Faltungscode wird verwendet, um die ausgewählten Bits zu schützen. Somit verwendet GB-A-2 238 933 die Fehlersteuerungcodierung. Andere Bits werden nicht geschützt.
Bei GB-A-2 238 933 enthalten die eingegebenen Datenbits Informationsbits des Sprachcodierers, die für verschiedene Sprachmoden unterschiedlich codiert sind. Von diesen Informationsbits des Sprachcodierers sind die für den Fehlerschutz ausgewählten Bits die Bits, die für die Wahrnehmung eine größere Wichtigkeit besitzen. Die Anordnung von GB-A-2 238 933 führt jedoch keine selektive Auswahl dieser Bits in Abhängigkeit vom Sprachmodus aus: die Auswahl, welche Bits zu schützen sind, ist für unterschiedliche Sprachmoden die gleiche.
GB-A-2 238 933 ist so beschaffen, dass die codegeschützten Bits mit den ungeschützten Bits kombiniert werden, um einen Bitstrom zu bilden, siehe Fig. 3 von GB-A-2 238 933. Der Bitstrom wird zu einem Decodierer übertragen.
Die kanadische Patentanmeldung CA-A-2 016 462 des Standes der Technik offenbart ein Verfahren und eine Vorrichtung für die Sprachcodierung.
Bei CA-A-2 016 462 wird eine Hybrid-Architektur mit geschaltetem Mehrfachimpulscodierer geschaffen, bei der während stimmloser Sprache ein Modell der stochastischen Anregung verwendet wird und die außerdem in der Lage ist, stimmhafte Sprache zu modellieren. Die Codiererarchitektur umfasst eine Einrichtung zum Analysieren eines Eingangssprachsignals um zu bestimmen, ob das Signal stimmhaft oder stimmlos ist, eine Einrichtung zum Erzeugen der Mehrfachimpulsanregung zum Codieren des Eingangssignals, eine Einrichtung zum Erzeugen einer Anregung mit Zufallscodebuch zum Codieren des Eingangssignals und eine Einrichtung, die auf die Einrichtung zum Analysieren eines Eingangssignals reagiert, um entweder die Mehrfachimpulsanregung oder die Anregung mit Zufallscodebuch auszuwählen. CA-A-2 016 462 schafft ein analoges Verfahren.

Zusammenfassung der Erfindung

Diese sowie weitere Erfordernisse werden durch das Verfahren und die Vorrichtung der vorliegenden Erfindung zum Fehlerschutz von Informationsbits erfüllt. Das Verfahren umfasst das Bereitstellen von Eingangsdatenbits, von denen wenigstens einige zu schützen sind, das Sortieren der Eingangsdatenbits basierend auf Informationen, die aus einer Untermenge der Eingangsdatenbits bestimmt werden, und das Anwenden einer Technik der Fehlersteuerungcodierung auf wenigstens einige der sortierten Bits. Die Vorrichtung der vorliegenden Erfindung umfasst eine Einrichtung zum Ausführen dieses Verfahrens.

Kurze Beschreibung der Zeichnungen

Fig. 1 ist eine Darstellung einer typischen Sprachsignalform;
Fig. 2A ist ein Blockschaltbild eines VSELP-Sprachcodierers;
Fig. 2B stellt VSELP-Codebücher, die in der vorliegenden Erfindung verwendet werden, genauer dar;
Fig. 3 ist ein Blockschaltbild eines Codierersystems, das verwendet werden kann, um das Verfahren der vorliegenden Erfindung zu implementieren;
Fig. 4 ist eine grafische Darstellung der decodierten Bitfehlerrate gegenüber der Bitposition für einen Faltungsdecodierer mit variabler Rate; und
Fig. 5 zeigt die Verwendung eines Vordecodierers, um den geeigneten Nachdecodierer auszuwählen.

Beschreibung einer bevorzugten Ausführung

Fig. 1 erläutert eine typische Sprachsignalform. Die menschliche Sprache kann im Allgemeinen entweder als "stimmhaft" oder als "stimmlos" klassifiziert werden. Bei stimmhafter Sprache bezieht sich eine wahrnehmbare periodische Schwingung auf das Klangbild. Eine stimmhafte Sprache ist gewöhnlich mit der Bildung eines langen Vokalklangs verbunden, wie etwa die langen Klänge "a", "i" und "o" im Wort "radio". Konsonantklänge, die keine wesentliche periodische Schwingung enthalten, werden als stimmlos betrachtet.
Fig. 1 stellt außerdem den Fakt dar, dass stimmhafte Sprache wahrnehmbare Periodizitäten aufweist. Es gibt Langzeit- Periodizitäten, wie jene, die im Segment 102 deutlich sind, und Kurzzeit-Korrelationen wie die des Segments 101. Vom Standpunkt der Wahrscheinlichkeitsanalyse haben diese Bestrebungen der Charakteristiken der Sprachsignalformen, sich selbst darzustellen, relativ starke Kurzzeit- und Langzelt-Korrelationen zu Folge, die die lineare Vorhersage zu einem durchführbaren Konzept der Sprachcodierung machen. Die Beziehung zwischen diesen Korrelationen und LPC-Techniken werden nachfolgend genauer erläutert.
Fig. 2A stellt in Form eines Blockschaltbilds einen durch eine Vektorsumme angeregten Sprachcodierer mit linearer Vorhersage (VSELP) dar. Sprachsignale weisen, selbst wenn sie als stimmhaft charakterisiert werden können, stochastische (willkürliche) Eigenschaften sowie periodische Eigenschaften auf. In einem VSELP-System wird die Anregung des Klangbilds durch eine Kombination eines Vektors mit erster Signalform, der aus einer festgelegten Gruppe aus Anregungsvektoren, die ein Codebuch (201) genannt wird, und aus einem zweiten Vektor modelliert, der ausgewählt wird, indem ein Abschnitt einer Signalform basierend auf der Vergangenheit der Sprache, die codiert wird, extrahiert wird. Diese Vergangenheit ist in einem Speicher (202) der Vorrichtung zur Langzeitvorhersage gespeichert.
Die Informationen der Langzeitvorhersage (202) sind beim Codieren von stimmhafter Sprache besonders nützlich, bei der Langzeitkorrelationen vorherrschend sind. Vom Codebuch abgeleitete Vektoren (201) unterstützen das Codieren von Sprachsignalformen, die entweder stimmhaft oder stimmlos sind. Um Sprachsignalformen an den wechselnden Grad der stimmhaften Charakteristiken anzupassen, werden sowohl die Codebuchvektoren (201) als auch Langzeitvorhersagevektoren (202) skaliert, indem multiplikative Verstärkungsfaktoren (204 bzw. 206) angewendet werden.
Diese skalierten Faktoren werden summiert (207) und die resultierende Schwingung wird an ein LPC-Filter (208) angelegt. In der bevorzugten Ausführung ist das LPC-Filter ein IIR-Filter (IIR, Infinite Impulse Response, unbegrenztes Ansprechen auf einen Impuls), das in einem DSP (digitaler Signalprozessor) implementiert ist. Das LPC-Filter (208) ist hauptsächlich vorgesehen, um das Klangbild zu modellieren, für das die Schwingung Vorgesehen ist. Die Neuprogrammierung der Koeffizienten des LPC-Filters (208) kann periodisch ausgeführt werden, um den Ausgang des Sprachcodierers zu optimieren. Tatsächlich wird der Ausgang des Sprachcodierers mit digitalisierter Sprache (210) verglichen (209) und der resultierende Fehler wird minimiert (211), indem die Vektorauswahl sowohl vom Codebuch (201) als auch von der Langzeit-Vorhersageeinrichtung (202) geändert wird.
In der bevorzugten Ausführung arbeitet der Sprachcodierer bei 5,9 Kilobit/Sekunde (kbps) bei einer Rahmenlänge von 20 Millisekunden (ms). Die Länge der Rahmen oder der Pakete nähert sich der Periode der Sprache an, während welcher normalerweise wenigstens einige Parameter relativ konstant bleiben. Beispiele dieser relativ konstanten Parameter enthalten die Koeffizienten des LPC-Filters und den Sprachmodus. In der bevorzugten Ausführung sind die Sprachmoden stimmlos, wenig stimmhaft, mäßig stimmhaft und stark stimmhaft. Der 20 ms-Rahmen wird in vier 5 ms- Unterrahmen unterteilt, um Parametern zu entsprechen, die sich in der Sprachsignalform häufiger ändern. Diese in stärkerem Maße flüchtigen Parameter enthalten die Information des Anregungsvektors und die multiplikativen Verstärkungswerte.
In der tatsächlichen Praxis enthält ein Rahmen 118 Informationsbits. Wie zuvor erläutert wurde, besitzen jedoch nicht alle Bits die gleiche Wichtigkeit. Der Vektor der Langzeitvorhersage fügt bei der Codierung stimmloser Sprache nur wenig an, ist jedoch sehr wichtig bei der richtigen Rekonstruktion der Sprachsignalform im stark stimmhaften Sprachmodus. Wegen dieser Änderung der Signifikanz ermöglicht die vorliegende Erfindung, dass Sprachcodiererbits basierend auf dem Sprachmodus wahlweise fehlergeschützt werden, wodurch der benötigte Kompromiss zwischen der erwünschten Fehlersteuercodierung Von Informationsbits und der unerwünschten Bandbreitenerweiterung erreicht wird, die aus dem Zufügen von zu vielen Overheadbits resultieren würde.
Fig. 2b zeigt die verschiedenen Codebücher der bevorzugten Ausführung genauer. Wie zuvor erläutert wurde, trägt der Vektor der Langzeitvorhersage beim Codieren von stimmloser Sprache wenig bei. Im stimmlosen Modus werden deswegen dafür Vektoren von den beiden VSELP-Codebüchern (214 und 215) gewählt. Wenn die Sprachsignalform, die sprachcodiert wird, wenig, mäßig oder stark stimmhaft ist, wird der wichtige Vektor (212) der Langzeitvorhersage gemeinsam mit einem einzelnen Vektor von einem VSELP-Codebuch (213) übertragen. Natürlich besitzt wie in dem oben verwendeten einfacheren Beispiel jeder Vektor einen zugehörigen multiplikativen Verstärkungswert (220, 221, 222, 223), der an einen geeigneten Multiplikator (216, 217, 218, 219) angelegt wird, um die Amplituden für eine optimale Sprachcodierung einzustellen. Wie zuvor werden die gewählten Vektoren, nachdem sie summiert wurden (224), an ein LPC-Filter angelegt.
In der bevorzugten Ausführung wird die Faltungscodierung angewendet, um den Fehlerschutz zu gewährleisten. Faltungscodierer und -decodierer sind in der Technik wohlbekannt und sind außerdem sehr einfach zu implementieren, insbesondere bei der Leistung eines DSP, der dem Entwickler zur Verfügung steht. Dies vermeidet jedoch nicht die Verwendung der wohlbekannten Blockcodierer oder die Kombination dieser beiden, um den notwendigen Fehlerschutz zu gewährleisten.
Fig. 3 zeigt in Form eines Blockschaltbilds das Codierersystem der vorliegenden Erfindung. Die 118 Bits der Rahmendaten werden an den Eingang eines Datenseparators (301) angelegt. In Abhängigkeit vom Sprachmodus platziert der Separator die Bits, die für den speziellen Sprachmodus als die wichtigsten betrachtet werden, in einer Speicheranordnung, die als Anordnung Klasse I- (302) bezeichnet wird. Die wichtigen Bits, die der Anordnung Klasse I (302) zugewiesen sind, werden in einer Reihenfolge vom höchstwertigen zum niederwertigsten Bit angeordnet. Die Datenbits, die für den speziellen Sprachmodus als unwichtig betrachtet werden, werden in einer Speicheranordnung platziert, die als Anordnung Klasse II (303) bezeichnet wird. Diese Bits werden keiner Fehlersteuercodierung unterzogen.
Die Bits von der Anordnung Klasse I (302) werden in einen Faltungscodierer (304) eingegeben. Der Codierer (304) der bevorzugten Ausführung ist von einem Codierer der Rate 1/3 auf einen Codierer der Rate 1/2 umschaltbar. Dies wird oft als Vielfachraten-Codierer bezeichnet. Wie in der Technik wohlbekannt ist, weisen Daten, die unter Verwendung eines Faltungscodes der Rate 1/3 codiert wurden, eine geringere decodierte Bitfehlerrate auf als Daten, die bei einer Rate 1/2 codiert wurden. Die geringere Bitfehlerrate wird natürlich auf Kosten einer größeren Anzahl von Overheadbits erreicht. Fig. 4 erläutert eine wohlbekannte Besonderheit von Faltungscodes. Die beste wiederhergestellte Bitfehlerrate tritt bei Bits auf, die entweder nahe am ersten zu codierenden Bit oder nahe am letzten zu codierenden Bit liegen. Da die frühen Bits die am besten geschützten Bits sind, werden die Sprachmodusbits an dieser Position platziert.
Da die Sprachmodusbits vorzugsweise immer an der gleichen Position sind und auf die gleiche Weise codiert sind, kann ein einziger Vordecodierer (501) verwendet werden, um diese Bits zu decodieren, wie in Fig. 5 dargestellt ist. Die resultierenden Informationen des decodierten Modus können verwendet werden, um den geeigneten Nachdecodierer (503, 504, 505, 506) zu wählen (502), damit sichergestellt ist, dass der geeignete modusbestimmte Algorithmus zum Anordnen und Codieren verwendet wird, um die geschützten Datenbits des Sprachcodierers zu decodieren.
In digitalen Übertragungssystemen besitzen einige übertragene Bits prinzipiell wegen ihrer Position im Kanal eine höhere Wahrscheinlichkeit des decodierten Fehlers als andere Bits. Zum Beispiel kann in TDM- (Zeitmultiplex-) Systemen die Wahrscheinlichkeit eines decodierten Fehlers eines speziellen Bits auf die Nähe des Bits zu einer übertragenen Synchronisationssequenz bezogen werden.
In Fig. 3 wird der Ausgang des Decodierers (304) wie auch der Ausgang der Anordnung der Klasse II (303) an den Eingang einer Verschachtelungseinrichtung (305) angelegt. Die Verschachtelungseinrichtung (305) kombiniert in einfacher Weise die codierten und die uncodierten Bits, sodass der resultierende Datenstrom übertragen werden kann.

Claims

1. Verfahren zum Gewährleisten eines Fehlerschutzes für Informationsbits eines Sprachcodierers, die übertragen werden sollen, wobei das Verfahren umfasst:

a) Schaffen von Eingangsdaten, die Informationsbits eines Sprachcodierers enthalten, die bei unterschiedlichen Sprachmoden verschieden codiert sind;

b) Trennen (301) der Eingangsdatenbits basierend auf dem Sprachmodus in erste (302) und zweite (303) Anordnungen aus Bits;

sodass die erste Anordnung (302) die Bits enthält, die für den speziellen Sprachmodus als die wichtigsten betrachtet werden; und

die zweite Anordnung (303) die Bits enthält, die für den speziellen Sprachmodus als unwichtig betrachtet und keiner Fehlersteuercodierung unterzogen werden;

c) Anwenden (304) einer Technik der Fehlersteuercodierung auf die Bits der ersten Anordnung, um codierte Bits zu erzeugen;

d) Kombinieren (305) der codierten Bits mit den nicht codierten Bits der zweiten Anordnung, um einen Bitstrom zu bilden; und

e) Übertragen des Bitstroms.

2. Verfahren nach Anspruch 1, bei dem die Bits der ersten Anordnung (302) in Abhängigkeit vom Sprachmodus so angeordnet werden, dass die Bits mit einer beim Rekonstruieren der Sprache für die Wahrnehmung größeren Signifikanz so codiert werden (304), dass diese für die Wahrnehmung signifikanteren Bits eine geringere Wahrscheinlichkeit eines decodierten Fehlers besitzen.

3. Verfahren nach Anspruch 1, bei dem der Schritt c) des Anwendens (304) einer Technik der Fehlersteuercodierung das Anlegen der Bits der ersten Anordnung (302) als Eingang an einen Codierer (304) umfasst, um codierte Bits zu schaffen.

4. Verfahren nach Anspruch 3, bei dem der Codierer (304) einen Faltungscodierer enthält.

5. Verfahren nach Anspruch 4, bei dem der Faltungscodierer (304) wenigstens einige Bits bei einer ersten Rate und wenigstens einige Bits bei einer zweiten Rate codiert.

6. Verfahren nach Anspruch 5, bei dem die erste Rate einer Faltungscoderate 1/3 entspricht und die zweite Rate einer Faltungscoderate 1/2 entspricht.

7. Verfahren nach Anspruch 1, bei dem die Bits der ersten Anordnung (302) in der Reihenfolge der Wichtigkeit angeordnet sind.

8. Verfahren nach Anspruch 7, bei dem die Reihenfolge der Wichtigkeit, in der die Bits der ersten Anordnung (302) angeordnet sind, durch den Sprachmodus bestimmt ist.

9. Verfahren nach Anspruch 1, bei dem der Schritt e) des Übertragens des Bitstroms das Speichern und das Wiedergewinnen des Bitstroms von einer Speichervorrichtung enthält.

10. Vorrichtung zum Gewährleisten des Fehlerschutzes für Informationsbits eines Sprachcodierers, umfassend:

- Mittel zum Bereitstellen von Eingangsdatenbits, die Informationsbits eines Sprachcodierers enthalten, die für unterschiedliche Sprachmoden verschieden codiert sind;

- Mittel (301) zum Trennen der Eingangsdatenbits basierend auf dem Sprachmodus in erste (302) und zweite (303) Anordnungen von Bits, sodass die erste Anordnung (302) die Bits enthält, die für den speziellen Sprachmodus als die wichtigsten betrachtet werden, und die zweite Anordnung (303) die Bits enthält, die für den speziellen Sprachmodus als unwichtig betrachtet und keiner Fehlersteuercodierung unterzogen werden;

- Mittel (304) zum Anwenden einer Technik der Fehlersteuercodierung auf die Bits der ersten Anordnung (302), um codierte Bits zu erzeugen; und

- Mittel (305) zum Kombinieren der codierten Bits mit den nicht codierten Bits der zweiten Anordnung, um einen Bitstrom zu bilden.