DE19930522A1 - Verfahren zur Erkennung von Lautsignalen - Google Patents
Verfahren zur Erkennung von LautsignalenInfo
- Publication number
- DE19930522A1 DE19930522A1 DE1999130522 DE19930522A DE19930522A1 DE 19930522 A1 DE19930522 A1 DE 19930522A1 DE 1999130522 DE1999130522 DE 1999130522 DE 19930522 A DE19930522 A DE 19930522A DE 19930522 A1 DE19930522 A1 DE 19930522A1
- Authority
- DE
- Germany
- Prior art keywords
- deviations
- vector coefficients
- heavily
- sound signals
- positive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 title claims 2
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 8
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem die Form der Verteilung und die Relevanz der Abweichung vom Mittelwert der Referenz ausgenutzt wird. DOLLAR A Erfindungsgemäß gelingt die Lösung der Aufgabe dadurch, daß bei der Scoreberechnung das Betragsspektrum oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer entsprechenden Referenz verglichen wird und dabei negative Abweichungen der Testvektorkoeffizienten von den Referenzvektorkoeffizienten stärker gewichtet in die Scoreberechnung eingehen als positive Abweichungen. DOLLAR A Die Erfindung betrifft ein Verfahren zur Erkennung von Lautsignalen und kommt bei der Spracherkennung zur Anwendung.
Description
Die Erfindung betrifft ein Verfahren zur Erkennung von Lautsignalen und kommt
bei der Spracherkennung zur Anwendung.
Die bekannten Verfahren zur Spracherkennung segmentieren das Sprachsignal in
Segmente und berechnen für das betreffende Segment das Betragsspektrum oder
ein daraus abgeleitetes Spektrum und analysieren darin die Formanten, oder sie
berechnen entsprechende Merkmale, die in parametrischer Form das
Betragsspektrum des Segments beschreiben.
Zur Erkennung des gesprochenen Lautes oder Wortes werden die berechneten
Merkmale der Segmente mit den vorher gespeicherten Merkmalen aller trainierten
Laute bzw. Worte verglichen.
Dabei ermittelte Abstands- oder Ähnlichkeitsmaße (Scores) sind die Grundlage für
die nachfolgende Klassifizierung der Laute bzw. Worte. (Dellert, J. R., Proakis,
J. G., Hansen, J. H. L.: Diskrete-Time Processing of Speech Signals. Macmillan
Publishing Company, New York 1993, und Ruske, G.: Automatische
Spracherkennung, Methoden der Klassifikation und Merkmalsextraktion,
Oldenbourg-Verlag 1994.)
Bei der Klassifikation auftretende Erkennungsfehler sind insbesondere darauf
zurückzuführen, daß die Laute in unterschiedlichen Lautfolgen und von
verschiedenen Sprechern unterschiedlich ausgesprochen werden. Damit haben sie
ein unterschiedliches Spektrum und schließlich mehr oder weniger stark
voneinander abweichende Merkmale. Diese Streuungen der Merkmale vermindern
die Diskriminanz bei der Klassifikation.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem die
Form der Verteilung und die Relevanz der Abweichung vom Mittelwert der
Referenz ausgenutzt wird.
Die Aufgabe wird nach Anspruch 1 erfindungsgemäß dadurch gelöst, daß bei der
Scoreberechnung das Betragsspektrum oder ein daraus abgeleitetes Spektrum
oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer
entsprechenden Referenz verglichen wird und dabei negative Abweichungen der
Testvektorkoeffizienten von den Referenzvektorkoeffizienten stärker gewichtet in
die Scoreberechnung eingehen als positive Abweichungen.
Nach Anspruch 2 werden bei der Scoreberechnung große Abweichungen
gegenüber kleinen Abweichungen gestaucht.
Das Verfahren gilt sinngemäß auch bei der Scoreberechnung für Lautfolgen (Di-
und Triphone, Halbsilben, Silben und Worte).
Die Erfindung wird nachstehend an einem Ausführungsbeispiel erläutert.
Beim Test wird das Sprachsignal zunächst lautsegmentiert und danach in
Segmente vorgegebener Länge zerlegt.
Danach wird für das betreffende Segment das Betragsspektrum berechnet, in der
entsprechenden Form (Betragsspektrum, abgeleitetes Spektrum oder
Merkmalsvektor) mit allen Referenzen verglichen und mit einem Abstandsmaß
(Scoreberechnung) bewertet. Nach den berechneten Scores erfolgt die
Klassifikation, z. B. nach dem minimalen Abstand.
Die zu vergleichenden Laute können durch häufige Lautfolgen, wie "en", "ben",
"len", "chen", "schen" usw. ergänzt werden.
Bei der Lautfolgenerkennung und bei der Worterkennung entsprechen die
Zustände der Hidden-Markoff-Modelle weitgehend den Lauten.
Bei der Scoreberechnung werden die Abweichungen vorzeichenabhängig
gewichtet, d. h., negative Abweichungen des Testspektrums von einem
Referenzspektrum werden mit einem größeren Gewicht gewertet als positive
Abweichungen.
Außerdem werden bei der Scoreberechnung die Abweichungen noch durch eine
amplitudenabhängige Bewertung (z. B. Wurzelziehung) bewertet, wodurch große
Abweichungen gegenüber kleinen Abweichungen gestaucht und damit weniger
stark in die Scoreberechnung einbezogen werden.
Claims (2)
1. Verfahren zur Erkennung von Lautsignalen mit Scoreberechnungen zur
Klassifikation mittels Mustervergleich oder Hidden-Markoff-Modellen, dadurch
gekennzeichnet, daß bei der Scoreberechnung, bei der das Betragsspektrum
oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor
des Testsignalsegments mit einer entsprechenden Referenz verglichen wird,
negative Abweichungen der Testvektorkoeffizienten von den Refe
renzvektorkoeffizienten stärker gewichtet eingehen als positive Abweichungen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der
Scoreberechnung große Abweichungen gegenüber kleinen Abweichungen
gestaucht werden.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1999130522 DE19930522A1 (de) | 1999-07-05 | 1999-07-05 | Verfahren zur Erkennung von Lautsignalen |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1999130522 DE19930522A1 (de) | 1999-07-05 | 1999-07-05 | Verfahren zur Erkennung von Lautsignalen |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE19930522A1 true DE19930522A1 (de) | 2001-02-01 |
Family
ID=7913405
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE1999130522 Withdrawn DE19930522A1 (de) | 1999-07-05 | 1999-07-05 | Verfahren zur Erkennung von Lautsignalen |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE19930522A1 (de) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1992006469A1 (en) * | 1990-10-02 | 1992-04-16 | The Dsp Group, Inc. | Boundary relaxation for speech pattern recognition |
| DE4310190A1 (de) * | 1992-07-22 | 1994-01-27 | Int Standard Electric Corp | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn |
| DE4438185A1 (de) * | 1994-09-20 | 1996-03-21 | Philips Patentverwaltung | System zum Ermitteln von Wörtern aus einem Sprachsignal |
| DE69324629T2 (de) * | 1992-06-05 | 1999-09-30 | Nokia Mobile Phones Ltd., Salo | Verfahren und Vorrichtung zur Spracherkennung |
-
1999
- 1999-07-05 DE DE1999130522 patent/DE19930522A1/de not_active Withdrawn
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1992006469A1 (en) * | 1990-10-02 | 1992-04-16 | The Dsp Group, Inc. | Boundary relaxation for speech pattern recognition |
| DE69324629T2 (de) * | 1992-06-05 | 1999-09-30 | Nokia Mobile Phones Ltd., Salo | Verfahren und Vorrichtung zur Spracherkennung |
| DE4310190A1 (de) * | 1992-07-22 | 1994-01-27 | Int Standard Electric Corp | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn |
| DE4438185A1 (de) * | 1994-09-20 | 1996-03-21 | Philips Patentverwaltung | System zum Ermitteln von Wörtern aus einem Sprachsignal |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Dimitriadis et al. | Robust AM-FM features for speech recognition | |
| Hönig et al. | Revising Perceptual Linear Prediction (PLP). | |
| Liu et al. | Simultaneous utilization of spectral magnitude and phase information to extract supervectors for speaker verification anti-spoofing | |
| Alam et al. | Combining amplitude and phase-based features for speaker verification with short duration utterances. | |
| Hansen et al. | Robust emotional stressed speech detection using weighted frequency subbands | |
| CN102968990A (zh) | 说话人识别方法和系统 | |
| Das et al. | Combining source and system information for limited data speaker verification. | |
| CN103366735A (zh) | 语音数据的映射方法和装置 | |
| Dimitriadis et al. | On the effects of filterbank design and energy computation on robust speech recognition | |
| Alam et al. | Multi-taper MFCC features for speaker verification using I-vectors | |
| CN102237089B (zh) | 一种减少文本无关说话人识别系统误识率的方法 | |
| Sethu et al. | Empirical mode decomposition based weighted frequency feature for speech-based emotion classification | |
| Yap et al. | Formant frequencies under cognitive load: Effects and classification | |
| Vijayan et al. | Feature extraction from analytic phase of speech signals for speaker verification. | |
| CN111133508A (zh) | 一种可供比对音素选取方法和装置 | |
| Fahringer et al. | Phase-Aware Signal Processing for Automatic Speech Recognition. | |
| Gemmeke | Advances in noise robust digit recognition using hybrid exemplar-based techniques | |
| DE19930522A1 (de) | Verfahren zur Erkennung von Lautsignalen | |
| Jankowski et al. | Fine structure features for speaker identification | |
| CN104240699B (zh) | 一种简单有效的短语语音识别方法 | |
| Huda et al. | Distinctive phonetic feature (DPF) extraction based on MLNs and Inhibition/enhancement network | |
| Ma et al. | Statistical formant descriptors with linear predictive coefficients for accent classification | |
| Vijayan et al. | Allpass modelling of Fourier phase for speaker verification. | |
| Narayanan et al. | Coupling binary masking and robust ASR | |
| Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
| 8139 | Disposal/non-payment of the annual fee |