JPS5823097A - Voice recognition apparatus - Google Patents
Voice recognition apparatusInfo
- Publication number
- JPS5823097A JPS5823097A JP12163181A JP12163181A JPS5823097A JP S5823097 A JPS5823097 A JP S5823097A JP 12163181 A JP12163181 A JP 12163181A JP 12163181 A JP12163181 A JP 12163181A JP S5823097 A JPS5823097 A JP S5823097A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- section
- input
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 206010011224 Cough Diseases 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000002492 Rungia klossii Nutrition 0.000 description 1
- 244000117054 Rungia klossii Species 0.000 description 1
- 238000001467 acupuncture Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
この発明は音声で入力された単語、音節等を紹鐵する音
声iIa!識装置に関するものである。[Detailed Description of the Invention] This invention is a voice iia! that introduces words, syllables, etc. input by voice! It is related to the identification device.
音声で入力された数字、地名等の単語もしくは音節等を
認識する音声認識装置は荷物の区分け、端末からのデー
タ入力尋の分野で実用に供されている。従来の音声認識
装置の構成を第1図に示す。Speech recognition devices that recognize words or syllables such as numbers, place names, etc. input by voice are in practical use in the fields of sorting luggage and inputting data from terminals. The configuration of a conventional speech recognition device is shown in FIG.
第1図において入力端子1よ多入力された祈声は音声分
析部2において帯域制限された後、A/D変換によりデ
ィジタル音声に変換され、パワー情報等を用いて音声区
間の抽出が行われる、その抽出された音声区間では特徴
パラメータが計算され、入力音声は%徴パラメータに変
換される。MU部3では標準パターン記憶部4にI記憶
された標準パターンと分析部2で特徴パラメータに変換
された入力音声との照合が行われ、入力音声と各標準パ
ターンとの距離(もしくは類似度またはそれに相当する
t)が計算される。すべての標準パターンとの距離が計
算され、その最小の距離(類似度の場合は厳大の類似度
)をもつ標準パターンに対応する単語が認識結果として
出力端子5から出力される。なお以後の観明は距離につ
いて行うが、類似度の場合は最小値を最大値に読みかえ
ることによシ適用できる。In Fig. 1, prayers that are input more than input terminal 1 are band-limited in the voice analysis section 2, and then converted into digital voices by A/D conversion, and voice sections are extracted using power information, etc. , a feature parameter is calculated in the extracted speech section, and the input speech is converted into a percentage feature parameter. The MU section 3 compares the standard patterns stored in the standard pattern storage section 4 with the input speech converted into feature parameters by the analysis section 2, and calculates the distance (or similarity or similarity) between the input speech and each standard pattern. The corresponding t) is calculated. The distances to all standard patterns are calculated, and the word corresponding to the standard pattern with the minimum distance (in the case of similarity, the strict similarity) is output from the output terminal 5 as a recognition result. Although the following discussion will be based on distance, it can also be applied to similarity by replacing the minimum value with the maximum value.
従来この種の音声認識装置では認識対象の単語の標準パ
ターンのみを標準パターン記憶部4に記憶しておくのが
通常であった。しかしながら音声認識装置の利用者は必
ずしもagt&対象の単鎖のみを正しく入力してくれる
とは限らない。時にはせきばらい、くシやみ等や“え−
と”、“あの−”等の音声が入力されるのは避けられな
い。また背抜で話し声や靴音、ドアの開閉の音などがす
る場合はこれらもひろってしまうことも起りうる。更に
は電話回線を通して音声を入力する場合、状況によって
ビジートーン、リングバックトーン等が入力されること
も起シうる。これらの音声もしくは音が入力されると、
これらの音声屯しくけ音が内置されているいずれかの標
準パターンに近いと判定されて出力端子5から出力され
ると、望ましくない結果が出力されることになる。した
がって例えば音声で計算機にデータを投入しようとする
場合や音声によシ銀行業務、座席予約等のサービスを受
けようとする場合、重大な支障をき九す仁とになる。Conventionally, in this type of speech recognition apparatus, it has been usual to store only standard patterns of words to be recognized in the standard pattern storage section 4. However, the user of the speech recognition device does not necessarily correctly input only the single chain of agt & target. Sometimes I have a cough, dark circles, etc.
It is unavoidable that voices such as "and" and "um-" are input.Also, if you hear voices, shoes, doors opening and closing, etc., these may also be picked up.Furthermore, When inputting audio through a telephone line, busy tones, ringback tones, etc. may be input depending on the situation.When these voices or sounds are input,
If these audio trigger sounds are determined to be close to any of the internally placed standard patterns and are output from the output terminal 5, an undesirable result will be output. Therefore, for example, when trying to enter data into a computer by voice, or when trying to receive services such as banking or seat reservations by voice, this can cause serious problems.
このような事態を避けるため従来とられてきた方法に棄
却という出力を許すことがある。これはしきい(mDを
もうけておき、1繊結果に付随して得られる距離値dが
Dよシ大きけれは棄却と判定することにより上記のよう
な認識誤り金防ごうというものである。しかしながらこ
のような方法をとっても認識対象の音声に似た音声もし
くFi祈が入力された場合、認識誤りが生じるのは避け
られない。In order to avoid such a situation, a conventional method sometimes allows an output to be rejected. This is to prevent the above-mentioned recognition error by setting a threshold (mD) and determining that the distance value d associated with the result of one fiber is larger than D is rejected. However, Even with this method, if a voice similar to the voice to be recognized or a Fi prayer is input, recognition errors will inevitably occur.
第2図はこの様子を示した図であり、音声の特徴パラメ
ータを空間上の点として模式的に示したものである。4
@域6は“はい”という認識対象の単鎖の分布、点7は
その標準パターンの点である。FIG. 2 is a diagram showing this situation, and schematically shows the voice characteristic parameters as points in space. 4
@Area 6 is the distribution of single chains to be recognized as "yes", and point 7 is the point of its standard pattern.
正しい発声を棄却しないためにはしきい値りは領域6を
おおうに足る大きさにする必要がある。このとき点7を
中心とした半径りの球8の内部の点は“はい”と認識さ
れる。領域9は“たに1というM一対象外の音声の分布
を示し、これは穎塚8と重なっており、点10はその1
つの発声データの位置を示し、前記重な多部分にある。In order not to reject correct utterances, the threshold value needs to be large enough to cover region 6. At this time, points inside the sphere 8 with a radius around the point 7 are recognized as "yes". Region 9 shows the distribution of M1 non-targeted speech, which is "Tani 1", which overlaps with Muzuka 8, and point 10 is that 1.
The position of the two utterance data is shown in the overlapping multi-portion.
この場合点10は1はい″と誤って認識されてしまうこ
とになる。このような事態は認識方法のいかんにかかわ
らず従来の音声111g誠装置では避けられない問題点
であった。In this case, point 10 will be erroneously recognized as 1, ``Yes''.This situation is an unavoidable problem in conventional voice 111g Makoto devices, regardless of the recognition method.
この発明はこの欠点を除去するために、棄却すべき音声
もしくは音に対応した標準パターンをあらかじめ作成し
て内蔵しておき、認識結果が上記棄却用の標準パターン
になった場合は、棄却を出力することを特徴とした音声
認識装置で、その目的は入力されることが避けられず、
従来の装置では誤って認識されやすいため重大な支障が
生じた音声もしくは音を正しく棄却することにある。In order to eliminate this drawback, the present invention creates and stores in advance a standard pattern corresponding to the voice or sound to be rejected, and outputs a rejection when the recognition result becomes the standard pattern for rejection. It is a voice recognition device that is characterized by
The purpose of the present invention is to correctly reject voices or sounds that are easily recognized incorrectly and cause serious trouble in conventional devices.
第3図はこの発明の実施例を示し、第1図と対応する部
分には同一符号を付けであるが、この発明では標準パタ
ーン記憶部4に認識対象の単結に対応した標準パターン
を記憶する記憶[41の他に、棄却すべき音声もしくは
音に対応した伸率パターンの記憶部42が設けられる。FIG. 3 shows an embodiment of the present invention, and parts corresponding to those in FIG. In addition to the storage section 41 for storing the data, a storage section 42 for expansion rate patterns corresponding to voices or sounds to be rejected is provided.
この装置の動作は第1図に示した音声認識装置の場合と
殆んど同一である。たりしこの発明装置で祉−識部3で
入力音声と、記憶部41に記憶しであるwt識対象の単
鎖の標準パターンとの照合を行う他に、記憶N42に記
憶しである棄却すべき音声もしくは音の標準パターンと
も照合を行い、これらの中で最小の距離を持つ標準パタ
ーンを求める。更に求めた標準パターンが記憶部41に
記憶しである標準パターンであれば、第1図に示した装
置と全く同じ処理をして結果を出力する。もし最小距離
をもつ[4パターンとして記憶部42にbピ憶しである
標準パターンが選ばれた場合は棄却として結果を出力端
子5に出力する。The operation of this device is almost the same as that of the speech recognition device shown in FIG. In this inventive device, the identification section 3 compares the input voice with the standard single-chain pattern of the wt recognition object stored in the storage section 41, and also rejects the input voice stored in the storage section N42. It also performs matching with standard patterns of appropriate speech or sounds, and finds the standard pattern with the minimum distance among them. Further, if the obtained standard pattern is a standard pattern stored in the storage section 41, the same processing as in the apparatus shown in FIG. 1 is performed and the result is output. If the standard pattern stored in the memory unit 42 as the [4 pattern with the minimum distance is selected, the result is output to the output terminal 5 as a rejection.
第4図はこの発明装置が有効に動作することの原理を図
示したものであシ、第2図と対応する部分には同一符号
を付けである。棄却すべき音声頓たに”に対して用意し
た標準パターンの空間上の点11と発声データの点lO
とが比較され、この点10は標準パターン11と最も距
離が近いのでこの点10の音声に対しては棄却という正
常な出力が得られる。FIG. 4 illustrates the principle of effective operation of the device of the present invention, and parts corresponding to those in FIG. 2 are given the same reference numerals. Point 11 on the space of the standard pattern prepared for “Voices that should be rejected” and point lO of the utterance data
Since this point 10 is the closest to the standard pattern 11, a normal output of rejection is obtained for the voice at this point 10.
以上説明したように、この発明の#cTijtは棄却す
べき音声もしくは音の標準パターンを用意しておき、入
力音声が棄却すべき音声もしくは音の憚準パターンと最
も近いと判定された場合には棄却という出力を出すため
、せきばらい、くシやみ、ビジートーン、リングバック
トーン婢音声紹誠装置への入力が避けられない音声もし
くは音を正しく棄却し、望ましくない耐織結釆が得られ
ることを避けられる利点がある。As explained above, #cTijt of the present invention prepares a standard pattern of speech or sound to be rejected, and when it is determined that the input speech is closest to the standard pattern of speech or sound to be rejected, In order to produce an output of rejection, voices or sounds that are unavoidable to be input to the voice introduction device such as coughing, coughing, busy tones, and ringback tones are correctly rejected and an undesirable durable weave is obtained. It has the advantage of avoiding
4、図面の簡単なりil、E94
第1図は従来の音声g繊装置の構成を示すブロック図、
第2図は従来の音声認識装置において棄却すべき語が誤
って認識される例を示しだ図、第3図はこの発明装置の
一実施例の構成を示すブロック図、!4図はこの発明を
用いると棄却すべき時が正しく棄却されることを示す図
である。4. Simplified drawings, E94 Figure 1 is a block diagram showing the configuration of a conventional audio cable device.
Fig. 2 shows an example in which a word to be rejected is incorrectly recognized in a conventional speech recognition device, and Fig. 3 is a block diagram showing the configuration of an embodiment of the inventive device. FIG. 4 is a diagram showing that when this invention is used, a case that should be rejected is correctly rejected.
l二人力端子、2:分析部、3:餡瞳部、4:標準パタ
ーン記憶部、41:認鍼対象飴の標準パターン記憶部、
42:棄却すべき入力O4J準パLンH己憶部、5:出
力端子、6:Mk対象の飴“はい″の分布、7:“はい
”の4s準パターン、8:”はい”とV、陳される入力
の範囲、9:棄却すべき胎”たに″の分布、10:“た
に”の特定の発声の位置、11:”だに”の標準パター
ン。l two-person power terminal, 2: analysis section, 3: bean paste pupil section, 4: standard pattern storage section, 41: standard pattern storage section for certified acupuncture target candy,
42: Input O4J quasi-pan LnH self-memory part to be rejected, 5: Output terminal, 6: Distribution of candy “yes” for Mk target, 7: 4s quasi-pattern of “yes”, 8: “yes” and V , range of input to be displayed, 9: distribution of ``tani'' to be rejected, 10: position of specific utterance of ``tani'', 11: standard pattern of ``dani''.
%許出1人 日本電信’NU話公社 代理人 草野 車 71 図 オ 2 図 オ 3 図 42% Permit 1 person Nippon Telegraph's NU Service Corporation Agent Kusano Kuruma Figure 71 E 2 Diagram Figure 3 42
Claims (1)
声分析部と、標準パターンを記憶しておく標準パターン
記憶部と、入力音声から前記音声分析部において抽出さ
れた特徴パラメータと、前記標準パターン記憶部に記憶
されている椰準ノ(ターンとの照合を行う音声ktk部
とから構成され、前記標準パターン記憶部において、認
識すべき音声の標準パターンと共に東却すべき音声、も
しくは肯の標準パターンを記憶しておくことを%黴とす
る音声認識装置。(1) a speech analysis section that analyzes input speech and extracts characteristic parameters; a standard pattern storage section that stores standard patterns; a feature parameter extracted from the input speech by the speech analysis section; It is composed of a voice ktk section that performs matching with the yajunno (turn) stored in the pattern memory section, and in the standard pattern memory section, the voice to be recognized or the voice to be recognized is A speech recognition device whose main purpose is to memorize standard patterns.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP12163181A JPS5823097A (en) | 1981-08-03 | 1981-08-03 | Voice recognition apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP12163181A JPS5823097A (en) | 1981-08-03 | 1981-08-03 | Voice recognition apparatus |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS5823097A true JPS5823097A (en) | 1983-02-10 |
Family
ID=14816038
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP12163181A Pending JPS5823097A (en) | 1981-08-03 | 1981-08-03 | Voice recognition apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5823097A (en) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5830800A (en) * | 1981-08-17 | 1983-02-23 | トヨタ自動車株式会社 | Voice recognition system for vehicle |
| JPS5848099A (en) * | 1981-09-16 | 1983-03-19 | 日本電気株式会社 | Voice pattern coincidence inspection system |
| JPS5876893A (en) * | 1981-10-30 | 1983-05-10 | 日本電気株式会社 | Voice recognition equipment |
| JPS59178587A (en) * | 1983-03-30 | 1984-10-09 | Nec Corp | Speaker confirming system |
| JPS59218499A (en) * | 1983-05-26 | 1984-12-08 | 富士電機株式会社 | How to prevent voice recognition errors |
| JPS61179499A (en) * | 1984-09-28 | 1986-08-12 | インタ−ナシヨナル・スタンダ−ド・エレクトリツク・コ−ポレイシヨン | Keyword recognition and system used in template chain model |
| JPH11506845A (en) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | Automatic control method of one or more devices by voice dialogue or voice command in real-time operation and device for implementing the method |
| JP2001083989A (en) * | 1999-09-09 | 2001-03-30 | Xanavi Informatics Corp | Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56121100A (en) * | 1980-02-29 | 1981-09-22 | Nissan Motor | Voice identification driving device |
-
1981
- 1981-08-03 JP JP12163181A patent/JPS5823097A/en active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56121100A (en) * | 1980-02-29 | 1981-09-22 | Nissan Motor | Voice identification driving device |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5830800A (en) * | 1981-08-17 | 1983-02-23 | トヨタ自動車株式会社 | Voice recognition system for vehicle |
| JPS5848099A (en) * | 1981-09-16 | 1983-03-19 | 日本電気株式会社 | Voice pattern coincidence inspection system |
| JPS5876893A (en) * | 1981-10-30 | 1983-05-10 | 日本電気株式会社 | Voice recognition equipment |
| JPS59178587A (en) * | 1983-03-30 | 1984-10-09 | Nec Corp | Speaker confirming system |
| JPS59218499A (en) * | 1983-05-26 | 1984-12-08 | 富士電機株式会社 | How to prevent voice recognition errors |
| JPS61179499A (en) * | 1984-09-28 | 1986-08-12 | インタ−ナシヨナル・スタンダ−ド・エレクトリツク・コ−ポレイシヨン | Keyword recognition and system used in template chain model |
| JPH11506845A (en) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | Automatic control method of one or more devices by voice dialogue or voice command in real-time operation and device for implementing the method |
| JP2001083989A (en) * | 1999-09-09 | 2001-03-30 | Xanavi Informatics Corp | Speech recognition device, recording medium having data for speech recognition recorded therein and speech recognition navigation device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4400828A (en) | Word recognizer | |
| DE69324988T2 (en) | Review of the speaker | |
| US5664058A (en) | Method of training a speaker-dependent speech recognizer with automated supervision of training sufficiency | |
| EP0109190B1 (en) | Monosyllable recognition apparatus | |
| JPS5876893A (en) | Voice recognition equipment | |
| CA2133787C (en) | Method of accomodating for carbon/electret telephone set variability in automatic speaker verification | |
| JPS5823097A (en) | Voice recognition apparatus | |
| JPH07104952B2 (en) | Pattern matching device | |
| JPH0432900A (en) | Sound recognizing device | |
| JPS593491A (en) | voice recognition device | |
| KR100339525B1 (en) | Life information guide device using the 1,2-level central recognition method | |
| JPH02275497A (en) | Voice recognition device | |
| JPS58102999A (en) | Voice recognition equipment | |
| JPS63121099A (en) | voice recognition device | |
| EP0902415A1 (en) | Method of and arrangement for providing improved speaker reference data and speaker verification | |
| JPS60208800A (en) | Word voice recognition equipment | |
| JPH05216493A (en) | Operator assistance type speech recognition device | |
| JPH0459637B2 (en) | ||
| JPS58105299A (en) | Alphabet voice recognition equipment | |
| Thomson et al. | Automatic speech recognition in the Spanish telephone network. | |
| JPS58152299A (en) | Voice input controller | |
| JPH03274598A (en) | Voice recognition device | |
| JPH0222955A (en) | voice dialing device | |
| JPH02202253A (en) | Telephone set | |
| JPS61277999A (en) | voice recognition device |