JP5375423B2 - Speech recognition system, speech recognition method, and speech recognition program - Google Patents
Speech recognition system, speech recognition method, and speech recognition program Download PDFInfo
- Publication number
- JP5375423B2 JP5375423B2 JP2009185520A JP2009185520A JP5375423B2 JP 5375423 B2 JP5375423 B2 JP 5375423B2 JP 2009185520 A JP2009185520 A JP 2009185520A JP 2009185520 A JP2009185520 A JP 2009185520A JP 5375423 B2 JP5375423 B2 JP 5375423B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- instruction
- erroneous operation
- section
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000001514 detection method Methods 0.000 claims description 75
- 230000005236 sound signal Effects 0.000 claims description 30
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
Images
Description
本発明は、音声認識システム、音声認識方法および音声認識プログラムに関し、特にユーザが発話のタイミングをボタンなどで指示する音声認識システム、音声認識方法および音声認識プログラムに関する。 The present invention relates to a voice recognition system, a voice recognition method, and a voice recognition program, and more particularly, to a voice recognition system, a voice recognition method, and a voice recognition program in which a user instructs an utterance timing with a button or the like.
この種の音声認識システムでは、雑音や意図しない発話による誤操作を防止することがよく知られている。 In this type of speech recognition system, it is well known to prevent erroneous operation due to noise or unintentional speech.
例えば、特許文献1に記載の音声処理装置は、まず、入力された音声のうち音声処理の対象とする区間として操作者により指定された指定区間の入力を受付け、入力された音声から発声区間を検出する。次に、音声処理装置は、入力された音声に基づいて、操作者または操作者以外の者のいずれが発声の発話者であるかを判断する。さらに、音声処理装置は、指定区間と発声区間とが重複する部分を検出し、重複する部分が検出された場合であって、発話者は操作者以外の者であると判断された場合に、重複する部分が含まれる発声区間を、音声処理の対象の区間として決定する。 For example, the speech processing apparatus described in Patent Literature 1 first receives input of a designated section designated by an operator as a section to be subjected to speech processing among input speech, and determines a speech section from the input speech. To detect. Next, the voice processing device determines which of the operator and the person other than the operator is the utterer of the utterance based on the input voice. Furthermore, the voice processing device detects a portion where the designated section and the utterance section overlap, and when the overlapping portion is detected, and when the speaker is determined to be a person other than the operator, An utterance section including an overlapping portion is determined as a section for speech processing.
これにより、特許文献1に記載の音声処理装置は、話者に応じて処理の対象とする音声の区間を適切に決定することができ、誤操作の発生を低減することができる。また、特許文献1に記載の音声処理装置によれば、指定区間の始端の指定が実際の発話開始より遅れたり、終了指示ボタンを押し忘れたりなどの操作者による誤操作を検知することができる。 As a result, the speech processing apparatus described in Patent Literature 1 can appropriately determine the speech segment to be processed according to the speaker, and can reduce the occurrence of erroneous operations. Further, according to the speech processing device described in Patent Document 1, it is possible to detect an erroneous operation by the operator such as the designation of the start of the designated section being delayed from the actual start of utterance or forgetting to press the end instruction button.
しかしながら、特許文献1に記載された手法では、全ての入力された音声から、発話区間を検出するため、常に発話区間検出処理を行っていなければならず、発話区間を検出するための処理負荷が大きい。そのため、発話区間の検出処理負荷が、ユーザの誤操作を検知する処理に影響し、誤操作検知の精度が下がってしまうことがある。 However, in the method described in Patent Document 1, since an utterance section is detected from all input voices, an utterance section detection process must always be performed, and a processing load for detecting the utterance section is increased. large. For this reason, the detection processing load of the utterance section may affect the process of detecting a user's erroneous operation, and the accuracy of erroneous operation detection may be reduced.
以上より、本発明の目的は、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる音声認識システムを提供することにある。 In view of the above, an object of the present invention is to provide a voice recognition system that can detect a user's erroneous operation with reduced processing load for detecting an utterance section.
上記目的を達成するために、本発明の音声認識システムは、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、前記発話区間検出手段により検出された発話区間と、前記発話タイミング指示取得手段により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知手段と、を備える。 In order to achieve the above object, the speech recognition system of the present invention comprises an utterance timing instruction acquisition means for acquiring an instruction of an utterance timing by a user including an instruction to start an utterance, an input voice signal, and the utterance timing When an instruction to start speech is acquired by the instruction acquisition means, the voice signal holding means for outputting the held voice signal and the voice signal input thereafter and the voice signal output by the voice signal holding means An erroneous operation for detecting an erroneous operation of a user based on an utterance interval detecting means for detecting an utterance interval, an utterance interval detected by the utterance interval detecting means, and an instruction of an utterance timing acquired by the utterance timing instruction acquiring means Detecting means.
また、本発明の音声認識方法は、発話開始の指示を含むユーザによる発話タイミングの指示を取得し、入力される音声信号を保持し、前記発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力し、前記出力された音声信号から発話区間を検出し、前記発話区間と、前記発話タイミングの指示とに基づいて、ユーザの誤操作を検知する。 In addition, the speech recognition method of the present invention acquires a speech timing instruction by a user including a speech start instruction, retains an input speech signal, and retains the speech start instruction when the speech start instruction is acquired. An audio signal and an audio signal input thereafter are output, an utterance interval is detected from the output audio signal, and an erroneous operation of the user is detected based on the utterance interval and the instruction of the utterance timing.
さらに、本発明の音声認識プログラムは、コンピュータに、発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得ステップと、入力される音声信号を保持し、前記発話タイミング指示取得ステップにより発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持ステップと、前記音声信号保持ステップにより出力された音声信号から発話区間を検出する発話区間検出ステップと、前記発話区間検出ステップにより検出された発話区間と、前記発話タイミング指示取得ステップにより取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する誤操作検知ステップと、を実行させる。 Furthermore, the speech recognition program according to the present invention includes an utterance timing instruction acquisition step for acquiring an utterance timing instruction by a user including an utterance start instruction in a computer, an input voice signal, and the utterance timing instruction acquisition step. When an instruction to start utterance is acquired by the voice signal holding step, a voice signal holding step for outputting a held voice signal and a voice signal input thereafter, and a voice interval from the voice signal output by the voice signal holding step are determined. An erroneous operation detecting step for detecting an erroneous operation of the user based on the detected speech interval detecting step, the utterance interval detected by the utterance interval detecting step, and the utterance timing instruction acquired by the utterance timing instruction acquiring step; , Execute.
本発明によれば、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる。 ADVANTAGE OF THE INVENTION According to this invention, the processing load of speech area detection can be reduced and a user's misoperation can be detected accurately.
<第1の実施形態>
本発明にかかる音声認識システムの第1の実施形態について説明する。
<First Embodiment>
A first embodiment of a voice recognition system according to the present invention will be described.
図1は、本発明の第1の実施形態にかかる音声認識システム1のハードウェア構成図である。 FIG. 1 is a hardware configuration diagram of a speech recognition system 1 according to the first embodiment of the present invention.
図1に示すように、音声認識システム1は、CPU10、メモリ12、HDD(ハードディスクドライブ)14、図示しないネットワークを介してデータの通信を行なう通信IF(インターフェース)16、ディスプレイ等の出力装置18、キーボードやマウス等のポインティングデバイスを含む入力装置20および音声を入力して音声信号を出力するマイクロホン等の音声入力装置22を有する。これらの構成要素は、バス24を通して互いに接続されており、互いにデータの入出力を行なう。
As shown in FIG. 1, a speech recognition system 1 includes a
図2は、本発明の第1の実施形態にかかる音声認識システム1の機能構成を示すブロック図である。 FIG. 2 is a block diagram showing a functional configuration of the speech recognition system 1 according to the first embodiment of the present invention.
図2に示すように、音声認識システム1は、音声入力手段100、発話タイミング指示取得手段102、音声信号保持手段104、発話区間検出手段106、誤操作検知手段108、音声認識手段110、音声認識辞書112、音響モデル114および誤操作通知手段116を備える。音声認識システム1の機能は、プログラムがメモリ12(図1)にロードされ、CPU10により実行されて実現される。なお、音声認識システム1の全部または一部の機能は、ハードウェアにより実現されてもよい。
As shown in FIG. 2, the voice recognition system 1 includes a
音声認識システム1において、音声入力手段100は、音声入力装置22(図1)から出力された音声信号を入力し、必要に応じてAD変換や符号化された信号の復号化などの処理を行い、音声波形のデジタル信号を出力する。 In the speech recognition system 1, the speech input means 100 inputs the speech signal output from the speech input device 22 (FIG. 1) and performs processing such as AD conversion and decoding of the encoded signal as necessary. Output digital signal of voice waveform.
発話タイミング指示取得手段102は、入力装置20(図1)を通じて、発話開始の指示を含むユーザによる発話タイミングの指示を取得する。発話タイミングは、少なくとも発話開始のタイミングを含んでおり、発話終了のタイミングを含んでいてもよい。ユーザによる指示は、発話開始前にのみボタンを押す、ボタンを押しながら発話して発話終了後にボタンを離す、発話開始前と発話終了後にそれぞれボタンを押す、などにより行われる。発話タイミング指示取得手段102は、操作の方法により、発話開始の指示のみ、あるいは発話開始と発話終了の指示を取得する。発話タイミング指示取得手段102は、指示を取得すると、取得した発話タイミングの指示を即座に、あるいは指示の時刻情報を付与した上で一定のタイミングで、音声信号保持手段104、誤操作検知手段108および音声認識手段110に出力する。
The utterance timing
なお、発話タイミング指示取得手段102が発話開始の指示のみを取得する場合、発話終了タイミングは、後述する発話区間検出手段106により検出される発話終了時刻で代用されてもよい。または、発話終了タイミングは、後述する音声認識手段110により検知される発話終了時刻で代用されてもよい。
When the utterance timing
音声信号保持手段104は、所定時間の音声信号を保持するバッファを有する。音声信号保持手段104は、音声入力手段100から入力される音声信号をバッファに格納する。音声信号の容量がバッファの容量を越える場合、音声信号保持手段104は、古いものから順に廃棄し、最新の所定時間分の音声信号を保持するようにしてもよい。ここで、バッファの容量は、発話開始の指示の遅れがある場合において、実際の発話開始から発話開始の指示までの音声信号を十分格納できる大きさであることが望ましい。音声信号保持手段104は、発話タイミング指示取得手段102から発話開始の指示が入力されると、その時点でバッファに格納されている音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。また、音声信号保持手段104は、発話開始の指示の入力以降に音声入力手段100から入力される音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。音声信号保持手段104は、発話タイミング指示取得手段102から発話終了の指示が入力されると、音声信号の出力を停止し、以後入力される音声信号をバッファに格納する。
The audio
発話区間検出手段106は、音声信号保持手段104により出力された音声信号から、ユーザの発話区間を検出する。発話区間検出手段106は、例えば、音声信号のパワー情報やゼロ交差に基づく方法を用いて、発話区間を検出する。発話区間検出手段106は、検出した発話区間の開始時刻および終了時刻の情報を出力する。
The utterance
誤操作検知手段108は、発話区間検出手段106により検出された発話区間と、発話タイミング指示取得手段102により取得された発話タイミングの指示とに基づいて、ユーザの発話タイミング指示の誤操作を検知する。具体的には、誤操作検知手段108は、発話区間検出手段106により入力される発話区間の開始・終了時刻の情報と、発話タイミング指示取得手段102により入力される発話タイミングの指示の有無および時刻情報とを比較して、ユーザの発話タイミング指示の誤操作を検知する。
The erroneous operation detection means 108 detects an erroneous operation of the user's utterance timing instruction based on the utterance section detected by the utterance section detection means 106 and the utterance timing instruction acquired by the utterance timing instruction acquisition means 102. Specifically, the erroneous
なお、誤操作検知手段108が、誤操作の有無・種類を判定する方法は、後述する。
A method by which the erroneous
音声認識手段110は、前記音声信号保持手段104により入力された音声信号の少なくとも一部の区間に対して音声認識を行う。音声認識手段110は、音声認識辞書112および音響モデル114などを用いて音声認識を行う。音声認識手段110は、例えば、隠れマルコフモデルを用いる手法を適用して、音声認識を行う。音声認識手段110は、認識結果として、テキストあるいはコマンドを出力する。
The
音声認識辞書112は、認識対象の単語セットおよび各単語の読みの情報を格納する。
The
音響モデル114は、読みに対応する音響パタンをモデル化した音響モデルを格納する。
The
なお、音声認識手段110は、発話タイミング指示取得手段102から入力される発話タイミングの指示の時刻情報に基づいて、音声信号のうち認識対象とする区間を決定してもよい。例えば、発話開始と発話終了の指示が入力される場合は、音声認識手段110は、認識対象とする区間を、発話開始の指示の時刻から発話終了の指示の時刻までに限定してもよい。あるいは、音声認識手段110は、内部に音声信号を保持するバッファを有して、発話開始時刻と発話終了時刻のそれぞれに一定のマージンをつけて、発話開始指示より一定時間前から、発話終了指示より一定時間後までに限定してもよい。また、音声認識手段110は、誤操作検知手段108から誤操作の有無の情報を受取り、誤操作があった場合には、その認識対象区間に対する音声認識処理および認識結果出力を停止してもよい。
Note that the
誤操作通知手段116は、誤操作検知手段108によって誤操作が検知された場合に、誤操作の種類に応じたメッセージを画面表示または音声などでユーザに通知する。
When an erroneous operation is detected by the erroneous
なお、本構成に代えて、音声認識手段110の中に誤操作通知手段116を含めて、音声認識手段110が誤操作の有無に応じて、誤操作の種類に応じたメッセージあるいは認識結果を出力するようにしてもよい。
Instead of this configuration, the
次に、誤操作検知手段108における誤操作の有無および種類の判定方法を説明する。 Next, a method for determining the presence / absence and type of an erroneous operation in the erroneous operation detection means 108 will be described.
図3は、誤操作検知手段108における誤操作の有無・種類の判定方法の例示である。 FIG. 3 is an illustration of a method for determining the presence / absence / type of an erroneous operation in the erroneous operation detection means 108.
図3において、発話開始は、発話区間検出手段106によって検出される発話区間の開始時刻を示す。発話終了は、発話区間検出手段106によって検出される発話区間の終了時刻を示す。また、発話開始指示は、発話タイミング指示取得手段102によって取得されるユーザによる発話開始の指示の時刻を示す。発話終了指示は、発話タイミング指示取得手段102によって取得されるユーザによる発話終了の指示の時刻を示す。
In FIG. 3, the utterance start indicates the start time of the utterance section detected by the utterance
誤操作検知手段108は、発話開始および発話開始指示の時刻を比較する。また、誤操作検知手段108は、発話終了および発話終了指示の時刻を比較する。次に、誤操作検知手段108は、比較した結果が、図3に示す各条件に一致するかどうかを順に調べ、いずれかの条件に一致すると、それに対応した判定結果から、誤操作の有無および種類を判定する。図3で条件A〜Cの少なくともいずれかに一致した場合は、誤操作検知手段108は、判定結果欄に示した種類の誤操作があったと判定する。条件Dに一致した場合は、誤操作検知手段108は、誤操作がなかったと判定する。 The erroneous operation detection means 108 compares the time of the utterance start and the utterance start instruction. Further, the erroneous operation detection means 108 compares the time of the utterance end and the utterance end instruction. Next, the erroneous operation detection means 108 sequentially checks whether or not the comparison result matches each condition shown in FIG. 3, and if it matches any of the conditions, the presence / absence and type of the erroneous operation are determined from the corresponding determination result. judge. In FIG. 3, if it matches at least one of the conditions A to C, the erroneous operation detection means 108 determines that there is an erroneous operation of the type shown in the determination result column. If the condition D is met, the erroneous operation detection means 108 determines that there has been no erroneous operation.
具体的には、誤操作検知手段108は、比較した結果、発話開始後に発話開始指示があった場合、発話開始指示が遅い、と判定する。また、誤操作検知手段108は、比較した結果、発話終了前に発話終了指示があった場合、発話終了指示が早いと判定する。また、誤操作検知手段108は、比較した結果、発話終了後一定時間内に発話終了指示がなかった場合、発話終了指示のし忘れと判定する。また、誤操作検知手段108は、比較した結果、発話開始前に発話開始指示があり、発話終了後一定時間内に発話終了指示があった場合、誤操作なしと判定する。 Specifically, the erroneous operation detection means 108 determines that the utterance start instruction is late when there is an utterance start instruction after the start of utterance as a result of the comparison. In addition, the erroneous operation detection means 108 determines that the utterance end instruction is early when there is an utterance end instruction before the end of the utterance as a result of the comparison. Further, as a result of the comparison, if there is no utterance end instruction within a predetermined time after the end of the utterance, the erroneous operation detection means 108 determines that the utterance end instruction has been forgotten. Further, as a result of the comparison, the erroneous operation detection means 108 determines that there is no erroneous operation when there is an utterance start instruction before the start of utterance and there is an utterance end instruction within a certain time after the end of the utterance.
誤操作通知手段116は、誤操作があった場合に、図3に示された誤操作の種類に応じたメッセージをユーザに通知する。例えば「発話開始指示が遅い」と判定された場合には、誤操作通知手段116は、発話開始タイミングの指示を行ってから発話するよう促すメッセージをユーザに通知する。
The erroneous operation notifying means 116 notifies the user of a message corresponding to the type of erroneous operation shown in FIG. 3 when there is an erroneous operation. For example, when it is determined that “the utterance start instruction is late”, the erroneous
次に、音声認識システム1の動作を説明する。 Next, the operation of the voice recognition system 1 will be described.
図4は、音声認識システム1の動作を示すフローチャートである。 FIG. 4 is a flowchart showing the operation of the speech recognition system 1.
図4に示すように、ステップ10(S10)において、音声入力手段100は、入力された音声信号に複合化などの処理を行い、音声信号を出力する。具体的には、音声入力手段100は、マイクから音声信号を入力し、AD変換を行って音声波形のデジタル信号を出力する。
As shown in FIG. 4, in step 10 (S10), the voice input means 100 performs a process such as decoding on the input voice signal and outputs the voice signal. Specifically, the
ステップ12(S12)において、音声信号保持手段104は、音声入力手段100から入力される音声信号をバッファに格納する。
In step 12 (S12), the audio
ステップ14(S14)において、発話タイミング指示取得手段102は、ユーザによる発話タイミングの指示を受け付けたか否かを判定し、受け付けた場合には、発話タイミングの指示を音声信号保持手段104、誤操作検知手段108および音声認識手段110に対して出力してS16の処理に進み、そうでない場合にはS12の処理に戻る。例えば、発話タイミング指示取得手段102は、ユーザのボタン押下状態を監視し、ボタンが押されると発話開始タイミングの指示、ボタンが離されると発話終了タイミングの指示としてそれぞれ検知する。発話タイミング指示取得手段102は、検知した指示を、音声信号保持手段104、誤操作検知手段108および音声認識手段110に出力する。
In step 14 (S14), the utterance timing instruction acquisition means 102 determines whether or not an utterance timing instruction from the user has been accepted. If accepted, the utterance timing instruction acquisition means 102 sends the utterance timing instruction to the voice signal holding means 104, erroneous operation detection means. 108 and the voice recognition means 110, and the process proceeds to S16. Otherwise, the process returns to S12. For example, the utterance timing
ステップ16(S16)において、音声信号保持手段104は、発話タイミング指示取得手段102から発話開始タイミングの指示が入力されると、その時点でバッファに格納されている音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。
In step 16 (S16), the voice signal holding means 104, when the voice start timing instruction is inputted from the voice timing
ステップ18(S18)において、音声信号保持手段104は、発話開始タイミングの指示の通知以降に音声入力手段100から入力される音声信号を、その時刻情報とともに発話区間検出手段106および音声認識手段110に出力する。 In step 18 (S18), the voice signal holding means 104 sends the voice signal input from the voice input means 100 after the notification of the utterance start timing instruction to the utterance section detection means 106 and the voice recognition means 110 together with the time information. Output.
ステップ20(S20)において、発話区間検出手段106は、音声信号保持手段104から出力された音声信号から発話区間を検出し、その時刻情報を誤操作検知手段108に出力する。具体的には、発話区間検出手段106は、音声信号保持手段104から出力された音声信号を逐次処理し、算出されるパワー情報などを用いて発話開始および発話終了を検出する。
In step 20 (S 20), the utterance
ステップ22(S22)において、誤操作検知手段108は、発話区間検出手段106により検出された発話区間と、発話タイミング指示取得手段102により取得された発話タイミングの指示とに基づいて、ユーザの発話タイミング指示の誤操作を検知する。例えば、誤操作検知手段108は、発話区間検出手段106から入力される発話開始・発話終了の時刻情報と、発話タイミング指示取得手段102から通知される発話タイミングの指示の有無および時刻情報を比較する。誤操作検知手段108は、図3の判定基準にしたがって、ユーザの誤操作の有無および種類を判定する。
In step 22 (S22), the erroneous operation detection means 108 determines the user's utterance timing instruction based on the utterance section detected by the utterance section detection means 106 and the utterance timing instruction acquired by the utterance timing instruction acquisition means 102. Detecting misoperations. For example, the erroneous
誤操作なしと判定された場合には、ステップ24(S24)において、音声認識手段110は、音声信号保持手段104から出力された音声信号を音声認識して、認識結果を出力する。
If it is determined that there is no erroneous operation, in step 24 (S24), the
誤操作ありと判定された場合には、ステップ26(S26)において、誤操作通知手段116は、誤操作の種類に応じたメッセージをユーザに通知する。例えば、誤操作通知手段116は、図3に示される条件に基づいて、「ボタンを押してから発話してください」「発話が終了してからボタンを離してください」等のメッセージを出力する。 If it is determined that there is an erroneous operation, in step 26 (S26), the erroneous operation notification means 116 notifies the user of a message corresponding to the type of erroneous operation. For example, the erroneous operation notification means 116 outputs a message such as “Please speak after pressing the button” or “Please release the button after the utterance is finished” based on the conditions shown in FIG.
なお、ここでは簡単のため、ステップ22(S22)において誤操作なしと判定された場合に、音声認識手段110が音声認識を行うとして説明した。実際には、音声認識手段110は、発話開始タイミングの指示が取得された時点で音声認識を開始して、入力される音声信号を逐次受け取って音声認識を進めるようにしてもよい。この場合、誤操作ありと判定された時点で、音声認識手段110は、音声認識を停止してもよい。
Here, for the sake of simplicity, it has been described that the speech recognition means 110 performs speech recognition when it is determined in step 22 (S22) that there is no erroneous operation. Actually, the
以上説明したように、本実施の形態にかかる音声認識システム1は、発話開始指示の通知があるまで発話区間検出処理を行わないため、発話区間検出の処理負荷を少なくすることができる。これにより、音声認識システム1は、発話区間検出処理負荷が誤操作を検知する処理に与える影響を小さくすることができるため、ユーザの誤操作を精度よく検知することができる。 As described above, since the speech recognition system 1 according to the present embodiment does not perform the speech segment detection process until the notification of the speech start instruction is given, the processing load of the speech segment detection can be reduced. Thereby, since the speech recognition system 1 can reduce the influence of the utterance section detection processing load on the process of detecting an erroneous operation, it can accurately detect an erroneous operation of the user.
また、音声認識システム1は、発話タイミング指示の時刻情報に基づいて認識対象区間を限定するため、認識処理を常時行う場合に比べ、音声認識の処理負荷を少なくすることができる。 Moreover, since the speech recognition system 1 limits the recognition target section based on the time information of the utterance timing instruction, the processing load for speech recognition can be reduced compared to the case where the recognition process is always performed.
さらに、音声認識システム1は、音声信号保持手段104を有し、発話開始の指示から一定時間遡って発話区間検出処理を行うため、発話開始の指示が実際の発話開始より遅れた場合でも、発話区間を精度よく検出できる。
Furthermore, since the speech recognition system 1 includes the speech
<第2の実施形態>
次に、本発明にかかる音声認識システムの第2の実施形態について説明する。
<Second Embodiment>
Next, a second embodiment of the speech recognition system according to the present invention will be described.
図5は、本発明の第2の実施形態にかかる音声認識システム2の機能構成を示すブロック図である。 FIG. 5 is a block diagram showing a functional configuration of the speech recognition system 2 according to the second exemplary embodiment of the present invention.
図5に示すように、本発明の第2の実施形態にかかる音声認識システム2は、第1の実施形態にかかる音声認識システム1と比較すると、音声信号保持手段104のかわりに発話区間検出手段106が音声認識手段110に音声信号を出力する点が異なる。さらに、発話タイミング指示取得手段102が、音声認識手段110に発話タイミングの指示を通知しない点も異なる。
As shown in FIG. 5, the speech recognition system 2 according to the second exemplary embodiment of the present invention is compared with the speech recognition system 1 according to the first exemplary embodiment. The difference is that 106 outputs a voice signal to the voice recognition means 110. Another difference is that the utterance timing
発話区間検出手段106は、音声信号保持手段104から入力された音声信号から、ユーザの発話区間を検出し、その開始・終了時刻の情報を誤操作通知手段116に出力する。この際、発話区間検出手段106は、発話区間の前後に一定長のマージンを付加してもよい。また、発話区間検出手段106は、音声信号保持手段104から入力された音声信号を、音声認識手段110に出力する。
The utterance
音声認識手段110は、前記音声信号保持手段104により入力された音声信号の一部の区間に対して音声認識を行う。音声認識手段110は、発話区間検出手段106により検出された発話区間に基づいて、音声認識の対象となる区間を決定する。
The
その他の動作は、本発明の第1の実施形態と同じである。 Other operations are the same as those in the first embodiment of the present invention.
以上説明したように、本実施の形態にかかる音声認識システム2は、音声認識の対象を、発話区間に基づいて限定するため、処理負荷を少なくすることができる。なぜなら、誤操作がない場合には、発話区間検出手段106で検出される発話区間は、発話開始の指示から発話終了の指示までの区間の一部分であり、発話タイミングが指示された区間と比べて短いからである。 As described above, since the speech recognition system 2 according to the present embodiment limits the target of speech recognition based on the utterance section, the processing load can be reduced. This is because when there is no erroneous operation, the utterance section detected by the utterance section detection means 106 is a part of the section from the instruction to start utterance to the instruction to end utterance, and is shorter than the section in which the utterance timing is instructed. Because.
<第3の実施形態>
次に、本発明にかかる音声認識システムの第3の実施形態について説明する。
<Third Embodiment>
Next, a third embodiment of the speech recognition system according to the present invention will be described.
図6は、本発明の第3の実施形態にかかる音声認識システム3の機能構成を示すブロック図である。 FIG. 6 is a block diagram showing a functional configuration of the speech recognition system 3 according to the third exemplary embodiment of the present invention.
図6に示すように、本発明の第3の実施形態にかかる音声認識システム3は、第2の実施形態にかかる音声認識システム2と比較すると、音声認識手段110が発話区間特定手段118を有し、特定した発話区間情報を誤操作検知手段108に出力する点が異なる。
As shown in FIG. 6, in the speech recognition system 3 according to the third exemplary embodiment of the present invention, the
本実施形態では、簡単のために離散単語認識を例にして説明するが、連続単語認識にも同様に適用可能である。 In the present embodiment, for the sake of simplicity, discrete word recognition will be described as an example, but the present invention can be similarly applied to continuous word recognition.
音声認識手段110は、認識対象の単語が格納された音声認識辞書112を用いて、対象となる区間に対して音声認識を行う。
The
具体的には、音声認識手段110は、音声認識辞書112に格納された各認識対象の単語の読みの情報をもとに、音響モデル114を用いて各単語の標準パタンを生成する。例えば、音響モデルとして音素のHMM(隠れマルコフモデル)を用いる場合には、音声認識手段110は、単語の読みに従って音素のHMMを連結して、単語の標準パタンを構成する。その際、音声認識手段110は、無音のHMMを前後に付加する。無音のHMMは、背景雑音等を表現するモデルとして、音響モデル114内にあらかじめ記憶されている。音声認識手段110は、発話区間検出手段106によって切り出された入力音声信号と、各単語の標準パタンとを照合して、各単語に対する尤度を算出する。音声認識手段110は、尤度の最も高い単語を求め、認識結果とする。
Specifically, the
発話区間特定手段118は、音声認識の対象となる区間の中で、認識対象の単語が発話された区間を特定する。 The utterance section specifying unit 118 specifies a section in which a word to be recognized is uttered among the sections to be subjected to speech recognition.
具体的には、発話区間特定手段118は、入力された音声信号と、音声認識手段110の認識結果の単語の標準パタンとの時間の対応付けを行う。発話区間特定手段118は、入力された音声信号の中で、単語の前後の無音パタンを除く部分に対応づけられる区間を求める。発話区間特定手段118は、対応づけられた区間の開始および終了の時刻情報を、誤操作検知手段108に出力する。
Specifically, the utterance section specifying unit 118 associates the time between the input voice signal and the standard pattern of the word as the recognition result of the
音声認識手段110はまた、リジェクション機能を有する。具体的には、音声認識手段110は、入力された音声信号が音声認識辞書112に格納されている認識対象の単語のいずれにも合致しないと判定した場合、認識結果を棄却する。
The
発話区間特定手段118は、認識結果が棄却された場合に、発話区間がなかったという情報を誤操作検知手段108に出力する。
When the recognition result is rejected, the utterance section specifying unit 118 outputs information indicating that there is no utterance section to the erroneous
誤操作検知手段108は、発話区間検出手段106により検出された発話区間を、発話区間特定手段118により特定された区間に基づいて変更(例えば、置換など)した上で、ユーザの発話タイミング指示の誤操作の有無および種類の判定を行う。なお、誤操作検知手段108は、発話区間検出手段106の検出結果を受け取らずに、発話区間特定手段118の結果を用いてもよい。
The erroneous
以上説明したように、本実施の形態にかかる音声認識システム3は、認識対象の単語の情報を用いて音声認識を行うことで、実際の発話区間と雑音区間を詳細に区別することができる。そのため、音声認識システム3は、実際の発話区間、すなわち、より正確な発話区間の情報を用いて誤操作の判定を行うことができる。 As described above, the speech recognition system 3 according to the present embodiment can distinguish between an actual speech segment and a noise segment in detail by performing speech recognition using information on a recognition target word. Therefore, the voice recognition system 3 can determine an erroneous operation using information on an actual utterance section, that is, a more accurate utterance section.
また、音声認識システム3は、音声認識手段110がリジェクション機能を有し、音声入力を意図したユーザの発話ではない区間をキャンセルすることができるので、精度よく発話区間を検出できる。そのため、音声認識システム3は、ユーザの誤操作を精度よく検知することができる。
In the voice recognition system 3, since the
<第4の実施形態>
次に、本発明にかかる音声認識システムの第4の実施形態について説明する。
<Fourth Embodiment>
Next, a fourth embodiment of the speech recognition system according to the present invention will be described.
図7は、本発明の第4の実施形態にかかる音声認識システム4の機能構成を示すブロック図である。 FIG. 7 is a block diagram showing a functional configuration of the speech recognition system 4 according to the fourth embodiment of the present invention.
発話タイミング指示取得手段102は、発話開始の指示を含むユーザによる発話タイミングの指示を、音声信号保持手段104および誤操作検知手段108に出力する。
The utterance timing
音声信号保持手段104は、入力される音声信号を保持し、発話タイミング指示取得手段102により発話開始の指示が入力された場合、保持している音声信号を発話区間検出手段106に出力する。また、音声信号保持手段104は、発話タイミング指示取得手段102により発話開始タイミングの指示が入力された時点で、それ以降に入力される音声信号を発話区間検出手段106に出力する。
The voice
発話区間検出手段106は、音声信号保持手段104により出力された音声信号から発話区間を検出する。
The utterance
誤操作検知手段108は、発話区間検出手段により検出された発話区間と、発話タイミング指示取得手段102により取得された発話タイミングの指示とに基づいて、ユーザの誤操作を検知する。
The erroneous
以上説明したように、本実施の形態にかかる音声認識システム4によれば、発話区間検出の処理負荷を少なくし、ユーザの誤操作を精度よく検知することができる。 As described above, according to the speech recognition system 4 according to the present embodiment, it is possible to reduce the processing load for detecting the utterance section and accurately detect a user's erroneous operation.
本発明にかかる音声認識システムは、音声によるデータ入力、テキスト入力および機器操作の指示を行う音声認識装置といった用途に適用可能である。 The voice recognition system according to the present invention is applicable to uses such as a voice recognition apparatus that performs voice data input, text input, and device operation instructions.
1 音声認識システム1
2 音声認識システム2
3 音声認識システム3
4 音声認識システム4
10 CPU
12 メモリ
14 HDD
16 通信IF
18 出力装置
20 入力装置
22 音声入力装置
24 バス
100 音声入力手段
102 発話タイミング指示取得手段
104 音声信号保持手段
106 発話区間検出手段
108 誤操作検知手段
110 音声認識手段
112 音声認識辞書
114 音響モデル
116 誤操作通知手段
118 発話区間特定手段
1 Voice recognition system 1
2 Speech recognition system 2
3 Voice recognition system 3
4 Voice recognition system 4
10 CPU
12
16 Communication IF
18
Claims (10)
入力される音声信号を保持し、前記発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持手段と、
前記音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、
前記発話区間検出手段により検出された発話区間の時刻情報と、前記発話タイミング指示取得手段により取得された前記発話タイミングの指示の有無および時刻情報とを比較し、少なくとも、前記発話開始の指示の時刻が前記発話区間の開始時刻よりも遅い場合にユーザの誤操作として検知する誤操作検知手段と、
を備える音声認識システム。 An utterance timing instruction acquisition means for acquiring an utterance timing instruction by the user including an utterance start instruction;
An audio signal holding unit that holds an input audio signal and outputs an audio signal that is input after that when the instruction to start utterance is acquired by the utterance timing instruction acquisition unit; and
An utterance section detecting means for detecting an utterance section from the voice signal output by the voice signal holding means;
Compare the time information of the utterance section detected by the utterance section detection means with the presence / absence and time information of the utterance timing instruction acquired by the utterance timing instruction acquisition means, and at least the time of the instruction to start the utterance Erroneous operation detection means for detecting as an erroneous operation of the user when is later than the start time of the utterance section ,
A speech recognition system comprising:
前記発話タイミングの指示はさらに発話終了の指示を含み、前記誤操作検知手段は、発話終了の指示の時刻が前記発話区間の終了時刻よりも早い場合もしくは発話終了の指示そのものがない場合に、さらに前記ユーザの誤操作として検知するThe utterance timing instruction further includes an utterance end instruction, and the erroneous operation detection unit further includes the utterance end instruction when the utterance end instruction time is earlier than the end time of the utterance section or when there is no utterance end instruction itself. Detect as user's misoperation
請求項1に記載の音声認識システム。The speech recognition system according to claim 1.
請求項1または2に記載の音声認識システム。 The audio signal holding means holds the latest predetermined time of the input audio signal.
The speech recognition system according to claim 1 or 2 .
請求項1〜3のいずれかに記載の音声認識システム。 Voice recognition means for performing voice recognition on at least a part of the voice signal output by the voice signal holding means;
Speech recognition system according to any of claims 1-3.
請求項4に記載の音声認識システム。 The voice recognition means determines a section for voice recognition based on the utterance section detected by the utterance section detection means;
The voice recognition system according to claim 4 .
請求項4または5に記載の音声認識システム。 The voice recognition means stops voice recognition when the erroneous operation detection means detects an erroneous operation;
The speech recognition system according to claim 4 or 5 .
前記誤操作検知手段は、前記発話区間検出手段により検出された発話区間を、前記音声認識手段により特定された区間に基づいて変更した上で、ユーザの誤操作を検知する、
請求項4〜6のいずれかに記載の音声認識システム。 The speech recognition means performs speech recognition using a speech recognition dictionary in which a recognition target word is stored, and identifies a section in which the recognition target word is uttered among the partial sections.
The erroneous operation detection means detects an erroneous operation of the user after changing the utterance section detected by the utterance section detection means based on the section specified by the voice recognition means.
The speech recognition system according to any one of claims 4 to 6 .
請求項1〜7のいずれかに記載の音声認識システム。 When the erroneous operation detection means detects an erroneous operation, it further includes an erroneous operation notification means for notifying a message according to the type of the detected erroneous operation.
Speech recognition system according to any of claims 1-7.
入力される音声信号を保持し、前記発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力し、
前記出力された音声信号から発話区間を検出し、
前記検出された発話区間の時刻情報と、前記取得された発話タイミングの指示の有無および時刻情報とを比較し、少なくとも、前記発話開始の指示の時刻が前記発話区間の開始時刻よりも遅い場合にユーザの誤操作として検知する、
音声認識方法。 Get the utterance timing instruction by the user including the utterance start instruction,
When an input voice signal is held and the instruction to start speech is acquired, the held voice signal and a voice signal input thereafter are output.
Detecting an utterance section from the output voice signal,
Comparing the time information of the detected utterance section with the presence / absence and time information of the acquired utterance timing instruction, at least when the time of the utterance start instruction is later than the start time of the utterance section Detect as user's mistaken operation,
Speech recognition method.
発話開始の指示を含むユーザによる発話タイミングの指示を取得する発話タイミング指示取得ステップと、
入力される音声信号を保持し、前記発話タイミング指示取得ステップにより発話開始の指示が取得された場合、保持している音声信号およびそれ以降に入力される音声信号を出力する音声信号保持ステップと、
前記音声信号保持ステップにより出力された音声信号から発話区間を検出する発話区間検出ステップと、
前記発話区間検出ステップにより検出された発話区間の時刻情報と、前記発話タイミング指示取得ステップにより取得された発話タイミングの指示の有無および時刻情報とを比較し、少なくとも、前記発話開始の指示の時刻が前記発話区間の開始時刻よりも遅い場合にユーザの誤操作として検知する誤操作検知ステップと、
を実行させる音声認識プログラム。
On the computer,
An utterance timing instruction acquisition step for acquiring an utterance timing instruction by the user including an utterance start instruction;
An audio signal holding step for holding an input audio signal and outputting an audio signal input after that when the instruction to start utterance is acquired by the utterance timing instruction acquisition step;
An utterance interval detection step of detecting an utterance interval from the audio signal output by the audio signal holding step;
The time information of the utterance section detected by the utterance section detection step is compared with the presence / absence and time information of the utterance timing instruction acquired by the utterance timing instruction acquisition step, and at least the instruction start instruction time is An erroneous operation detection step of detecting as an erroneous operation of the user when it is later than the start time of the utterance section ,
Voice recognition program that executes
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009185520A JP5375423B2 (en) | 2009-08-10 | 2009-08-10 | Speech recognition system, speech recognition method, and speech recognition program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009185520A JP5375423B2 (en) | 2009-08-10 | 2009-08-10 | Speech recognition system, speech recognition method, and speech recognition program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011039222A JP2011039222A (en) | 2011-02-24 |
| JP5375423B2 true JP5375423B2 (en) | 2013-12-25 |
Family
ID=43767063
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009185520A Active JP5375423B2 (en) | 2009-08-10 | 2009-08-10 | Speech recognition system, speech recognition method, and speech recognition program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5375423B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11315572B2 (en) | 2019-03-27 | 2022-04-26 | Panasonic Corporation | Speech recognition device, speech recognition method, and recording medium |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5797009B2 (en) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | Voice recognition apparatus, robot, and voice recognition method |
| US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
| CN104899003A (en) * | 2015-06-12 | 2015-09-09 | 广州视源电子科技股份有限公司 | Terminal control method and system |
| CN107077319A (en) * | 2016-12-22 | 2017-08-18 | 深圳前海达闼云端智能科技有限公司 | Location positioning method, device, user equipment and computer program product based on Voice command |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59170936A (en) * | 1983-03-17 | 1984-09-27 | Nec Corp | Input device of voice |
| JP3615088B2 (en) * | 1999-06-29 | 2005-01-26 | 株式会社東芝 | Speech recognition method and apparatus |
| JP2002268682A (en) * | 2001-03-09 | 2002-09-20 | Clarion Co Ltd | On-vehicle voice recognition device |
| JP2004094077A (en) * | 2002-09-03 | 2004-03-25 | Nec Corp | Speech recognition device and control method, and program |
| JP2007214776A (en) * | 2006-02-08 | 2007-08-23 | Hitachi Kokusai Electric Inc | Digital wireless communication device |
| JP2008256802A (en) * | 2007-04-02 | 2008-10-23 | Fujitsu Ten Ltd | Voice recognition device and voice recognition method |
| JP4859982B2 (en) * | 2007-07-02 | 2012-01-25 | 三菱電機株式会社 | Voice recognition device |
| JP2009175178A (en) * | 2008-01-21 | 2009-08-06 | Denso Corp | Speech recognition device, program and utterance signal extraction method |
-
2009
- 2009-08-10 JP JP2009185520A patent/JP5375423B2/en active Active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11315572B2 (en) | 2019-03-27 | 2022-04-26 | Panasonic Corporation | Speech recognition device, speech recognition method, and recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011039222A (en) | 2011-02-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20220093108A1 (en) | Speaker identification | |
| US10475445B1 (en) | Methods and devices for selectively ignoring captured audio data | |
| JP2015004928A (en) | Response target voice determination device, response target voice determination method, and response target voice determination program | |
| JP5375423B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
| US20080154596A1 (en) | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack | |
| JP5342629B2 (en) | Male and female voice identification method, male and female voice identification device, and program | |
| JP4237713B2 (en) | Audio processing device | |
| JP2006251147A (en) | Speech recognition method | |
| JP4791857B2 (en) | Utterance section detection device and utterance section detection program | |
| JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| JP2008033198A (en) | Voice interaction system, voice interaction method, voice input device and program | |
| JP6827536B2 (en) | Voice recognition device and voice recognition method | |
| JP2004341033A (en) | Voice-mediated activation device and method thereof | |
| JP6539940B2 (en) | Speech recognition apparatus and speech recognition program | |
| JP2019132997A (en) | Voice processing device, method and program | |
| JP6748565B2 (en) | Voice dialogue system and voice dialogue method | |
| JP2996019B2 (en) | Voice recognition device | |
| JP2009025579A (en) | Speech recognition apparatus and speech recognition method | |
| JP3523382B2 (en) | Voice recognition device and voice recognition method | |
| JP2006039382A (en) | Voice recognition device | |
| JP2001154694A (en) | Speech recognition device and method | |
| US11195545B2 (en) | Method and apparatus for detecting an end of an utterance | |
| JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
| JP3360978B2 (en) | Voice recognition device | |
| JP6183147B2 (en) | Information processing apparatus, program, and method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20110706 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120717 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130328 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130402 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130522 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130909 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5375423 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |