[go: up one dir, main page]

JP2009229583A - Signal detection method and device - Google Patents

Signal detection method and device Download PDF

Info

Publication number
JP2009229583A
JP2009229583A JP2008072222A JP2008072222A JP2009229583A JP 2009229583 A JP2009229583 A JP 2009229583A JP 2008072222 A JP2008072222 A JP 2008072222A JP 2008072222 A JP2008072222 A JP 2008072222A JP 2009229583 A JP2009229583 A JP 2009229583A
Authority
JP
Japan
Prior art keywords
signal
intensity
vad
tracking
noise level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008072222A
Other languages
Japanese (ja)
Inventor
Garner Philip
フィリップ ガーナー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008072222A priority Critical patent/JP2009229583A/en
Publication of JP2009229583A publication Critical patent/JP2009229583A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve detection accuracy of a signal by automatically determining a voice activity detection (VAD) threshold. <P>SOLUTION: A calculation means calculates an intensity signal that indicates the intensity of a signal. A filter means filters the intensity signal. A tracking means tracks the noise level of the intensity signal. A discrimination means discriminates the signal, by using the filtered intensity signal and the noise level which is output by the tracking means. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は信号検出方法及び装置に関する。   The present invention relates to a signal detection method and apparatus.

VAD(Voice Activity Detection)は、背景ノイズのある環境での音声を検出する技術である。   VAD (Voice Activity Detection) is a technique for detecting sound in an environment with background noise.

VADが必要とされる典型的な場面としては次の2つがある。   There are two typical scenes where VAD is required.

第1は、音声通信装置であり、これを図1に示す。この場合、音声入力部10で入力された音声信号はエンコーダ13で符号化されて、デコーダ16を含む別のロケーションに送信される。通信チャネル15は、使用するコストや容量の観点から制限されていると仮定する。VAD12により、ユーザが話をしている場合に限って、装置が送信できるようになる。ユーザが話をしていない場合は、VAD12により、送信しないようにすることができるので、費用を節約したり、このネットワークの別のユーザに送信させたりすることができる。VAD12及びエンコーダ13の2つに対してフロントエンド処理11が同じであると都合がよいが、それは必ずしも必要ではない。また、エンコーダ13は全ての言葉を必要とするわけではないから、エンコーダ13は音声発話内のポーズと長い無音とを区別する必要がない。   The first is a voice communication device, which is shown in FIG. In this case, the audio signal input from the audio input unit 10 is encoded by the encoder 13 and transmitted to another location including the decoder 16. It is assumed that the communication channel 15 is restricted from the viewpoint of cost and capacity to be used. The VAD 12 allows the device to transmit only when the user is speaking. If the user is not speaking, the VAD 12 can prevent transmission, thus saving money and allowing another user on this network to transmit. Although it is convenient for the VAD 12 and the encoder 13 to have the same front-end processing 11, it is not necessary. Also, since the encoder 13 does not require all words, the encoder 13 does not need to distinguish between pauses in speech utterance and long silence.

第2は、自動音声認識(ASR)システムであり、これを図2に示す。音声入力部20は図1の音声入力部10と同じであるが、この場合は、VAD22により、音声認識部24が背景ノイズを音声と判別しようとするのを防止する。これは、誤り(背景ノイズを音声と判別すること)の防止に役立つだけでなく、システムリソース(ASRは通常、計算量が多い)の管理に役立つ。例えば、音声で制御可能なモバイル装置があげられる。VADにより、ユーザが発話をしていない時と、ユーザが発話している時とを区別する。これにより、ASRを行っていない時に装置を他の機能に集中させて、ユーザが発話をしている時にはASRに集中させることができる。VAD22及び音声認識部24の2つに対してフロントエンド処理21が同じであると都合がよいのは前述したとおりである。この例では、端点検出部23がVAD信号を用いて、発話の開始又は終了と、その発話中の言葉と言葉の間のポーズ期間とを区別する。この理由は、音声認識部24がすべての言葉に対応する音声を切れ目なく受信する必要があるからである。   The second is an automatic speech recognition (ASR) system, which is shown in FIG. The voice input unit 20 is the same as the voice input unit 10 of FIG. 1, but in this case, the VAD 22 prevents the voice recognition unit 24 from trying to determine background noise as voice. This not only helps prevent errors (discriminating background noise from speech) but also helps manage system resources (ASR is usually computationally expensive). An example is a mobile device that can be controlled by voice. VAD distinguishes between when the user is not speaking and when the user is speaking. Thereby, when the ASR is not performed, the apparatus can be concentrated on other functions, and when the user is speaking, the apparatus can be concentrated on the ASR. As described above, it is convenient that the front end processing 21 is the same for the VAD 22 and the voice recognition unit 24. In this example, the end point detection unit 23 uses the VAD signal to distinguish between the start or end of the utterance and the pause period between the words being uttered. This is because the voice recognition unit 24 needs to receive voices corresponding to all words without interruption.

なお、本発明は通信の場合にも適用することができるが、後述の本発明の実施形態の説明では、ASRに適用した場合を説明する。本明細書において、“雑音 (noise)”、“無音 (silence)”、“非音声 (non-speech)”の用語を相互に交換可能なものとする。   The present invention can also be applied to communication, but in the description of embodiments of the present invention described later, a case where the present invention is applied to ASR will be described. In this specification, the terms “noise”, “silence”, and “non-speech” are interchangeable.

VADは一般的には、図3に示すような以下の構成要素を備える。   A VAD generally comprises the following components as shown in FIG.

1.VAD算出部38。音声信号(瞬時信号)31に対するVAD尺度値39を形成する。尺度としては、例えば、信号の零交差率、振幅、パワ(エネルギ)、フーリエ変換、ピリオドグラム等のスペクトル表現がある。また、尺度は、フロントエンドの特徴に基づくものとしてもよい。図3に示すように、フロントエンド部42は振幅信号33を生成する振幅フレーマ32を含む。強度信号としての振幅信号33からVAD尺度値が算出される。   1. VAD calculation unit 38. A VAD scale value 39 for the audio signal (instantaneous signal) 31 is formed. Examples of the scale include spectral expressions such as a zero crossing rate, amplitude, power (energy), Fourier transform, and periodogram of the signal. The scale may also be based on front end characteristics. As shown in FIG. 3, the front end unit 42 includes an amplitude framer 32 that generates an amplitude signal 33. A VAD scale value is calculated from the amplitude signal 33 as the intensity signal.

2.ノイズ追跡部36。背景ノイズを表す信号の定常状態を追跡する。これは通常、過去の観測にわたる信号尺度の平均値である。   2. Noise tracking unit 36. Track the steady state of the signal representing background noise. This is usually the average value of the signal measure over past observations.

3.VAD算出部38はさらに、瞬時信号尺度と定常状態信号尺度とを比較して、VAD尺度値39を生成する。このVAD尺度値は、連続的に変化する値をとりうるが、論理演算値的なVAD判別値41が得られるように閾値判定されて(40)してもよい。ここでの仮定としては、瞬時尺度が定常状態尺度と大きく異なる場合は、単なる背景ノイズではなく、音声を計測している可能性が高いということである。   3. The VAD calculation unit 38 further compares the instantaneous signal scale with the steady state signal scale to generate a VAD scale value 39. The VAD scale value may take a continuously changing value, but may be threshold-determined (40) so as to obtain a logical operation value VAD discriminant value 41. The assumption here is that if the instantaneous scale is significantly different from the steady state scale, it is likely that the speech is being measured rather than just background noise.

また、ASRシステムのVADは通常、次の構成と組み合わせられている。   The ASR system VAD is usually combined with the following configuration.

4.端点検出部44。VAD尺度値から端点判別値45を求める。例えば、VAD尺度値は、非音声より音声のときの方が大きい値をとるようにする。そして、一定期間の間VAD尺度値が一定の値を超えている場合は、音声が存在すると判定できる。逆に、一定期間の間VAD尺度値が一定の値以下である場合は、非音声であると判定とする。   4). An end point detection unit 44. An endpoint discrimination value 45 is obtained from the VAD scale value. For example, the VAD scale value is set to take a larger value for voice than for non-voice. When the VAD scale value exceeds a certain value for a certain period, it can be determined that there is a voice. Conversely, if the VAD scale value is equal to or less than a certain value for a certain period, it is determined as non-speech.

上記の他に、VAD判別値41又は端点判別値45の結果をノイズ追跡部36にフィードバックすることは共通である。この目的は、現在の信号が音声か非音声かをノイズ追跡部に示すことである。これにより、ノイズ追跡部はノイズの推定をより確実に更新することができる。   In addition to the above, it is common to feed back the result of the VAD discriminant value 41 or the end point discriminant value 45 to the noise tracking unit 36. The purpose is to indicate to the noise tracker whether the current signal is speech or non-speech. As a result, the noise tracking unit can update the noise estimation more reliably.

従来、背景ノイズの追跡や閾値自動判定を行う方法が開示されている。例えば、本発明者の特許出願では、背景ノイズ及び確率分布に基づく閾値の自動判定方法を開示している。しかしながら、統計的分布を用いることは、VADには不適切になってしまう。我々の以前の出願の雑音追跡方法は、非特許文献1に基づいている。   Conventionally, methods for performing background noise tracking and automatic threshold determination have been disclosed. For example, the inventor's patent application discloses an automatic threshold determination method based on background noise and probability distribution. However, using a statistical distribution would be inappropriate for VAD. The noise tracking method of our previous application is based on Non-Patent Document 1.

特許文献1では、固定閾値VADを用いて、VAD閾値ではなく、信号レベルを調整する自動利得制御を制御している。これは、本発明に用いられるアプローチの補完となるものである。   In Patent Document 1, a fixed threshold value VAD is used to control automatic gain control that adjusts the signal level, not the VAD threshold value. This complements the approach used in the present invention.

特許文献2及び特許文献3では、VAD閾値を自動的に調整するが、基本的にそれが行われるのは、処理工程のかなり後になる。これは、本発明では、VAD処理前の情報を用いて閾値を調整するので、直ちにそのような調整がなされる点で、異なる。   In Patent Document 2 and Patent Document 3, the VAD threshold is automatically adjusted, but basically, this is performed considerably after the processing steps. In the present invention, the threshold value is adjusted using the information before the VAD processing, and therefore this adjustment is immediately performed.

特許文献4では、1つのフレームに対して算出した信号対雑音比(SNR)に基づいて、閾値を自動的に調整する。この技術は、本発明では、1つのフレームのノイズレベルではなく移動平均ノイズレベルを用いる点、閾値がSNRではなく実際のノイズレベルである点で、異なる。   In Patent Document 4, the threshold value is automatically adjusted based on the signal-to-noise ratio (SNR) calculated for one frame. This technique is different in the present invention in that the moving average noise level is used instead of the noise level of one frame, and the threshold is an actual noise level instead of SNR.

Sohn and Sung, "A Voice Activity Detector employing soft decision based noise spectrum adaptation", In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pages 365-368, May 1998Sohn and Sung, "A Voice Activity Detector using soft decision based noise spectrum adaptation", In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pages 365-368, May 1998 米国特許出願第2002/0118851号US Patent Application No. 2002/0118851 米国特許出願第2003/0009333号US Patent Application No. 2003/0009333 米国特許第6,539,352号US Pat. No. 6,539,352 米国特許第6,640,208号US Pat. No. 6,640,208 米国特許第6,711,536号US Pat. No. 6,711,536

特許文献5には、VADの実現例が記載されている。このVADでは、フレームの大きさを用いて、フレームシーケンスに対して変調信号を算出する。次に、1つの離散フーリエ変換(DFT)ビンにより、変調信号をフィルタリングすることにより、VAD特徴を算出する。フィルタリングした信号が2〜6Hz(理想的には約4Hz)のエネルギを有するように、DFTを配列する。入力信号が音声なのか雑音なのかを決定するために、フィルタリングした信号を閾値と比較する。フィルタリングした信号が所定期間の間、閾値を超えている場合、音声であると判定する。そうでない場合は、信号は雑音であると判定する。このVADには、閾値をあらかじめ求めるという問題がある。閾値が、ノイズレベルを超え、音声レベルを下回っていなければならないので、このような前決定を行うには、背景ノイズ及び音声入力の両方の信号レベルに関する知識が必要である。この問題は、以下の2つの場合において顕著となる。   Patent Document 5 describes an implementation example of VAD. In this VAD, a modulation signal is calculated for a frame sequence using the frame size. Next, the VAD feature is calculated by filtering the modulated signal with one discrete Fourier transform (DFT) bin. The DFT is arranged so that the filtered signal has an energy of 2-6 Hz (ideally about 4 Hz). To determine if the input signal is speech or noise, the filtered signal is compared to a threshold value. If the filtered signal exceeds the threshold for a predetermined period, it is determined that the sound is voice. Otherwise, it is determined that the signal is noise. This VAD has a problem of obtaining a threshold value in advance. Since the threshold must be above the noise level and below the audio level, making such a pre-determination requires knowledge of the signal levels of both background noise and audio input. This problem becomes significant in the following two cases.

1.閾値を静かな背景ノイズ環境で設定した場合、装置を騒音が大きい環境で使用すると、フィルタリングした背景ノイズが閾値を超え、VADによって雑音が音声として間違って分類される。   1. If the threshold is set in a quiet background noise environment, if the device is used in a noisy environment, the filtered background noise will exceed the threshold and the VAD will incorrectly classify the noise as speech.

2.ユーザが非常に小さな声で話をしたり、マイクから遠く離れて話をした場合には、フィルタリングした音声信号が所定の閾値に達しないことがある。この場合、有効な発話が検出されないことになる。   2. If the user speaks with a very low voice or speaks far away from the microphone, the filtered audio signal may not reach a predetermined threshold. In this case, a valid utterance is not detected.

本発明は、VAD閾値を自動的に判定して、上記した問題の発生を最小限にする、新規の方法を提供することを目的とする。   It is an object of the present invention to provide a novel method that automatically determines the VAD threshold and minimizes the occurrence of the above-mentioned problems.

本発明の一側面によれば、フレームに分割された信号の強度を示す強度信号を算出する算出ステップと、前記強度信号をフィルタリングするフィルタリングステップと、前記強度信号のノイズレベルを追跡する追跡ステップと、前記フィルタリングステップでフィルタリングした強度信号と前記追跡ステップで出力されたノイズレベルとを用いて、前記信号の判別を行う判別ステップとを有することを特徴とする信号検出方法が提供される。   According to an aspect of the present invention, a calculation step for calculating an intensity signal indicating the intensity of a signal divided into frames, a filtering step for filtering the intensity signal, and a tracking step for tracking the noise level of the intensity signal; There is provided a signal detection method comprising: a discrimination step for discriminating the signal using the intensity signal filtered in the filtering step and the noise level output in the tracking step.

本発明は、従来技術の方法に対して2つの大きい利点がある。第1に、以前に開示した我々の発明と比較して、自動閾値は、未知の背景ノイズレベルに対してより正確である。例えば、背景ノイズが増加した場合には、以前に開示した発明で固定のままとするよりも、閾値も増加して補償するようにする。   The present invention has two major advantages over prior art methods. First, compared to our previously disclosed invention, the automatic threshold is more accurate for unknown background noise levels. For example, when the background noise increases, the threshold value is also increased to compensate for the background noise rather than being fixed in the previously disclosed invention.

第2に、他の従来技術と比較して、通常の条件下で、ノイズレベルが確実に閾値を下回るようにして、音声レベルが確実に閾値を上回るようにして、基準線閾値を算出する。主観的調整を更に行う必要はない。従来技術の方法では、ノイズレベルを超えるように閾値を主観的に設定する必要があった。   Second, the baseline threshold value is calculated so that the noise level is surely below the threshold value and the sound level is surely above the threshold value under normal conditions as compared to other prior art. No further subjective adjustment is necessary. In the prior art method, the threshold value must be set subjectively so as to exceed the noise level.

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。   DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited to the following embodiment, It shows only the specific example advantageous for implementation of this invention. In addition, not all combinations of features described in the following embodiments are indispensable as means for solving the problems of the present invention.

本発明は、背景ノイズの追跡に基づいている。非音声期間の間、信号レベルの平均値をとり、背景ノイズレベルの推定値を計算する。信号の2つのフィルタリングしたバージョン及び非フィルタリングしたバージョンを考えることで、アルゴリズムにより閾値に対する好適な基準線値が求められる。入力信号レベルの知識により、この基準線を実験的に調整することができるが、必ずしも、このような調整を通常の条件で行う必要はない。具体的には、フィルタリングの実行後に、フィルタリングの実行前に平均していた背景ノイズを信号に対する閾値として用いる。   The present invention is based on background noise tracking. During the non-speech period, an average value of the signal level is taken and an estimate of the background noise level is calculated. By considering the two filtered and unfiltered versions of the signal, the algorithm determines a suitable baseline value for the threshold. Although this reference line can be experimentally adjusted with knowledge of the input signal level, such adjustment need not necessarily be performed under normal conditions. Specifically, after the filtering is performed, the background noise averaged before the filtering is performed is used as a threshold for the signal.

本実施形態のVADの主な特徴は、音声サンプルのオーバーラップ・フレームから算出した振幅信号33である。標準PCMサンプリングを用いて、音声信号31を11025Hzでサンプリングして、サンプルのストリームをそれぞれ256サンプルのフレームに分割する。新規のフレームは、110サンプル毎に開始する。つまり、フレームがオーバーラップしていて、フレームレートが約100Hzであることを意味している。各フレームに対して、256サンプルの平均値を差し引いてDC成分を除去し、各サンプルの絶対値の合計として振幅(magnitude)を算出する。振幅はフレームエネルギと密接に関係しているが、乗算を必要としない。次に、この振幅信号を、図4に示す2つの別の処理ステージで処理する。図4は本実施形態における信号検出装置の構成を示している。   A main feature of the VAD of the present embodiment is an amplitude signal 33 calculated from an overlap frame of audio samples. Using standard PCM sampling, the audio signal 31 is sampled at 11025 Hz and the sample stream is divided into 256 sample frames each. A new frame starts every 110 samples. That is, the frames are overlapped and the frame rate is about 100 Hz. For each frame, the average value of 256 samples is subtracted to remove the DC component, and the magnitude is calculated as the sum of the absolute values of each sample. Amplitude is closely related to frame energy, but does not require multiplication. This amplitude signal is then processed in two separate processing stages as shown in FIG. FIG. 4 shows the configuration of the signal detection apparatus in this embodiment.

第1の処理ステージは、25点DFT51として実現されるフィルタでフィルタリングする処理である。現在のフレームの大きさの平方根50と、過去の24フレームの平方根を用いて、DFTの第1の非DCビンを算出する。例えば、米国特許第4,723,125号に記載のスライディングDFTアルゴリズムを用いて、これを行う。DFTビンの実数部及び虚数部を、自乗し加算して、1つの実数値Dt 2、VAD尺度値(4Hz成分値)52を得る。 The first processing stage is a process of filtering with a filter realized as a 25-point DFT 51. The first non-DC bin of the DFT is calculated using the square root 50 of the current frame size and the square root of the past 24 frames. This is done, for example, using the sliding DFT algorithm described in US Pat. No. 4,723,125. The real part and the imaginary part of the DFT bin are squared and added to obtain one real value D t 2 and a VAD scale value (4 Hz component value) 52.

第2の処理ステージは、次式で表される単極再帰型フィルタで実現されるノイズ追跡部36による処理である。   The second processing stage is processing by the noise tracking unit 36 realized by a single pole recursive filter expressed by the following equation.

/dt=ρ(/dt-1)+(1−ρ)dt / D t = ρ (/ d t−1 ) + (1−ρ) d t

ただし、/dは追跡したノイズレベル37、tはフレームインデックス、dは振幅(magnitude)、ρは0.98に設定した時定数である。追跡したノイズレベルに対する大きなエネルギの音声信号の影響を防止するために、VADにより、追跡動作を禁止する必要がある。これについては後で説明する。上記の式は再帰型なので、/dには初期化が必要である。好適な実施形態では、第1の計測値d1と同じになるように初期化する。 However, / d is a tracked noise level 37, t is a frame index, d is an amplitude, and ρ is a time constant set to 0.98. In order to prevent the impact of high energy audio signals on the tracked noise level, the tracking operation needs to be inhibited by VAD. This will be described later. Since the above expression is recursive, / d needs to be initialized. In a preferred embodiment, initialization is performed to be the same as the first measurement value d 1 .

定常背景ノイズに対して、/dはDt 2の上限なので、Dt 2が/dを超える場合は、信号が音声である可能性が高い。この意味で、/dは好適なVAD閾値53である。好適な実施形態では、/dを小さな固定値eで乗算して、VADの感度をそれぞれ大きくしたり小さくしたりする。 Since / d is the upper limit of D t 2 for stationary background noise, if D t 2 exceeds / d, there is a high possibility that the signal is speech. In this sense, / d is the preferred VAD threshold 53. In the preferred embodiment, / d is multiplied by a small fixed value e to increase or decrease the sensitivity of the VAD, respectively.

理解しやすいように、ここまで対数を用いることなく説明してきたが、好適な実施形態では実際には、/d及びDt 2を、閾値判定に適用する前に対数に変換する。従って、係数eは乗算ではなく加算である。固定小数点演算による実現においては、このような対数化によって数値安定性が増す。対数演算の前後で閾値化を行うことの差異はほとんど問題にならないことは当業者には明らかであろう。次に、最終的なVAD判別値41により、次式を満たす場合には、時間tにおける入力フレームは音声と判別し、そうでなければ無音と判別する。 For ease of understanding, we have described without using logarithms so far, but in the preferred embodiment, in practice, / d and D t 2 are converted to logarithm before being applied to threshold determination. Therefore, the coefficient e is not multiplication but addition. In realization by fixed-point arithmetic, numerical stability increases by such logarithmization. It will be apparent to those skilled in the art that the difference between thresholding before and after the logarithmic operation is of little concern. Next, when the following equation is satisfied by the final VAD discriminating value 41, the input frame at time t is discriminated as speech, and otherwise it is discriminated as silence.

logDt 2>log(/dt)+e logD t 2 > log (/ d t ) + e

このように、ノイズ追跡部より出力されたノイズレベルから所定量オフセットした域を用いて信号の判別を行うことができる。対数空間において、係数eはデシベル(dB)測定値と密接に関連しているので、非常に直感的に設定することができる。既知の雑音環境により客観的に設定することもできるし、知覚誤り検出及びエラーとして排除されたものにより、主観的に設定することもできる。   In this way, the signal can be determined using a region offset by a predetermined amount from the noise level output from the noise tracking unit. In logarithmic space, the coefficient e is closely related to the decibel (dB) measurement and can therefore be set very intuitively. It can be set objectively by a known noise environment, or it can be set subjectively by detecting perceptual error and eliminating it as an error.

上述の信号検出方法は音声認識に応用可能である。例えば、上述の信号検出方法により音声と背景ノイズとを判別し、音声を認識する。例えば、音声認識の適用例に用いる場合は、端点検出アルゴリズムが必要である。本実施形態に用いられる端点検出アルゴリズムについて、説明する。   The signal detection method described above can be applied to speech recognition. For example, voice and background noise are discriminated by the above-described signal detection method to recognize the voice. For example, when used in an application example of speech recognition, an endpoint detection algorithm is necessary. The end point detection algorithm used in this embodiment will be described.

図5に端点検出部44の構成を示す。主な特徴は状態遷移判定部90で、これは図6に示すような状態遷移を行う。状態は、“無音状態”80で開始する。“音声確定待ち状態”81への遷移84を行う際には、現在のフレームインデックスをフレームインデックス記憶部91に記憶する。次に、“音声状態”82への遷移86を行う際には、端点の始点として記憶したフレームインデックスを出力する。同様に、“無音確定待ち状態”83への遷移87を行う際には、現在のフレームインデックスをフレームインデックス記憶部91に記憶する。次に、“無音状態”80への遷移89を行う際には、端点の終点として記憶したフレームインデックスを出力する。   FIG. 5 shows a configuration of the end point detection unit 44. The main feature is a state transition determination unit 90, which performs a state transition as shown in FIG. The state starts at “silent state” 80. When the transition 84 to the “voice confirmation waiting state” 81 is performed, the current frame index is stored in the frame index storage unit 91. Next, when the transition 86 to the “voice state” 82 is performed, the frame index stored as the start point of the end point is output. Similarly, when the transition 87 to the “silent determination waiting state” 83 is performed, the current frame index is stored in the frame index storage unit 91. Next, when the transition 89 to the “silent state” 80 is performed, the frame index stored as the end point of the end point is output.

遷移はVAD判別値41によって生じる。まず、“無音状態”80において、VAD判別値が音声の存在を示した時に、“音声確定待ち状態”81への遷移84が生じる。このとき、音声カウント記憶部93の音声カウントをゼロに設定する。“音声確定待ち状態”81の間は、各フレームでVAD判別値41が音声の存在を示す毎に、音声カウント記憶部93の音声カウントをインクリメントする。音声カウント記憶部93の音声カウント値がある値(例えば、30)を超えると、“音声状態”82への遷移86を行う。一方、無音カウント記憶部92の無音カウント値がある値(例えば、26)を超えると、“無音状態”80への遷移85を行う。   The transition is caused by the VAD discrimination value 41. First, in the “silent state” 80, when the VAD discriminating value indicates the presence of speech, a transition 84 to the “sound confirmation waiting state” 81 occurs. At this time, the sound count of the sound count storage unit 93 is set to zero. During the “voice confirmation waiting state” 81, the voice count in the voice count storage unit 93 is incremented every time the VAD determination value 41 indicates the presence of voice in each frame. When the voice count value in the voice count storage unit 93 exceeds a certain value (for example, 30), the transition 86 to the “voice state” 82 is performed. On the other hand, when the silence count value in the silence count storage unit 92 exceeds a certain value (for example, 26), the transition 85 to the “silence state” 80 is performed.

“音声状態”82において、VAD判別値が非音声を示す場合は、“無音確定待ち状態”83への遷移87を行う。このとき、無音カウント記憶部92の無音カウント値をゼロに設定する。“無音確定待ち状態”83の間は、各フレームでVAD判別値41が無音を示す毎に、無音カウント記憶部92の無音カウント値をインクリメントする。VAD判別値が音声を示す場合、“音声状態”82に戻る遷移88を行う。一方、無音カウント記憶部92の無音カウント値がある値(例えば、26)を超えると、“無音状態”80への遷移89を行う。   In the “sound state” 82, when the VAD discriminating value indicates non-speech, a transition 87 to the “silent determination waiting state” 83 is performed. At this time, the silence count value in the silence count storage unit 92 is set to zero. During the “silence determination waiting state” 83, the silence count value in the silence count storage unit 92 is incremented every time the VAD determination value 41 indicates silence in each frame. If the VAD discriminant value indicates voice, a transition 88 is made to return to “voice state” 82. On the other hand, when the silence count value in the silence count storage unit 92 exceeds a certain value (for example, 26), a transition 89 to the “silence state” 80 is performed.

好適な実施形態では、米国特許第6,711,536号に記載の最尤方法を用いて、端点検出部44を構成してもよい。しかしながら、最尤方法を用いても本発明に強い影響がないことは当業者には明らかであろう。   In a preferred embodiment, the end point detection unit 44 may be configured using the maximum likelihood method described in US Pat. No. 6,711,536. However, it will be apparent to those skilled in the art that using the maximum likelihood method does not strongly affect the present invention.

好適な実施形態では、“無音状態”の間でだけ上記ノイズ追跡動作を行うことが可能である。すなわち、端点検出後に入力信号が音声であるといった可能性がある場合は、次にノイズ追跡部36の動作を禁止する。これにより、ノイズ追跡部は常に、音声レベルではなく背景ノイズレベルを確実に保持することが可能になる。   In a preferred embodiment, it is possible to perform the noise tracking operation only during a “silent state”. That is, when there is a possibility that the input signal is voice after the end point is detected, the operation of the noise tracking unit 36 is then prohibited. As a result, the noise tracking unit can always reliably hold the background noise level, not the voice level.

(他の実施形態)
上述の実施形態では、音声及び音声認識に関して本発明を説明したが、音声以外にも、動物の鳴き声や機械類の音といった音響信号にも応用可能である。また、ソナーや動物の鳴き声といった、人間の通常の可聴範囲以外の音響信号にも応用可能である。さらには、本発明は、レーダー又は無線信号等の電磁信号にも応用できる。
(Other embodiments)
In the above-described embodiment, the present invention has been described with respect to voice and voice recognition. However, in addition to voice, the present invention can also be applied to acoustic signals such as animal calls and machinery sounds. It can also be applied to acoustic signals outside the normal human audible range, such as sonar and animal calls. Furthermore, the present invention can also be applied to electromagnetic signals such as radar or radio signals.

また、上述の実施形態では、信号の振幅(magnitude)を特徴量として用いたが、エネルギ、パワ等の、任意の強度信号を用いてもよい。   In the above-described embodiment, the amplitude of the signal is used as the feature quantity. However, an arbitrary intensity signal such as energy or power may be used.

また、上述の実施形態では、DFTをスライディングDFTで実現したが、数多く存在する他のDFTを用いることもできる。例えば、これに限定されないが、ゴーツゥエル(Goertzel)アルゴリズム、直接DFT計算、及び高速ハートレー変換等である。   In the above-described embodiment, the DFT is realized by the sliding DFT, but other DFTs that exist in large numbers can also be used. For example, but not limited to, the Goertzel algorithm, direct DFT calculation, and fast Hartley transform.

以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。   As mentioned above, although embodiment of this invention was explained in full detail, this invention may be applied to the system comprised from several apparatuses, and may be applied to the apparatus which consists of one apparatus.

なお、本発明は、前述した実施形態の各機能を実現するプログラムを、システム又は装置に直接又は遠隔から供給し、そのシステム又は装置に含まれるコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。   In the present invention, a program for realizing each function of the above-described embodiments is supplied directly or remotely to a system or apparatus, and a computer included in the system or apparatus reads and executes the supplied program code. Can also be achieved.

したがって、本発明の機能・処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。   Accordingly, since the functions and processes of the present invention are implemented by a computer, the program code itself installed in the computer also implements the present invention. That is, the computer program itself for realizing the functions and processes is also one aspect of the present invention.

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。   In this case, the program may be in any form as long as it has a program function, such as an object code, a program executed by an interpreter, or script data supplied to the OS.

プログラムを供給するためのコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RWなどがある。また、記録媒体としては、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などもある。   Examples of the computer-readable recording medium for supplying the program include a flexible disk, a hard disk, an optical disk, a magneto-optical disk, an MO, a CD-ROM, a CD-R, and a CD-RW. Examples of the recording medium include a magnetic tape, a non-volatile memory card, a ROM, a DVD (DVD-ROM, DVD-R), and the like.

また、プログラムは、クライアントコンピュータのブラウザを用いてインターネットのホームページからダウンロードしてもよい。すなわち、ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードしてもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードする形態も考えられる。つまり、本発明の機能・処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明の構成要件となる場合がある。   The program may be downloaded from a homepage on the Internet using a browser on a client computer. That is, the computer program itself of the present invention or a compressed file including an automatic installation function may be downloaded from a home page to a recording medium such as a hard disk. Further, it is also possible to divide the program code constituting the program of the present invention into a plurality of files and download each file from a different home page. That is, a WWW server that allows a plurality of users to download a program file for realizing the functions and processing of the present invention on a computer may be a constituent requirement of the present invention.

また、本発明のプログラムを暗号化してコンピュータ読み取り可能なCD−ROM等のコンピュータ読み取り可能な記憶媒体に格納してユーザに配布してもよい。この場合、所定条件をクリアしたユーザにのみ、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報で暗号化されたプログラムを復号して実行し、プログラムをコンピュータにインストールしてもよい。   The program of the present invention may be encrypted and stored in a computer-readable storage medium such as a computer-readable CD-ROM and distributed to users. In this case, only the user who cleared the predetermined condition is allowed to download the key information to be decrypted from the homepage via the Internet, decrypt the program encrypted with the key information, execute it, and install the program on the computer May be.

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現されてもよい。なお、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行ってもよい。もちろん、この場合も、前述した実施形態の機能が実現され得る。   Further, the functions of the above-described embodiments may be realized by the computer executing the read program. Note that an OS or the like running on the computer may perform part or all of the actual processing based on the instructions of the program. Of course, also in this case, the functions of the above-described embodiments can be realized.

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行ってもよい。このようにして、前述した実施形態の機能が実現されることもある。   Furthermore, the program read from the recording medium may be written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer. Based on the instructions of the program, a CPU or the like provided in the function expansion board or function expansion unit may perform part or all of the actual processing. In this way, the functions of the above-described embodiments may be realized.

VADの音声通信装置への適用例を説明する図である。It is a figure explaining the example of application to the audio | voice communication apparatus of VAD. VADのASRへの適用例を説明する図である。It is a figure explaining the example of application to ASR of VAD. VAD38の具体的な構成例を示す図である。It is a figure which shows the specific structural example of VAD38. 実施形態における信号検出装置の構成を示す図である。It is a figure which shows the structure of the signal detection apparatus in embodiment. 実施形態における端点検出部の構成を示す図である。It is a figure which shows the structure of the endpoint detection part in embodiment. 実施形態における状態遷移判定処理を示す図である。It is a figure which shows the state transition determination process in embodiment.

Claims (8)

フレームに分割された信号の強度を示す強度信号を算出する算出ステップと、
前記強度信号をフィルタリングするフィルタリングステップと、
前記強度信号のノイズレベルを追跡する追跡ステップと、
前記フィルタリングステップでフィルタリングした強度信号と前記追跡ステップで出力されたノイズレベルとを用いて、前記信号の判別を行う判別ステップと
を有することを特徴とする信号検出方法。
A calculation step for calculating an intensity signal indicating the intensity of the signal divided into frames;
A filtering step for filtering the intensity signal;
A tracking step for tracking a noise level of the intensity signal;
A signal detection method comprising: a determination step of determining the signal using the intensity signal filtered in the filtering step and the noise level output in the tracking step.
前記判別ステップは、前記追跡ステップで出力されたノイズレベルから所定量オフセットした閾値を用いて前記信号の判別を行うことを特徴とする請求項1に記載の信号検出方法。   2. The signal detection method according to claim 1, wherein in the determination step, the signal is determined using a threshold value offset by a predetermined amount from the noise level output in the tracking step. 前記信号は音声信号であることを特徴とする請求項2に記載の信号検出方法。   The signal detection method according to claim 2, wherein the signal is an audio signal. 請求項3に記載の信号検出方法を用いて音声と背景ノイズとを判別して、前記音声を認識することを特徴とする音声認識方法。   A speech recognition method, wherein the speech is recognized by discriminating speech and background noise using the signal detection method according to claim 3. フレームに分割された信号の強度を示す強度信号を算出する算出手段と、
前記強度信号をフィルタリングするフィルタ手段と、
前記強度信号のノイズレベルを追跡する追跡手段と、
前記フィルタ手段によりフィルタリングされた強度信号と前記追跡手段より出力されたノイズレベルとを用いて、前記信号の判別を行う判別手段と
を備えることを特徴とする信号検出装置。
Calculating means for calculating an intensity signal indicating the intensity of the signal divided into frames;
Filter means for filtering the intensity signal;
Tracking means for tracking the noise level of the intensity signal;
A signal detection apparatus comprising: a determination unit configured to determine the signal using the intensity signal filtered by the filter unit and the noise level output from the tracking unit.
請求項1乃至3のいずれか1項に記載の信号検出方法をコンピュータに実行させるためのプログラム。   The program for making a computer perform the signal detection method of any one of Claims 1 thru | or 3. 請求項4に記載の音声認識方法をコンピュータに実行させるためのプログラム。   A program for causing a computer to execute the speech recognition method according to claim 4. 請求項6又は7に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。   A computer-readable storage medium storing the program according to claim 6 or 7.
JP2008072222A 2008-03-19 2008-03-19 Signal detection method and device Withdrawn JP2009229583A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008072222A JP2009229583A (en) 2008-03-19 2008-03-19 Signal detection method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008072222A JP2009229583A (en) 2008-03-19 2008-03-19 Signal detection method and device

Publications (1)

Publication Number Publication Date
JP2009229583A true JP2009229583A (en) 2009-10-08

Family

ID=41245092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008072222A Withdrawn JP2009229583A (en) 2008-03-19 2008-03-19 Signal detection method and device

Country Status (1)

Country Link
JP (1) JP2009229583A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016114058A (en) * 2014-12-16 2016-06-23 ゼネラル・エレクトリック・カンパニイ Multi-fuel engine system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016114058A (en) * 2014-12-16 2016-06-23 ゼネラル・エレクトリック・カンパニイ Multi-fuel engine system
US10316772B2 (en) 2014-12-16 2019-06-11 Ge Global Sourcing Llc Multi-fuel engine system
US10920694B2 (en) 2014-12-16 2021-02-16 Transportation Ip Holdings, Llc Multi-fuel engine system

Similar Documents

Publication Publication Date Title
JP6921907B2 (en) Equipment and methods for audio classification and processing
JP4587160B2 (en) Signal processing apparatus and method
EP2979359B1 (en) Equalizer controller and controlling method
CN101010722B (en) Device and method of detection of voice activity in an audio signal
EP2979358B1 (en) Volume leveler controller and controlling method
JP4279357B2 (en) Apparatus and method for reducing noise, particularly in hearing aids
US20210256971A1 (en) Detection of replay attack
JP6185457B2 (en) Efficient content classification and loudness estimation
TWI397058B (en) Audio signal processing device and method thereof, and computer readable recording medium
CN112927724B (en) Method for estimating background noise and background noise estimator
US20090177468A1 (en) Speech recognition with non-linear noise reduction on mel-frequency ceptra
JP2018156044A (en) Voice recognition device, voice recognition method, and voice recognition program
KR20170060108A (en) Neural network voice activity detection employing running range normalization
US9373342B2 (en) System and method for speech enhancement on compressed speech
EP4196978B1 (en) Automatic detection and attenuation of speech-articulation noise events
US10755731B2 (en) Apparatus, method, and non-transitory computer-readable storage medium for storing program for utterance section detection
JP4497911B2 (en) Signal detection apparatus and method, and program
JP7350973B2 (en) Adaptation of sibilance detection based on detection of specific voices in audio signals
RU2317595C1 (en) Method for detecting pauses in speech signals and device for its realization
KR102718917B1 (en) Detection of fricatives in speech signals
JP2019032400A (en) Utterance determination program, utterance determination method, and utterance determination device
JP4814861B2 (en) Volume control apparatus, method, and program
JP2009229583A (en) Signal detection method and device
JP2019184867A (en) Coded sound determination program, coded sound determination method, and coded sound determination device
Fan et al. Power-normalized PLP (PNPLP) feature for robust speech recognition

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110607