JP2016042613A

JP2016042613A - 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ

Info

Publication number: JP2016042613A
Application number: JP2014164948A
Authority: JP
Inventors: 克之高橋; Katsuyuki Takahashi
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2014-08-13
Filing date: 2014-08-13
Publication date: 2016-03-31

Abstract

【課題】大雑音環境下でも、雑音の影響を軽減して平均コヒーレンスを算出し、目的音声区間の検出性能を改善できるようにする目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバを提供する。【解決手段】入力音信号に基づいて第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号とコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算部１４と、周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算部１５と、平均コヒーレンスに基づいて入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定部１６とを備える。【選択図】図１

Description

本発明は、目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバに関し、例えば、電話やテレビ会議等の音声を用いる通信機器やサーバにおける音響信号処理に適用し得るものである。

例えば携帯端末（例えば、スマートフォンや携帯電話機等）や車載機器等には、入力された音声を認識する音声認識機能や音声通話機能等が搭載されるようになってきており、音声認識機能などの音声信号処理はますます厳しい雑音環境下で用いられるようになってきている。厳しい雑音環境下で音声信号処理機能が性能を維持できるようにするためには、利用者により発せられた音声を雑音等と区別して抽出することが好ましい。そして、正確に音声を抽出するためには、話者が話している区間（目的音声区間）と話者が話しておらず背景雑音だけが存在する区間（背景雑音区間）とを区別して検出する技術が必要である。

目的音声区間と背景雑音区間とを区別する方法として、音声信号レベルと雑音信号とのレベル差に基づいて検出する方法や、特許文献１に記載されるようなコヒーレンスを用いる方法が挙げられる。

特許文献１の記載技術は、マイクロホンの左右に死角を有する２つの指向性を形成して得た２つの信号の相関に応じたコヒーレンス係数を周波数帯域毎に算出し、全周波数帯域のコヒーレンス係数を平均した平均コヒーレンスの大小に基づいて目的音声区間を検出するものである。平均コヒーレンスの大小は目的音声の到来方位と直結する特徴量なので、特許文献１の記載技術は、目的音声の到来方位に基づいて目的音声区間を検出する方式であるといえる。そのため、音声信号のレベル差に基づいて検出する方式とは異なり、大きな雑音に目的音声が埋もれ、目的音声レベルと雑音レベルとの差がつきにくい場合でも、目的音声区間を検出することができる。

特開２０１３−０６１４２１号公報

しかしながら、先述のように、近年、利用者は、ますます過酷な雑音環境下で携帯端末や車載機器等を利用するようになってきており、大きな雑音によってＳＮ比が０に近づき、さらにはマイナスになってしまうような場合には、特許文献１に記載の方式であっても、目的音声が雑音の影響を受けて、目的音声の特徴が薄れてしまい、目的音声区間の検出性能が低下してしまうという問題が生じ得る。

例えば高速走行中の自動車内等のようにＳＮ比がマイナスとなってしまう場合、周波数帯域毎に算出されるコヒーレンス係数の一部が雑音の影響を受け、目的音声の特徴が薄れていく。これにより、コヒーレンス係数を全周波数で平均した平均コヒーレンスも間接的に雑音の影響を受け、目的音声区間と雑音区間との特性差が小さくなるために、目的音声区間の検出性能が低下してしまう。

そのため、大雑音環境下でも正確に、目的音声区間を検出できるような目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバが求められている。

本発明は、前記課題を解決するためになされたものであり、次のような構成を採用する。

第１の本発明に係る目的音声区間検出装置は、（１）入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、（２）コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、（３）平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段とを備えることを特徴とする。

第２の本発明に係る目的音声区間検出方法は、（１）コヒーレンス係数計算手段が、入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出し、（２）平均コヒーレンス計算手段が、コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出し、（３）目的音声判定手段が、平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定することを特徴とする。

第３の本発明に係る目的音声区間検出プログラムは、コンピュータを、（１）入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、（２）コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、（３）平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段として機能させることを特徴とする。

第４の本発明に係る音声信号処理装置は、少なくとも２個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なう音声信号処理装置において、（１）入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、（２）コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、（３）平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段とを備えることを特徴とする。

第５の本発明に係るサーバは、少なくとも２個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なうサーバにおいて、（１）入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、（２）コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、（３）平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段とを備えることを特徴とする。

本発明によれば、大雑音環境下でも、雑音の影響を軽減して平均コヒーレンスを算出し、目的音声区間の検出性能を改善できる。

実施形態に係る目的音声区間検出装置の構成を示すブロック図である。大雑音環境下における目的音声及び雑音信号の概略的な特性を簡単に説明する説明図である。実施形態に係る平均コヒーレンス計算部の構成を示すブロック図である。実施形態に係る目的音声区間判定部の構成を示すブロック図である。実施形態に係る平均コヒーレンス計算部１５における平均コヒーレンス計算処理の動作例を示すフローチャートである。

（Ａ）主たる実施形態
以下では、本発明に係る目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバの実施形態を、図面を参照しながら詳細に説明する。

（Ａ−１）実施形態の構成
この実施形態に係る目的音声区間検出装置は、一対のマイクロホンが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末やテレビ会議機器や車載機器等のように、一対のマイクロホンが搭載若しくは外付けされており、一対のマイクロホンにより収音された音声に対して音声信号処理を行なうものに広く適用することができる。

特許請求の範囲に記載の「音声信号処理装置」は、少なくとも２個のマイクロホンにより捕捉された周囲音の入力音信号を用いて音声信号処理機能を有するものであり、例えば、携帯端末（例えば、スマートフォン、タブレット型端末、携帯電話機等を含む概念）、ノート型パーソナルコンピュータ、パーソナルコンピュータ、ゲーム端末、テレビ会議用機器、車載機器等を適用できる。

以下では、この実施形態に係る目的音声区間検出装置が、一対のマイクロホンが搭載されて構成されている場合を例示して説明する。

図１は、この実施形態に係る目的音声区間検出装置１の構成を示すブロック図である。

この実施形態に係る目的音声区間検出装置１は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素（例えば、スピーカ、マイクロホン、アナログ／デジタル変換部（Ａ／Ｄ変換部）、デジタル／アナログ変換部（Ｄ／Ａ変換部）等を除く部分）を、ＣＰＵ、ＲＯＭ、ＲＡＭ等のプログラムの実行構成を適用して、その機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、目的音声区間検出装置１の機能的な詳細構成は、図１で表す構成となっている。なお、プログラムを適用する場合において、プログラムは、目的音声区間検出装置１が有するメモリに装置出荷時に書き込まれているものであっても良く、また、ダウンロードによりインストールされるものであっても良い。例えば、後者の場合としては、スマートフォン用のアプリケーションとしてプログラムを用意しておき、必要とする利用者が、インターネットを介してダウンロードしてインストールする場合を挙げることができる。

図１において、この実施形態に係る目的音声区間検出装置１は、マイクロホンｍ＿１、マイクロホンｍ＿２、ＦＦＴ（高速フーリエ変換）部１１、第１の指向性形成部１２、第２の指向性形成部１３、コヒーレンス係数計算部１４、平均コヒーレンス計算部１５、目的音声区間判定部１６を有する。

マイクロホンｍ＿１及びｍ＿２はそれぞれ、周囲音を捕捉して電気信号（アナログ信号）に変換するものである。マイクロホンｍ＿１及びｍ＿２は、正面から到来する音を主として捕捉するような指向性を有するものであることが好ましい。マイクロホンｍ＿１及びＭ＿２は、図示しないＡ／Ｄ変換部を介してＦＦＴ部１１と接続しており、マイクロホンｍ＿１及びｍ＿２により捕捉された入力音声信号はそれぞれ、Ａ／Ｄ変換部によりデジタル信号ｓ１（ｎ）及びｓ２（ｎ）に変換されてＦＦＴ部１１に与えられる。各マイクロホンｍ＿１及びｍ＿２は、例えば、目的音声区間検出装置１を搭載している機器の筐体に設けられたものであっても良いし、又は、機器に外付けされて接続されたものであっても良い。

ＦＦＴ部１１は、マイクロホンｍ＿１及びＭ＿２により捕捉された入力音声信号の各デジタル信号ｓ１（ｎ）及びｓ２（ｎ）を、時間領域から周波数領域に変換して周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）を算出するものである。なお、上記「ｎ」は時間を表すパラメータであり、「ｆ」は周波数を表すパラメータであり、「Ｋ」は、分析フレームのフレーム番号を表すパラメータである。例えば、ＦＦＴ部１１は、入力信号ｓ１（ｎ）に基づき所定のＮ個のサンプルからなるものを１つの分析フレームとし、ＦＦＴ部１１は、分析フレーム毎に高速フーリエ変換処理を施すことで、入力信号ｓ１（ｎ）を周波数領域信号Ｘ１（ｆ，Ｋ）に変換する。なお、以下では、フレームの順番が特に問題とならない場合には「Ｋ」の表記を省略して表現していることもある。

第１の指向性形成部１２及び第２の指向性形成部１３は、ＦＦＴ部１１からの２つの周波数領域信号に遅延減算処理を施して、所定の方位に死角を有する指向性を形成するものである。第１の指向性形成部１２及び第２の指向性形成部１３は、所定の方位に死角を有する指向性を形成した信号Ｂ１（ｎ）及びＢ２（ｎ）をコヒーレンス係数計算部１４に与える。

第１の指向性形成部１２は、式（１）に従って、ＦＦＴ部１１からの２つの周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）に基づいて、例えば正面に対して右方向に強い指向性を持つ信号Ｂ１（ｆ）を算出するものである。

また、第２の指向性形成部１３は、式２)に従って、ＦＦＴ部１１からの２つの周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）に基づいて、例えば正面に対して左方向に強い指向性を持つ信号Ｂ２（ｆ）を算出するものである。信号Ｂ１（ｆ）及びＢ２（ｆ）は複素で表されている。

コヒーレンス係数計算部１４は、第１の指向性形成部１２及び第２の指向性形成部１３により得られた信号Ｂ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）を用いて、式（３）に従って、コヒーレンス係数ｃｏｒ（ｆ，Ｋ）を周波数毎に算出するものである。なお、式（３）において、Ｂ２（ｆ）＊はＢ２（ｆ）の共役複素数を示している。コヒーレンス係数計算部１４は、得られたコヒーレンス係数ｃｏｒ（ｆ，Ｋ）を平均コヒーレンス計算部１５に与える。

なお、この実施形態では、コヒーレンス係数計算部１４は、式（４）を利用してコヒーレンスＡＶＥ＿ＣＯＲを算出しないが、後述する説明でコヒーレンスＣＯＲに言及するので、式（４）にコヒーレンスＡＶＥ＿ＣＯＲの算出式を記載しておく。式（４）に示すコヒーレンスＡＶＥ＿ＣＯＲは、全ての周波数ｆ１〜ｆｍのコヒーレンス係数ｃｏｒ（ｆ）の平均値である。

平均コヒーレンス計算部１５は、コヒーレンス係数計算部１４により得られたコヒーレンス係数ｃｏｒ（ｆ，Ｋ）に基づいて、雑音の影響の大きさを周波数毎に判定し、雑音の影響の小さい周波数帯域のコヒーレンス係数のみを用いて、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）を算出するものである。

ここで、平均コヒーレンス計算部１５について説明する。例えば、走行中の自動車等の車内のように大雑音環境下では、目的音声が雑音に埋もれてしまう。図２は、大雑音環境下における目的音声及び雑音信号の概略的な特性を簡単に説明する説明図である。図２において、横軸は周波数を示しており、縦軸は信号パワーを示している。図２に示すように、雑音信号は、低域に雑音成分のパワーが集中しており、高域では雑音成分のパワーが小さいという特性があり、周波数帯域毎に雑音信号成分の含有量が異なる。そのため、雑音信号が音声信号に及ぼす影響が大きい帯域と小さい帯域とがある。

そして、周波数毎のコヒーレンス係数には、（ａ）雑音信号成分の影響が大きい周波数帯域では、目的音声の特徴が薄れるため、目的音声の有無によらずコヒーレンス係数の値には大きな変動が無い、（ｂ）雑音信号成分の影響が小さい周波数帯域では、目的音声の特徴が残るため、目的音声が存在する区間ではコヒーレンス係数が急変動する、という特徴がある。

そこで、この実施形態では、平均コヒーレンス計算部１５が、周波数毎のコヒーレンス係数の特徴に基づいて、周波数毎に雑音信号成分の影響が大きいか否かを判定する。そして、平均コヒーレンス計算部１５は、雑音信号成分の影響が大きい周波数帯域のコヒーレンス係数について、コヒーレンスの算出には寄与させずに棄却し、雑音の影響が小さい周波数帯域のコヒーレンス係数のみを用いてコヒーレンスの算出に寄与させるように制御する。これにより、大雑音環境下でも、雑音信号成分の影響を軽減した上でコヒーレンスを算出し、目的音声区間の検出性能を改善できるようになる。

図３は、この実施形態に係る平均コヒーレンス計算部１５の構成を示すブロック図である。図３において、この実施形態に係る平均コヒーレンス計算部１５は、長期平均値算出部１５１、雑音影響度判定部１５２、加算部１５３、カウンター部１５４、平均コヒーレンス算出部１５５、周波数毎長期平均値格納部１５６を有する。

長期平均値算出部１５１は、コヒーレンス係数計算部１４により得られた各周波数のコヒーレンス係数ｃｏｒ（ｆ，Ｋ）を用いて、コヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）を周波数毎に算出するものである。

雑音影響度判定部１５２は、長期平均値算出部１５１により得られた周波数毎のコヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）と、コヒーレンス係数ｃｏｒ（ｆ，Ｋ）との比と所定の閾値Θとを比較して、雑音の影響度を周波数毎に判定するものである。なお、この実施形態では、雑音影響度判定部１５２が、コヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）と、コヒーレンス係数ｃｏｒ（ｆ，Ｋ）との比を求める場合を例示するが、比に限定されるものではなく、コヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）と、コヒーレンス係数ｃｏｒ（ｆ，Ｋ）との差分を求め、その差分値と閾値とを比較して判定するようにしても良い。

この判定法で雑音の影響の大きさを推定できる背景を捕捉する。上述したように、大雑音環境下において、雑音信号成分の影響が大きい周波数帯域では、目的音声信号成分が雑音信号成分に埋もれてしまい、目的音声信号の特徴が薄れてしまい、コヒーレンス係数の値に大きな変動はない。これに対して、雑音信号成分の影響が小さい周波数帯域では、目的音声信号の特徴が残るため、目的音声信号成分の影響を受けてコヒーレンス係数が急変動する。

そこで、雑音影響度判定部１５２は、周波数毎に、コヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）と、コヒーレンス係数ｃｏｒ（ｆ，Ｋ）との比又は差分値と所定の閾値Θとを比較し、その比又は差分値が閾値Θ以上のときには、目的音声に由来する信号成分の寄与が大きく、雑音信号成分の影響が小さいと判定し、その比又は差分が閾値Θより小さいときには、目的音声に由来する信号成分の寄与が小さく、雑音信号成分の影響が大きいと判定する。

加算部１５３は、雑音影響度判定部１５２により雑音信号成分の影響が小さいと判定された周波数のコヒーレンス係数のみを加算するものである。また、加算部１５３は、フレーム毎に、雑音信号成分の影響の小さい周波数のコヒーレンス係数の加算値を求めるため、フレーム毎にコヒーレンス係数の加算値を初期化する。

カウンター部１５４は、加算部１５３により加算されたコヒーレンス係数の数をカウントするものである。すなわち、カウンター部１５４は、加算部１５３によりコヒーレンス係数が加算される毎に、カウンター値をインクリメントする。また、カウンター部１５４は、フレーム毎に加算したコヒーレンス係数の数をカウントするようにするため、フレーム毎にカウンター値を初期化する。

平均コヒーレンス算出部１５５は、加算部１５３により加算されて得たコヒーレンス係数の加算値を、カウンター部１５４によりカウントされたカウンター値で除算して、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）を算出するものである。平均コヒーレンス算出部１５５により得られた平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）が、平均コヒーレンス計算部１５の出力として目的音声区間判定部１６に与えられる。

周波数毎長期平均値格納部１５６は、長期平均値算出部１５１において周波数毎のコヒーレンス係数の長期平均値を算出する際に利用する、各周波数のコヒーレンス係数の過去の長期平均値を周波数毎に格納するものである。

目的音声区間判定部１６は、平均コヒーレンス計算部１５により得られた平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）に基づいて、目的音声区間を判定するものである。

図４は、この実施形態に係る目的音声区間判定部１６の構成を示すブロック図である。図４において、目的音声区間判定部１６は、平均コヒーレンス取得部１６１、閾値比較判定部１６２、判定結果出力部１６３を有する。

平均コヒーレンス取得部１６１は、平均コヒーレンス計算部１５により得られた平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）を取得するものである。

閾値比較判定部１６２は、平均コヒーレンス取得部１６１により取得された平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）と目的音声区間判定閾値とを比較し、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）が目的音声区間判定閾値より大きいとき、当該フレームは目的音声区間と判定し、そうでないとき、当該フレームは背景雑音区間と判定するものである。

判定結果出力部１６３は、閾値比較判定部１６２により目的音声区間と判定されたとき、判定結果を格納する変数ｒｅｓに「１」を代入して後段の構成部に出力し、又背景雑音区間と判定されたときに、変数ｒｅｓに「０」を代入して後段の構成部に出力するものである。

（Ａ−２）実施形態の動作
次に、実施形態に係る目的音声区間検出装置１における目的音声区間検出方法の処理動作を、図面を参照しながら詳細に説明する。

一対のマイクロホンｍ＿１及びｍ＿２により捕捉された入力音信号（アナログ信号）は、図示しないＡ／Ｄ変換部によりデジタル信号に変換され、デジタル信号ｓ１（ｎ）及びｓ２（ｎ）がＦＦＴ部１１に与えられる。

ＦＦＴ部１１において、デジタル信号ｓ１（ｎ）及びｓ２（ｎ）はそれぞれ、時間領域から周波数領域に変換され、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）が第１の指向性形成部１２及び第２の指向性形成部１３に与えられる。

第１の指向性形成部１２及び第２の指向性形成部１３では、所定の方位に死角を有する信号Ｂ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）が生成されて、信号Ｂ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）がコヒーレンス係数計算部１４に与えられる。

コヒーレンス係数計算部１４では、式（３）に従って、第１の指向性形成部１２からの信号Ｂ１（ｆ，Ｋ）と、第２の指向性形成部１３からの信号Ｂ２（ｆ，Ｋ）とに基づいて、コヒーレンス係数ｃｏｒ（ｆ，Ｋ）が計算される。得られたコヒーレンス係数ｃｏｒ（ｆ，Ｋ）は、平均コヒーレンス計算部１５に与えられる。

平均コヒーレンス計算部１５では、各周波数のコヒーレンス係数ｃｏｒ（ｆ，Ｋ）に基づいて雑音の影響の強弱を周波数毎に判定し、雑音の影響の小さい帯域のコヒーレンス係数のみを用いて平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）が算出される。

図５は、実施形態に係る平均コヒーレンス計算部１５における平均コヒーレンス計算処理の動作例を示すフローチャートである。

Ｓ１０１では、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）と、雑音の影響が小さい周波数のコヒーレンス係数の数を示すカウンター値（ＣＯＵＮＴ）とが初期化される。

次に、全ての周波数について周波数毎に雑音の影響の大きさを判定するために、Ｓ１０２〜Ｓ１０６の処理を周波数毎にループさせる。Ｓ１０２では、所定の周波数ビンｆからＳＴＡＲＴし、当該周波数ビンに関する処理が終了すると、周波数ビンｆの値をインクリメント（図４では、「ｆ＋＋」と表記する。）、ＥＮＤまで繰り返し処理を行なう。

Ｓ１０３では、当該周波数のコヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）が算出される。ここで、コヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）の算出方法は、式（５）を利用することができる。

式（５）は、当該周波数のコヒーレンス係数の過去の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ−１）と、現在のコヒーレンス係数ｃｏｒ（ｆ，Ｋ）とを用いて重み付け平均を行なうことにより、長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）を算出する関係式である。

ここで、αは、長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ−１）と、現在のコヒーレンス係数ｃｏｒ（ｆ，Ｋ）とに付与する重みを表す値であり、０＜α＜１の任意の値をとることができる。例えば、αが「０」に近い値とする場合、過去の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ−１）の影響を大きくした長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）を算出することができる。一方、αが「１」に近い値とする場合、現在のフレームのコヒーレンス係数ｃｏｒ（ｆ，Ｋ）の影響を大きくした長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）を算出することができる。なお、αは、固定値であっても良いし、又は変動値であっても良い。さらに、αは、周波数毎に同じ値であっても良いし、又は異なる値であっても良い。

また、式（５）における過去のコヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ−１）は、任意のフレーム長のコヒーレンス係数を用いて算出したものであっても良い。任意のフレーム長は、周波数毎に異なるものであっても良い。

なお、この実施形態では、式（５）を利用してコヒーレンス係数の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）を算出する場合を例示したが、その他の任意の算出方式を用いるようにしても良い。例えば、他の算出方式として算術平均を利用するようにしても良い。算術平均の場合、例えば式（５）においてα＝０．５とすることで、過去の長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ−１）と、現在のコヒーレンス係数ｃｏｒ（ｆ，Ｋ）との影響度を同じにして、現在フレームの長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）を算出できる。

Ｓ１０４では、コヒーレンス係数の値の急激な変動を検出するため、Ｓ１０３で算出した長期平均値ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）と現在フレームのコヒーレンス係数ｃｏｒ（ｆ，Ｋ）との比を取り、その比と閾値Θとを比較する。そして、上記比が閾値Θ以上であれば目的音声の影響が大きいと判定し、処理はＳ１０５に移行する。また、上記比が閾値Θ未満であれば、雑音の影響が大きく、目的音声の影響は小さいと判定し、処理はＳ１０６に移行する。

ｌｏｎｇ＿ｃｏｒ（ｆ，Ｋ）／ｃｏｒ（ｆ，Ｋ）≧Θ …（６）
式（６）において、閾値Θは、任意の値とすることができ、例えば固定値であっても良いし又は可変値であっても良い。さらに、閾値Θは、周波数毎に、同じ値であっても良いし又は異なる値としても良い。

Ｓ１０５において、上記比が閾値Θ以上であり、目的音声の影響が大きいと判定される（すなわち、雑音の影響が小さいと判定される）と、平均コヒーレンスを格納する中間変数値ＡＶＥ＿ＣＯＲ（Ｋ）に、当該周波数帯域のコヒーレンス係数ｃｏｒ（ｆ，Ｋ）を加算すると共に、コヒーレンス数をカウントするカウンター値をインクリメント（図４では「ＣＯＵＮＴ＋＋」と表記する。）する。

Ｓ１０５では、上記比が閾値Θ以上であり、目的音声の影響が大きいと判定した周波数帯域のコヒーレンス係数ｃｏｒ（ｆ，Ｋ）を平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）に加算している。しかし、上記比が閾値Θ未満であり、目的音声の影響が小さいと判定された周波数帯域のコヒーレンス係数は加算せず、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）に寄与させない。以上のＳ１０２〜Ｓ１０６の処理を、全ての周波数について終了するまでループする。

Ｓ１０７では、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）をカウンター値（ＣＯＵＮＴ）で除算することで、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）が算出される。そして、得られた平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）は、目的音声区間判定部１６に与えられる。

Ｓ１０８では、分析フレームであるＫがインクリメントされ（図４では「Ｋ＋＋」と表記する。）、次のフレームについて処理が繰り返し行なわれる。

目的音声区間判定部１６では、平均コヒーレンス計算部１５により算出された平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）と所定の閾値とが比較され、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）が閾値以上であれば目的音声区間と判定し、平均コヒーレンスＡＶＥ＿ＣＯＲ（Ｋ）が閾値未満であれば背景雑音区間と判定する。そして、目的音声区間判定部１６は、目的音声区間であれば、判定結果を格納する変数ｒｅｓに「１」を代入し、背景雑音区間であればｒｅｓに「０」を代入し、判定結果が後段の構成部に与えられる。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、大雑音環境下においても、雑音信号成分の影響が小さい周波数帯域を選択し、当該周波数帯域でのコヒーレンス係数のみを寄与させて平均コヒーレンスを算出することができる。これにより、大雑音下での目的音声区間検出性能を高めることができる。

（Ｂ）他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用することができる。

（Ｂ−１）上述した実施形態では、本発明をテレビ会議システムや携帯電話などの通信装置に適用することで、目的音声区間の検出性能を向上させることができるため、通話音質や音声認識機能の向上が期待できる。

また、上述した実施形態では、走行中の自動車や電車等の車内における大雑音環境下を例示した。しかし、大雑音環境下は、低域に雑音信号成分のパワーが強く影響を及ぼし、周波数が高くなるほど雑音信号成分のパワーが小さくなる傾向にあるという特性を有する環境を意図しており、車内に限らず、屋外にいる装置使用者のすぐそばを自動車や電車等が走行する場所であっても良いし、飛行場やガードレール下などにおいても上述した実施形態と同様の効果を得ることができる。

（Ｂ−２）上述した実施形態では、平均コヒーレンス計算部が、周波数毎のコヒーレンス係数に基づいて雑音信号成分の影響の強弱を判定する場合を例示したが、グラディエント・インデックス（ＧＩ：Gradient Index）を修正したｍｏｄＧＩを用いて判定するようにしても良い。

（Ｂ−３）上述した実施形態では、音声目的音信号単体で全ての処理を実行するものを示したが、目的音声区間の検出処理等を外部のサーバに委ねて実行するようにしても良い。例えば、音声信号処理装置がスマートフォン等の場合において、いわゆるクラウドシステムによってシステムを構成し、音声信号処理装置により取得された入力音信号が外部サーバに送信されて、外部サーバが目的音声区間の検出処理を行なうようにしても良い。特許請求の範囲における「サーバ」は、上記のようなクラウドシステムを構成するサーバを含むものとする。

（Ｂ−４）上述した実施形態では、一対のマイクロホンにより捕捉された入力音信号を直ちに処理する装置やプログラムを示したが、一対のマイクロホンにより捕捉された信号を記録媒体に記録し、それを再生する場合にも本発明を適用できる。

（Ｂ−５）上述した実施形態では、２個のマイクロホンを一対として音声信号処理装置が有する場合を例示したが、音声信号処理装置は３個以上のマイクロホンを有するようにしても良い。音声信号処理装置が３個以上のマイクロホンを有する場合でも、各マイクロホンにより捕捉された入力音信号に基づいて、所定の方位に死角を有する指向性を有する複数の指向性信号を形成することにより、本発明を適用することができる。

１…目的音声区間検出装置、ｍ＿１及びＭ＿２…マイクロホン、１１…ＦＦＴ（高速フーリエ変換）部、１２…第１の指向性形成部、１３…第２の指向性形成部、１４…コヒーレンス係数計算部、１５…平均コヒーレンス計算部、１６…目的音声区間判定部。

Claims

入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
を備えることを特徴とする目的音声区間検出装置。
上記平均コヒーレンス計算手段が、
上記コヒーレンス係数の長期平均値を周波数毎に算出する長期平均値計算部と、
周波数毎に、上記長期平均値と上記コヒーレンス係数との比又は差分値と所定の閾値とを比較して、上記比又は上記差分値が所定の閾値以上の場合に雑音信号成分の影響が弱い周波数帯域と判定し、そうでない場合に雑音信号成分の影響が強い周波数帯域と判定する雑音影響度判定部と、
上記雑音影響度判定部により雑音信号成分の影響が小さいと判定された周波数帯域での上記コヒーレンス係数を加算した加算値を、加算したコヒーレンス係数の数を示す値で除算することで上記平均コヒーレンスを算出する平均コヒーレンス算出部と
を有することを特徴とする請求項１に記載の目的音声区間検出装置。
入力音信号を時間領域から周波数領域に変換する周波数解析手段と、
上記周波数解析手段により得られた周波数領域信号に遅延減算処理を施して、上記第１の指向性信号を形成して上記コヒーレンス係数算出手段に与える第１の指向性形成手段と、
上記周波数解析手段により得られた周波数領域信号に遅延減算処理を施して、上記第２の指向性信号を形成して上記コヒーレンス係数算出手段に与える第２の指向性形成手段と
を備えることを特徴とする請求項１又は２に記載の目的音声区間検出装置。
コヒーレンス係数計算手段が、入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出し、
平均コヒーレンス計算手段が、上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出し、
目的音声判定手段が、上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する
ことを特徴とする目的音声区間検出方法。
コンピュータを、
入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
して機能させることを特徴とする目的音声区間検出プログラム。
少なくとも２個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なう音声信号処理装置において、
入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
を備えることを特徴とする音声信号処理装置。
少なくとも２個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なうサーバにおいて、
入力音信号に基づいてそれぞれ形成された、第１の所定方位に死角を有する第１の指向性信号と第２の所定方位に死角を有する第２の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
を備えることを特徴とするサーバ。