JP2001166789A - 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 - Google Patents
初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置Info
- Publication number
- JP2001166789A JP2001166789A JP35145299A JP35145299A JP2001166789A JP 2001166789 A JP2001166789 A JP 2001166789A JP 35145299 A JP35145299 A JP 35145299A JP 35145299 A JP35145299 A JP 35145299A JP 2001166789 A JP2001166789 A JP 2001166789A
- Authority
- JP
- Japan
- Prior art keywords
- model
- chinese
- speech
- syllable
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 認識精度をより高め、必要とされるメモリを
小さくすることができる初頭/末尾の音素類似度ベクト
ルによる中国語の音声認識装置を提供する。 【解決手段】 中国語の音声認識装置は、音声信号を受
け、フィルター処理されたアナログ信号を作り出す音声
信号フィルターと、音声信号からデジタル音声信号へ変
換するデジタル−アナログ(A/D)変換器と、デジタ
ル信号を受けて処理するためコンピュータと、音声信号
のピッチ周波数の特性を探知し、それによって音声信号
の声調を認識するピッチ周波数探知装置と、音声信号の
音節の終点を探知し、それによって音節の始めと終わり
を定める音声信号プレプロセッサと、初頭部分のPSV
モデルと末尾部分のPSVモデルを訓練し、初頭部分P
SVモデルと末尾部分のPSVモデルの訓練されたパラ
メータに基づく音節モデルを訓練する訓練部分と、を含
む。
小さくすることができる初頭/末尾の音素類似度ベクト
ルによる中国語の音声認識装置を提供する。 【解決手段】 中国語の音声認識装置は、音声信号を受
け、フィルター処理されたアナログ信号を作り出す音声
信号フィルターと、音声信号からデジタル音声信号へ変
換するデジタル−アナログ(A/D)変換器と、デジタ
ル信号を受けて処理するためコンピュータと、音声信号
のピッチ周波数の特性を探知し、それによって音声信号
の声調を認識するピッチ周波数探知装置と、音声信号の
音節の終点を探知し、それによって音節の始めと終わり
を定める音声信号プレプロセッサと、初頭部分のPSV
モデルと末尾部分のPSVモデルを訓練し、初頭部分P
SVモデルと末尾部分のPSVモデルの訓練されたパラ
メータに基づく音節モデルを訓練する訓練部分と、を含
む。
Description
【0001】
【発明の属する技術分野】本発明は、初頭/末尾の音素
類似度ベクトルを使用した中国語の音声認識装置に関す
るものである。特に、本発明は、中国語の初頭/末尾の
音素類似度に基づく中国語の音声認識率のみを改良する
だけではなく、必要とされるメモリを小さくする新しい
方法に関するものである。
類似度ベクトルを使用した中国語の音声認識装置に関す
るものである。特に、本発明は、中国語の初頭/末尾の
音素類似度に基づく中国語の音声認識率のみを改良する
だけではなく、必要とされるメモリを小さくする新しい
方法に関するものである。
【0002】
【従来の技術】20年以上前から、中国語の音声認識技
術の研究開発が、学術分野のみでなく、営利志向型の私
企業においてもよく論議されてきた。容易に理解される
ように、人間の音声は、声道の形及びその時間的推移に
よって発声される。声道の形は、発声器官の形及び大き
さにより、必然的に個人差がある。一方で、声道の時間
的連続パターンにも、発声された語により多少の個人差
がある。すなわち、発声の特徴は、2つの要素に分けら
れるべきである。1つは声道の形であり、もう1つはそ
の時間的パターンである。前者においては、話者によっ
て大きな違いが見られる一方で、後者においては、わず
かな違いしか見られない。したがって、声道の形に基づ
く違いをある程度正規化すると、特定話者の音声は、少
数の話者の発声のみを使用するだけで、認識することが
できる。声道の形が異なると、周波数のスペクトルも異
なる。話者間のスペクトルの違いを正規化する方法の一
つに、入力された声を不特定話者のために作られた音素
テンプレートに合わせ、声の入力を分類する方法があ
る。この方法は、話者間の違いにそれほど依存しない類
似度を提供する。その一方で、声道の時間的パターンに
は、わずかな個人差があるものと考えられている。
術の研究開発が、学術分野のみでなく、営利志向型の私
企業においてもよく論議されてきた。容易に理解される
ように、人間の音声は、声道の形及びその時間的推移に
よって発声される。声道の形は、発声器官の形及び大き
さにより、必然的に個人差がある。一方で、声道の時間
的連続パターンにも、発声された語により多少の個人差
がある。すなわち、発声の特徴は、2つの要素に分けら
れるべきである。1つは声道の形であり、もう1つはそ
の時間的パターンである。前者においては、話者によっ
て大きな違いが見られる一方で、後者においては、わず
かな違いしか見られない。したがって、声道の形に基づ
く違いをある程度正規化すると、特定話者の音声は、少
数の話者の発声のみを使用するだけで、認識することが
できる。声道の形が異なると、周波数のスペクトルも異
なる。話者間のスペクトルの違いを正規化する方法の一
つに、入力された声を不特定話者のために作られた音素
テンプレートに合わせ、声の入力を分類する方法があ
る。この方法は、話者間の違いにそれほど依存しない類
似度を提供する。その一方で、声道の時間的パターンに
は、わずかな個人差があるものと考えられている。
【0003】実際、音声を作り出すメカニズムを理解す
るための動機付けは、話すことが人間のコミュニケーシ
ョンにおける第一の手段であるという事実にある。研究
されている分野として、真声帯振動の非線形性、声道調
音器官の動態、言語学的規則の知識、声門音源と声道の
組み合わせの聴覚的影響などがある。基本的な音声分析
の更なる追求によって、音声の統合、符号化、認識に関
する、新たなより現実的な手段が提供された。歴史的な
過程の中で、音声をモデル化するための最初の全電気ネ
ットワークの1つは、ジェイ.キュウ.スチュワート
(J.Q.Stewart)(1922)によって開発
された。音声処理過程に関する古来の方法から最新の開
発に至るまで、声道調音器官の位置及び動き、その時間
的波形の特性の変化、フォーマットロケーション(forma
t location)や帯域幅などの周波数域特性(frequency do
main properties)といった点で、音声について知ってい
る。即時に変化するための音声を作り出すシステムが不
能であるのは、各音声を作り出すために調音器官の限定
された動きが必要とされるためである。聞くためだけに
発達してきた聴覚システムと違って、音声を作り出すの
に使われる器官は、呼吸、飲食、嗅臭などの他の機能と
共有される。人間のコミュニケーションの目的で、話者
によって出される聴覚的信号のみを考えることにする。
実際、人間のコミュニケーションと電子のコミュニケー
ションの間には、多くのものが平行している。人間の音
声を作り出す器官及び聴覚システムには限界があるた
め、一般の人間の音声によるコミュニケーションは、帯
域幅は7〜8kHzに制限される。
るための動機付けは、話すことが人間のコミュニケーシ
ョンにおける第一の手段であるという事実にある。研究
されている分野として、真声帯振動の非線形性、声道調
音器官の動態、言語学的規則の知識、声門音源と声道の
組み合わせの聴覚的影響などがある。基本的な音声分析
の更なる追求によって、音声の統合、符号化、認識に関
する、新たなより現実的な手段が提供された。歴史的な
過程の中で、音声をモデル化するための最初の全電気ネ
ットワークの1つは、ジェイ.キュウ.スチュワート
(J.Q.Stewart)(1922)によって開発
された。音声処理過程に関する古来の方法から最新の開
発に至るまで、声道調音器官の位置及び動き、その時間
的波形の特性の変化、フォーマットロケーション(forma
t location)や帯域幅などの周波数域特性(frequency do
main properties)といった点で、音声について知ってい
る。即時に変化するための音声を作り出すシステムが不
能であるのは、各音声を作り出すために調音器官の限定
された動きが必要とされるためである。聞くためだけに
発達してきた聴覚システムと違って、音声を作り出すの
に使われる器官は、呼吸、飲食、嗅臭などの他の機能と
共有される。人間のコミュニケーションの目的で、話者
によって出される聴覚的信号のみを考えることにする。
実際、人間のコミュニケーションと電子のコミュニケー
ションの間には、多くのものが平行している。人間の音
声を作り出す器官及び聴覚システムには限界があるた
め、一般の人間の音声によるコミュニケーションは、帯
域幅は7〜8kHzに制限される。
【0004】計算及び理解のための声道の研究におい
て、物理的音声信号と生理的メカニズム(例、人間の声
道メカニズム)は音声を作り出すことと、音声を認知す
る(例、人間の聴覚メカニズム)ことは、「音響学」と
呼ばれ得る。最新のアプローチは、人間の話すためおよ
び聞くための物理的システムを評価し、デジタル化の際
には、これらの人間のコミュニケーションの信号は、聴
覚的特徴の摘出などのパラメータとされる。人間の音響
的特徴は、個人個人異なる。すなわち、一人一人が各々
の音響的特徴を持っているということなのである。
て、物理的音声信号と生理的メカニズム(例、人間の声
道メカニズム)は音声を作り出すことと、音声を認知す
る(例、人間の聴覚メカニズム)ことは、「音響学」と
呼ばれ得る。最新のアプローチは、人間の話すためおよ
び聞くための物理的システムを評価し、デジタル化の際
には、これらの人間のコミュニケーションの信号は、聴
覚的特徴の摘出などのパラメータとされる。人間の音響
的特徴は、個人個人異なる。すなわち、一人一人が各々
の音響的特徴を持っているということなのである。
【0005】一般に、不特定話者音声認識の標準パター
ンは、統計的に処理された話者の音声データによって作
られる。いくつかのマッチング方法を紹介すると、例え
ば、台湾特許第303452号などのニューラルネット
モデルを適用する方法及び統計的距離測定を使用する方
法、、及び台湾特許第283774号及び同26903
6号などの隠れマルコフモデル(HMM)がある。特
に、連続混合ガウス密度モデルを使用したHMMの成功
がいくつも報告されている。これらの方法を使って、特
徴パラメータとしてスペクトルパラメータが音声認識に
使用され、一般に多くの話者が訓練のために必要であ
る。また、認識率を上げるためには、非常に大きなメモ
リを要する。不特定話者音声認識の標準パターンが、少
人数の話者から作り出せるのであれば、計算量は、通常
よりもかなり小さくなるであろう。したがって、労力及
び計算量は節約され、音声認識技術は、様々なアプリケ
ーションで容易に扱われ得る。上述の目的のために、特
徴パラメータとして類似度ベクトルを使用した中国語の
音声認識装置の発明を提案した。この方法においては、
少人数の話者により訓練されたワードテンプレートによ
って、不特定話者認識において、高い認識率を生み出し
た。実際の適用における音声認識技術を認知するため
に、音声認識装置は、騒々しい環境に対して強く、背景
の騒音及び意図されない発声の中から意図された語を見
分けなければならない。更に、音声認識装置は、持ち運
び可能な装置においても高性能を維持しなければならな
い。これらの理由から、本発明は、中国語の音声認識シ
ステムに組み込むことができる持ち運び可能な装置のた
めの、小型のプログラミングコード及び高精度に焦点を
絞ったのである。
ンは、統計的に処理された話者の音声データによって作
られる。いくつかのマッチング方法を紹介すると、例え
ば、台湾特許第303452号などのニューラルネット
モデルを適用する方法及び統計的距離測定を使用する方
法、、及び台湾特許第283774号及び同26903
6号などの隠れマルコフモデル(HMM)がある。特
に、連続混合ガウス密度モデルを使用したHMMの成功
がいくつも報告されている。これらの方法を使って、特
徴パラメータとしてスペクトルパラメータが音声認識に
使用され、一般に多くの話者が訓練のために必要であ
る。また、認識率を上げるためには、非常に大きなメモ
リを要する。不特定話者音声認識の標準パターンが、少
人数の話者から作り出せるのであれば、計算量は、通常
よりもかなり小さくなるであろう。したがって、労力及
び計算量は節約され、音声認識技術は、様々なアプリケ
ーションで容易に扱われ得る。上述の目的のために、特
徴パラメータとして類似度ベクトルを使用した中国語の
音声認識装置の発明を提案した。この方法においては、
少人数の話者により訓練されたワードテンプレートによ
って、不特定話者認識において、高い認識率を生み出し
た。実際の適用における音声認識技術を認知するため
に、音声認識装置は、騒々しい環境に対して強く、背景
の騒音及び意図されない発声の中から意図された語を見
分けなければならない。更に、音声認識装置は、持ち運
び可能な装置においても高性能を維持しなければならな
い。これらの理由から、本発明は、中国語の音声認識シ
ステムに組み込むことができる持ち運び可能な装置のた
めの、小型のプログラミングコード及び高精度に焦点を
絞ったのである。
【0006】多くのアルゴリズム及び方法論が英語の音
声認識に適用されてきたが、中国語の音声表現には、西
洋の言語とは非常に異なる決定的な特性がある。その違
いは、例えば、中国語の漢字の各々が有する声調情報及
び単音節の音声パターンとして知られている。中国語の
音声の特徴は、中国語の話し言葉は、1つの漢字には1
つの子音あるいは鼻音が語頭にあり、1つの母音が語尾
にある2音節言語である。先頭の子音は初頭音と呼ば
れ、末尾の母音は末尾音と呼ばれる。初頭音は持続時間
が短く、末尾音の影響を受ける一方で、末尾音はその前
に経過部分(transient part)を有する。例としては、
声認識に適用されてきたが、中国語の音声表現には、西
洋の言語とは非常に異なる決定的な特性がある。その違
いは、例えば、中国語の漢字の各々が有する声調情報及
び単音節の音声パターンとして知られている。中国語の
音声の特徴は、中国語の話し言葉は、1つの漢字には1
つの子音あるいは鼻音が語頭にあり、1つの母音が語尾
にある2音節言語である。先頭の子音は初頭音と呼ば
れ、末尾の母音は末尾音と呼ばれる。初頭音は持続時間
が短く、末尾音の影響を受ける一方で、末尾音はその前
に経過部分(transient part)を有する。例としては、
【外1】 あるいは
【外2】 のような中国語の漢字などがある。末尾音の中間部は変
化せず、末尾音のグループの全体に対しても同じであ
る。それぞれの末尾音の尾部部分は、尾部の子音が有声
か無声かによって特性づけられる。中国語は、全部で2
1の初頭音及び1つの零初頭音(null Initial)を有し、
中間経過及び零末尾音(null Final)を含む36の末尾音
を有する。五声(five tone)を考慮しないなら、中国語
には409の音節のセットがある。声調と音素を組み合
わせると、中国語には全部で1345の異なる音節があ
る。中国語の話し言葉のもう1つの特徴は、異なる声調
と同じ音素によって異なる漢字を表す、同音同綴異義語
の性質である。
化せず、末尾音のグループの全体に対しても同じであ
る。それぞれの末尾音の尾部部分は、尾部の子音が有声
か無声かによって特性づけられる。中国語は、全部で2
1の初頭音及び1つの零初頭音(null Initial)を有し、
中間経過及び零末尾音(null Final)を含む36の末尾音
を有する。五声(five tone)を考慮しないなら、中国語
には409の音節のセットがある。声調と音素を組み合
わせると、中国語には全部で1345の異なる音節があ
る。中国語の話し言葉のもう1つの特徴は、異なる声調
と同じ音素によって異なる漢字を表す、同音同綴異義語
の性質である。
【0007】中国語の話し言葉について、高精度の認識
率を獲得するために、有効で決定的な確固たるやり方
は、中国語の音声信号から関連情報を引き出す処理を行
うのが重要な技術である。中国語の音声認識には、音素
信号の時間的多様性を特徴づけるために使用されるスペ
クトル分析(spectral analysis)を含む多くのアプロー
チの他に、音素信号を録音環境に強くするための様々な
タイプの信号の前処理及び後処理などがある。これらは
一般に、デジタルシグナルプロセス(DSP)の技術、
及びDFT(あるいはFFT),FIR,z−変換,L
PC,ニューラルネットワーク及び隠れマルコフモデル
などの、多くの数学的モデル及び数学式に結びついてい
る。このような多くの種類の数学的モデルが中国語の音
声認識に適用されてきたが、これらの方法はまだ、少数
の話者により訓練されたデータベース以上に認識精度を
上げることができないようである。
率を獲得するために、有効で決定的な確固たるやり方
は、中国語の音声信号から関連情報を引き出す処理を行
うのが重要な技術である。中国語の音声認識には、音素
信号の時間的多様性を特徴づけるために使用されるスペ
クトル分析(spectral analysis)を含む多くのアプロー
チの他に、音素信号を録音環境に強くするための様々な
タイプの信号の前処理及び後処理などがある。これらは
一般に、デジタルシグナルプロセス(DSP)の技術、
及びDFT(あるいはFFT),FIR,z−変換,L
PC,ニューラルネットワーク及び隠れマルコフモデル
などの、多くの数学的モデル及び数学式に結びついてい
る。このような多くの種類の数学的モデルが中国語の音
声認識に適用されてきたが、これらの方法はまだ、少数
の話者により訓練されたデータベース以上に認識精度を
上げることができないようである。
【0008】中国語の音声認識の基本的な従来の初頭音
−末尾音の構成に基づくアプローチにおいては、中国語
の話し言葉の初頭音−末尾音の特性を利用する。この従
来のアプローチは、この方法を使って、入力された音節
を初頭音−末尾音の連鎖としてモデル化する。しかし、
このアプローチを使うことは、入力された音節が明らか
に2つの部分に分割されることを意味してはいない。こ
のような初頭音−末尾音の構成モデルを使って、音節の
全組み合わせが、初頭音及び末尾音を識別することによ
り認識されなければならない。初頭音−末尾音の特性を
採用するシステムに関しては、初頭音と末尾音を認識す
ることは核心的な部分である。初期の段階においては、
台湾特許第273615号、同第278174号、同第
219993号で開示される、何人かの発明者は、初頭
音及び末尾音の別々の認識における方法論を提案した。
音節は、まず2つの部分に分割され、別々に認識され
る。すなわち、初頭音は、最初に音節から分割されさ
れ、ゼロクロッシング率(zero-crossing rate)、平均エ
ネルギー、音節持続時間のような特徴を抽出すること
で、有声及び無声に分類される。次に、これらの特徴ベ
クトルを使って特徴符号帳(feature coodbook)が作成さ
れ得る。有限状態ベクトルの量子化によって認識され得
る。これら従来のシステムにおいては、末尾音は事前に
知られている。したがって、認識された末尾音のグルー
プ内で子音は分類され得る。この従来のアプローチの認
識精度は、実験の結果から93%にとどまる(第273
615号)。一方、これらのアプローチは、大勢の話者
からその処理のために、大量の音声コーパスを作り上げ
なければならない。
−末尾音の構成に基づくアプローチにおいては、中国語
の話し言葉の初頭音−末尾音の特性を利用する。この従
来のアプローチは、この方法を使って、入力された音節
を初頭音−末尾音の連鎖としてモデル化する。しかし、
このアプローチを使うことは、入力された音節が明らか
に2つの部分に分割されることを意味してはいない。こ
のような初頭音−末尾音の構成モデルを使って、音節の
全組み合わせが、初頭音及び末尾音を識別することによ
り認識されなければならない。初頭音−末尾音の特性を
採用するシステムに関しては、初頭音と末尾音を認識す
ることは核心的な部分である。初期の段階においては、
台湾特許第273615号、同第278174号、同第
219993号で開示される、何人かの発明者は、初頭
音及び末尾音の別々の認識における方法論を提案した。
音節は、まず2つの部分に分割され、別々に認識され
る。すなわち、初頭音は、最初に音節から分割されさ
れ、ゼロクロッシング率(zero-crossing rate)、平均エ
ネルギー、音節持続時間のような特徴を抽出すること
で、有声及び無声に分類される。次に、これらの特徴ベ
クトルを使って特徴符号帳(feature coodbook)が作成さ
れ得る。有限状態ベクトルの量子化によって認識され得
る。これら従来のシステムにおいては、末尾音は事前に
知られている。したがって、認識された末尾音のグルー
プ内で子音は分類され得る。この従来のアプローチの認
識精度は、実験の結果から93%にとどまる(第273
615号)。一方、これらのアプローチは、大勢の話者
からその処理のために、大量の音声コーパスを作り上げ
なければならない。
【0009】したがって、本発明によって、認識率を上
げるのみでなく、中国語の音声認識システム装置を改善
し、プログラムコードのサイズを縮小することも提案す
る。本発明は、類似度ベクトルを特徴パラメータとして
使用し、不特定話者(speaker-independent)の中国語の
高精度な音声認識システムを開発するためになされたも
のである。騒々しい環境における台湾の106の都市名
についての認識率の実験結果は、97.5%であった。
本発明の中国語の音声認識における精度は、従来の方法
(例、中国特許第273615号、同第278174
号)よりもかなり高い。 本発明により、他のいかなる
従来の方法よりも、4.5%高い数値を獲得したのであ
る。
げるのみでなく、中国語の音声認識システム装置を改善
し、プログラムコードのサイズを縮小することも提案す
る。本発明は、類似度ベクトルを特徴パラメータとして
使用し、不特定話者(speaker-independent)の中国語の
高精度な音声認識システムを開発するためになされたも
のである。騒々しい環境における台湾の106の都市名
についての認識率の実験結果は、97.5%であった。
本発明の中国語の音声認識における精度は、従来の方法
(例、中国特許第273615号、同第278174
号)よりもかなり高い。 本発明により、他のいかなる
従来の方法よりも、4.5%高い数値を獲得したのであ
る。
【0010】
【発明が解決しようとする課題】本発明の目的は、認識
精度をより高め、必要とされるメモリを小さくすること
であり、これは中国語の音声認識システムの単一DSP
(デジタルシグナルプロセス)チップに組み込まれるこ
とが可能である。
精度をより高め、必要とされるメモリを小さくすること
であり、これは中国語の音声認識システムの単一DSP
(デジタルシグナルプロセス)チップに組み込まれるこ
とが可能である。
【0011】本発明の目的は、初頭/末尾の音素類似度
ベクトルによる中国語の音声認識装置に関する従来技術
の欠点と問題を克服する装置を提供することである。
ベクトルによる中国語の音声認識装置に関する従来技術
の欠点と問題を克服する装置を提供することである。
【0012】
【課題を解決するための手段】本発明に係る中国語の音
声認識装置は、音声信号を受け、フィルター処理された
アナログ信号を作り出す音声信号フィルターと、音声信
号からデジタル音声信号に変換するアナログ−デジタル
(A/D)変換器と、前記デジタル信号を受けて処理す
るための、A/D変換器に接続されるコンピュータと、
前記音声信号のピッチ周波数の特性を探知し、それによ
って前記音声信号の声調を認識する、コンピュータに接
続されるピッチ周波数探知装置と、音声信号の音節の終
点を探知し、それによって音節の始めと終わりを決定す
る、コンピュータに接続される音声信号プレプロセッサ
と、初頭部分のPSVモデルと末尾部分のPSVモデル
を訓練し、前記初頭部分PSVモデルと前記末尾部分の
PSVモデルの訓練されたパラメータに基づく音節モデ
ルを訓練する、コンピュータに接続される訓練部分と、
を含む。
声認識装置は、音声信号を受け、フィルター処理された
アナログ信号を作り出す音声信号フィルターと、音声信
号からデジタル音声信号に変換するアナログ−デジタル
(A/D)変換器と、前記デジタル信号を受けて処理す
るための、A/D変換器に接続されるコンピュータと、
前記音声信号のピッチ周波数の特性を探知し、それによ
って前記音声信号の声調を認識する、コンピュータに接
続されるピッチ周波数探知装置と、音声信号の音節の終
点を探知し、それによって音節の始めと終わりを決定す
る、コンピュータに接続される音声信号プレプロセッサ
と、初頭部分のPSVモデルと末尾部分のPSVモデル
を訓練し、前記初頭部分PSVモデルと前記末尾部分の
PSVモデルの訓練されたパラメータに基づく音節モデ
ルを訓練する、コンピュータに接続される訓練部分と、
を含む。
【0013】
【発明の実施の形態】本発明は、少人数の話者により訓
練した、中国語の音素を認識するためのシステム及び方
法で、従来技術の不足及び制限を克服するものである。
本発明の音声認識装置には、入力部20、音響分析部3
0、類似度計算部40、認識部50、出力部60を含
む、5つの部分がある。本発明は、中国語の語の音声情
報を識別するために、音節内の初頭音及び末尾音を決定
する際、サイズ集約型装置において有利に実行される。
図1には、中国語の音声認識のための本発明の構造が図
解されている。本装置においては、入力部20は、人間
の音声信号の入力を扱う。図2には、入力部20の基本
ブロック図が示されている。人間の音声はアナログ信号
の一種であるので、コンピュータで更に計算するため
に、マイクを通した信号の入力はデジタル信号に変換さ
れなければならない。一般に、人間の音声の周波数は、
125Hz〜3.5KHzの範囲にあるので、実際の人
間の音声信号を得て、実際の環境からの余分な雑音をフ
ィルターで取り除くために、低域フィルターをA/D変
換器の前に取り付けなければならない。
練した、中国語の音素を認識するためのシステム及び方
法で、従来技術の不足及び制限を克服するものである。
本発明の音声認識装置には、入力部20、音響分析部3
0、類似度計算部40、認識部50、出力部60を含
む、5つの部分がある。本発明は、中国語の語の音声情
報を識別するために、音節内の初頭音及び末尾音を決定
する際、サイズ集約型装置において有利に実行される。
図1には、中国語の音声認識のための本発明の構造が図
解されている。本装置においては、入力部20は、人間
の音声信号の入力を扱う。図2には、入力部20の基本
ブロック図が示されている。人間の音声はアナログ信号
の一種であるので、コンピュータで更に計算するため
に、マイクを通した信号の入力はデジタル信号に変換さ
れなければならない。一般に、人間の音声の周波数は、
125Hz〜3.5KHzの範囲にあるので、実際の人
間の音声信号を得て、実際の環境からの余分な雑音をフ
ィルターで取り除くために、低域フィルターをA/D変
換器の前に取り付けなければならない。
【0014】図3には、音響分析部30の基本ブロック
図が示されている。この音響分析部30には、帯域フィ
ルター、特徴パラメータの抽出、LPC分析モデルを含
む3つの特別処理ブロックがある。
図が示されている。この音響分析部30には、帯域フィ
ルター、特徴パラメータの抽出、LPC分析モデルを含
む3つの特別処理ブロックがある。
【0015】音響分析部30が計算した後、図4では、
ブロック図が類似度計算部40を図解している。
ブロック図が類似度計算部40を図解している。
【0016】本装置は、ユーザーが音声信号を作り出
し、与えられたタスクを完了することから始まる。第2
段階では、口頭の出力が最初に認識され、音声信号は、
音素テンプレートに従い意味を持った一連の音素に複号
化される。音響分析部は音声入力を分析し、LPC(線
形予測符号化)ケプストラム係数及びデルタパワー(del
ta power)を抽出する。抽出されたパラメータは、多く
の種類の音素テンプレートと合わせられ、静的音素の類
似度及び音素の類似度の一次(first order)回帰係数は
類似度計算部で計算される。その後、次元類似度係数ベ
クトル及び回帰係数ベクトルを定義するためのこれらの
音素テンプレートの時間的連続が得られる。類似度計算
部においては、マハラノビス(mahalanobis)距離アルゴ
リズムが距離測定のために使われ、ここでは全音素の共
分散マトリックスは同一と見なされる。認識された語の
意味は、後処理装置によって得られる。後処理装置は、
動的計画法を使って、入力された音を、本来の音および
音素類似度計算によって以前に認識された音に一致させ
る。したがって、後処理は以前の音素結果にしたがって
決定し、それにより全認識モデルの複雑さを緩和する。
最終的に、認識システムは声の出力という形でユーザー
に応答するか、あるいは実行された所望の作用(action)
という形でユーザーに応答する。その際、ユーザーはさ
らに入力することが期待されている。
し、与えられたタスクを完了することから始まる。第2
段階では、口頭の出力が最初に認識され、音声信号は、
音素テンプレートに従い意味を持った一連の音素に複号
化される。音響分析部は音声入力を分析し、LPC(線
形予測符号化)ケプストラム係数及びデルタパワー(del
ta power)を抽出する。抽出されたパラメータは、多く
の種類の音素テンプレートと合わせられ、静的音素の類
似度及び音素の類似度の一次(first order)回帰係数は
類似度計算部で計算される。その後、次元類似度係数ベ
クトル及び回帰係数ベクトルを定義するためのこれらの
音素テンプレートの時間的連続が得られる。類似度計算
部においては、マハラノビス(mahalanobis)距離アルゴ
リズムが距離測定のために使われ、ここでは全音素の共
分散マトリックスは同一と見なされる。認識された語の
意味は、後処理装置によって得られる。後処理装置は、
動的計画法を使って、入力された音を、本来の音および
音素類似度計算によって以前に認識された音に一致させ
る。したがって、後処理は以前の音素結果にしたがって
決定し、それにより全認識モデルの複雑さを緩和する。
最終的に、認識システムは声の出力という形でユーザー
に応答するか、あるいは実行された所望の作用(action)
という形でユーザーに応答する。その際、ユーザーはさ
らに入力することが期待されている。
【0017】以下に、本装置の詳細な処理過程を、各過
程の明示だけでなくアルゴリズムの解説においても詳述
していく。図5は、アナログ信号からデジタル信号への
変換がどのようになされるのか、その処理過程を図解し
ている。現存するほとんどの信号はアナログであって、
アナログからデジタルへの変換処理を必要とし、以下の
ステップを含む。 1) アナログ入力信号。この信号は時
間及び振幅の双方において連続である。2) サンプル信
号。この信号は振幅においては連続であるが、時間的に
は不連続である。3) デジタル信号x(n) (n=0, 1, . .
. )。この信号は時間的には不連続であり、各時間的な
点においては2Bの内の1つの値のみを有する。図6に
は、A/D変換器の電子回路が示されている。
程の明示だけでなくアルゴリズムの解説においても詳述
していく。図5は、アナログ信号からデジタル信号への
変換がどのようになされるのか、その処理過程を図解し
ている。現存するほとんどの信号はアナログであって、
アナログからデジタルへの変換処理を必要とし、以下の
ステップを含む。 1) アナログ入力信号。この信号は時
間及び振幅の双方において連続である。2) サンプル信
号。この信号は振幅においては連続であるが、時間的に
は不連続である。3) デジタル信号x(n) (n=0, 1, . .
. )。この信号は時間的には不連続であり、各時間的な
点においては2Bの内の1つの値のみを有する。図6に
は、A/D変換器の電子回路が示されている。
【0018】図7は、音響分析部の帯域フィルターの詳
細な処理ステップを図解している。サンプル音声信号s
(n)は、Q帯域フィルターのバンクを通り、
細な処理ステップを図解している。サンプル音声信号s
(n)は、Q帯域フィルターのバンクを通り、
【数1】 の信号を出す。式中、i番目の帯域フィルターのインパ
ルス応答は、Miサンプルの継続時間を有するhi(m)
であると仮定した。一方で、i番目の帯域フィルターの
出力は、周波数wiにおいては純粋なシヌソイドである
と仮定した。すなわち、Si=αisin(win)であ
る。全波整流器を非線形的に使うなら、すなわち、
ルス応答は、Miサンプルの継続時間を有するhi(m)
であると仮定した。一方で、i番目の帯域フィルターの
出力は、周波数wiにおいては純粋なシヌソイドである
と仮定した。すなわち、Si=αisin(win)であ
る。全波整流器を非線形的に使うなら、すなわち、
【数2】 であり、非線形出力を
【数3】 として示すことができる。ここにおいて、もしS
i(n)≧0なら、W(n)=+1であり、もしS
i(n)<0なら、W(n)=−1である。
i(n)≧0なら、W(n)=+1であり、もしS
i(n)<0なら、W(n)=−1である。
【0019】非線形処理の後、低域フィルターの役割
は、より高い周波数をフィルターを通して取り除くこと
である。低域信号のスペクトルは純粋なDCインパルス
ではないが、この信号の情報は代わりにほぼDCである
低周波帯に含まれる。したがって、最終低域フィルター
の重要な役割は、望ましくないスペクトルピーク(spect
ral peaks)を排除することである。サンプルレートの減
少ステップにおいては、低域フィルター処理された信号
ti(n)は、約40〜60Hzのレートで、再サンプ
ルされる。そして信号のダイナミックレンジは、振幅圧
縮方法(amplitudecompression scheme)を使って、圧縮
される。分析装置の出力においては、仮に50Hzのサ
ンプルレート及び7ビットの対数振幅圧縮装置を使う場
合、16(チャネル)×50(サンプル/(秒×チャネ
ル))×7(ビット/サンプル)、すなわち5600ビ
ット/秒の情報レートを得る。したがって、この簡単な
例より、40対1(40-to-1)のビットレート削減を達成
した。
は、より高い周波数をフィルターを通して取り除くこと
である。低域信号のスペクトルは純粋なDCインパルス
ではないが、この信号の情報は代わりにほぼDCである
低周波帯に含まれる。したがって、最終低域フィルター
の重要な役割は、望ましくないスペクトルピーク(spect
ral peaks)を排除することである。サンプルレートの減
少ステップにおいては、低域フィルター処理された信号
ti(n)は、約40〜60Hzのレートで、再サンプ
ルされる。そして信号のダイナミックレンジは、振幅圧
縮方法(amplitudecompression scheme)を使って、圧縮
される。分析装置の出力においては、仮に50Hzのサ
ンプルレート及び7ビットの対数振幅圧縮装置を使う場
合、16(チャネル)×50(サンプル/(秒×チャネ
ル))×7(ビット/サンプル)、すなわち5600ビ
ット/秒の情報レートを得る。したがって、この簡単な
例より、40対1(40-to-1)のビットレート削減を達成
した。
【0020】音響分析部のLPC分析モデルは図8に図
解されている。LPCの方法は長年多くの認識装置で使
われてきている。特に、LPCモデルの基本的な考え
は、プリエンファシスボックス内で時間nで与えられた
音素サンプルS(in)は、過去のp音声サンプルの一
次結合として近似される。すなわち、
解されている。LPCの方法は長年多くの認識装置で使
われてきている。特に、LPCモデルの基本的な考え
は、プリエンファシスボックス内で時間nで与えられた
音素サンプルS(in)は、過去のp音声サンプルの一
次結合として近似される。すなわち、
【数4】 式中、係数a1,a2,...,apは、音素分析フレームで
は連続していると仮定される。本装置では、値a1,
a2,...,apを0.95と定義する。フレームブロッ
キング(Frame Blocking)のステップでは、プリエンファ
シスされた音声信号S’(n)は、隣接するフレームが
Mサンプルによって分けられ、Nサンプルのフレーム内
にブロックされる。l番目のフレームの音声をx
l(n)によって示し、音声信号全体の中にLフレーム
あると仮定する。すなわち、
は連続していると仮定される。本装置では、値a1,
a2,...,apを0.95と定義する。フレームブロッ
キング(Frame Blocking)のステップでは、プリエンファ
シスされた音声信号S’(n)は、隣接するフレームが
Mサンプルによって分けられ、Nサンプルのフレーム内
にブロックされる。l番目のフレームの音声をx
l(n)によって示し、音声信号全体の中にLフレーム
あると仮定する。すなわち、
【数5】
【0021】本装置では、N及びMの値は300及び1
00であり、これは音声のサンプリングレート8kHz
に対応する。その後、この処理の次のステップは、各フ
レームをウィンドー処理(window)し、各フレームの始め
と終わりでの信号の不連続性を最小にする。本システム
では、ウィンドーはw(n)、0≦n≦N−1として定義さ
れ、ウィンドー処理の結果は信号
00であり、これは音声のサンプリングレート8kHz
に対応する。その後、この処理の次のステップは、各フ
レームをウィンドー処理(window)し、各フレームの始め
と終わりでの信号の不連続性を最小にする。本システム
では、ウィンドーはw(n)、0≦n≦N−1として定義さ
れ、ウィンドー処理の結果は信号
【数6】 である。LPCの自己相関方法に使われる本装置のウィ
ンドーは、ハミングウィンドー(Hamming window)であ
り、これは式
ンドーは、ハミングウィンドー(Hamming window)であ
り、これは式
【数7】 を有する。
【0022】以下に、自己相関分析の処理が行われる。
ウィンドー処理された信号の各フレームは、次の自己相
関であり、
ウィンドー処理された信号の各フレームは、次の自己相
関であり、
【数8】 を与える。式中、最高自己相関値pは、LPC分析のオ
ーダーである。次の処理段階はLPC分析で、p+1自
己相関の各フレームを「LPCパラメータセット」に変
換する。ここではそのセットがLPC係数、反射係数、
ログエリア比(ratio)係数、ケプストラム係数である可
能性がある。本システムでは、ダービン(Durbin)の方法
を使い、以下のようなアルゴリズムが形式的に与えられ
る。
ーダーである。次の処理段階はLPC分析で、p+1自
己相関の各フレームを「LPCパラメータセット」に変
換する。ここではそのセットがLPC係数、反射係数、
ログエリア比(ratio)係数、ケプストラム係数である可
能性がある。本システムでは、ダービン(Durbin)の方法
を使い、以下のようなアルゴリズムが形式的に与えられ
る。
【数9】 上記の一連の方程式は、i=1,2,...,pについて、
再帰的に計算され、最終的な解は、
再帰的に計算され、最終的な解は、
【数10】 となる。
【0023】LPC分析係数が出された後、LPCパラ
メータからケプストラム係数への変換処理がなされる。
この重要なLPCパラメータのセットは、LPC係数の
セットから直接引き出され、LPCケプストラム係数c
(m)である。使われる漸化式(recursion)は、
メータからケプストラム係数への変換処理がなされる。
この重要なLPCパラメータのセットは、LPC係数の
セットから直接引き出され、LPCケプストラム係数c
(m)である。使われる漸化式(recursion)は、
【数11】 式中、δ2はLPCモデルにおけるゲイン項(gain term)
である。上記の式までに、LPCケプストラム係数及び
デルタパワーからなる入力ベクトルCを多くのフレーム
において得たのである。
である。上記の式までに、LPCケプストラム係数及び
デルタパワーからなる入力ベクトルCを多くのフレーム
において得たのである。
【0024】図9は、本装置の類似度計算部の詳細な処
理ステップ及びアルゴリズムを図解している。この類似
度計算部では、全音素の共分散マトリックスが同一であ
ると仮定され、距離測定に簡略化されたマハラノビス距
離を使う。入力ベクトルcはLPCケプストラム係数、
10フレームにおけるデルタパワーからなる。図9のス
テップs505において示されているように、入力ベク
トルcは、
理ステップ及びアルゴリズムを図解している。この類似
度計算部では、全音素の共分散マトリックスが同一であ
ると仮定され、距離測定に簡略化されたマハラノビス距
離を使う。入力ベクトルcはLPCケプストラム係数、
10フレームにおけるデルタパワーからなる。図9のス
テップs505において示されているように、入力ベク
トルcは、
【数12】 で示される。式中、ci kは、k番目のフレームのi番目
のLPCケプストラム係数を示し、νkはk番目のフレ
ームのデルタパワーを示す。
のLPCケプストラム係数を示し、νkはk番目のフレ
ームのデルタパワーを示す。
【0025】入力ベクトルcと音素テンプレート(音素
p)の間の音素類似度は以下のように計算される。
p)の間の音素類似度は以下のように計算される。
【数13】 式中、μpは音素pの平均ベクトルで、Σは、図9のス
テップs510において示されている共分散マトリック
スである。
テップs510において示されている共分散マトリック
スである。
【0026】静的音素類似度を獲得した後、音素類似度
の回帰係数が、50μs以上の静的音素類似度を使って
計算される。ワードテンプレートは、数人の話者の音声
により訓練されるCV及びVCなどのサブワード(sub-w
ord)のユニットをつなぎ合わせることによって作られ
る。特に、類似度計算部では、中国語の初頭音及び末尾
音のフィールドからなる音素テンプレートが含まれる。
初頭音及び末尾音の双方を有する中国語の音節に関して
は、初頭音フィールドは初頭音の原文表記(textual rep
resentation)を格納し、末尾音フィールドは末尾音の原
文表記を格納する。 そこには409種類のサブワード
ユニットがある。基本的な中国語の音声記号は、図1
1、図12、図13、図14に示されている。したがっ
て、類似度パラメータはs(i, j)の計算から得ることが
できる。これは、部分的な類似度を計算するスコア関数
(score function)である。
の回帰係数が、50μs以上の静的音素類似度を使って
計算される。ワードテンプレートは、数人の話者の音声
により訓練されるCV及びVCなどのサブワード(sub-w
ord)のユニットをつなぎ合わせることによって作られ
る。特に、類似度計算部では、中国語の初頭音及び末尾
音のフィールドからなる音素テンプレートが含まれる。
初頭音及び末尾音の双方を有する中国語の音節に関して
は、初頭音フィールドは初頭音の原文表記(textual rep
resentation)を格納し、末尾音フィールドは末尾音の原
文表記を格納する。 そこには409種類のサブワード
ユニットがある。基本的な中国語の音声記号は、図1
1、図12、図13、図14に示されている。したがっ
て、類似度パラメータはs(i, j)の計算から得ることが
できる。これは、部分的な類似度を計算するスコア関数
(score function)である。
【数14】 式中、diは入力のi番目のフレームの類似度ベクトル
を示し、ejは参照(reference)のj番目のフレームの類
似度ベクトルを示し、Δdi及びΔejはそれぞれ回帰係
数ベクトルであり、「w」は類似度ベクトルからのスコ
ア(score)とその回帰係数ベクトルからのスコアとの混
合比(mixing ratio)である。類似度の音位転換(traject
ories)は回帰係数であり、これはサブユニットごとに平
均されサブユニット辞書に格納される。本装置の主な発
明は、音素パターンがマイクロホンに入力されると、類
似度ベクトルの時間的連続及び各フレームの回帰係数
は、特徴パラメータとして計算されることである。
を示し、ejは参照(reference)のj番目のフレームの類
似度ベクトルを示し、Δdi及びΔejはそれぞれ回帰係
数ベクトルであり、「w」は類似度ベクトルからのスコ
ア(score)とその回帰係数ベクトルからのスコアとの混
合比(mixing ratio)である。類似度の音位転換(traject
ories)は回帰係数であり、これはサブユニットごとに平
均されサブユニット辞書に格納される。本装置の主な発
明は、音素パターンがマイクロホンに入力されると、類
似度ベクトルの時間的連続及び各フレームの回帰係数
は、特徴パラメータとして計算されることである。
【0027】図10には、認識部が示されている。入力
音素及び辞書の参照の特徴パラメータの時間系列は、動
的計画法(DP)マッチング(matching)と比較され、最
も類似している語は認識結果として選択される。この部
分では、最も幅広く使われている技術、すなわち、「時
間軸正規化」(Dynamic time Warping)(DTW)を単語
テンプレート認識処理に使う。DWTは基本的に特徴を
合わせる方法で、DP処理により、参照とテスト特徴の
セットの「時間整合」を固有に成し遂げる。ここで言う
時間整合は、テスト発声の時間的領域を参照発声の適当
な領域と合わせる処理を意味する。同じ語の異なる発声
が一般に音長の違いによるだけでなく、語内の音素が発
声において異なる音長であるため、時間整合の必要性が
生じる。図6の第3のボックス、つまりステップs61
5では、単語をワードテンプレートアルゴリズムと合わ
せるための動的計画法が示されている。
音素及び辞書の参照の特徴パラメータの時間系列は、動
的計画法(DP)マッチング(matching)と比較され、最
も類似している語は認識結果として選択される。この部
分では、最も幅広く使われている技術、すなわち、「時
間軸正規化」(Dynamic time Warping)(DTW)を単語
テンプレート認識処理に使う。DWTは基本的に特徴を
合わせる方法で、DP処理により、参照とテスト特徴の
セットの「時間整合」を固有に成し遂げる。ここで言う
時間整合は、テスト発声の時間的領域を参照発声の適当
な領域と合わせる処理を意味する。同じ語の異なる発声
が一般に音長の違いによるだけでなく、語内の音素が発
声において異なる音長であるため、時間整合の必要性が
生じる。図6の第3のボックス、つまりステップs61
5では、単語をワードテンプレートアルゴリズムと合わ
せるための動的計画法が示されている。
【数15】 は、k=1、2、…、Kについて、パス(path)(ik,
jk)であり、k=1、2、…、Kについて、t(ik)
はr(jk)と一致する。累計距離は、例えばg(i,
j)であり、
jk)であり、k=1、2、…、Kについて、t(ik)
はr(jk)と一致する。累計距離は、例えばg(i,
j)であり、
【数16】 である。図15は、サーチグリッドのiとjの座標にそ
れぞれ関係するテスト及び参照特徴ベクトルを示してい
る。
れぞれ関係するテスト及び参照特徴ベクトルを示してい
る。
【0028】中国語の音素認識のための本装置の中国語
音素テンプレートは、20人の話者により話された21
2の語のセットで訓練されている。話者は男性10人、
女性10人である。このテンプレートは新しいフレーム
として弁別的(distinctive)フレームの周りの時間的ス
ペクトルパターンでできている。例えば、母音の新しい
フレームは持続時間の中間にあり、無声子音の新しいフ
レームは持続時間の終わりにある。
音素テンプレートは、20人の話者により話された21
2の語のセットで訓練されている。話者は男性10人、
女性10人である。このテンプレートは新しいフレーム
として弁別的(distinctive)フレームの周りの時間的ス
ペクトルパターンでできている。例えば、母音の新しい
フレームは持続時間の中間にあり、無声子音の新しいフ
レームは持続時間の終わりにある。
【0029】図16に示す台湾の106の都市に基づく
実験の結果について、以下の表は従来のLPCケプスト
ラム係数の認識率を示している。
実験の結果について、以下の表は従来のLPCケプスト
ラム係数の認識率を示している。
【表1】
【0030】一方、図16と同一の実験データに基づく
以下の本発明の実験結果は、本装置の精度が本アルゴリ
ズムにより大幅に改善されたことを示している。
以下の本発明の実験結果は、本装置の精度が本アルゴリ
ズムにより大幅に改善されたことを示している。
【表2】
【0031】上記の2つの表から明らかであるように、
本発明の認識率は従来のものよりもはるかに高いことが
分かる。更に、本装置は抽出されたパラメータが4ビッ
トのサンプルであっても、より高い精度を得ることがで
きる。従来のアプローチのほとんどは、特徴表示のため
にパラメータの抽出は32ビット(4バイト)でされて
きた。しかし、本装置では、パラメータは4ビットで抽
出できるだけでなく、高精度も得られるのである。
本発明の認識率は従来のものよりもはるかに高いことが
分かる。更に、本装置は抽出されたパラメータが4ビッ
トのサンプルであっても、より高い精度を得ることがで
きる。従来のアプローチのほとんどは、特徴表示のため
にパラメータの抽出は32ビット(4バイト)でされて
きた。しかし、本装置では、パラメータは4ビットで抽
出できるだけでなく、高精度も得られるのである。
【図1】 本発明の好ましい実施形態のシステムブロッ
ク図を示す。
ク図を示す。
【図2】 本発明の入力部の処理過程を図解する概略図
を示す。
を示す。
【図3】 本発明の音響分析部の処理過程を図解する概
略図を示す。
略図を示す。
【図4】 本発明の類似度計算部の処理過程を図解する
概略図を示す。
概略図を示す。
【図5】 本発明のフィルター及びアナログ信号からデ
ジタル信号への変換を図解する詳細な処理過程の図を示
す。
ジタル信号への変換を図解する詳細な処理過程の図を示
す。
【図6】 本発明のアナログ信号からデジタル信号への
変換の電子回路の図を示す。
変換の電子回路の図を示す。
【図7】 本発明の帯域フィルターを図解する詳細な処
理過程の図を示す。
理過程の図を示す。
【図8】 本発明のLPC分析ブロックを図解する詳細
な処理過程の図を示す。
な処理過程の図を示す。
【図9】 本発明の類似度計算及び類似度パラメータ生
成を図解する処理過程及びそのアルゴリズムの説明図を
示す。
成を図解する処理過程及びそのアルゴリズムの説明図を
示す。
【図10】 本発明の認識部の処理過程を図解する説明
図を示す。
図を示す。
【図11】 本発明の音素モデルのための中国語の基本
文節及び声調情報を解説する表を示す。
文節及び声調情報を解説する表を示す。
【図12】 本発明の音素モデルのための中国語の詳細
な音素情報を解説する表を示す。
な音素情報を解説する表を示す。
【図13】 本発明の音素モデルのための中国語の詳細
な音素情報を解説する表を示す。
な音素情報を解説する表を示す。
【図14】 本発明の音素モデルのための中国語の詳細
な音素情報を解説する表を示す。
な音素情報を解説する表を示す。
【図15】 本発明の動的計画法を解説する表を示す。
【図16】 実験に用いたワードテンプレート用の10
6の都市名を示す。
6の都市名を示す。
20…入力部 30…音響分析部 40…類似度分析部 50…後処理及び認識部 60…出力部 70…音素テンプレート 80…ワードテンプレート 90…バッファ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/12 G10L 3/00 533Z
Claims (3)
- 【請求項1】 中国語の音声認識方法であって、 訓練された初頭部分のモデルパラメータを有する初頭部
分のモデルを作り出すために、音素類似度ベクトル(P
SV)モデルを初頭部分に訓練するステップと、 訓練された末尾部分のモデルパラメータを有する末尾部
分のモデルを作り出すために、PSVを末尾部分に訓練
するステップと、 前記訓練された初頭部分パラメータ値及び前記訓練され
た末尾部分パラメータ値を音節モデルの開始パラメータ
として使って音節モデルを作り出すために、PSVを訓
練音声の音節に訓練するステップと、 対象の音声サンプルを前記音節モデルで処理するステッ
プと、 前記対象の音声サンプルを、前記対象の音声サンプルが
前記音節モデルとの一致度に基づく対象の音声音節とし
て認識するステップと、 前記対象の音声音節に従って、前記対象の音声サンプル
を漢字として表示するステップと、 を含む中国語の音声認識方法。 - 【請求項2】 請求項1に記載の中国語の音声認識方法
であって、 中国語モデルを作り出すために、時間軸正規化(DT
W)を漢字の連続に訓練するステップと、 対象の音声サンプルにおける対象の音声音節の連続を、
中国語モデルで処理するステップと、 前記対象の音声音節の連続が前記中国語モデルとの一致
に従って、前記対象の音声サンプルを漢字の連続として
表示するステップと、 それによって前記対象の音声音節の連続との一致に従っ
て、前記対象の音声サンプルを漢字の連続として表示す
るステップと、 をさらに含む中国語の音声認識方法。 - 【請求項3】 中国語の音声認識装置であって、 音声信号を受け、フィルター処理されたアナログ信号を
作り出す音声信号フィルターと、 音声信号からデジタル音声信号に変換するアナログ−デ
ジタル(A/D)変換器と、 前記デジタル信号を受けて処理するための、A/D変換
器に接続されるコンピュータと、 前記音声信号のピッチ周波数の特性を探知し、それによ
って前記音声信号の声調を認識する、コンピュータに接
続されるピッチ周波数探知装置と、 音声信号の音節の終点を探知し、それによって音節の始
めと終わりを決定する、コンピュータに接続される音声
信号プレプロセッサと、 初頭部分のPSVモデルと末尾部分のPSVモデルを訓
練し、前記初頭部分PSVモデルと前記末尾部分のPS
Vモデルの訓練されたパラメータに基づく音節モデルを
訓練する、コンピュータに接続される訓練部分と、 を含む中国語の音声認識装置。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP35145299A JP2001166789A (ja) | 1999-12-10 | 1999-12-10 | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
| US09/731,716 US20010010039A1 (en) | 1999-12-10 | 2000-12-08 | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector |
| TW089126258A TW487902B (en) | 1999-12-10 | 2000-12-08 | Method and apparatus for mandarin Chinese speech recognition by using initial/final phoneme similarity vector |
| SG200007288A SG97998A1 (en) | 1999-12-10 | 2000-12-08 | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector |
| CN00134525A CN1300049A (zh) | 1999-12-10 | 2000-12-11 | 汉语普通话话音识别的方法和设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP35145299A JP2001166789A (ja) | 1999-12-10 | 1999-12-10 | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2001166789A true JP2001166789A (ja) | 2001-06-22 |
Family
ID=18417388
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP35145299A Pending JP2001166789A (ja) | 1999-12-10 | 1999-12-10 | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20010010039A1 (ja) |
| JP (1) | JP2001166789A (ja) |
| CN (1) | CN1300049A (ja) |
| SG (1) | SG97998A1 (ja) |
| TW (1) | TW487902B (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100474253B1 (ko) * | 2002-12-12 | 2005-03-10 | 한국전자통신연구원 | 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체 |
| JP2005208652A (ja) * | 2004-01-21 | 2005-08-04 | Microsoft Corp | 声調言語用分節声調モデリング |
| JP2009069276A (ja) * | 2007-09-11 | 2009-04-02 | National Institute Of Information & Communication Technology | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 |
| CN109887494A (zh) * | 2017-12-01 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 重构语音信号的方法和装置 |
| CN118506767A (zh) * | 2024-07-16 | 2024-08-16 | 陕西智库城市建设有限公司 | 一种用于智慧物业的语音识别方法及系统 |
Families Citing this family (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1312656C (zh) * | 2002-09-24 | 2007-04-25 | 松下电器产业株式会社 | 说话人标准化方法及用该方法的语音识别装置 |
| US8229744B2 (en) * | 2003-08-26 | 2012-07-24 | Nuance Communications, Inc. | Class detection scheme and time mediated averaging of class dependent models |
| US20080120108A1 (en) * | 2006-11-16 | 2008-05-22 | Frank Kao-Ping Soong | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations |
| TW200926140A (en) * | 2007-12-11 | 2009-06-16 | Inst Information Industry | Method and system of generating and detecting confusion phones of pronunciation |
| CN101702314B (zh) * | 2009-10-13 | 2011-11-09 | 清华大学 | 基于语种对的鉴别式语种识别模型建立方法 |
| WO2012025579A1 (en) * | 2010-08-24 | 2012-03-01 | Veovox Sa | System and method for recognizing a user voice command in noisy environment |
| CN102163428A (zh) * | 2011-01-19 | 2011-08-24 | 无敌科技(西安)有限公司 | 汉语发音判断方法 |
| CN103236260B (zh) * | 2013-03-29 | 2015-08-12 | 京东方科技集团股份有限公司 | 语音识别系统 |
| US9785706B2 (en) * | 2013-08-28 | 2017-10-10 | Texas Instruments Incorporated | Acoustic sound signature detection based on sparse features |
| EP2884434A1 (en) * | 2013-12-10 | 2015-06-17 | Televic Education NV | Method and device for automatic feedback generation |
| US20150179169A1 (en) * | 2013-12-19 | 2015-06-25 | Vijay George John | Speech Recognition By Post Processing Using Phonetic and Semantic Information |
| US9286888B1 (en) * | 2014-11-13 | 2016-03-15 | Hyundai Motor Company | Speech recognition system and speech recognition method |
| US10607601B2 (en) * | 2017-05-11 | 2020-03-31 | International Business Machines Corporation | Speech recognition by selecting and refining hot words |
| CN109754784B (zh) | 2017-11-02 | 2021-01-29 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
| CN108182937B (zh) * | 2018-01-17 | 2021-04-13 | 出门问问创新科技有限公司 | 关键词识别方法、装置、设备及存储介质 |
| CN112883443B (zh) * | 2021-01-12 | 2022-10-14 | 南京维拓科技股份有限公司 | 一种基于几何的零部件模型相似度的判断方法 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
| JP2834260B2 (ja) * | 1990-03-07 | 1998-12-09 | 三菱電機株式会社 | 音声のスペクトル包絡パラメータ符号化装置 |
| JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
| SE513456C2 (sv) * | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
| US5793891A (en) * | 1994-07-07 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Adaptive training method for pattern recognition |
| GB2308002B (en) * | 1994-09-29 | 1998-08-19 | Apple Computer | A system and method for determining the tone of a syllable of mandarin chinese speech |
| US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
| US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
| US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
| US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
| US5764851A (en) * | 1996-07-24 | 1998-06-09 | Industrial Technology Research Institute | Fast speech recognition method for mandarin words |
-
1999
- 1999-12-10 JP JP35145299A patent/JP2001166789A/ja active Pending
-
2000
- 2000-12-08 US US09/731,716 patent/US20010010039A1/en not_active Abandoned
- 2000-12-08 TW TW089126258A patent/TW487902B/zh active
- 2000-12-08 SG SG200007288A patent/SG97998A1/en unknown
- 2000-12-11 CN CN00134525A patent/CN1300049A/zh active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100474253B1 (ko) * | 2002-12-12 | 2005-03-10 | 한국전자통신연구원 | 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체 |
| JP2005208652A (ja) * | 2004-01-21 | 2005-08-04 | Microsoft Corp | 声調言語用分節声調モデリング |
| JP2009069276A (ja) * | 2007-09-11 | 2009-04-02 | National Institute Of Information & Communication Technology | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 |
| CN109887494A (zh) * | 2017-12-01 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 重构语音信号的方法和装置 |
| CN109887494B (zh) * | 2017-12-01 | 2022-08-16 | 腾讯科技(深圳)有限公司 | 重构语音信号的方法和装置 |
| CN118506767A (zh) * | 2024-07-16 | 2024-08-16 | 陕西智库城市建设有限公司 | 一种用于智慧物业的语音识别方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW487902B (en) | 2002-05-21 |
| CN1300049A (zh) | 2001-06-20 |
| US20010010039A1 (en) | 2001-07-26 |
| SG97998A1 (en) | 2003-08-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
| JP3050934B2 (ja) | 音声認識方式 | |
| JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
| Shanthi et al. | Review of feature extraction techniques in automatic speech recognition | |
| JPH09500223A (ja) | 多言語音声認識システム | |
| CN101944359A (zh) | 一种面向特定人群的语音识别方法 | |
| Razak et al. | Quranic verse recitation recognition module for support in j-QAF learning: A review | |
| CN110570842B (zh) | 基于音素近似度和发音标准度的语音识别方法及系统 | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| Badhon et al. | State of art research in Bengali speech recognition | |
| Ezzine et al. | Moroccan dialect speech recognition system based on cmu sphinxtools | |
| Bhatt et al. | Effects of the dynamic and energy based feature extraction on hindi speech recognition | |
| CN115019775B (zh) | 一种基于音素的语种区分性特征的语种识别方法 | |
| Ananthakrishna et al. | Kannada word recognition system using HTK | |
| Singh et al. | Features and techniques for speaker recognition | |
| Ananthakrishna et al. | Effect of time-domain windowing on isolated speech recognition system performance | |
| CN101281746A (zh) | 一个百分之百辨认率的国语单音与句子辨认方法 | |
| Lin et al. | Consonant/vowel segmentation for Mandarin syllable recognition | |
| JP2943445B2 (ja) | 音声認識方法 | |
| Tangwongsan et al. | Highly efficient and effective techniques for Thai syllable speech recognition | |
| Atal | Speech technology in 2001: new research directions. | |
| Kuah et al. | A neural network-based text independent voice recognition system | |
| JP2692382B2 (ja) | 音声認識方法 | |
| JP2862306B2 (ja) | 音声認識装置 | |
| Ozaydin | An isolated word speaker recognition system |