[go: up one dir, main page]

JP4882899B2 - 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム - Google Patents

音声解析装置、および音声解析方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP4882899B2
JP4882899B2 JP2007193931A JP2007193931A JP4882899B2 JP 4882899 B2 JP4882899 B2 JP 4882899B2 JP 2007193931 A JP2007193931 A JP 2007193931A JP 2007193931 A JP2007193931 A JP 2007193931A JP 4882899 B2 JP4882899 B2 JP 4882899B2
Authority
JP
Japan
Prior art keywords
relative pitch
pitch difference
analysis
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007193931A
Other languages
English (en)
Other versions
JP2009031452A (ja
Inventor
敬一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007193931A priority Critical patent/JP4882899B2/ja
Priority to US12/176,739 priority patent/US8165873B2/en
Priority to CN2008101350647A priority patent/CN101373593B/zh
Publication of JP2009031452A publication Critical patent/JP2009031452A/ja
Application granted granted Critical
Publication of JP4882899B2 publication Critical patent/JP4882899B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声解析装置、および音声解析方法、並びにコンピュータ・プログラムに関し、特に、入力音声の韻律的特徴に基づいて識別を行なう場合に用いて好適な、音声解析装置、および音声解析方法、並びにコンピュータ・プログラムに関する。
近年、音声認識技術が広く利用されてきている。従来の音声認識技術は、基本的に、音声に含まれる情報のうち、音韻に関する情報(以下「音韻情報」と称する)を認識する技術であり、一般的な音声認識技術では、音声に含まれる音韻以外の情報である韻律に関する情報(以下「韻律情報」と称する)については、積極的に利用されているとは言い難い状況である。
しかしながら、韻律情報を利用する従来技術が全くないわけではなく、例えば文節境界位置をより適切に決定するために、韻律情報を利用している技術等が知られている(例えば、特許文献1参照)。
特開平04−66999号公報
しかしながら、上述した特許文献1に記載の従来技術は、音声認識技術の精度向上のために韻律情報を補助的に利用しているものであり、韻律情報が有する、より多様な情報を明に識別するものではない。
ところで、人間の発話音声には、音韻情報のみでは識別が困難な場合がある。例えば、日本語の場合、肯定的な意図を表す発話である「うん」と否定的な意図を表す発話である「ううん」とでは、音韻情報的にはほとんど同じ発話である。このような場合に、音声に含まれる音韻情報のみでは、肯定的な意図と否定的な意図とを識別することは困難であり、いわゆる韻律情報、例えば「イントネーションのパターン」や「音韻継続時間」等の情報に基づいて識別を行う必要がある。
音声信号処理においてイントネーションに関する処理を取り扱う場合には、ピッチ周波数(あるいはピッチ周期)の検出が広く利用されている。しかし、ピッチ周波数の検出では、ノイズ等の影響によりエラーが発生しやすいといった問題がある。また、ささやき声やピッチ性が低い音声においても、ピッチ周波数検出のエラーが発生しやすい。このようなピッチ周波数の検出エラーが発生しやすい状況において、あるいは検出エラーが発生しやすい対象に対しては、韻律情報に基づく識別は困難であると言える。
本発明はこのような状況に鑑みてなされたものであり、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声においても、ピッチ周波数の検出が有効に行え、入力音声の韻律的特徴に基づいて信頼性の高い音声認識を行うことができるようにするものである。
本出願人は、この目的の為に、ピッチ周波数の検出を行なうことなしに、入力音声の2つの時間的に異なる周波数特性の間の変化から得られる相対ピッチ変化量によって韻律識別を行なう方法を既に提案(特願2006−161370)している。
この特願2006−161370において提案した方法では、入力音声の韻律的特徴に基づいて識別を行う際に、入力音声の時間的に異なる2つの周波数特性の間の周波数方向の変化に基づいて得られる相対ピッチ変化量を求め、この相対ピッチ変化量に基づいて認識処理を行うことを特徴とする。
このような、時間的に異なる2つの周波数特性間の相対ピッチ変化量を用いて韻律識別を行うことにより、従来ではピッチ周波数の抽出が困難な、ノイズ等の影響が大きい場合や、ささやき声やピッチ性が低い音声の場合等においても、ロバストな識別が可能となる。
加えて、本出願人は、前記2つの周波数特性の内、一方の周波数特性を固定とすることを特徴とする方法についても既に提案(特願2006−325780)している。この方法により、入力音声に無声音や無音区間が含まれている場合においても、相対ピッチパターンが不連続とならず、一般的なピッチ周波数の検出によって求められたピッチパターンと同様の、適切な相対ピッチパターンを求めることが可能となる。
一方の周波数特性を固定して相対ピッチ変化量を求める前記従来手法においても、一般的なピッチ周波数検出法と同様に、いわゆる倍ピッチ、あるいは半ピッチの問題が発生する場合がある。倍ピッチ、あるいは半ピッチの問題とは、音声信号中の検出されるべき本来のピッチ周波数に対応した成分よりも、その倍の周波数、あるいは半分の周波数に対応した成分の方がより強い為に、誤って検出されてしまうという問題である。
本発明は、例えば、上記のような問題を解決するものであり、本発明の構成では、事前に用意されているテンプレート周波数特性との比較による相対ピッチ差と、時間的に隣接する部分の周波数特性との比較による相対ピッチ差を同時に求めるものであり、より具体的には、テンプレート周波数特性との比較による相対ピッチ差において、本来のピッチ周波数の整数比となる抽出誤りが発生したと思われる場合には、時間的に隣接する部分の周波数特性との比較による相対ピッチ差を考慮して抽出誤りを修正することで信頼性の高い音声認識を可能とする音声解析装置、および音声解析方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
音声情報の韻律的特徴を解析して韻律識別結果を出力する音声解析装置であり、
音声情報の入力を行う入力部と、
前記入力部から入力する音声情報に対して時系列に設定される分析フレーム各々の周波数特性を解析し、各分析フレームの周波数特性の変化情報としての相対ピッチ変化量を算出する音響分析部と、
前記音響分析部の生成した相対ピッチ変化量に基づく音声識別処理を実行する識別部を有し、
前記音響分析部は、
現行分析フレームの周波数特性と、予め設定されたテンプレート周波数特性との間の相対ピッチ差である現行テンプレート相対ピッチ差を求め、
前記現行分析フレームに時間的に先行する先行フレームの周波数特性と、前記テンプレート周波数特性との間の相対ピッチ差である先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下であるか否かを判定し、
閾値以下でない場合、前記現行分析フレームの周波数特性と、前記先行フレームの周波数特性との間の相対ピッチ差である隣接相対ピッチ差を求め、
該隣接相対ピッチ差が予め設定されたマージン値以下である場合、前記現行テンプレート相対ピッチ差を1オクターブ分加算または減算する補正処理を実行して現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出する構成であることを特徴とする音声解析装置にある。
さらに、本発明の音声解析装置の一実施態様において、前記音響分析部は、前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下である場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出する構成であることを特徴とする。
さらに、本発明の音声解析装置の一実施態様において、前記音響分析部は、前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下でなく、かつ、前記隣接相対ピッチ差が予め設定されたマージン値以下でない場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出する構成であることを特徴とする。
さらに、本発明の音声解析装置の一実施態様において、前記音響分析部は、相対ピッチ差を算出する2つの周波数特性の関係を定義する相互相関行列を算出し、相互相関行列の構成データの値のピーク位置を結ぶ稜線の前記相互相関行列の主対角線からのシフト量に相当する値を相対ピッチ差として算出する構成であることを特徴とする。
さらに、本発明の音声解析装置の一実施態様において、前記音響分析部は、前記周波数特性情報を対数周波数軸上で表現した周波数特性情報を生成し、前記閾値をT、前記マージン値をδとした場合、
T=log(2)−δ
上記式によって定義される閾値、およびマージン値を適用した処理を実行する構成であることを特徴とする。
さらに、本発明の音声解析装置の一実施態様において、前記識別部は、予め記憶部に格納された韻律識別単位辞書に相当するパラメータと、前記音響分析部の生成する相対ピッチ変化量データとを比較して音声識別処理を実行する構成であることを特徴とする。
さらに、本発明の音声解析装置の一実施態様において、前記識別部は、DP(Dynamic Programming)マッチング、またはニューラル・ネットワーク、またはHMM(隠れマルコフモデル)のいずれかを適用した処理により音声識別処理を実行する構成であることを特徴とする。
さらに、本発明の音声解析装置の一実施態様において、前記音声解析装置は、さらに、前記入力部からの入力音声データに対応したテキスト情報を音声認識結果として出力する音声認識部と、前記識別部の識別結果と、前記音声認識部の識別結果を適用して音声認識結果を出力する結果選択部とを有する構成であることを特徴とする。
さらに、本発明の音声解析装置の一実施態様において、前記結果選択部は、前記音声認識部における音声認識結果と特定単語記憶部に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に、前記識別部において識別された韻律識別結果を付与して出力し、前記音声認識結果が特定単語と一致しない場合は、音声認識結果をそのまま出力する構成であることを特徴とする。
さらに、本発明の第2の側面は、
音声解析装置において、音声情報の韻律的特徴を解析して韻律識別結果を出力する音声解析方法であり、
入力部が、音声情報の入力を行う入力ステップと、
音響分析部が、前記入力部から入力する音声情報に対して時系列に設定される分析フレーム各々の周波数特性を解析し、各分析フレームの周波数特性の変化情報としての相対ピッチ変化量を算出する音響分析ステップと、
識別部が、前記音響分析部の生成した相対ピッチ変化量に基づく音声識別処理を実行する識別ステップを有し、
前記音響分析ステップは、
現行分析フレームの周波数特性と、予め設定されたテンプレート周波数特性との間の相対ピッチ差である現行テンプレート相対ピッチ差を求め、
前記現行分析フレームに時間的に先行する先行フレームの周波数特性と、前記テンプレート周波数特性との間の相対ピッチ差である先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下であるか否かを判定し、
閾値以下でない場合、前記現行分析フレームの周波数特性と、前記先行フレームの周波数特性との間の相対ピッチ差である隣接相対ピッチ差を求め、
該隣接相対ピッチ差が予め設定されたマージン値以下である場合、前記現行テンプレート相対ピッチ差を1オクターブ分加算または減算する補正処理を実行して現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出するステップであることを特徴とする音声解析方法にある。
さらに、本発明の音声解析方法の一実施態様において、前記音響分析ステップは、前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下である場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出するステップであることを特徴とする。
さらに、本発明の音声解析方法の一実施態様において、前記音響分析ステップは、前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下でなく、かつ、前記隣接相対ピッチ差が予め設定されたマージン値以下でない場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出するステップであることを特徴とする。
さらに、本発明の音声解析方法の一実施態様において、前記音響分析ステップは、相対ピッチ差を算出する2つの周波数特性の関係を定義する相互相関行列を算出し、相互相関行列の構成データの値のピーク位置を結ぶ稜線の前記相互相関行列の主対角線からのシフト量に相当する値を相対ピッチ差として算出するステップであることを特徴とする。
さらに、本発明の音声解析方法の一実施態様において、前記音響分析ステップは、前記周波数特性情報を対数周波数軸上で表現した周波数特性情報を生成し、前記閾値をT、前記マージン値をδとした場合、
T=log(2)−δ
上記式によって定義される閾値、およびマージン値を適用した処理を実行するステップであることを特徴とする。
さらに、本発明の音声解析方法の一実施態様において、前記識別ステップは、予め記憶部に格納された韻律識別単位辞書に相当するパラメータと、前記音響分析部の生成する相対ピッチ変化量データとを比較して音声識別処理を実行するステップであることを特徴とする。
さらに、本発明の音声解析方法の一実施態様において、前記識別ステップは、DP(Dynamic Programming)マッチング、またはニューラル・ネットワーク、またはHMM(隠れマルコフモデル)のいずれかを適用した処理により音声識別処理を実行するステップであることを特徴とする。
さらに、本発明の音声解析方法の一実施態様において、前記音声解析方法は、さらに、音声認識部が、前記入力部からの入力音声データに対応したテキスト情報を音声認識結果として出力する音声認識ステップと、結果選択部が、前記識別部の識別結果と、前記音声認識部の識別結果を適用して音声認識結果を出力する結果選択ステップとを有することを特徴とする。
さらに、本発明の音声解析方法の一実施態様において、前記結果選択ステップは、前記音声認識部における音声認識結果と特定単語記憶部に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に、前記識別部において識別された韻律識別結果を付与して出力し、前記音声認識結果が特定単語と一致しない場合は、音声認識結果をそのまま出力するステップであることを特徴とする。
さらに、本発明の第3の側面は、
音声解析装置において、音声情報の韻律的特徴を解析して韻律識別結果を出力させるコンピュータ・プログラムであり、
入力部に、音声情報の入力を行わせる入力ステップと、
音響分析部に、前記入力部から入力する音声情報に対して時系列に設定される分析フレーム各々の周波数特性を解析させて、各分析フレームの周波数特性の変化情報としての相対ピッチ変化量を算出させる音響分析ステップと、
識別部に、前記音響分析部の生成した相対ピッチ変化量に基づく音声識別処理を実行させる識別ステップを有し、
前記音響分析ステップは、
現行分析フレームの周波数特性と、予め設定されたテンプレート周波数特性との間の相対ピッチ差である現行テンプレート相対ピッチ差を求め、
前記現行分析フレームに時間的に先行する先行フレームの周波数特性と、前記テンプレート周波数特性との間の相対ピッチ差である先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下であるか否かを判定し、
閾値以下でない場合、前記現行分析フレームの周波数特性と、前記先行フレームの周波数特性との間の相対ピッチ差である隣接相対ピッチ差を求め、
該隣接相対ピッチ差が予め設定されたマージン値以下である場合、前記現行テンプレート相対ピッチ差を1オクターブ分加算または減算する補正処理を実行して現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出させるステップであることを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、入力音声の韻律的特徴に基づいて識別を行う韻律識別処理において、入力音声から生成される分析フレーム対応の周波数特性とテンプレート周波数特性との比較から第1の相対ピッチ差を抽出するとともに分析フレームの周波数特性と先行フレームの周波数特性との比較から第2の相対ピッチ差を算出し、これら2つの相対ピッチ差に基づいて隣接フレーム間の相対ピッチの連続性を考慮して相対ピッチ差の補正処理を実行する構成とした。本構成により、倍ピッチや半ピッチの抽出誤りを解消し、精度の高いかつロバストな韻律識別が可能となる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。まず、システム構成及び全体の処理の流れについて説明し、次に、音響分析部の内部処理についてより詳細に説明する。
図1は、本発明を適用した音声解析装置11の構成を示すブロック図である。音声解析装置11は、入力部31、韻律識別部32、音声認識部33、結果選択部34、特定単語記憶部35、および、出力部36を含む。
入力部31は、例えば、マイクなどにより取得された音声信号、または、他の装置から供給される音声信号の入力を受ける。
韻律識別部32は、入力された音声信号の韻律識別処理を実行する。韻律とは、イントネーション、スピードの変化、大きさの変化など、テキストとして表現できない音声情報の特徴を示すものである。韻律識別部32による韻律識別処理の詳細については後述する。
音声認識部33は、入力された音声信号の音声認識処理を実行する。ここでは、公知のいずれの音声認識処理が実行されるものであっても良い。
結果選択部34は、音声認識部33の処理の結果が、特定単語記憶部35に記録されている特定の単語である場合、韻律識別部32による韻律識別結果を付与して、出力部36に音声認識結果を出力し、音声認識部33の処理の結果が、特定単語記憶部35に記録されている特定の単語ではない場合、音声認識部33の処理の結果をそのまま出力部36に供給する。
特定単語記憶部35は、音声認識部33の処理に用いられる特定の単語の情報を記録するものである。具体的には、特定単語記憶部35には、例えば、「うん」などのように、韻律を用いて認識するべき特定の単語か記憶されている。
出力部36は、結果選択部34から供給された音声認識結果を外部に出力する、すなわち、画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なうものである。
なお、本実施例では、韻律識別部32、音声認識部33の2つの処理部を有し、2つの処理部の処理結果を結果選択部34で選択する構成例としているが、音声認識部33を持たず、韻律識別部32のみを有し、韻律識別部32のみの識別結果を出力する設定としてもよい。
次に、音声解析装置11の動作について説明する。図1において、入力部31より入力された音声は、韻律識別部32と音声認識部33に供給される。韻律識別部32および音声認識部33のそれぞれにおいて、入力音声データに対して処理が行なわれ、その結果として、韻律識別部32からは、入力音声データの韻律パターンに基づいて識別された発話タイプ(あるいはユーザの発話意図)が韻律識別結果として出力され、また音声認識部33からは、入力音声データに対応したテキスト情報が音声認識結果として出力される。これら韻律識別結果と音声認識結果は、結果選択部34へと与えられる。
結果選択部34では、与えられた音声認識結果と特定単語記憶部35に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に韻律識別結果が付与あるいは統合され、出力部36より出力される。また、音声認識結果が特定単語と一致しない場合には、音声認識結果がそのまま出力部36より出力される。
例えば、特定単語として「うん」が設定されており、韻律識別部32において、韻律の識別結果を元に、肯定を表す「うん」、否定を表す「ううん」及び疑問を表す「うん?」の3種類の発話タイプの識別が行なわれる場合において、特定単語である「うん」に対しては、肯定、否定、疑問のいずれかの発話タイプ(ユーザの発話意図)に関する情報が認識結果に付与されることとなる。
また、例えば、韻律識別部32では、供給された音声を解析して、その発話のタイプを、「肯定」、「否定」、「疑問」、または、これら3つの発話タイプ以外であることを意味する「その他」から成る4つの発話タイプのいずれかに識別するものとしてもよい。そして、結果選択部34は、韻律識別結果として「その他」が与えられた時には音声認識部33からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部32からの韻律識別結果を音声認識部33からの音声認識結果に付与して出力するものとしてもよい。このような場合には、特定単語記憶部35を省略することが可能である
図2は、図1の韻律識別部32の構成を示すブロック図である。この図2に示す韻律識別部32、入力部51、音響分析部52、識別部53、パラメータ記憶部54、及び出力部55を有して構成されている。
なお、前述したように、図1の構成は、韻律識別部32、音声認識部33の2つの処理部を有し、2つの処理部の処理結果を結果選択部34で選択する構成例としているが、音声認識部33を持たず、韻律識別部32のみを有する設定とした場合は、図2に示す構成が、音声解析装置全体構成となる。
図2に示す構成において、入力部51は、図1に示す入力部31からの音声信号を入力する。例えばマイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するAD変換器などによって構成される。この入力部51では、入力信号を例えば16kHzでサンプリングした後、音響分析部52へ送る。
音響分析部52では、入力された音声信号から認識に必要な特徴量の抽出を行ない、これを識別部53に送る。本実施の形態における音響分析部52の内部処理については、後述する。
識別部53では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部54のパラメータを用いて、未知音声データに対する認識処理を行なう。
ここで、未知音声データに対する認識処理とは、入力された音声信号に対して、与えられた韻律識別単位辞書の中から、入力に対応した韻律識別単位を選び出す処理のことである。この認識手法としては、主なものとして、DP(Dynamic Programming)マッチング、ニューラル・ネットワーク、HMM(隠れマルコフモデル)などを用いたものが使われる。
DPマッチングは、各音声信号を分析して得られる特徴量からテンプレートと呼ばれる標準パターンを予めパラメータとして求め、このパラメータをパラメータ記憶部54に記録しておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。なお、発話速度の変動を吸収するため、ダイナミック・タイム・ワーピング(dynamic time warping)と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行なう方法がよく用いられる。
ニューラル・ネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行なおうとするもので、学習過程により予めパスの重み係数をパラメータとして決定して、このパラメータをパラメータ記憶部54に記録しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、韻律識別単位辞書内の各韻律識別単位との距離を求め、入力された音声信号に対応する韻律識別単位を決定しようとするものである。
また、HMMは、確率モデルにより認識を行なおうとするもので、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から韻律識別単位の決定を行なおうとする方式である。
以上述べたように、識別部53における認識処理としては、一般に、学習過程と認識過程とを有しており、学習過程としては、予め学習用データから決定されたパラメータ、すなわちテンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部54に記憶しておく。
そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた韻律識別単位辞書の中の韻律識別単位それぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行ない、そのスコアが最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行なう。
識別部53にて得られた認識結果を、出力部55に送る。出力部55では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
ところで、従来のピッチ周波数の検出においては、発声における声帯振動の一周期であるピッチ周期の時間長(あるいはそのピッチ周期の逆数で表されるピッチ周波数)を、一意に決定することを前提としている。このピッチ周波数を一意に決定する処理は、発話音声に対応した周波数特性の分布において、最も低域に存在するピーク成分の中心周波数を求めることを意味する。
図3を参照してピッチ周波数の検出処理例について説明する。図3(a)は、通常音声の周波数特性、図3(b)は、ささやき声の周波数特性を示している。例えば、図3(a)に示すような通常音声の周波数特性の場合には、周波数fpがピッチ周波数に相当する。しかしながら、発話音声がノイズに混在している場合や、ささやき声のようなピッチ性の低い発話音声の場合では、上述したような従来のピッチ周波数の決定処理は困難なものとなる。例えば、図3(b)に示すようなささやき声の周波数特性の場合には、最も低域に存在するピーク成分の中心周波数を検出することが困難である。
これに対して、韻律識別部32では、図3(b)に示すようなささやき声などのようなピッチ周波数の検出が困難な場合においても、相対ピッチ変化量を用いることで、適切なピッチ周波数を一意に決定するという周波数特性のピーク性に依存した処理を回避することができ、イントネーションの変化をよりロバストに捉えることができる。
また、従来のピッチ周波数検出では、発話音声に対応した周波数特性を1つの特徴量分布として捉え、その1つの分布から所望の特徴量(ピッチ周波数)を抽出するが、韻律識別部32においては、ピッチ周波数を決定せずにその変化量を直接求めるため、ピッチ周波数やその変化範囲を意味するピッチ変動域を正規化する処理も必要としない。
このような処理は、主に音響分析部52が実行する処理により実現されるものである。以下、音響分析部52の具体的な構成及び作用について詳細に説明する。
<音響分析部の内部処理>
音響分析部52は、図2に示すように、周波数特性分析部61と相対ピッチ変化量計算部62の2つを有して成る。
周波数特性分析部61では、入力された音声信号から、その周波数特性への変換処理を行なう。この周波数特性分析部61における具体的な処理の流れを、図4に示すフローチャートに沿って説明する。
まず、周波数特性分析部61は、図4に示すフローチャートのステップS31において、入力された音声信号を、FFT(高速フーリエ変換(Fast Fourier Transform))分析等の時間周波数変換処理によって周波数領域への変換を行ない、一般的な周波数特性を得る。この周波数特性の一例を、図5の(A)に示す。
次に、図4に示すフローチャートのステップS32に進んで、この一般的な周波数特性における周波数軸を対数化することにより、対数周波数軸上での周波数特性に変換する。この対数周波数軸上での周波数特性の一例を図5の(B)に示す。
次に、図4に示すフローチャートのステップS33に進み、対数周波数軸上での周波数特性において、所望の周波数領域部分のみを取り出し、この結果を周波数特性分析部の結果として出力する。図5の(C)には、上記図5の(B)の周波数特性の内の所望の周波数領域の部分のみを取り出した周波数特性を例示している。
以上説明した周波数特性分析部61における分析の結果としての図5の(C)に示すような周波数特性が得られ、この周波数特性が相対ピッチ変化量計算部62に送られる。周波数特性分析部61は、予め定められた一定の時間間隔、すなわち入力部から入力する音声情報に対して時系列に設定される分析フレーム毎に図5(C)に示すような周波数特性を生成し、順次、相対ピッチ変化量計算部62に出力する。
次に、相対ピッチ変化量計算部62における処理例を、図6のフローチャートに沿って説明する。なお、図6に示すフローは、相対ピッチ変化量計算部62における処理の概要である。本発明に従った音声解析装置の相対ピッチ変化量計算部62は、図6に示すフローを基本的な処理として、さらに、後述する図17に示すフローに従った処理を実行する。
図6のフローについて説明する。相対ピッチ変化量計算部62では、最初に図6に示すフローチャートのステップS41において、2つの周波数特性を用いて、周波数特性間の相互相関行列を計算する。
なお、本発明の音声解析装置では、相互相関行列を計算するために以下の異なる2つの周波数特性の組み合わせを適用する。
(a)時間的に異なる分析フレームにおける2つの周波数特性、
(b)分析フレームの周波数特性と固定されたテンプレート周波数特性、
(b)の処理については後段で詳細に説明する。ここでは、(a)時間的に異なる分析フレームにおける2つの周波数特性を用いた場合について説明する。上述した周波数特性分析部61から送られてきた時間的に異なる分析フレームにおける2つの周波数特性を、列ベクトルX、Yで表し、その列ベクトルの次数をNとする。これらの列ベクトルX、Yは、それぞれ次の式(式1)、(式2)のように表され、この時、相互相関行列Mは、式(式3)のように、ベクトルXとYの転置ベクトルYとの積で表される行列である。
X=(x1,x2,…xN) ・・・ (式1)
Y=(y1,y2,…yN) ・・・(式2)
M=X×Y ・・・(式3)
上記式(式3)で表される相互相関行列Mを、図7に示す。図7には、時間的に異なる分析フレームにおける2つの周波数特性A71,周波数特性B72、さらに、周波数特性A71を列ベクトルX、周波数特性B72を列ベクトルYとしたとき、上記関係式(式3)を満足する相互相関行列M73を示している。なお、2つの周波数特性A71,周波数特性B72は、時間的に異なる分析フレームに対応する周波数特性であり、それぞれ先に図5(C)を参照して説明した周波数特性に対応する。
すなわち、各分析フレームの音声信号を、FFT(高速フーリエ変換(Fast Fourier Transform))分析等の時間周波数変換処理によって周波数領域への変換を行なって得られた一般的な周波数特性(図5(A))における周波数軸を対数化して得られた対数周波数軸上での周波数特性(図5(B))の所望の周波数領域部分のみを取り出したデータ(図5(C))に対応する。図7に示す周波数特性A71は、横軸が対数周波数軸であり左から右に周波数が高くなり、周波数特性B72では、上から下に周波数が高くなっている。
図7に示す相互相関行列M73は、行列に含まれる数値を、数値に従って濃度(明暗)を変えてグラフィック表示すると、図8に示すような相互相関行列M75として示すことができる。
なお、比較例として、2つの周波数特性が同じである場合、すなわち一方の周波数特性を表わす列ベクトルXのみを用いて求めた自己相関行列81を図9に、この自己相関行列を数値によってグラフィック表示した自己相関行列82を図10に、それぞれ示す。
図9、図10から理解されるように、1つの周波数特性のみから得られる自己相関行列は対称行列であり、周波数特性の振幅の二乗からなるベクトル(パワースペクトル)は、自己相関行列の主対角線83と一致する。パワースペクトルは、自己相関行列における主対角線以外の対角方向成分と比較すると、周波数特性の各ピーク(の二乗)同士を結ぶ稜線83となる。
これに対して、図7、図8を参照して説明した2つの時間的に異なる分析フレームにおける周波数特性間の相互相関行列では、図8に示すように、稜線77が行列の主対角線76からずれた対角方向成分に位置する。
図8に示すように、2つの時間的に異なる分析フレームにおける周波数特性から得られた相互相関行列において、稜線が主対角線からずれる理由は、2つの周波数特性それぞれにおけるピッチ周波数が異なるためである。各周波数特性におけるピーク成分の周波数位置はおおよそ各ピッチ周波数の整数倍の位置となる。時間的に異なる分析フレームでの2つの周波数特性では、その分析フレーム間でピッチ周波数が変化しており、ピッチ周波数が異なる2つの周波数特性から得られる相互相関行列(周波数軸は対数表現)では、2つの周波数特性間で対応する各ピーク同士を結ぶ稜線は、相互相関行列の主対角線から平行にずれた対角方向成分上に現れる。この稜線の主対角線からのずれ、あるいはシフト量は、2つの周波数特性間のピッチ周波数(対数値)の差に対応する。
すなわち、時間的に異なる分析フレームでの2つの周波数特性から得られる相互相関行列において、主対角線からの稜線のシフト量を求めることにより、各分析フレームにおけるピッチ周波数を求めることなしに、分析フレーム間の対数ピッチ周波数の差(これを「相対ピッチ差」と呼ぶ)を求めることができる。図8に示す相対ピッチ差である。
なお、時間的に異なる分析フレームでの2つの周波数特性として、例えば、時間的に隣接する2つの分析フレームそれぞれにおける周波数特性を用いることが可能である。例えば、予め定めた時間間隔で、分析フレームが設定される場合、それぞれの時間的に隣接する分析フレーム間における相対ピッチ差を求めることができる。
音響分析部52の相対ピッチ変化量算出部62は、このように相対ピッチ差を算出する2つの周波数特性の関係を定義する相互相関行列を算出し、相互相関行列の構成データの値のピーク位置を結ぶ稜線の前記相互相関行列の主対角線からのシフト量に相当する値を相対ピッチ差として算出する。
続いて、所望の分析フレーム数において、隣接する分析フレーム間の相対ピッチ差を積算することにより、所望のフレーム数分における相対ピッチ変化量を計算する。ここでの所望のフレーム数の決定方法としては、上記識別部53における学習過程における識別精度を基準とすることができる。
また、上述した例では、相対ピッチ差の算出に、2つの異なる時間の分析フレームの周波数特性を利用しているが、相対ピッチ差の算出に用いる2つの異なる周波数特性の内、一方の(比較対象となる)周波数特性を固定した周波数特性とし、他方を入力する音声波形に基づいて生成される各分析フレームの周波数特性として、固定された周波数特性と測定される分析フレームの周波数特性とから相対ピッチ差を求めることも可能である。
例えば、固定された周波数特性としては、音声解析装置のメモリに事前に用意し格納したテンプレート的な周波数特性データ(これを「テンプレート周波数特性」と呼ぶ)を利用することができる。
テンプレート周波数特性と、分析フレームの周波数特性と、これら2つの周波数特性によって求められる相互相関行列(濃度表現)の一例を、図11(b)に示す。なお、比較のために、図7、図8を参照して説明した時間的に異なる分析フレームにおける周波数特性との相互相関行列を図11(a)に示す。
この図11(b)には、テンプレート周波数特性101、測定結果である1つの分析フレームから得られた周波数特性102、さらに、これらの2つの周波数特性101,102の相互相関行列(濃度表現)103を示している。テンプレート周波数特性101は、図12に示すように、あるピッチ周波数(300Hz)を基音として、その基音に対する高調波成分の大きさが線形に減衰するような周波数特性を模擬的に作り出したデータである。例えばこのような模擬的なデータをテンプレートとして適用することができる。
図11(b)に示すように、テンプレート周波数特性101と、分析フレームの周波数特性102とから求められる相互相関行列103を用いて、相対ピッチ差を求めることが出来る。
前述したように、ピッチ周波数が異なる2つの周波数特性から得られる相互相関行列(周波数軸は対数表現)では、2つの周波数特性間で対応する各ピーク同士を結ぶ稜線112は、相互相関行列の主対角線111から平行にずれた対角方向成分上に現れる。この稜線112の主対角線111からのずれ、あるいはシフト量は、2つの周波数特性間のピッチ周波数(対数値)の差、すなわち相対ピッチ差となる。
この図11(b)に示す例の場合には、絶対的な基準(ここでは300Hz)に対する相対ピッチ差となるので、最終的には通常のピッチ周波数を求めることも可能となる。
以上のようにして、音響分析部52における内部処理が行われ、識別のための特徴量としての相対ピッチ差が抽出される。
ところで、以上のような相対ピッチ差を求める手法においても、一般的なピッチ周波数抽出法における問題と同様に、倍ピッチ、あるいは半ピッチの抽出誤りが発生する場合がある。
図13は、相対ピッチ差を特徴量として取得する手法における倍ピッチ抽出誤りの発生例を示している。図13(A)は、ある言葉の発話に対応する音声波形を示し、図13(B)は、図13(A)に示す音声波形に対応するピッチパターンを示している。それぞれ横軸が時間軸であり、図13(B)のグラフの縦軸はピッチ周波数[Hz]である。
図13(B)のグラフに示す[○]の各々が、各分析フレームにおいて計測されたピッチ周波数を示している。ピッチ周波数は、一般的に各分析フレームにおいて滑らかに変化する。従って、図13(B)に示す離間したデータ121,122は、倍ピッチ抽出誤りによって発生したデータであると推測できる。
図14は、倍ピッチ抽出誤りが発生する部分における1分析フレーム分の周波数特性の例を示している。この図14から理解されるように、この周波数特性には本来のピッチ周波数に対応した調波構造が見られるが、本来のピッチ周波数に対応するピーク成分131よりも、その2倍となる周波数に対応するピーク成分132の方がより大きくなっている。このピーク成分132をピッチ周波数として取得してしまうと、図13(B)に示すデータ121,122が発生し、正しい解析ができないことになる。
図15は、図14に示す分析フレームの周波数特性とテンプレート周波数特性(ここでの基準となるピッチ周波数は100Hz)との相互相関行列を示す図である。すなわち、図14に示すような本来のピッチ周波数に対応するピーク成分131よりも、その2倍となる周波数に対応するピーク成分132の方がより大きくなっている分析フレームの周波数特性151、テンプレート周波数特性152、これら2つの周波数特性の相互相関行列153を示している。
相互相関行列153には、2つの周波数特性間で対応する各ピーク同士を結ぶ稜線161を示している。この稜線161は、本来のピッチ周波数の2倍の周波数に対応した位置を示しており、正しい稜線は、図15の対角線163に近い第2の稜線162の位置となるべきである。
このように、本来のピッチ周波数の2倍の周波数に対応した位置を示す稜線161を適用して相対ピッチ差を求めると、図に示す相対ピッチ差171が求められる。しかし、実際の本来のピッチ周波数から算出すべき相対ピッチ差は、図に示す稜線162と対角線163のシフト量である相対ピッチ差172となるべきである。
このように、分析フレームの周波数特性における本来のピッチ周波数のピーク成分より、そのn倍周波数のピーク成分が大きい場合、相互相関行列から求める相対ピッチ差、すなわち稜線と主対角線のシフト量の決定が不適切になってしまう場合がある。
本発明は、このような問題を解決するものであり、本発明では、
(a)分析フレームの周波数特性とテンプレート周波数特性との比較による第1の相対ピッチ差、
(b)時間的に隣接する部分の周波数特性との比較による第2の相対ピッチ差、
これら(a)、(b)の2つの相対ピッチ差を求め、これら2種類の相対ピッチ差を利用して本来のピッチ周波数のピーク成分を確実に検出して正しい相対ピッチ差を得ることを可能としている。
図16は、ある分析フレームの周波数特性201(周波数特性151と同じ)と、当該分析フレームに対する先行分析フレームの周波数特性202、例えばして1つ前のフレームにおける周波数特性202、これら2つの周波数特性から求められた相互相関行列203を示している。
この図16に示す相互相関行列203において、それぞれの周波数特性のピークに対応する点を結んで形成される稜線は、図16に示す稜線211となる。図16に示す点線212は稜線として選択されない。図16に示す稜線211を選択して対角線とのシフト量を算出すれば、正しい相対ピッチ差を算出することができる。これから理解されるように、時間的に隣接する部分の周波数特性との比較による相対ピッチ差においては、倍ピッチによる抽出誤りが発生していない。
これは、相互相関行列を求める際の2つの周波数特性それぞれのエンベロープの類似性の点において、当該フレームの周波数特性とテンプレート周波数特性との間よりも、当該フレームの周波数特性と隣接するフレームの周波数特性との間の方がより高いことによる。
次に、図17に示すフローチャートを参照して、本発明の音声解析装置における処理シーケンス、すなわち、倍/半ピッチ修正処理のシーケンスについて説明する。この図17に示すフローは、図2に示す韻律識別部32の音響分析部52の処理に相当し、主に相対ピッチ変化量計算部62の処理である。
音声解析装置の記憶部(メモリ)には、テンプレート周波数特性データが格納され、相対ピッチ変化量計算部62は、記憶部(メモリ)からテンプレート周波数特性データを取得し、さらに、予め設定された分析間隔毎に、周波数特性分析部61において生成される分析フレームの周波数特性を逐次、入力して図17に示すフローに従った処理を実行する。
まず、ステップS101において、新たに入力された分析フレームの周波数特性と、テンプレート周波数とから第1の相互相関行列を求め、求めた相互相関行列における稜線と対角線とのシフト量を算出し、これを第1の相対ピッチ差(以降、テンプレート相対ピッチ差と呼ぶ)とする。例えば、図15に示す例では、テンプレート相対ピッチ差は相対ピッチ差171として算出される。
次に、ステップS102において、ステップS101で算出した現行の分析フレームのテンプレート相対ピッチ差と、1つ前の分析フレーム対応のテンプレート相対ピッチ差の差分を算出する。
次に、ステップS103において、ステップS102で算出した2つの相対ピッチ差の差分の絶対値が、予め定めた閾値以下であるか否かを判定する。閾値以下である場合には、処理を終了し、ステップS101で算出したテンプレート相対ピッチ差を、相対ピッチ変化量計算処理に適用する相対ピッチ差として決定する。
ステップS103において、ステップS102で算出した2つの相対ピッチ差の差分の絶対値が、予め定めた閾値以下でないと判定した場合は、ステップS104に進む。
なお、ステップS103において適用する閾値としては、例えば、1オクターブに対応する対数値に対してあるマージンの値を加算及び減算した値が適用される。例えば閾値(T)は以下の式(式4)によって算出される。 T=log(2)−δ ・・・(式4)
なお、
T:閾値
δ:マージン値
である。
ステップS104では、現分析フレームの周波数特性と、先行する1つ前の分析フレームの周波数特性との相互相関行列から第2の相対ピッチ差(以降、隣接相対ピッチ差と呼ぶ)の算出を行う。これは、例えば図16に示す相互相関行列203において検出される稜線211と対角線(図16では稜線211と一致)とのシフト量に相当する。
次に、ステップS105において、ステップS104で算出した隣接相対ピッチ差が、前述の(式4)に示すマージン値(δ)以下であるか否かを判定する。マージン値以下の場合には、ステップS106に進む。
ステップS104で算出した隣接相対ピッチ差が、前述の(式4)に示すマージン値(δ)以下でない場合は処理を終了し、ステップS101で算出したテンプレート相対ピッチ差を相対ピッチ変化量計算処理に適用する相対ピッチ差として決定する。
一方、ステップS105において、ステップS104で算出した隣接相対ピッチ差が、前述の(式4)に示すマージン値(δ)以下であると判定した場合は、ステップS106に進む。この場合は、ステップS101で算出したテンプレート相対ピッチ差は、倍ピッチ、あるいは半ピッチに近い相対ピッチ差であり、誤りであると判定し、ステップS101で算出したテンプレート相対ピッチ差から1オクターブに対応する対数値分を加減(倍ピッチの場合は1オクターブ分減算、半ピッチの場合は1オクターブ分加算)して、補正したテンプレート相対ピッチ差を算出し、この補正テンプレート相対ピッチ差を相対ピッチ変化量計算処理に適用する相対ピッチ差として決定する。
図2に示す韻律識別部32の相対ピッチ変化量計算部62では、以上のようなフローによって、倍/半ピッチの修正処理を行い、各分析フレームに対応する相対ピッチ差、すなわち、相対ピッチ変化量計算処理に適用する相対ピッチ差を決定する。
このように、本発明の一実施例に係る音声解析装置11を構成する韻律識別部32の音響分析部52では、現行分析フレームの周波数特性と、予め設定されたテンプレート周波数特性との間の相対ピッチ差である現行テンプレート相対ピッチ差を求め、さらに、現行分析フレームに時間的に先行する先行フレームの周波数特性とテンプレート周波数特性との間の相対ピッチ差である先行テンプレート相対ピッチ差と、現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下であるか否かを判定し、閾値以下でない場合には、現行分析フレームの周波数特性と、先行フレームの周波数特性との間の相対ピッチ差である隣接相対ピッチ差を求め、この隣接相対ピッチ差が予め設定されたマージン値以下である場合は、現行テンプレート相対ピッチ差を1オクターブ分加算または減算する補正処理を実行して現行分析フレームの相対ピッチ差として決定し、この決定した相対ピッチ差を適用して相対ピッチ変化量を算出する。
なお、先行テンプレート相対ピッチ差と、現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下である場合、または、先行テンプレート相対ピッチ差と、現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下でなく、かつ、隣接相対ピッチ差が予め設定されたマージン値以下でない場合は、現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として決定する。
このように、図17に示すフローに従った処理によって決定した各分析フレームの相対ピッチ差により、例えば図18に示す相対ピッチ変化量データが生成される。図18は、先に、図13を参照して説明したと同様の音声データ((A)音声波形)に対して、図17に示すフローに従った処理を適用して生成した相対ピッチ変化量データ(図18(B)ピッチパターン)である。
図18(B)に示すピッチパターンには、先に説明した図13(B)に示す離間したデータ121,122が出現せず、図17に示すフローに従った修正処理を加えることにより、倍ピッチ抽出誤りが解消される。
このように、本発明の音声解析装置では、入力音声の韻律的特徴に基づいて識別を行う韻律識別装置であり、2つの周波数特性間の相対ピッチ変化量を用いて識別を行う韻律識別装置において、テンプレート周波数特性との比較から相対ピッチ差を抽出すると同時に隣接フレームとの比較による相対ピッチ差も抽出し、隣接フレーム間での相対ピッチの連続性を考慮することにより、倍ピッチや半ピッチなどの抽出誤りを解消することが可能となり、より性格で安定した韻律識別による音声認識が可能となる。
なお、図3〜図18を参照して説明した処理は、図2に示す韻律識別部32の処理であり、この韻律識別部32の処理のみによった音声認識を実行してもよいが、さらに、先に説明したように図1に示す構成に従って既存の音声認識部33の処理を並列に実行して、韻律識別部32の処理によって得られた認識結果と、既存の音声認識部33の処理によって得られた認識結果を選択適用して最終的認識結果を出力する構成としてもよい。このような処理を行う場合の処理シーケンスについて、図19に示すフローチャートを参照して説明する。
図19のフローチャートは、図1に示す音声解析装置11において実行される、音声認識処理のシーケンスを説明するフローである。図1に示す音声解析装置11の構成図を参照して図19のフローの各ステップの処理について説明する。
まず、ステップS201において、入力部31は、音声信号の入力を受け、韻律識別部32、音声認識部33に供給する。次に、ステップS202において、音声認識部33は、供給された音声信号を認識し、テキストデータを得て、結果選択部34に供給する。
ステップS203において、韻律識別部32は、図2〜図18を用いて説明した韻律識別処理を実行する。ステップS204において、結果選択部34は、韻律識別部32および音声認識部33から認識結果の供給を受け、音声認識部33からの認識結果が、特定単語記憶部35に記憶されている特定単語と一致するか否かを判断する。
ステップS204において、特定単語と一致しないと判断された場合、ステップS205において、結果選択部34は、音声認識部33による認識結果を出力部36にそのまま出力して、処理が終了される。
ステップS204において、特定単語と一致すると判断された場合、ステップS206において、結果選択部34は、音声認識部33による認識結果に、韻律識別部32による認識結果を付与して出力部36に出力し、処理が終了される。
また、例えば、韻律識別部32で、供給された音声を解析して、その発話のタイプを、「肯定」、「否定」、「疑問」、または、これら3つの発話タイプ以外であることを意味する「その他」から成る4つの発話タイプのいずれかに識別し、結果選択部34で、韻律識別結果として「その他」が与えられた時には音声認識部33からの音声認識結果のみを出力し、韻律識別結果が「肯定」、「否定」、「疑問」のいずれかの時には韻律識別部32からの韻律識別結果を音声認識部33からの音声認識結果に付与して出力するものとした場合、ステップS204において、結果選択部34は、韻律識別部32および音声認識部33から認識結果の供給を受け、音声認識部33からの認識結果が特定単語と一致するか否かを判断する代わりに、韻律識別結果が、「その他」であるか否かを判断し、「その他」である場合は、ステップS205の処理が実行され、「その他」以外である場合は、ステップS206の処理が実行されるものとすることができる。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、入力音声の韻律的特徴に基づいて識別を行う韻律識別処理において、入力音声から生成される分析フレーム対応の周波数特性とテンプレート周波数特性との比較から第1の相対ピッチ差を抽出するとともに分析フレームの周波数特性と先行フレームの周波数特性との比較から第2の相対ピッチ差を算出し、これら2つの相対ピッチ差に基づいて隣接フレーム間の相対ピッチの連続性を考慮して相対ピッチ差の補正処理を実行する構成とした。本構成により、倍ピッチや半ピッチの抽出誤りを解消し、精度の高いかつロバストな韻律識別が可能となる。
本発明の一実施例に係る音声解析装置の構成例を示す図である。 本発明の一実施例に係る音声解析装置における韻律識別部の構成例を示す図である。 通常音声およびささやき声の周波数特性の例を示す図である。 韻律識別部の周波数特性分析部の処理シーケンスを説明するフローチャートを示す図である。 韻律識別部の周波数特性分析部の分析処理の具体例について説明する図である。 韻律識別部の相対ピッチ量計算部の基本的な処理シーケンスを説明するフローチャートを示す図である。 2つの周波数特性によって生成する相互相関行列について説明する図である。 2つの周波数特性によって生成する相互相関行列のグラフィック表現、および相対ピッチ差について説明する図である。 1つの周波数特性によって生成する自己相関行列について説明する図である。 1つの周波数特性によって生成する自己相関行列のグラフィック表現、および稜線、対角線について説明する図である。 テンプレート周波数特性と分析フレームの周波数特性によって生成する相互相関行列のグラフィック表現、および相対ピッチ差について説明する図である。 テンプレート周波数特性の構成例について説明する図である。 相対ピッチ量計算において発生する倍ピッチ抽出誤りの例について説明する図である。 倍ピッチ抽出誤りの発生する1つの分析フレームの周波数特性の例を示す図である。 倍ピッチ抽出誤りが発生する1分析フレームにおけるテンプレート周波数特性との相互相関行列の例について説明する図である。 倍ピッチ抽出誤りが発生する1分析フレームにおける1つ前の分析フレームの周波数特性との相互相関行列の例について説明する図である。 本発明の一実施例に係る音声解析装置における相対ピッチ量計算部の処理シーケンスを説明するフローチャートを示す図である。 相対ピッチ量計算部の処理によって生成される相対ピッチ変化量データの例について説明する図である。 本発明の一実施例に係る音声解析装置の処理シーケンスを説明するフローチャートを示す図である。
符号の説明
11 音声解析装置
31 入力部
32 韻律識別部
33 音声認識部
34 結果選択部
35 特定単語記憶部
36 出力部
51 入力部
52 音響分析部
53 識別部
54 パラメータ記憶部
55 出力部
61 周波数特性分析部
62 相対ピッチ変化量計算部

Claims (19)

  1. 音声情報の韻律的特徴を解析して韻律識別結果を出力する音声解析装置であり、
    音声情報の入力を行う入力部と、
    前記入力部から入力する音声情報に対して時系列に設定される分析フレーム各々の周波数特性を解析し、各分析フレームの周波数特性の変化情報としての相対ピッチ変化量を算出する音響分析部と、
    前記音響分析部の生成した相対ピッチ変化量に基づく音声識別処理を実行する識別部を有し、
    前記音響分析部は、
    現行分析フレームの周波数特性と、予め設定されたテンプレート周波数特性との間の相対ピッチ差である現行テンプレート相対ピッチ差を求め、
    前記現行分析フレームに時間的に先行する先行フレームの周波数特性と、前記テンプレート周波数特性との間の相対ピッチ差である先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下であるか否かを判定し、
    閾値以下でない場合、前記現行分析フレームの周波数特性と、前記先行フレームの周波数特性との間の相対ピッチ差である隣接相対ピッチ差を求め、
    該隣接相対ピッチ差が予め設定されたマージン値以下である場合、前記現行テンプレート相対ピッチ差を1オクターブ分加算または減算する補正処理を実行して現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出する構成であることを特徴とする音声解析装置。
  2. 前記音響分析部は、
    前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下である場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出する構成であることを特徴とする請求項1に記載の音声解析装置。
  3. 前記音響分析部は、
    前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下でなく、かつ、前記隣接相対ピッチ差が予め設定されたマージン値以下でない場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出する構成であることを特徴とする請求項1に記載の音声解析装置。
  4. 前記音響分析部は、
    相対ピッチ差を算出する2つの周波数特性の関係を定義する相互相関行列を算出し、相互相関行列の構成データの値のピーク位置を結ぶ稜線の前記相互相関行列の主対角線からのシフト量に相当する値を相対ピッチ差として算出する構成であることを特徴とする請求項1〜3いずれかに記載の音声解析装置。
  5. 前記音響分析部は、
    前記周波数特性情報を対数周波数軸上で表現した周波数特性情報を生成し、
    前記閾値をT、前記マージン値をδとした場合、
    T=log(2)−δ
    上記式によって定義される閾値、およびマージン値を適用した処理を実行する構成であることを特徴とする請求項1〜4いずれかに記載の音声解析装置。
  6. 前記識別部は、
    予め記憶部に格納された韻律識別単位辞書に相当するパラメータと、前記音響分析部の生成する相対ピッチ変化量データとを比較して音声識別処理を実行する構成であることを特徴とする請求項1〜5いずれかに記載の音声解析装置。
  7. 前記識別部は、
    DP(Dynamic Programming)マッチング、またはニューラル・ネットワーク、またはHMM(隠れマルコフモデル)のいずれかを適用した処理により音声識別処理を実行する構成であることを特徴とする請求項6に記載の音声解析装置。
  8. 前記音声解析装置は、さらに、
    前記入力部からの入力音声データに対応したテキスト情報を音声認識結果として出力する音声認識部と、
    前記識別部の識別結果と、前記音声認識部の識別結果を適用して音声認識結果を出力する結果選択部と、
    を有する構成であることを特徴とする請求項1〜7いずれかに記載の音声解析装置。
  9. 前記結果選択部は、
    前記音声認識部における音声認識結果と特定単語記憶部に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に、前記識別部において識別された韻律識別結果を付与して出力し、
    前記音声認識結果が特定単語と一致しない場合は、音声認識結果をそのまま出力する構成であることを特徴とする請求項8に記載の音声解析装置。
  10. 音声解析装置において、音声情報の韻律的特徴を解析して韻律識別結果を出力する音声解析方法であり、
    入力部が、音声情報の入力を行う入力ステップと、
    音響分析部が、前記入力部から入力する音声情報に対して時系列に設定される分析フレーム各々の周波数特性を解析し、各分析フレームの周波数特性の変化情報としての相対ピッチ変化量を算出する音響分析ステップと、
    識別部が、前記音響分析部の生成した相対ピッチ変化量に基づく音声識別処理を実行する識別ステップを有し、
    前記音響分析ステップは、
    現行分析フレームの周波数特性と、予め設定されたテンプレート周波数特性との間の相対ピッチ差である現行テンプレート相対ピッチ差を求め、
    前記現行分析フレームに時間的に先行する先行フレームの周波数特性と、前記テンプレート周波数特性との間の相対ピッチ差である先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下であるか否かを判定し、
    閾値以下でない場合、前記現行分析フレームの周波数特性と、前記先行フレームの周波数特性との間の相対ピッチ差である隣接相対ピッチ差を求め、
    該隣接相対ピッチ差が予め設定されたマージン値以下である場合、前記現行テンプレート相対ピッチ差を1オクターブ分加算または減算する補正処理を実行して現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出するステップであることを特徴とする音声解析方法。
  11. 前記音響分析ステップは、
    前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下である場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出するステップであることを特徴とする請求項10に記載の音声解析方法。
  12. 前記音響分析ステップは、
    前記先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下でなく、かつ、前記隣接相対ピッチ差が予め設定されたマージン値以下でない場合は、前記現行テンプレート相対ピッチ差を現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出するステップであることを特徴とする請求項10に記載の音声解析方法。
  13. 前記音響分析ステップは、
    相対ピッチ差を算出する2つの周波数特性の関係を定義する相互相関行列を算出し、相互相関行列の構成データの値のピーク位置を結ぶ稜線の前記相互相関行列の主対角線からのシフト量に相当する値を相対ピッチ差として算出するステップであることを特徴とする請求項10〜12いずれかに記載の音声解析方法。
  14. 前記音響分析ステップは、
    前記周波数特性情報を対数周波数軸上で表現した周波数特性情報を生成し、
    前記閾値をT、前記マージン値をδとした場合、
    T=log(2)−δ
    上記式によって定義される閾値、およびマージン値を適用した処理を実行するステップであることを特徴とする請求項10〜13いずれかに記載の音声解析方法。
  15. 前記識別ステップは、
    予め記憶部に格納された韻律識別単位辞書に相当するパラメータと、前記音響分析部の生成する相対ピッチ変化量データとを比較して音声識別処理を実行するステップであることを特徴とする請求項10〜14いずれかに記載の音声解析方法。
  16. 前記識別ステップは、
    DP(Dynamic Programming)マッチング、またはニューラル・ネットワーク、またはHMM(隠れマルコフモデル)のいずれかを適用した処理により音声識別処理を実行するステップであることを特徴とする請求項15に記載の音声解析方法。
  17. 前記音声解析方法は、さらに、
    音声認識部が、前記入力部からの入力音声データに対応したテキスト情報を音声認識結果として出力する音声認識ステップと、
    結果選択部が、前記識別部の識別結果と、前記音声認識部の識別結果を適用して音声認識結果を出力する結果選択ステップと、
    を有することを特徴とする請求項10〜16いずれかに記載の音声解析方法。
  18. 前記結果選択ステップは、
    前記音声認識部における音声認識結果と特定単語記憶部に貯えられている特定単語との比較を行ない、音声認識結果が特定単語と一致する場合には、音声認識結果に、前記識別部において識別された韻律識別結果を付与して出力し、
    前記音声認識結果が特定単語と一致しない場合は、音声認識結果をそのまま出力するステップであることを特徴とする請求項17に記載の音声解析方法。
  19. 音声解析装置において、音声情報の韻律的特徴を解析して韻律識別結果を出力させるコンピュータ・プログラムであり、
    前記音声解析装置に、
    声情報の入力を行わせる入力ステップと、
    入力する音声情報に対して時系列に設定される分析フレーム各々の周波数特性を解析させて、各分析フレームの周波数特性の変化情報としての相対ピッチ変化量を算出させる音響分析ステップと、
    前記音響分析ステップにおいて生成した相対ピッチ変化量に基づく音声識別処理を実行させる識別ステップを実行させ、
    前記音響分析ステップにおいては、
    現行分析フレームの周波数特性と、予め設定されたテンプレート周波数特性との間の相対ピッチ差である現行テンプレート相対ピッチ差を求めさせ、
    前記現行分析フレームに時間的に先行する先行フレームの周波数特性と、前記テンプレート周波数特性との間の相対ピッチ差である先行テンプレート相対ピッチ差と、前記現行テンプレート相対ピッチ差との差分絶対値が予め定めた閾値以下であるか否かを判定させ、
    閾値以下でない場合、前記現行分析フレームの周波数特性と、前記先行フレームの周波数特性との間の相対ピッチ差である隣接相対ピッチ差を求めさせ、
    該隣接相対ピッチ差が予め設定されたマージン値以下である場合、前記現行テンプレート相対ピッチ差を1オクターブ分加算または減算する補正処理を実行して現行分析フレームの相対ピッチ差として、該相対ピッチ差を適用して前記相対ピッチ変化量を算出させることを特徴とするコンピュータ・プログラム。
JP2007193931A 2007-07-25 2007-07-25 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム Expired - Fee Related JP4882899B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007193931A JP4882899B2 (ja) 2007-07-25 2007-07-25 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US12/176,739 US8165873B2 (en) 2007-07-25 2008-07-21 Speech analysis apparatus, speech analysis method and computer program
CN2008101350647A CN101373593B (zh) 2007-07-25 2008-07-25 语音分析设备和语音分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007193931A JP4882899B2 (ja) 2007-07-25 2007-07-25 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2009031452A JP2009031452A (ja) 2009-02-12
JP4882899B2 true JP4882899B2 (ja) 2012-02-22

Family

ID=40296148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007193931A Expired - Fee Related JP4882899B2 (ja) 2007-07-25 2007-07-25 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム

Country Status (3)

Country Link
US (1) US8165873B2 (ja)
JP (1) JP4882899B2 (ja)
CN (1) CN101373593B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US9129605B2 (en) 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
CN102842307A (zh) * 2012-08-17 2012-12-26 鸿富锦精密工业(深圳)有限公司 利用语音控制的电子装置及其语音控制方法
JP2016061970A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
US9548067B2 (en) 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
CN106340295B (zh) * 2015-07-06 2019-10-22 无锡天脉聚源传媒科技有限公司 一种语音识别结果的接受方法及装置
CN105866011B (zh) * 2016-03-31 2018-10-26 艾康生物技术(杭州)有限公司 脉冲基线值计算方法及血球分析仪的粒子计数方法
CN109903751B (zh) * 2017-12-08 2023-07-07 阿里巴巴集团控股有限公司 关键词确认方法和装置
RU2711153C2 (ru) 2018-05-23 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя
CN111145778B (zh) * 2019-11-28 2023-04-04 科大讯飞股份有限公司 音频数据的处理方法、装置、电子设备及计算机存储介质

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3603738A (en) * 1969-07-07 1971-09-07 Philco Ford Corp Time-domain pitch detector and circuits for extracting a signal representative of pitch-pulse spacing regularity in a speech wave
US3978287A (en) * 1974-12-11 1976-08-31 Nasa Real time analysis of voiced sounds
US4477925A (en) * 1981-12-11 1984-10-16 Ncr Corporation Clipped speech-linear predictive coding speech processor
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
CA1219079A (en) * 1983-06-27 1987-03-10 Tetsu Taguchi Multi-pulse type vocoder
JPH0754440B2 (ja) * 1986-06-09 1995-06-07 日本電気株式会社 音声分析合成装置
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
JPS6432300A (en) * 1987-07-28 1989-02-02 Nec Corp Pitch cycle extraction system and apparatus
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
JPH0466999A (ja) * 1990-07-04 1992-03-03 Sharp Corp 文節境界検出装置
JP2940835B2 (ja) * 1991-03-18 1999-08-25 日本電信電話株式会社 ピッチ周波数差分特徴量抽出法
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
DE69614799T2 (de) * 1995-05-10 2002-06-13 Koninklijke Philips Electronics N.V., Eindhoven Übertragungssystem und -verfahren für die sprachkodierung mit verbesserter detektion der grundfrequenz
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5864795A (en) * 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
CN1163870C (zh) * 1996-08-02 2004-08-25 松下电器产业株式会社 声音编码装置和方法,声音译码装置,以及声音译码方法
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
CA2249792C (en) * 1997-10-03 2009-04-07 Matsushita Electric Industrial Co. Ltd. Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus
US6219635B1 (en) * 1997-11-25 2001-04-17 Douglas L. Coulter Instantaneous detection of human speech pitch pulses
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
CN1136538C (zh) * 1999-05-21 2004-01-28 松下电器产业株式会社 语音识别用的输入语音音程标准化装置
US6199036B1 (en) * 1999-08-25 2001-03-06 Nortel Networks Limited Tone detection using pitch period
AU2001260162A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
AU2001273904A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Estimating the pitch of a speech signal using a binary signal
JP2003530605A (ja) * 2000-04-06 2003-10-14 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) 音声信号におけるピッチ推定
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US20030163304A1 (en) * 2002-02-28 2003-08-28 Fisseha Mekuria Error concealment for voice transmission system
JP2003295880A (ja) * 2002-03-28 2003-10-15 Fujitsu Ltd 録音音声と合成音声を接続する音声合成システム
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
US7251597B2 (en) * 2002-12-27 2007-07-31 International Business Machines Corporation Method for tracking a pitch signal
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US20050086052A1 (en) * 2003-10-16 2005-04-21 Hsuan-Huei Shih Humming transcription system and methodology
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US8150683B2 (en) * 2003-11-04 2012-04-03 Stmicroelectronics Asia Pacific Pte., Ltd. Apparatus, method, and computer program for comparing audio signals
EP1605439B1 (en) * 2004-06-04 2007-06-27 Honda Research Institute Europe GmbH Unified treatment of resolved and unresolved harmonics
JP2006084664A (ja) * 2004-09-15 2006-03-30 Denso Corp 音声認識装置および音声認識プログラム
US7788091B2 (en) * 2004-09-22 2010-08-31 Texas Instruments Incorporated Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs
JP2006161370A (ja) 2004-12-06 2006-06-22 Panahome Corp 外壁構造
EP1686561B1 (en) * 2005-01-28 2012-01-04 Honda Research Institute Europe GmbH Determination of a common fundamental frequency of harmonic signals
CN1848240B (zh) * 2005-04-12 2011-12-21 佳能株式会社 基于离散对数傅立叶变换的基音检测方法、设备和介质
JP2006325780A (ja) 2005-05-25 2006-12-07 Pentax Corp 超音波内視鏡の先端部
DE602006015712D1 (de) * 2006-03-20 2010-09-02 Mindspeed Tech Inc Tonhöhen-track-glättung in offener schleife
US20080120094A1 (en) * 2006-11-17 2008-05-22 Nokia Corporation Seamless automatic speech recognition transfer
EP1973101B1 (en) * 2007-03-23 2010-02-24 Honda Research Institute Europe GmbH Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
US7674970B2 (en) * 2007-05-17 2010-03-09 Brian Siu-Fung Ma Multifunctional digital music display device
WO2011004579A1 (ja) * 2009-07-06 2011-01-13 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法

Also Published As

Publication number Publication date
US8165873B2 (en) 2012-04-24
CN101373593A (zh) 2009-02-25
JP2009031452A (ja) 2009-02-12
CN101373593B (zh) 2011-12-14
US20090030690A1 (en) 2009-01-29

Similar Documents

Publication Publication Date Title
JP4882899B2 (ja) 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP4264841B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20190019500A1 (en) Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
CN101983402B (zh) 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Eringis et al. Improving speech recognition rate through analysis parameters
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
CN101968958B (zh) 一种音频数据的比较方法和装置
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
JP3701850B2 (ja) 音声言語の韻律表示装置および記録媒体
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
KR20080018658A (ko) 사용자 선택구간에 대한 음성비교 시스템
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Slaney et al. Pitch-gesture modeling using subband autocorrelation change detection.
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置
JP2012137580A (ja) 音声認識装置,および音声認識プログラム
CN120452421A (zh) 一种英语发音教学系统及方法
Greibus et al. Segmentation analysis using synthetic speech signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees