[go: up one dir, main page]

JP4171323B2 - Recognition error correction method, apparatus, and program - Google Patents

Recognition error correction method, apparatus, and program Download PDF

Info

Publication number
JP4171323B2
JP4171323B2 JP2003051645A JP2003051645A JP4171323B2 JP 4171323 B2 JP4171323 B2 JP 4171323B2 JP 2003051645 A JP2003051645 A JP 2003051645A JP 2003051645 A JP2003051645 A JP 2003051645A JP 4171323 B2 JP4171323 B2 JP 4171323B2
Authority
JP
Japan
Prior art keywords
error correction
speech recognition
proper noun
proper
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003051645A
Other languages
Japanese (ja)
Other versions
JP2004258531A (en
Inventor
隆明 長谷川
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003051645A priority Critical patent/JP4171323B2/en
Publication of JP2004258531A publication Critical patent/JP2004258531A/en
Application granted granted Critical
Publication of JP4171323B2 publication Critical patent/JP4171323B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、録画・録音された音声ドキュメントに対して音声認識を適用することにより文字化を行う音声認識装置に関する。
【0002】
【従来の技術】
増大するマルチメディアコンテンツの高度な利用を目的として、音声認識などのメディア認識技術の研究開発が行われている。音声認識装置はコンテンツ中の発声部分を文字化する装置であり、文字化が行われた後はさまざまな処理が可能となることから、重要な要素として位置づけられている。現在の音声認識装置においては、その性能を引き出すために、認識対象に対する適応が不可欠である。これには、認識辞書への単語の登録や、発話されやすい単語の組み合わせを言語モデルとして組み込むことが含まれる。しかしながら、これらをむやみに増やすことは、処理速度の低下だけではなく、認識精度の低下を招く。よって、認識辞書へ登録すべき単語は、認識対象と同等の性質を持つと思われる文書集合などから慎重に選択する必要がある。
【0003】
【非特許文献1】
“Dynamic Programming Algorithm (DPA) for edit-Distance”,
http://www.csse.monash.edu.au/-lloyd/tildeAlgDS/Dynamic/Edit/
【0004】
【発明が解決しようとする課題】
上記に述べたように、認識辞書へ登録すべき単語は慎重に選択する必要があり、実際の認識対象に含まれうる単語を100%カバーすることは不可能である。特に、新語や、人名、地名、製品名といった固有名詞については数多くの単語が出現する可能性があり、認識対象外となること(Out of Vocabulary問題:OOV問題)が起こる。現状の音声認識装置においては、認識辞書に登録されていない単語は絶対に認識されることはないため、認識精度の低下につながる。
【0005】
本発明の目的は、このようなOOV問題に起因する認識誤りのうち、固有名詞に関連する認識誤りを訂正することにより、音声認識の精度向上を図った認識誤り訂正方法、装置、およびプログラムを提供することである。
【0006】
【課題を解決するための手段】
上記の目的を達成するために、本発明の認識誤り訂正装置は、
音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識手段と、
前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加する手段と、
前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出する手段と、
品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出する手段と、
該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出する手段と、
それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行う手段と
を有する。
【0007】
通常の音声認識装置において認識精度低下の原因のひとつであるOOV問題(Out Of Vocabulary問題)のうち、例えば固有名詞に関わる認識誤りを訂正することにより、認識精度を向上させることが可能となる。
【0008】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0009】
図1に示すように、本発明の一実施形態の認識誤り訂正装置は入力部100と音声認識部200と音声認識誤り訂正部300と音声認識誤り訂正条件テーブル310と固有名詞区間同定部400と音声認識誤り訂正候補抽出部500と関連情報検索キー単語抽出条件テーブル510と関連情報検索部600と音声認識誤り訂正候補抽出条件テーブル610と出力部700から構成される。
【0010】
入力部100は音声ドキュメントを入力する。音声認識部200は入力された音声ドキュメントを音声認識し、その結果を信頼度とともに出力する。音声認識誤り訂正部300は音声認識結果を入力し、あらかじめ定められた音声認識誤り訂正条件にしたがって、音声認識誤りを訂正する。音声認識誤り訂正条件テーブル310は音声認識誤り訂正条件を予め格納している。固有名詞区間同定部400は入力された単語列から、そこに含まれる固有名詞区間の同定を行う。音声認識誤り訂正候補抽出部500は音声認識誤り訂正候補である固有名詞区間を関連情報より抽出する。関連情報検索キー単語抽出条件テーブル510は関連情報検索キー単語抽出条件を格納している。関連情報検索部600はあらかじめ定められた関連情報検索条件にしたがって外部データベースにおける関連文書を検索する。音声認識誤り訂正候補抽出条件テーブル610は、あらかじめ定められた音声認識誤り訂正候補抽出条件を格納している。
【0011】
なお、各処理部100、200、300、400、500、600、700はCPU等の制御手段で実行される。各テーブル310、510、610、は記憶装置に記憶される。また、各処理部からの出力を一時的に格納する記憶装置(不図示)も設けられている。
【0012】
以下、具体例を用いて、本実施形態の音声認識誤り訂正装置の動作を説明する。
【0013】
図2は、入力部100から入力され、音声認識部200により文字化された音声認識結果の一部を示している。ここで実際の発声は、「ITベンチャーの中谷製作所の田中祐市部長は、新プロジェクトのシリウス・ダッシュの概要を発表した。」であったとするが、音声認識の誤りのために、「ITベンチャーのなかったり製作所の田中唯一部長は、新プロジェクトのシリウス・ダッシュの概要を発表した。」のように文字化されたものとする。
【0014】
図2に例示する音声認識部200の出力は、XML(eXtensible Markup Language)言語によって構造化されている。すなわち、音声ドキュメントdocは、発声単位であるphraseの集合として表現される。各発話単位は、そこに含まれる単語wordの集合として表現される。各発話単位、および、そこに含まれる各単語に対しては、その開始時刻と終了時刻がそれぞれbegin、endという属性を用いて記録される。さらに、各単語に対しては、音声認識により文字化された単語表記がXML要素の内容部分に記録されるだけでなく、該単語の品詞情報、読み情報と音声認識の信頼度がそれぞれpos、reading、confという属性を用いて記録される。なお、図2に例示した音声認識結果は、本発明の説明に必要な概念を例示するためのものであり、XMLのタグ構造も含めて、このデータ形式に限る必要はない。また、音声認識部200としては、このような情報を出力可能な任意の音声認識装置を適用することが可能である。
【0015】
図3は、あらかじめ設定する音声認識誤り訂正条件を格納する音声認識誤り訂正条件テーブル310のエントリ例を示す。図3に示す例においては、音声認識の信頼度スコアと後述する固有名詞クラスに関する複合条件を記述している。条件の適用の仕方については後述する。なお、これらの条件は、音声認識部200に適用する音声認識装置に応じて経験的に設定する。
【0016】
音声認識誤り訂正部300は、図2に示すような音声認識部200からの出力を入力し、図3に示すような、あらかじめ定められた音声認識誤り訂正条件に基づいて、音声認識結果に含まれる音声認識誤りの訂正を行う。音声認識誤り訂正部300は、まず、入力された音声認識結果を固有名詞区間同定部400へと転送する。固有名詞区間同定部400は、図2に示すような入力された音声認識結果に対し、固有名詞が発声されたと判断される区間を同定し、図4に例示するようなデータ形式を持つ処理結果を音声認識誤り訂正部300へと返却する。
【0017】
図4は、図2の音声認識結果に対する固有名詞区間同定部400の処理結果を示す。図4のデータは、図2に例示する音声認識結果と同様のXML形式であるが、固有名詞区間同定の結果がwordタグ中のne−classという属性により付加されている。すなわち、ne−classという属性の属性値がnil以外のものは、固有名詞区間に含まれることを示しており、nil以外の属性値は、人名、地名といった固有名詞のクラスを示す。図4において、personという属性値は人名を、organizationという属性値は組織名を示すものとする。
【0018】
なお、本発明においては、固有名詞区間同定部400の具体的構成については規定しないが、図2に示すようなXML形式による構造化されたデータ、文字列としてのテキストデータを処理可能な入力インタフェースを備えており、固有名詞区間同定の処理は、例えば、特許文献1に示される方法・装置により実現されることを想定する。また、図4に例示した固有名詞区間同定結果は、本発明の説明に必要な概念を例示するためのものであり、XMLのタグ構造も含めて、このデータ形式に限る必要はない。
【0019】
図4に示すような固有名詞区間同定の結果が付加された音声認識結果は音声認識誤り訂正部300へ返却される。
【0020】
音声認識誤り訂正部300は、固有名詞区間同定の結果が付加された入力された音声認識結果と、音声認識誤り訂正条件テーブル310に格納された音声認識誤り訂正条件を照合し、音声認識の誤りが含まれている可能性がある区間(低い音声認識信頼度を持つ単語を含む)、かつ、それが訂正されうる区間(何らかの固有名詞クラスを有する固有名詞区間であると同定されている)を抽出する。ここで、抽出される区間は、「固有名詞クラスが音声認識誤り訂正条件に指定された条件を満たす単語」からなる最長の部分単語列であって、「該部分単語列中に含まれる単語に対する認識信頼度の中で最小のものが音声認識誤り訂正条件に指定されている条件を満たす」ものとする。
【0021】
図4の固有名詞区間同定の結果が付加された音声認識結果に対して、図3の音声認識誤り訂正条件を照合させると、音声認識誤りを訂正するべき区間として、次の二つを得る。ここで、/は単語境界を表し、カッコ内は該区間が持つ固有名詞クラスを示す。
・[訂正対象1] な/かったり/製作所(organization)
・[訂正対象2] 田中/唯一/部長(person)
音声認識誤り訂正部300は、次に、図4の固有名詞区間同定の結果が付加された音声認識結果を音声認識誤り訂正候補抽出部500へと送信する。
【0022】
音声認識誤り訂正候補抽出部500は、関連情報検索キー単語抽出条件テーブル510にあらかじめ格納された関連情報検索キー単語抽出条件にしたがって、図4に示すような固有名詞区間同定の結果が付加された音声認識結果から、関連情報検索部600によって外部データベースから関連文書検索を行うための検索条件となる単語集合を抽出する。次に、これらの単語集合を検索条件として、あらかじめ音声認識誤り訂正候補抽出条件テーブル610に格納された音声認識誤り訂正候補抽出条件にしたがって、関連情報検索部600により外部データベースから関連文書を検索し、音声認識誤り訂正候補の固有名詞区間を抽出する。ここで、検索結果の文書に含まれる固有名詞区間を同定するためには、固有名詞区間同定部400を呼び出す。抽出された音声認識誤り訂正候補は、音声認識誤り訂正候補抽出部500へと返却する。
【0023】
図5は、関連文書検索キー単語抽出条件テーブル510におけるエントリ例を示す。図5に示す例は、品詞と認識信頼度に関する三通りの条件が設定されている。図5の例に示すように、音声認識の信頼度を考慮することにより、正しく認識されている可能性の高い単語を抽出する。また、名詞や動詞などの品詞を有する単語を抽出することにより、関連情報検索部600によって、関連する文書を外部データベースから検索する際にキーワードとなりうる単語を抽出する。なお、これらの条件は、音声認識部200に適用する音声認識装置に応じて経験的に設定する。
【0024】
図5に示す関連情報検索キー単語抽出条件にしたがって、図4に示す固有名詞区間同定の結果が付加された音声認識結果から、関連情報検索部600によって外部データベースから関連文書検索を行うための検索条件となる単語集合を抽出すると、以下のような単語集合が得られる。
・[検索条件単語集合](ベンチャー、プロジェクト、シリウス、ダッシュ)
図6は、関連情報検索条件テーブル510におけるエントリ例を示す。図6に示すように関連情報検索条件は、3つのエントリからなる。第1のエントリは、関連情報検索部600が検索対象とすべき外部データベースの識別子である。図6の例では、インターネット上に存在するニュース検索サイトfoo−news.comが指定されている。第2のエントリは、音声認識誤り訂正候補を抽出する対象となる文書の最大数を指定する。通常のインターネットのサイト検索やデータベース検索においては、検索要求に対する適合度順に複数の文書が返却されるため、この上位から指定された数の文書を対象とする。図6の例では、上位の二件の文書のみを拡張単語の対象とすることが指定されている。第3のエントリは、実際に音声認識誤り訂正候補として抽出する固有名詞区間の最大数を指定する。図6の例では、最大5つの固有名詞区間を抽出することが指定されている。
【0025】
上記に抽出した単語集合を検索条件とし、図6に示す関連情報検索条件によって、関連情報検索部600による関連文書検索を行った結果、次に示すような内容を持つ関連文書1件が抽出されるものとする。
・[関連文書内容]
ベンチャー業界注目の新規プロジェクト「シリウス・ダッシュ」がいよいよスタートする。参加企業を代表する田中祐市部長(中谷製作所)、鈴木一朗取締役(株式会社ダッシュ)の両氏は、昨夜開いた記者会見の会場で、その計画の概要を公表した。
【0026】
この文書内容は、関連情報検索部600から音声認識誤り訂正候補抽出部500に返却される。
【0027】
音声認識誤り訂正候補抽出部500は、上記のような文書内容を固有名詞区間同定部400を起動することにより、文書中に含まれる固有名詞区間を得る。上記の例においては、以下の5つの固有名詞区間(/の後は読み、カッコ内は固有名詞クラス)が得られるものとする。
・[訂正候補a] シリウス/しりうす(organization)
・[訂正候補b] 田中祐市部長/たなか ゆういち ぶちょう(person)
・[訂正候補c] 中谷製作所/なかたに せいさくしょ(organization)
・[訂正候補d] 鈴木一朗取締役/すずき いちろう とりしまりやく(person)
・[訂正候補e] 株式会社シリウス/かぶしきがいしゃ しりうす(organization)
上記のごとく得られた音声認識誤り訂正候補は、音声認識誤り訂正候補抽出部500から音声認識誤り訂正部300へと送信される。音声認識誤り訂正部300は,[訂正対象1]、[訂正対象2]のような誤り訂正対象となる固有名詞区間と、[訂正候補a−e]のような誤り訂正候補群とのマッチングを行い、誤り訂正を試みる。
【0028】
各訂正対象に対する訂正候補群とのマッチング手順は、以下のように行う。
・[ステップ1] 該訂正対象と同じ固有名詞クラスを持つ訂正候補を訂正候補群から選択する
・[ステップ2] 該訂正対象と選択された訂正候補それぞれとのマッチ度を計算する
・[ステップ3] 該訂正対象に対して最大のマッチ度を与える訂正候補を選択する
上記の手順において、ステップ1とステップ3は自明であるので、ステップ2について説明する。
【0029】
訂正対象と訂正候補のマッチ度の計算としては、例えば、「読み」のひらがな文字列の類似度を用いることができる。本発明で対象とするのは音声認識の誤りであるので、訂正対象である音声認識の誤り箇所の読みは、本来発声されたであろう正解の読みと類似していることが想定されるため、この方法には妥当性がある。
【0030】
文字列間の類似度の計算方法としては様々なものが提案されているが、代表的な手法として「編集距離」を用いる方法があり、動的計画法を用いた効率のよい処理アルゴリズム(非特許文献1)も確立しているので、例えばこの手法を用いればよい。また、この方法においては、文字列を「編集」する際のコストを定義することができるが、あらかじめ音声認識誤りの傾向が分かっていれば、これをコストに反映させておくことにより、適切に類似度を計算することができる。
【0031】
上記の例においては、訂正対象1の「なかったり製作所」に対しては、固有名詞クラスがorganizationで一致していて、読みがこれと類似していると計算される「中谷製作所」が訂正候補として選択される。また、訂正対象2の「田中唯一部長」に対しては、同様にして「田中祐市部長」が訂正候補として選択される。
【0032】
このようにして求められた訂正候補は、図4に示すような音声認識結果へと反映される。
【0033】
図7は、図4に示す固有名詞区間同定結果を含む音声認識結果に対して、上記に示した誤り訂正候補により誤り訂正を行った後の音声認識結果の例を示す。なお、上記のごとく誤り訂正された部分については、必要に応じ、音声認識の信頼度を適当な定数(図7においては500としている)と置き換えればよい。また、誤りの訂正によって、上記の例のごとく単語の数が変わる場合があり、begin、endの属性によって記録されている発声時間の情報を調整する必要がある。この段階において、正確な発声時間を補うことは不可能であるが、訂正の対象となった区間の始まりと終了の時間が初期の音声認識結果の時間情報と矛盾しないような適当な時間をとるようにすればよい。例えば、図7における「中谷」「製作所」の例では、「中谷」の開始時間を初期の音声認識結果である「な」の開始時間とし、終了時間を初期の音声認識結果である「かったり」の終了時間としている。
【0034】
このような誤り訂正された音声認識結果は、音声認識誤り訂正部300から出力部700へと送信される。
【0035】
図8は特願2002-355284号に記載されている、固有名詞区間同定部400の処理を示す流れ図ある。音声データが入力されると(ステップ801)、大語彙連続音声認識を行い予め指定した個数の形態素の並びの候補を出力する(ステップ402)。始端と終端を含めて隣接する形態素の時刻が連続でない、つまりある形態素の終了時刻とつきの形態素の開始時刻が一致しない場合は、連続でない時間帯、つまりある形態素の終了時刻を開始時刻とし、次の形態素の開始時刻を終了時刻とする時刻情報を付加した読点等の形態素情報を挿入する(ステップ803、804)。また、信頼度スコアや形態素情報がある条件を満たす場合、形態素を元雄形態素情報を保持して別の形態素に置換変形する(ステップ805、806)。例えば、また、信頼度スコアが予め設定されている閾値より小さい場合に、表記、読み、品詞の先頭にそれぞれ「ε;」を付与する。複数候補の形態素の並びから、各形態素が有する時刻情報に基づいて単語グラフを作成する(ステップ807)。単語グラフは、各ノードが時刻情報を持つ形態素であり、ノード間のリンクはある時刻において形態素が隣接する形態素と接続可能であることを示す。単語グラフの時刻を先頭から進めていき、単語グラフの各時刻で終わる形態素候補が存在する限り(ステップ808)、後続の1形態素について想定されるすべての固有表現クラスが付与された場合を仮定して(ステップ809)、すでに学習された言語モデル、例えば固有表現付き単語bigramの出現頻度に基づいて各固有表現クラス付きの形態素が接続した場合の対数確率を計算する(ステップ810)。例えば、直前の固有表現クラスNC-1と直前の形態素w-1が与えられたときに現在の固有表現クラスNCが選択される確率P(NC|NC-1,w-1)と現在と直前の固有表現クラスが与えられたときに、現在の固有表現クラスの中で最初の単語wfirstが生成される確率P(wfirst|NC-1,w-1)と、直前の形態素と現在の固有表現クラスが与えられたときに2番目以降の形態素が生成される確率P(w|w-1,NC)を下記の計算式により固有表現付きの単語bigram頻度Cから計算する。文末まで以上のステップを繰り返す。
【0036】
【数1】

Figure 0004171323
このとき置換変形されている形態素は表記、読み、品詞とも「ε」を用いて対数確率を計算する。その時刻において、それまでの累積の対数確率が最大となる固有表現クラス付き形態素を選択し、経路を保持する(ステップ811)。ここで、「経路を保持する」のは、後の処理で文末から後ろ向きに局所的に最大の対数確率を持つ経路をたどれるようにしておくためである。単語グラフのノードの時刻を進めて(ステップ812)、同様の処理を行う。文末に達したら、今度は文末から最大の対数確率(最尤)を持った経路を選択することにより、選択された経路の各形態素について固有表現クラスを出力する(ステップ213)。置換変形されている形態素は、例えば表記、読み、品詞に含まれる「ε;」を削除するなどして元の形態素に復元して出力する。
【0037】
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0038】
【発明の効果】
以上説明したように、本発明によれば、通常の音声認識装置において認識精度低下の原因のひとつであるOOV問題(Out Of Vocabulary問題)のうち、例えば固有名詞に関わる認識誤りを訂正することにより、認識精度を向上させることが可能となる。また、人名、地名、製品名などの固有名詞を正しく認識することは、例えば、音声認識を適用した音声ドキュメント検索システムの検索精度を向上させることにつながる。
【図面の簡単な説明】
【図1】本発明の一実施形態の音声認識装置のブロック図である。
【図2】音声認識部200により文字化された音声認識結果の一例を示す図である。
【図3】音声認識誤り訂正条件を格納する音声認識誤り訂正条件テーブル310のエントリ例を示す図である。
【図4】図2の音声認識結果に対する固有名詞区間同定部400の処理結果を示す図である。
【図5】関連文書検索キー単語抽出条件テーブル510におけるエントリ例を示す図である。
【図6】音声認識誤り訂正候補抽出条件テーブル610におけるエントリ例を示す図である。
【図7】図4に示す固有名詞区間同定結果を含む音声認識結果に対して誤り訂正候補により誤り訂正を行った後の音声認識結果の例を示す図である。
【図8】固有名詞区間同定部400の処理例のフローチャートである。
【符号の説明】
100 入力部
200 音声認識部
300 音声認識誤り訂正部
310 音声認識誤り訂正条件テーブル
400 固有名詞区間同定部
500 音声認識誤り訂正候補抽出部
510 関連情報検索キー単語抽出条件テーブル
600 関連情報検索部
610 音声認識誤り訂正候補抽出条件テーブル
700 関連情報検索キー単語抽出条件テーブル
801〜812 ステップ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition apparatus that performs characterization by applying speech recognition to a recorded and recorded speech document.
[0002]
[Prior art]
Research and development of media recognition technology such as speech recognition is being conducted for the purpose of advanced use of increasing multimedia contents. The voice recognition device is a device that transcribes the utterance part in the content, and since it can perform various processes after the characterization is performed, it is positioned as an important element. In current speech recognition apparatuses, adaptation to the recognition target is indispensable in order to extract the performance. This includes registering words in the recognition dictionary and incorporating word combinations that are likely to be spoken as language models. However, increasing them unnecessarily causes not only a reduction in processing speed but also a reduction in recognition accuracy. Therefore, it is necessary to carefully select a word to be registered in the recognition dictionary from a document set that seems to have the same properties as the recognition target.
[0003]
[Non-Patent Document 1]
“Dynamic Programming Algorithm (DPA) for edit-Distance”,
http://www.csse.monash.edu.au/-lloyd/tildeAlgDS/Dynamic/Edit/
[0004]
[Problems to be solved by the invention]
As described above, it is necessary to carefully select the words to be registered in the recognition dictionary, and it is impossible to cover 100% of words that can be included in the actual recognition target. In particular, a new word, a proper name such as a person name, a place name, and a product name may have a large number of words appearing out of recognition (Out of Vocabulary problem: OOV problem). In the current speech recognition apparatus, words that are not registered in the recognition dictionary are never recognized, leading to a reduction in recognition accuracy.
[0005]
An object of the present invention is to provide a recognition error correction method, apparatus, and program for improving accuracy of speech recognition by correcting a recognition error related to a proper noun among recognition errors due to such an OOV problem. Is to provide.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, the recognition error correction apparatus of the present invention provides:
Speech recognition means for outputting the speech recognition result together with the part of speech information and reliability of the word ;
Means for adding a proper noun class to the proper noun section included in the speech recognition result;
The speech recognition result to which the proper noun class is added is compared with the speech recognition error correction condition that describes the reliability threshold according to the proper noun class, and error correction is performed for proper noun sections whose reliability is lower than the threshold. Means for extracting as a target section;
Means for extracting a word set having a reliability higher than a threshold from the speech recognition result to which the proper noun class is assigned according to the related information search key word extraction condition describing the reliability according to the part of speech ;
Means for extracting a speech recognition error correction candidate as a search condition said word set, and searching a predetermined number following article, proper names section included in said related documents, the proper names of classes,
For each error correction target section, select error correction candidates with a class of the same proper name, it matches with the error correction Target Zone between the selected error correction candidates, the largest matching degree Means for selecting an error correction candidate to be given and performing error correction in the error correction target section.
[0007]
Of the OOV problem (Out Of Vocabulary problem) that is one of the causes of the reduction in recognition accuracy in a normal speech recognition apparatus, for example, it is possible to improve recognition accuracy by correcting a recognition error related to proper nouns.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings.
[0009]
As shown in FIG. 1, a recognition error correction apparatus according to an embodiment of the present invention includes an input unit 100, a speech recognition unit 200, a speech recognition error correction unit 300, a speech recognition error correction condition table 310, and a proper noun section identification unit 400. A speech recognition error correction candidate extraction unit 500, a related information search key word extraction condition table 510, a related information search unit 600, a speech recognition error correction candidate extraction condition table 610, and an output unit 700 are included.
[0010]
The input unit 100 inputs a voice document. The speech recognition unit 200 recognizes the input speech document and outputs the result together with the reliability. The voice recognition error correction unit 300 inputs the voice recognition result, and corrects the voice recognition error according to a predetermined voice recognition error correction condition. The voice recognition error correction condition table 310 stores voice recognition error correction conditions in advance. The proper noun section identifying unit 400 identifies the proper noun section included in the input word string. The speech recognition error correction candidate extraction unit 500 extracts proper noun sections that are speech recognition error correction candidates from the related information. The related information search key word extraction condition table 510 stores related information search key word extraction conditions. The related information search unit 600 searches for related documents in the external database according to predetermined related information search conditions. The speech recognition error correction candidate extraction condition table 610 stores predetermined speech recognition error correction candidate extraction conditions.
[0011]
Each processing unit 100, 200, 300, 400, 500, 600, 700 is executed by a control means such as a CPU. Each table 310, 510, 610 is stored in a storage device. In addition, a storage device (not shown) that temporarily stores the output from each processing unit is also provided.
[0012]
Hereinafter, the operation of the speech recognition error correction apparatus according to the present embodiment will be described using a specific example.
[0013]
FIG. 2 shows a part of the speech recognition result input from the input unit 100 and converted into text by the speech recognition unit 200. The actual utterance here is that Yutaka Tanaka, Director of Nakaya Seisakusho, an IT venture, announced the outline of the new project Sirius Dash. The only director of the factory, Tanaka, announced the outline of the new project Sirius Dash.
[0014]
The output of the speech recognition unit 200 illustrated in FIG. 2 is structured in an XML (eXtensible Markup Language) language. That is, the audio document doc is expressed as a set of phrases that are utterance units. Each utterance unit is expressed as a set of word words included therein. For each utterance unit and each word contained therein, the start time and end time are recorded using the attributes of begin and end, respectively. Furthermore, for each word, not only the word notation that has been transcribed by speech recognition is recorded in the content part of the XML element, but also the part-of-speech information, reading information, and reliability of speech recognition of the word are pos Recording is performed using attributes of reading and conf. Note that the speech recognition result illustrated in FIG. 2 is intended to illustrate the concept necessary for the description of the present invention, and it is not necessary to limit to this data format including the XML tag structure. Further, as the speech recognition unit 200, any speech recognition device that can output such information can be applied.
[0015]
FIG. 3 shows an example of an entry in the speech recognition error correction condition table 310 that stores preset speech recognition error correction conditions. In the example shown in FIG. 3, a composite condition relating to a reliability score for speech recognition and a proper noun class described later is described. How to apply the conditions will be described later. These conditions are set empirically according to the speech recognition device applied to the speech recognition unit 200.
[0016]
The speech recognition error correction unit 300 receives the output from the speech recognition unit 200 as shown in FIG. 2, and is included in the speech recognition result based on predetermined speech recognition error correction conditions as shown in FIG. Corrects voice recognition errors. The speech recognition error correction unit 300 first transfers the input speech recognition result to the proper noun section identification unit 400. The proper noun section identifying unit 400 identifies a section in which it is determined that the proper noun is uttered from the input speech recognition result as shown in FIG. 2, and a processing result having a data format illustrated in FIG. Is returned to the voice recognition error correction unit 300.
[0017]
FIG. 4 shows a processing result of the proper noun section identification unit 400 for the speech recognition result of FIG. The data in FIG. 4 is in the same XML format as the speech recognition result illustrated in FIG. 2, but the result of proper noun section identification is added by the attribute “ne-class” in the word tag. That is, when the attribute value of the attribute ne-class is other than nil, it indicates that it is included in the proper noun section, and the attribute value other than nil indicates a proper noun class such as a person name or place name. In FIG. 4, the attribute value “person” indicates a person name, and the attribute value “organization” indicates an organization name.
[0018]
In the present invention, the specific configuration of the proper noun section identification unit 400 is not defined, but an input interface capable of processing structured data in the XML format as shown in FIG. 2 and text data as a character string. It is assumed that the proper noun section identification process is realized by, for example, the method and apparatus disclosed in Patent Document 1. Further, the proper noun section identification result illustrated in FIG. 4 is for illustrating the concept necessary for the description of the present invention, and it is not necessary to limit to this data format including the XML tag structure.
[0019]
The speech recognition result to which the proper noun section identification result as shown in FIG. 4 is added is returned to the speech recognition error correction unit 300.
[0020]
The speech recognition error correction unit 300 collates the input speech recognition result to which the result of proper noun section identification is added with the speech recognition error correction condition stored in the speech recognition error correction condition table 310, and the speech recognition error (Including words with low speech recognition confidence), and sections that can be corrected (identified as proper noun sections with some proper noun class) Extract. Here, the extracted section is the longest partial word string composed of “words whose proper noun class satisfies the conditions specified in the speech recognition error correction condition”, and “exists for the words included in the partial word string” It is assumed that the minimum recognition reliability satisfies the conditions specified in the speech recognition error correction conditions.
[0021]
When the speech recognition error correction condition of FIG. 3 is collated with the speech recognition result to which the result of proper noun section identification of FIG. 4 is added, the following two are obtained as sections for correcting the speech recognition error. Here, / represents a word boundary, and the parentheses indicate proper noun classes possessed by the section.
・ [Correction object 1] Na / Karitari / Organization
・ [Correction object 2] Tanaka / Unique / Director
Next, the speech recognition error correction unit 300 transmits the speech recognition result to which the proper noun section identification result of FIG. 4 is added to the speech recognition error correction candidate extraction unit 500.
[0022]
The speech recognition error correction candidate extraction unit 500 is added with the result of proper noun section identification as shown in FIG. 4 according to the related information search key word extraction condition stored in the related information search key word extraction condition table 510 in advance. From the speech recognition result, the related information search unit 600 extracts a word set as a search condition for performing a related document search from an external database. Next, using these word sets as search conditions, the related information search unit 600 searches for related documents from an external database according to the voice recognition error correction candidate extraction conditions stored in the voice recognition error correction candidate extraction condition table 610 in advance. The proper noun section of the speech recognition error correction candidate is extracted. Here, in order to identify the proper noun section included in the search result document, the proper noun section identifying unit 400 is called. The extracted speech recognition error correction candidate is returned to the speech recognition error correction candidate extraction unit 500.
[0023]
FIG. 5 shows an example of entries in the related document search key word extraction condition table 510. In the example shown in FIG. 5, three conditions regarding the part of speech and the recognition reliability are set. As shown in the example of FIG. 5, words that are highly likely to be recognized correctly are extracted by considering the reliability of speech recognition. In addition, by extracting words having parts of speech such as nouns and verbs, the related information search unit 600 extracts words that can be keywords when searching related documents from an external database. These conditions are set empirically according to the speech recognition device applied to the speech recognition unit 200.
[0024]
Search for performing related document search from an external database by the related information search unit 600 from the speech recognition result to which the result of proper noun section identification shown in FIG. 4 is added according to the related information search key word extraction condition shown in FIG. When a word set as a condition is extracted, the following word set is obtained.
・ [Search condition word set] (Venture, Project, Sirius, Dash)
FIG. 6 shows an example of entries in the related information search condition table 510. As shown in FIG. 6, the related information search condition includes three entries. The first entry is an identifier of an external database that the related information search unit 600 should search. In the example of FIG. 6, a news search site foo-news. com is specified. The second entry specifies the maximum number of documents from which speech recognition error correction candidates are extracted. In a normal Internet site search or database search, a plurality of documents are returned in the order of suitability for a search request, so the number of documents specified from the top is targeted. In the example of FIG. 6, it is specified that only the top two documents are to be expanded words. The third entry designates the maximum number of proper noun sections that are actually extracted as speech recognition error correction candidates. In the example of FIG. 6, it is specified to extract a maximum of five proper noun sections.
[0025]
As a result of a related document search performed by the related information search unit 600 using the extracted word set as a search condition and the related information search condition shown in FIG. 6, one related document having the following contents is extracted. Shall be.
・ [Related Document Contents]
The new project “Sirius Dash”, which attracts attention from the venture industry, is finally starting. Mr. Yusuke Tanaka (Nakatani Manufacturing Co., Ltd.) representing the participating companies and Director Ichiro Suzuki (Dash Co., Ltd.) announced the outline of the plan at the press conference held last night.
[0026]
This document content is returned from the related information search unit 600 to the speech recognition error correction candidate extraction unit 500.
[0027]
The speech recognition error correction candidate extraction unit 500 activates the proper noun section identifying unit 400 with the document contents as described above, thereby obtaining proper noun sections included in the document. In the above example, the following five proper noun sections (read after / and proper noun class in parentheses) are obtained.
・ [Candidate for correction a] Sirius / organization
・ [Candidate for correction b] Yuichi Tanaka, Director / Yuichi Tanaka
・ [Candidate for correction c] Nakatani Seisakusho / Organization
・ [Candidate for correction d] Director Ichiro Suzuki / Ichiro Suzuki Suzuki (person)
・ [Candidate for correction e] Sirius Co., Ltd./Organization
The speech recognition error correction candidate obtained as described above is transmitted from the speech recognition error correction candidate extraction unit 500 to the speech recognition error correction unit 300. The speech recognition error correction unit 300 performs matching between a proper noun section that is an error correction target such as [correction target 1] and [correction target 2] and an error correction candidate group such as [correction candidates ae]. And try to correct the error.
[0028]
The matching procedure with the correction candidate group for each correction target is performed as follows.
[Step 1] A correction candidate having the same proper noun class as the correction target is selected from the correction candidate group. [Step 2] A degree of matching between the correction target and each of the selected correction candidates is calculated. [Step 3 In the above procedure for selecting a correction candidate that gives the maximum degree of matching for the correction target, Step 1 and Step 3 are self-explanatory, so Step 2 will be described.
[0029]
As the calculation of the degree of matching between the correction target and the correction candidate, for example, the similarity of the “reading” hiragana character string can be used. Since the subject of the present invention is an error in speech recognition, it is assumed that the reading of the erroneous portion of speech recognition to be corrected is similar to the correct answer that would have been originally uttered. This method is valid.
[0030]
Various methods for calculating the similarity between character strings have been proposed, but there is a method that uses "edit distance" as a representative method, and an efficient processing algorithm using non-linear programming (non- Since Patent Document 1) has been established, for example, this method may be used. In this method, the cost of “editing” a character string can be defined, but if the tendency of speech recognition errors is known in advance, it can be appropriately reflected by reflecting this in the cost. Similarity can be calculated.
[0031]
In the above example, “Natani Manufacturing”, which is the correction target 1, is “Nakatani Manufacturing” whose proper noun class matches with organization and is calculated to be similar to this. Selected as. Similarly, “Director of Tanaka City” is selected as a correction candidate for “Director of Tanaka only” who is subject to correction 2.
[0032]
The correction candidates obtained in this way are reflected in the speech recognition result as shown in FIG.
[0033]
FIG. 7 shows an example of the speech recognition result after performing the error correction with the error correction candidate shown above on the speech recognition result including the proper noun section identification result shown in FIG. In addition, for the portion that has been error-corrected as described above, the reliability of speech recognition may be replaced with an appropriate constant (500 in FIG. 7) as necessary. In addition, the number of words may change due to error correction as in the above example, and it is necessary to adjust the utterance time information recorded according to the begin and end attributes. At this stage, it is impossible to compensate for the exact utterance time, but the start and end times of the section subject to correction take an appropriate time that is consistent with the time information of the initial speech recognition result. What should I do? For example, in the example of “Nakatani” and “Manufacturer” in FIG. 7, the start time of “Nakatani” is set as the start time of “N” as the initial voice recognition result, and the end time is set as “Karatari” as the initial voice recognition result. Is the end time.
[0034]
Such error-corrected speech recognition results are transmitted from the speech recognition error correction unit 300 to the output unit 700.
[0035]
FIG. 8 is a flowchart showing the processing of the proper noun section identifying unit 400 described in Japanese Patent Application No. 2002-355284. When speech data is input (step 801), large vocabulary continuous speech recognition is performed, and a pre-designated number of morpheme candidates are output (step 402). If the time of adjacent morphemes including the start and end is not continuous, that is, if the end time of a certain morpheme does not match the start time of the attached morpheme, the end time of the non-consecutive, that is, the end time of a certain morpheme is set as the start time. Morphological information such as a punctuation mark to which time information with the start time of the morpheme as the end time is added is inserted (steps 803 and 804). Further, when the reliability score and morpheme information satisfy certain conditions, the morpheme is replaced with another morpheme while retaining the original male morpheme information (steps 805 and 806). For example, when the reliability score is smaller than a preset threshold value, “ε;” is added to the head of the notation, the reading, and the part of speech. A word graph is created from the plurality of candidate morpheme sequences based on the time information of each morpheme (step 807). The word graph indicates that each node is a morpheme having time information, and a link between nodes can be connected to an adjacent morpheme at a certain time. Assuming that the time of the word graph is advanced from the beginning, and there are morpheme candidates that end at each time of the word graph (step 808), all the proper expression classes assumed for the subsequent morpheme are given. (Step 809), the logarithmic probability when the morpheme with each unique expression class is connected is calculated based on the appearance frequency of the language model already learned, for example, the word bigram with the unique expression (Step 810). For example, the probability P (NC | NC −1 , w −1 ) and the current and immediately previous probability that the current specific expression class NC is selected when the previous specific expression class NC −1 and the previous morpheme w −1 are given. Given a specific expression class, the probability P (w first | NC −1 , w −1 ) that the first word w first is generated in the current specific expression class, the previous morpheme and the current The probability P (w | w −1 , NC) that the second and subsequent morphemes are generated when the specific expression class is given is calculated from the word bigram frequency C with the specific expression by the following calculation formula. Repeat the above steps until the end of the sentence.
[0036]
[Expression 1]
Figure 0004171323
At this time, the logarithmic probability is calculated by using “ε” for the notation, the reading, and the part of speech of the morpheme that is replaced and transformed. At that time, the morpheme with the unique expression class that maximizes the logarithmic probability accumulated so far is selected, and the path is held (step 811). Here, “hold the route” is to follow the route having the maximum logarithmic probability locally from the end of the sentence in the backward process. The time of the node of the word graph is advanced (step 812), and the same processing is performed. When the end of the sentence is reached, a specific expression class is output for each morpheme of the selected path by selecting a path having the maximum logarithmic probability (maximum likelihood) from the end of the sentence (step 213). The replacement morpheme is restored to the original morpheme and output, for example, by deleting “ε;” included in the notation, reading, and part of speech.
[0037]
In addition to what is implemented by dedicated hardware, the present invention records a program for realizing the function on a computer-readable recording medium, and the program recorded on the recording medium is stored in a computer system. It may be read and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.
[0038]
【The invention's effect】
As described above, according to the present invention, among the OOV problems (Out Of Vocabulary problems) that are one of the causes of the reduction of recognition accuracy in a normal speech recognition apparatus, for example, by correcting a recognition error related to proper nouns. The recognition accuracy can be improved. In addition, correctly recognizing proper nouns such as person names, place names, and product names leads to, for example, improving the search accuracy of a voice document search system to which voice recognition is applied.
[Brief description of the drawings]
FIG. 1 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a speech recognition result that has been converted into characters by the speech recognition unit 200;
FIG. 3 is a diagram showing an example of entries in a speech recognition error correction condition table 310 that stores speech recognition error correction conditions.
4 is a diagram illustrating a processing result of a proper noun section identification unit 400 for the speech recognition result of FIG. 2; FIG.
FIG. 5 is a diagram showing an example of entries in a related document search key word extraction condition table 510;
FIG. 6 is a diagram illustrating an example of entries in a speech recognition error correction candidate extraction condition table 610;
7 is a diagram showing an example of a speech recognition result after performing error correction on the speech recognition result including the proper noun section identification result shown in FIG. 4 by using an error correction candidate. FIG.
FIG. 8 is a flowchart of a processing example of a proper noun section identifying unit 400;
[Explanation of symbols]
100 input unit 200 speech recognition unit 300 speech recognition error correction unit 310 speech recognition error correction condition table 400 proper noun section identification unit 500 speech recognition error correction candidate extraction unit 510 related information search key word extraction condition table 600 related information search unit 610 Recognition Error Correction Candidate Extraction Condition Table 700 Related Information Search Key Word Extraction Condition Tables 801-812 Steps

Claims (3)

音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識ステップと、
前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加するステップと、
前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出するステップと、
品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出するステップと、
該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出するステップと、
それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行うステップと
を有する認識誤り訂正方法。
A speech recognition step for outputting the speech recognition result together with the part of speech information and reliability of the word ;
Adding a proper noun class to the proper noun section included in the speech recognition result;
The speech recognition result to which the proper noun class is added is compared with the speech recognition error correction condition that describes the reliability threshold according to the proper noun class, and error correction is performed for proper noun sections whose reliability is below the threshold Extracting as a target section;
Extracting a word set having a reliability higher than a threshold from the speech recognition result to which the proper noun class is assigned according to the related information search key word extraction condition describing the reliability according to the part of speech ;
Extracting a speech recognition error correction candidate as a search condition said word set, and searching a predetermined number following article, proper names section included in said related documents, with the proper names of classes,
For each error correction target section, select error correction candidates with a class of the same proper name, it matches with the error correction Target Zone between the selected error correction candidates, the largest matching degree A recognition error correction method comprising: selecting an error correction candidate to be given and performing error correction in the error correction target section.
音声認識結果を、単語の品詞情報、信頼度とともに出力する音声認識手段と、
前記音声認識結果に対し、そこに含まれる固有名詞区間に固有名詞のクラスを付加する手段と、
前記固有名詞のクラスが付加された音声認識結果と、固有名詞のクラスに応じた信頼度の閾値を記述した音声認識誤り訂正条件を照合し、信頼度が閾値よりも低い固有名詞区間を誤り訂正対象の区間として抽出する手段と、
品詞に応じた信頼度を記述した関連情報検索キー単語抽出条件にしたがって、前記固有名詞のクラスが付与された音声認識結果から、信頼度が閾値よりも高い単語集合を抽出する手段と、
該単語集合を検索条件として、所定数以下の関連文書を検索し、該関連文書中に含まれる固有名詞区間、固有名詞のクラスを得て音声認識誤り訂正候補として抽出する手段と、
それぞれの誤り訂正対象区間に対して、同じ固有名詞のクラスを持つ誤り訂正候補を選択し、当該誤り訂正対象区間と選択された誤り訂正候補とのマッチングを行い、最大のマッチ度を与える誤り訂正候補を選択し、前記誤り訂正対象の区間の誤り訂正を行う手段と
を有する認識誤り訂正装置。
Speech recognition means for outputting the speech recognition result together with the part of speech information and reliability of the word ;
Means for adding a proper noun class to the proper noun section included in the speech recognition result;
The speech recognition result to which the proper noun class is added is compared with the speech recognition error correction condition that describes the reliability threshold according to the proper noun class, and error correction is performed for proper noun sections whose reliability is below the threshold Means for extracting as a target section;
Means for extracting a word set having a reliability higher than a threshold from the speech recognition result to which the proper noun class is assigned according to the related information search key word extraction condition describing the reliability according to the part of speech ;
Means for extracting a speech recognition error correction candidate as a search condition said word set, and searching a predetermined number following article, proper names section included in said related documents, the proper names of classes,
For each error correction target section, select error correction candidates with a class of the same proper name, it matches with the error correction Target Zone between the selected error correction candidates, the largest matching degree A recognition error correction apparatus comprising: means for selecting an error correction candidate to be given and performing error correction in the error correction target section.
請求項1に記載の認識誤り訂正方法の各ステップをコンピュータに実行させるための認識誤り訂正プログラム。A recognition error correction program for causing a computer to execute each step of the recognition error correction method according to claim 1.
JP2003051645A 2003-02-27 2003-02-27 Recognition error correction method, apparatus, and program Expired - Fee Related JP4171323B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003051645A JP4171323B2 (en) 2003-02-27 2003-02-27 Recognition error correction method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003051645A JP4171323B2 (en) 2003-02-27 2003-02-27 Recognition error correction method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2004258531A JP2004258531A (en) 2004-09-16
JP4171323B2 true JP4171323B2 (en) 2008-10-22

Family

ID=33116741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003051645A Expired - Fee Related JP4171323B2 (en) 2003-02-27 2003-02-27 Recognition error correction method, apparatus, and program

Country Status (1)

Country Link
JP (1) JP4171323B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865356B2 (en) * 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
JP2008109263A (en) * 2006-10-24 2008-05-08 Nec Corp Portable terminal device, application start method, and application start program
JP4709887B2 (en) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system
JP5538099B2 (en) * 2010-07-02 2014-07-02 三菱電機株式会社 Voice input interface device and voice input method
CN105632499B (en) * 2014-10-31 2019-12-10 株式会社东芝 Method and apparatus for optimizing speech recognition results
JP6763527B2 (en) * 2018-08-24 2020-09-30 ソプラ株式会社 Recognition result correction device, recognition result correction method, and program
CN110442876B (en) * 2019-08-09 2023-09-05 深圳前海微众银行股份有限公司 Text mining method, device, terminal and storage medium
KR102332565B1 (en) * 2019-12-13 2021-11-29 주식회사 소리자바 device for applying speech recognition hints and method the same
CN112509581B (en) * 2020-11-20 2024-03-01 北京有竹居网络技术有限公司 Error correction method and device for text after voice recognition, readable medium and electronic equipment
KR102517661B1 (en) 2022-07-15 2023-04-04 주식회사 액션파워 Method for identify a word corresponding to a target word in text information
KR102596190B1 (en) 2023-04-12 2023-10-31 (주)액션파워 Method for editing text information
CN118471201B (en) * 2024-07-09 2024-09-20 电子科技大学 An efficient and adaptive hot word correction method and system for speech recognition engines

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606947B2 (en) 2015-11-30 2020-03-31 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Also Published As

Publication number Publication date
JP2004258531A (en) 2004-09-16

Similar Documents

Publication Publication Date Title
CN109635270B (en) Bidirectional probabilistic natural language rewriting and selection
CN105869634B (en) A domain-based text error correction method and system after speech recognition with feedback
US8666742B2 (en) Automatic detection and application of editing patterns in draft documents
JP5440177B2 (en) Word category estimation device, word category estimation method, speech recognition device, speech recognition method, program, and recording medium
US20100332225A1 (en) Transcript alignment
JP4171323B2 (en) Recognition error correction method, apparatus, and program
US20080270110A1 (en) Automatic speech recognition with textual content input
WO2017127296A1 (en) Analyzing textual data
WO2003010754A1 (en) Speech input search system
JPH03224055A (en) Method and device for input of translation text
JPWO2011104754A1 (en) Search device and search program
WO2010044123A1 (en) Search device, search index creating device, and search system
JP7107229B2 (en) Information processing device, information processing method, and program
JP7107228B2 (en) Information processing device, information processing method, and program
JP4089861B2 (en) Voice recognition text input device
WO2014194299A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
CN106649278A (en) Method and system for extending spoken language dialogue system corpora
JP5897718B2 (en) Voice search device, computer-readable storage medium, and voice search method
Palmer et al. Information extraction from broadcast news speech data
JP4008344B2 (en) Class identification model generation method, apparatus, and program, class identification method, apparatus, and program
WO2008150003A1 (en) Keyword extraction model learning system, method, and program
JP2000259645A (en) Voice processing device and voice data search device
JP4175093B2 (en) Topic boundary determination method and apparatus, and topic boundary determination program
JP2013134753A (en) Wrong sentence correction device, wrong sentence correction method and program
JPWO2012131822A1 (en) Speech recognition result shaping apparatus, speech recognition result shaping method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080730

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080808

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130815

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees