[go: up one dir, main page]

JP2010002973A - Voice data subject estimation device, and call center using the same - Google Patents

Voice data subject estimation device, and call center using the same Download PDF

Info

Publication number
JP2010002973A
JP2010002973A JP2008159042A JP2008159042A JP2010002973A JP 2010002973 A JP2010002973 A JP 2010002973A JP 2008159042 A JP2008159042 A JP 2008159042A JP 2008159042 A JP2008159042 A JP 2008159042A JP 2010002973 A JP2010002973 A JP 2010002973A
Authority
JP
Japan
Prior art keywords
subject
keyword
database
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008159042A
Other languages
Japanese (ja)
Inventor
Koji Fukuda
厚司 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008159042A priority Critical patent/JP2010002973A/en
Publication of JP2010002973A publication Critical patent/JP2010002973A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice data subject estimation device which estimates the subject of voice data from the voice data for updating relevance and keywords stored in a database, and to provide a call center using the voice data subject estimation device. <P>SOLUTION: The voice data subject estimation device 1 includes: a subject database 2 in which a subject, a keyword and relevancy are stored; a determination part 10 for acquiring a keyword (extracted keyword) extracted from voice recognition data obtained by recognizing voice of voice data and an estimated subject (subject A) estimated from the voice recognition data, acquiring a keyword (keyword B) related with the subject A by referring to the subject database 2, and determining whether or not the extracted keyword is matched with the keyword B; a subject DB registration part 11 for registering the keyword related with the subject A stored in the subject database 2 based on the determination result; and a subject DB update part 12 for updating the relevancy of the keywords related with the subject A. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、音声データとして記憶された会話内容の主題を推定する音声データ主題推定装置およびこれを用いたコールセンタに関するものである。   The present invention relates to a speech data subject estimation device for estimating a subject of conversation content stored as speech data, and a call center using the speech data subject estimation device.

電話中の会話の内容を録音する通話録音や、相手が不在時に電話にメッセージを残す内線電話交換機のボイスメールや留守番電話の録音メッセージを管理する際に、録音データが何の用件についてのものであるか否かを的確に判断できる主題やキーワード等の情報が必要である。   When recording call recordings that record the content of conversations during a call, or voice mails of extension telephone exchanges that leave messages on the phone when the other party is absent It is necessary to have information such as themes and keywords that can accurately determine whether or not.

ユーザが録音データの主題(用件)を容易に知ることができる録音データ主題検出装置が特許文献1に開示されている。
従来、録音データが何の用件についてのものであるか否かを判断できる情報を取得するには、録音データを音声認識して、文書データに変換し、文章データと、予め登録されたキーワードとを照合して該キーワードの出現回数を検出し、検出した出現回数と、予め登録されたそのキーワードの重要度とに基づいて、そのキーワードが主題に適しているか否かを判定し、適していると判定されたすべてのキーワードを、録音データの主題として出力していた。
Japanese Patent Application Laid-Open No. 2004-151867 discloses a recorded data subject detection device that allows a user to easily know the subject (business) of recorded data.
Conventionally, in order to obtain information that can be used to determine what kind of business the recorded data is, the recorded data is voice-recognized, converted into document data, sentence data, and pre-registered keywords And the number of appearances of the keyword is detected. Based on the detected number of occurrences and the importance of the keyword registered in advance, it is determined whether or not the keyword is suitable for the subject. All keywords judged to be output as the subject of the recording data.

特開2004−96502号公報(段落0010〜0014、図1)Japanese Patent Laying-Open No. 2004-96502 (paragraphs 0010 to 0014, FIG. 1)

従来の主題検出装置は、音声データを変換した文書データから抽出する「キーワード」が、予めデータベースに登録されたものであり、キーワードをデータベースに追加する手段や、キーワードの重要度(関連度)を更新する手段がない。
そのため、主題に適したキーワードが抽出されているかを示す抽出精度を上げることが困難であった。したがって、主題検出装置の使用期間が長くなるにつれて、抽出精度が下がり、重要度の価値の変化に対応できなくなったキーワードや、データベースに登録されていない重要なキーワードが増える傾向にあった。そのため、抽出されたキーワードから推定される主題が、会話の主題と一致しなくなることがあった。
In the conventional subject detection device, “keywords” extracted from document data obtained by converting voice data are registered in the database in advance, and means for adding keywords to the database and the importance (relevance) of keywords are determined. There is no way to update.
Therefore, it has been difficult to increase the extraction accuracy indicating whether or not keywords suitable for the subject have been extracted. Therefore, as the use period of the subject detection apparatus becomes longer, the extraction accuracy decreases, and there is a tendency for more important keywords that are not registered in the database to be able to cope with changes in the value of importance. Therefore, the subject estimated from the extracted keyword may not match the subject of conversation.

また、キーワードの重要度を変更し、抽出精度を調整しても、その調整が適しているのかを確認するには、多くの音声データを必要とした。   Moreover, even if the importance of the keyword is changed and the extraction accuracy is adjusted, a large amount of audio data is required to confirm whether the adjustment is appropriate.

また、従来の主題検出装置で推定される主題の出力結果は、キーワードである単語が列記されているに過ぎず、文章ではないため、出力された単語から利用者が主題を連想する必要があった。そのため、主題に適さないキーワードが推定されることで、利用者の解釈により、主題が異なるものもあった。   In addition, since the output result of the subject estimated by the conventional subject detection device is merely a list of keywords that are keywords and not sentences, the user needs to associate the subject with the output words. It was. For this reason, there are some cases where the subject matter is different depending on the interpretation of the user by estimating a keyword that is not suitable for the subject matter.

そこで、本発明は、音声データからその音声データの主題を推定する装置において、データベースに格納されている関連度およびキーワードを更新することができる音声データ主題推定装置およびこれを用いたコールセンタを提供することを目的とする。   Therefore, the present invention provides an audio data subject estimation device capable of updating the relevance and keywords stored in a database in a device for estimating the subject of the speech data from the speech data, and a call center using the speech data subject estimation device. For the purpose.

前記目的を達成するために、請求項1に係る音声データ主題推定装置は、前記音声データが記憶されたデータ記憶部と、前記音声データを音声認識して、音声認識データを生成する音声認識部と、辞書に掲載される語彙を格納する用語データベースと、前記音声認識データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出するキーワード抽出部と、データの主題と、前記主題に係るキーワードと、前記主題と前記キーワードとの関係が数値化された関連度とが格納された主題データベースと、前記主題データベースを参照して、前記キーワード抽出部が抽出した抽出キーワードとの関連度が最も大きい主題を推定主題とする主題推定部と、前記主題データベースを参照して、前記推定主題に係るキーワードを取得し、この取得した主題キーワード(キーワードB)と、前記抽出キーワードとが一致するか否かを判定する判定部と、前記判定部により不一致と判定された不一致キーワードを、前記推定主題に係るキーワードとして、前記主題データベースに登録する主題DB登録部と、前記判定部により一致すると判定された前記主題キーワードの関連度を更新する主題DB更新部と、を備えることを特徴とする。   In order to achieve the object, a speech data subject estimation device according to claim 1 includes a data storage unit storing the speech data, and a speech recognition unit that recognizes the speech data and generates speech recognition data. A vocabulary database that stores vocabulary posted in the dictionary, a character string of the speech recognition data, a keyword extraction unit that extracts keywords that match the vocabulary stored in the vocabulary database, and a data subject , A theme database storing a keyword related to the theme, a degree of relevance obtained by quantifying the relationship between the theme and the keyword, and an extracted keyword extracted by the keyword extraction unit with reference to the theme database; A subject estimation unit that assumes the subject having the highest degree of relevance as an estimated subject, and a keyword related to the estimated subject by referring to the subject database. A determination unit that determines whether or not the acquired subject keyword (keyword B) matches the extracted keyword, and a mismatch keyword that is determined to be unmatched by the determination unit is used as the estimated subject. The keyword DB includes a subject DB registration unit that registers in the subject database, and a subject DB update unit that updates the degree of association of the subject keyword determined to match by the determination unit.

請求項2に係る音声データ主題推定装置は、前記主題推定部が、入力主題が入力される入力部と、前記入力主題と前記推定主題とが一致するか否かを判定し、一致した主題を推定主題(主題A)とする主題判定部と、を備えることを特徴とする。   In the speech data theme estimating apparatus according to claim 2, the theme estimating unit determines whether or not the input unit to which the input theme is input and the input theme and the estimated theme match, And a subject determination unit as an estimated subject (theme A).

請求項3に係る音声データ主題推定装置は、前記主題データベースに、前記主題判定部にて前記入力主題と前記推定主題とが一致した履歴の総数であるサンプル数が格納され、前記主題判定部が、判定結果が一致した場合に、前記主題データベースを参照して、前記推定主題に係るサンプル数に1を加え、前記主題推定部が、前記音声認識データの文字列と、前記主題データベースに格納されたキーワードとが一致するキーワードを抽出し、抽出したキーワードに係る主題と、その主題のサンプル数と、を取得し、前記主題に係るキーワードの関連度を合算して、さらに前記主題のサンプル数で除した平均関連度が最も大きい主題を推定主題とすることを特徴とする。   In the speech data theme estimating apparatus according to claim 3, the theme database stores a number of samples that is a total number of histories in which the input theme matches the estimated theme in the theme determination unit, and the subject determination unit includes: When the determination results match, the subject database is referred to and 1 is added to the number of samples related to the estimated subject, and the subject estimation unit is stored in the subject database and the character string of the speech recognition data. The keywords that match the keyword are extracted, the subject related to the extracted keyword and the number of samples of the subject are obtained, the relevance of the keywords related to the subject is added together, and the number of samples of the subject is further calculated. It is characterized in that the subject having the highest average relevance divided is the estimated subject.

請求項4に係る音声データ主題推定装置は、前記主題判定部が、さらに、前記主題データベースを参照して、前記推定主題と前記主題データベースに登録済みの主題とが一致するか否かを判定し、一致しない場合に、前記用語データベースを参照して、前記入力部から入力される概要データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出する概要キーワード抽出部と、前記推定主題と、前記概要キーワード抽出部が抽出した概要キーワードとを前記主題データベースに登録する主題DB新規登録部と、を備えることを特徴とする。   The speech data theme estimation apparatus according to claim 4, wherein the theme determination unit further refers to the theme database and determines whether or not the estimated theme matches a theme registered in the theme database. A summary keyword extraction unit that extracts a keyword that matches the character string of the summary data input from the input unit and the vocabulary stored in the term database when the term database is not matched The subject DB new registration unit that registers the estimated subject and the summary keyword extracted by the summary keyword extraction unit in the subject database.

請求項5に係るコールセンタは、前記音声データ主題推定装置を設けることを特徴とする。   A call center according to a fifth aspect is characterized in that the speech data subject estimation device is provided.

本発明によれば、音声データからその音声データの主題を推定する装置において、データベースに格納されている関連度およびキーワードを更新することができるため、音声データに対して最適な主題を推定することができる音声データ主題推定装置およびこれを用いたコールセンタを提供することができる。   According to the present invention, since the degree of relevance and keywords stored in the database can be updated in the apparatus for estimating the subject of the voice data from the voice data, the optimum subject for the voice data is estimated. It is possible to provide a speech data subject estimation apparatus capable of performing the above and a call center using the same.

次に、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。   Next, embodiments of the present invention will be described in detail with reference to the drawings as appropriate.

(第1の実施形態)
図1は、本発明の第1の実施形態である音声データ主題推定装置の構成図である。
図1に示すように、第1の実施形態に係る音声データ主題推定装置1は、主題データベース2と、用語データベース3と、データ記憶部4とを備え、具体的には、RAM(random access memory)、ROM(read-only memory)、HDD(hard disk drive)等の記憶装置で構成される。
図1に示すように、第1の実施形態に係る音声データ主題推定装置1は、音声認識部5、入力部6、主題推定部7、主題判定部8、キーワード抽出部9、判定部10、主題DB登録部11、および、主題DB更新部12を備え、具体的には、CPU(central processing unit)等の制御装置で構成される。
さらに、図1に示すように、第1の実施形態に係る音声データ主題推定装置1は、入力部6を備え、具体的には、キーボード、マウス等の入力装置、モニタ等の出力装置で構成される。
第1の実施形態に係る音声データ主題推定装置1は、前記した制御装置、記憶装置、入力装置、出力装置等のハードウエア資源と、オペレーティングシステム(OS)、アプリケーションを含むソフトウエアプログラムとを備えて、実現される。
(First embodiment)
FIG. 1 is a configuration diagram of an audio data subject estimation device according to the first embodiment of the present invention.
As shown in FIG. 1, the speech data theme estimation device 1 according to the first embodiment includes a theme database 2, a term database 3, and a data storage unit 4, and more specifically, a random access memory (RAM). ), ROM (read-only memory), HDD (hard disk drive) and the like.
As shown in FIG. 1, the speech data subject estimation device 1 according to the first embodiment includes a speech recognition unit 5, an input unit 6, a subject estimation unit 7, a subject determination unit 8, a keyword extraction unit 9, a determination unit 10, A subject DB registration unit 11 and a subject DB update unit 12 are provided, and specifically, a control device such as a CPU (central processing unit) is configured.
Furthermore, as shown in FIG. 1, the speech data subject estimation device 1 according to the first embodiment includes an input unit 6, and specifically includes an input device such as a keyboard and a mouse, and an output device such as a monitor. Is done.
The speech data subject estimation device 1 according to the first embodiment includes hardware resources such as the control device, the storage device, the input device, and the output device, and a software program including an operating system (OS) and applications. And realized.

主題データベース2には、予め登録されたデータの主題と、その主題に係るキーワードと、主題とキーワードの関係を数値で示す関連度と、サンプル数(詳細は後記)とが対応付けられて、格納されている。   The subject database 2 stores a subject of data registered in advance, a keyword related to the subject, a degree of association indicating the relationship between the subject and the keyword by a numerical value, and the number of samples (details will be described later). Has been.

用語データベース3には、国語辞典や百科事典等に掲載される語彙が記憶されている。そして、必要に応じて新たな語彙を用語データベース3に追加することもできる。   The term database 3 stores vocabularies to be published in national language dictionaries and encyclopedias. Then, a new vocabulary can be added to the term database 3 as necessary.

データ記憶部4には、音声データが記憶されている。
音声データは、主に人の声が、ボイスレコーダやカセットテープレコーダ、録音機能付きミニディスク(MD:Mini Disk)プレーヤ等の録音機器により録音されたデジタルデータである。
The data storage unit 4 stores audio data.
The audio data is mainly digital data in which a human voice is recorded by a recording device such as a voice recorder, a cassette tape recorder, or a mini disk (MD) player with a recording function.

入力部6は、データが入力される装置であり、PC(Personal Computer)のキーボードからの直接入力や、GUI(Graphical User Interface)を用いて、モニタの画面に表示される画像をマウス等で選択することでデータを入力するものである。また、モニタをタッチパネル式にし、タッチパネルに触れて文字を選択してデータを入力してもよい。   The input unit 6 is a device to which data is input, and an image displayed on a monitor screen is selected with a mouse or the like using a direct input from a PC (Personal Computer) keyboard or a GUI (Graphical User Interface). By doing so, data is input. Alternatively, the monitor may be of a touch panel type, and touch the touch panel to select characters and input data.

音声認識部5は、データ記憶部4から音声データを取得し、音声認識処理を行い、音声認識データを生成する。なお、音声認識処理は、生成される音声認識データは、テキストデータが好ましい。   The voice recognition unit 5 acquires voice data from the data storage unit 4, performs voice recognition processing, and generates voice recognition data. In the voice recognition process, the generated voice recognition data is preferably text data.

主題推定部7は、音声認識データを音声認識部5から取得し、音声認識データの文字列と、主題データベース2に記憶されたキーワードとを照合して、一致するキーワード(照合キーワード)を抽出する。そして、主題データベース2を参照して、照合キーワードに係る主題を抽出する。次に、主題推定部7は、主題データベース2を参照して、抽出した各主題のサンプル数を取得する。そして、抽出した各主題に対して、抽出したキーワードの関連度を合算し、合算された関連度をサンプル数で割り、抽出した各主題の推定値を算出する。最後に主題推定部7は、推定値が最も大きい主題を、推定した主題とする。   The subject estimation unit 7 obtains speech recognition data from the speech recognition unit 5, collates a character string of the speech recognition data with a keyword stored in the subject database 2, and extracts a matching keyword (collation keyword). . Then, referring to the subject database 2, the subject relating to the matching keyword is extracted. Next, the subject estimation unit 7 refers to the subject database 2 and acquires the number of samples of each extracted subject. Then, the extracted degrees of relevance of the extracted keywords are added to each extracted theme, the combined degrees of association are divided by the number of samples, and an estimated value of each extracted theme is calculated. Finally, the subject estimation unit 7 sets the subject having the largest estimated value as the estimated subject.

主題判定部8は、入力部6から入力されたデータ(入力主題)と、主題推定部7から入力されたデータ(推定主題)とが一致するか否かを判定し、一致した場合には、判定部10に一致した一致データ(一致主題=入力主題=推定主題)を送出する。また、一致した場合には、主題データベース2を参照して、一致主題と一致するデータベース2に登録された主題を検索し、その主題に係るサンプル数に“1”を加える。つまり、サンプル数とは、主題判定部8にて、入力主題と推定主題がこれまでに一致した履歴の総数である。   The subject determination unit 8 determines whether or not the data input from the input unit 6 (input subject) matches the data input from the subject estimation unit 7 (estimated subject). The matched data (matched subject = input subject = estimated subject) is sent to the determination unit 10. If they match, the subject database 2 is referenced to search for the subject registered in the database 2 that matches the matching subject, and “1” is added to the number of samples related to the subject. That is, the number of samples is the total number of histories in which the input subject and the estimated subject match so far in the subject determination unit 8.

キーワード抽出部9は、音声認識データを音声認識部5から取得し、音声認識データの文字列と、用語データベース3に記憶された語彙とを照合して、一致する語彙(抽出キーワード)を抽出する処理を行う。   The keyword extraction unit 9 acquires the speech recognition data from the speech recognition unit 5 and collates the character string of the speech recognition data with the vocabulary stored in the term database 3 to extract a matching vocabulary (extracted keyword). Process.

判定部10は、主題判定部8から送出されるデータ(一致主題)を取得し、主題データベース2を参照して、一致主題と一致する主題を検索し、その主題(一致主題)に係る主題キーワード(キーワードB)を取得し、主題キーワードと、キーワード抽出部9が抽出した抽出キーワードとが、一致するか否かを判定し、判定結果(一致するキーワードまたは一致しないキーワード)を送出する。   The determination unit 10 acquires data (matching theme) sent from the theme determination unit 8, refers to the subject database 2, searches for a subject that matches the matching subject, and extracts a subject keyword related to the subject (matching subject). (Keyword B) is acquired, and it is determined whether or not the subject keyword matches the extracted keyword extracted by the keyword extraction unit 9, and the determination result (a matching keyword or a keyword that does not match) is transmitted.

主題DB登録部11は、判定部10から送出された一致しない抽出キーワード(不一致キーワード)を取得する。そして、主題データベース2を参照して、不一致キーワードを、推定された音声データの主題(一致主題)に係るキーワードとして、追加登録する。   The subject DB registration unit 11 acquires the extracted keyword (mismatch keyword) sent from the determination unit 10. Then, with reference to the subject database 2, the mismatch keyword is additionally registered as a keyword related to the subject (matched subject) of the estimated voice data.

主題DB更新部12は、判定部10から送出された一致する抽出キーワード(一致キーワード)を取得する。そして、主題DB更新部12は、主題データベース2を参照して、推定された音声データの主題(一致主題)に係る一致キーワードの関連度を更新する。   The subject DB update unit 12 acquires a matching extracted keyword (matching keyword) sent from the determination unit 10. Then, the subject DB update unit 12 refers to the subject database 2 and updates the relevance level of the matching keyword related to the subject (matching subject) of the estimated voice data.

以下に、図2および図3に示すフローチャートを用い、第1の実施形態に係る音声データ主題推定装置1が音声データの主題を推定し、推定する際に用いた主題データベース2を更新する処理について説明する。   Hereinafter, with reference to the flowcharts shown in FIG. 2 and FIG. 3, the speech data subject estimation device 1 according to the first embodiment estimates the subject of speech data and updates the subject database 2 used for the estimation. explain.

予め、利用者が、音声データを音声データ主題推定装置1のデータ記憶部4に記憶させておく(図2,S101)。
音声認識部5は、データ記憶部4から音声データを取得し、音声認識処理を行い、音声認識データを生成する(S102)。
主題推定部7は、音声認識データを音声認識部5から取得する(S103)。さらに、主題推定部7は、主題データベース2に格納された主題とキーワードと関連度に基づいて、音声データの主題を推定する(S104)。
The user stores the voice data in the data storage unit 4 of the voice data subject estimation device 1 in advance (FIG. 2, S101).
The voice recognition unit 5 acquires voice data from the data storage unit 4, performs voice recognition processing, and generates voice recognition data (S102).
The subject estimation unit 7 acquires speech recognition data from the speech recognition unit 5 (S103). Further, the subject estimation unit 7 estimates the subject of the audio data based on the subject, the keyword, and the degree of association stored in the subject database 2 (S104).

図4に示す主題データベース2と音声データ(音声認識データ)の一例と、図5に示すフローチャートを用いて、S104にて示す音声データの主題を推定する処理の詳細を説明する。
図4に示す主題データベース2は、主題とキーワードと関連度とサンプル数の情報を格納している。主題に『解約の質問』、『振込みの確認』、『口座作成の質問』、『住所変更の質問』等が登録され、それら主題に係るキーワードとして『解約』、『手続き』、『支店』、『口座』等が登録されている。そして、それぞれのキーワードには、主題との関連度が数値で示されている。例えば、主題『解約の質問』とキーワード『解約』との関連度は“30”である。また、関連度の“−”は未登録であることを示す。例えば、主題『振込みの確認』には、キーワード『解約』が登録されていないことを示す。そして、関連度の数値が“0”以上であれば、そのキーワードが主題に登録されていることを示す。
The details of the process of estimating the subject of the speech data shown in S104 will be described using an example of the subject database 2 and speech data (speech recognition data) shown in FIG. 4 and the flowchart shown in FIG.
The subject database 2 shown in FIG. 4 stores information on the subject, the keyword, the degree of association, and the number of samples. "Submission questions", "Transfer confirmation", "Account creation questions", "Address change questions", etc. are registered in the subject, and keywords related to these subjects are "cancellation", "procedure", "branch", "Account" etc. are registered. Each keyword has a numerical value indicating the degree of association with the subject. For example, the degree of association between the theme “cancellation question” and the keyword “cancellation” is “30”. The relevance “-” indicates that the registration is not registered. For example, the keyword “cancel” is not registered in the subject “confirmation of transfer”. If the relevance value is “0” or more, it indicates that the keyword is registered in the subject.

主題推定部7は、音声認識データ(「虎ノ門支店で口座解約の手続きをしたい」)の文字列と、主題データベース2に登録されたキーワードとを照合して、一致するキーワード(照合キーワード)を抽出する(S201)。この場合、図4に示す主題データベース2に登録された、『解約』、『手続き』、『支店』、『口座』という照合キーワードを抽出する。
そして、主題推定部7は、主題データベース2から、照合キーワードに係る主題を抽出する(S202)。この場合、『解約の質問』、『振込みの確認』、『口座作成の質問』という主題を抽出する。
The subject estimation unit 7 compares the character string of the speech recognition data (“I want to cancel the account at Toranomon branch”) with the keyword registered in the subject database 2 and extracts a matching keyword (matching keyword). (S201). In this case, collation keywords “cancellation”, “procedure”, “branch”, and “account” registered in the subject database 2 shown in FIG. 4 are extracted.
Then, the subject estimation unit 7 extracts the subject related to the matching keyword from the subject database 2 (S202). In this case, the subjects of “cancellation question”, “transfer confirmation” and “account creation question” are extracted.

次に、主題推定部7は、主題データベース2を参照して、抽出した各主題のサンプル数を取得する(S203)。この場合、『解約の質問』が“30”、『振込みの確認』が“22”、『口座作成の質問』が“20”のサンプル数を取得する。
主題推定部7は、抽出した各主題に対して、次のように、照合キーワードの関連度を合算し、サンプル数で割り、抽出した各主題の推定値を算出する(S204)。
Next, the subject estimation unit 7 refers to the subject database 2 and acquires the number of samples of each extracted subject (S203). In this case, the number of samples “30” for “cancellation question”, “22” for “transfer confirmation”, and “20” for “account creation question” is acquired.
The subject estimation unit 7 adds the relevance levels of the matching keywords to each extracted subject, divides by the number of samples, and calculates an estimated value of each extracted subject (S204).

<1.解約の質問>
関連度の合算=解約:30+手続き:22+支店:0+口座:11=63
推定値=63÷サンプル数:30=2.1
<2.振込みの確認>
関連度の合算=解約:なし+手続き:16+支店:8+口座:2=26
推定値=26÷サンプル数:22=1.2
<3.口座作成の質問>
関連度の合算=解約:なし+手続き:12+支店:6+口座:18=36
推定値=36÷サンプル数:20=1.8
<1. Cancellation question>
Sum of relevance = Cancellation: 30+ Procedure: 22+ Branch: 0+ Account: 11 = 63
Estimated value = 63 ÷ number of samples: 30 = 2.1
<2. Confirmation of transfer>
Sum of relevance = Cancellation: None + Procedure: 16 + Branch: 8 + Account: 2 = 26
Estimated value = 26 ÷ number of samples: 22 = 1.2
<3. Account creation questions>
Total relevance = Cancellation: None + Procedure: 12 + Branch: 6 + Account: 18 = 36
Estimated value = 36 ÷ number of samples: 20 = 1.8

そして、主題推定部7は、推定値が最も大きい『解約の質問』を、推定した主題とする(S205)。
再び、図2のS104に続いて、図3に示すフローチャートを用いて処理を説明する。
主題判定部8は、利用者が入力部6を介して入力したデータ(入力主題)と、主題推定部7から推定された主題(推定主題)とを取得する(図3,S105)。例えば、入力主題『解約の質問』と、推定主題『解約の質問』を取得する。
Then, the subject estimation unit 7 sets the “cancellation question” having the largest estimated value as the estimated subject (S205).
Again, following S104 in FIG. 2, the processing will be described using the flowchart shown in FIG.
The subject determination unit 8 acquires data (input subject) input by the user via the input unit 6 and the subject (estimated subject) estimated from the subject estimation unit 7 (FIG. 3, S105). For example, the input subject “cancellation question” and the estimated subject “cancellation question” are acquired.

次に、主題判定部8は、入力主題と推定主題とが一致するか否かを判定する(S106)。
一致しない場合(S106,No)、音声データ主題推定装置1は一連の処理を終了する。
一方、一致する場合(S106,Yes)、一致する主題(入力主題=推定主題=一致主題(主題A))について、主題判定部8は、主題データベース2を参照して、主題Aと一致する主題データベース2に登録された主題を検索し、その主題に係るサンプル数に“1”を加える(S107)。例えば、主題A『解約の質問』のサンプル数“30”に“1”を加え、“31”にする。
そして、主題判定部8は、主題Aを判定部10に送出する(S108)。
Next, the subject determination unit 8 determines whether or not the input subject matches the estimated subject (S106).
If they do not match (S106, No), the speech data subject estimation device 1 ends the series of processes.
On the other hand, if they match (S106, Yes), the subject determination unit 8 refers to the subject database 2 for the subject that matches the subject A (input subject = estimated subject = matched subject (subject A)). The subject registered in the database 2 is searched, and “1” is added to the number of samples related to the subject (S107). For example, “1” is added to the sample number “30” of the subject A “cancellation question” to make “31”.
Then, the subject determination unit 8 sends the subject A to the determination unit 10 (S108).

キーワード抽出部9は、音声認識データを音声認識部5から取得する(S109)。例えば、音声認識データ『虎ノ門支店での口座解約の手続き』を取得する。
そして、キーワード抽出部9は、音声認識データの文字列と、用語データベース3に記憶された語彙とを照合して、一致する語彙(抽出キーワード)を抽出する(S110)。例えば、『支店』、『口座』、『解約』、『手続き』を抽出する。
The keyword extraction unit 9 acquires voice recognition data from the voice recognition unit 5 (S109). For example, the voice recognition data “Account Cancellation Procedure at Toranomon Branch” is acquired.
Then, the keyword extraction unit 9 compares the character string of the speech recognition data with the vocabulary stored in the term database 3 and extracts a matching vocabulary (extracted keyword) (S110). For example, “branch”, “account”, “cancellation”, and “procedure” are extracted.

判定部10は、S108にて主題判定部8から送出される主題A(『解約の質問』)と、S110にてキーワード抽出部9が抽出した語彙(抽出キーワード群:『支店』、『口座』、『解約』、『手続き』)とを取得する(S111)。そして、判定部10は、主題データベース2を参照して、主題Aに係るキーワード群B(『口座』、『解約』、『手続き』、『変更』)を取得する(S112)。   The determination unit 10 includes the subject A (“cancellation question”) sent from the subject determination unit 8 in S108 and the vocabulary (extracted keyword group: “branch”, “account”) extracted by the keyword extraction unit 9 in S110. , “Cancellation”, “procedure”) (S111). Then, the determination unit 10 refers to the subject database 2 and acquires the keyword group B (“account”, “cancellation”, “procedure”, “change”) related to the subject A (S112).

次に、判定部10は、取得したキーワード群B(『口座』、『解約』、『手続き』、『変更』)と、(S110で抽出した)抽出キーワード群(『支店』、『口座』、『解約』、『手続き』)とで、抽出キーワード群の中でキーワード群Bに含まれるキーワードと一致しない抽出キーワード(不一致キーワードX)があるか否かを判定する(S113)。
<判定結果>
一致しない抽出キーワード(不一致キーワードX)=『支店』
一致する抽出キーワード(一致キーワードY)=『口座』、『解約』、『手続き』
Next, the determination unit 10 acquires the acquired keyword group B (“account”, “cancellation”, “procedure”, “change”) and the extracted keyword group (extracted in S110) (“branch”, “account”, It is determined whether or not there is an extracted keyword (mismatch keyword X) that does not match the keyword included in the keyword group B in the extracted keyword group (S113).
<Judgment result>
Unmatched extracted keyword (mismatched keyword X) = “branch”
Matching extracted keyword (matching keyword Y) = "account", "cancellation", "procedure"

不一致キーワードXがある場合(S113,Yes)、その不一致キーワードXを主題DB登録部11に送出する(S114)。主題DB登録部11は、取得した不一致キーワードXを、主題データベース2に、主題Aに係るキーワードとして、関連度“0”で登録する(S115)。これにより、主題データベース2に、主題A(『解約の質問』)に係るキーワードとして『支店』が関連度“0”で登録される(図4はこの状態を示す)。
そして、登録後は、S113に戻り、他にキーワードBと一致しない不一致キーワードXがあるか否かを判定する。
If there is a mismatch keyword X (S113, Yes), the mismatch keyword X is sent to the subject DB registration unit 11 (S114). The subject DB registration unit 11 registers the acquired mismatch keyword X in the subject database 2 as a keyword related to the subject A with a relevance “0” (S115). As a result, “branch” is registered with the relevance “0” as a keyword related to the subject A (“cancellation question”) in the subject database 2 (FIG. 4 shows this state).
After registration, the process returns to S113, and it is determined whether or not there is a mismatch keyword X that does not match the keyword B.

一方、不一致キーワードXがない場合(S113,No)、一致キーワードYを主題DB更新部12に送出する(S116)。主題DB更新部12は、取得した一致キーワードYと一致する主題Aに係るキーワードBの関連度に“1”を加える(S117)。以上により、図4に示す主題データベースに登録された主題(主題A『解約の質問』)の各キーワードの関連度は、『解約』が“30→31”となり、『手続き』が“22→23”となり、『口座』が“11→12”となる。
そして、主題DB更新部12は、主題データベース2の主題、キーワード、関連度を更新する(S118)。そして、音声データ主題推定装置1は処理を終了する。
On the other hand, when there is no mismatch keyword X (S113, No), the match keyword Y is sent to the subject DB update unit 12 (S116). The subject DB update unit 12 adds “1” to the relevance level of the keyword B related to the subject A that matches the acquired matching keyword Y (S117). As described above, the relevance level of each keyword of the theme (theme A “cancellation question”) registered in the theme database shown in FIG. 4 is “30 → 31” for “cancellation” and “22 → 23” for “procedure”. ”And“ Account ”becomes“ 11 → 12 ”.
Then, the theme DB update unit 12 updates the theme, keyword, and degree of association in the theme database 2 (S118). And the audio | voice data theme estimation apparatus 1 complete | finishes a process.

第1の実施形態によれば、音声データ主題推定装置1が備える主題データベース2に、登録された主題とその主題に係るキーワードとの関連度を高めることができるため、音声データ主題推定装置1は、音声データから抽出されたキーワードと関連度が高い主題を推定することができる。つまり、音声データに適した主題が推定される。   According to the first embodiment, since the degree of association between a registered subject and a keyword related to the subject can be increased in the subject database 2 included in the speech data subject estimation device 1, the speech data subject estimation device 1 It is possible to estimate a subject having a high degree of relevance to the keyword extracted from the speech data. That is, a subject suitable for audio data is estimated.

(第2の実施形態)
本発明の第2の実施形態に係る音声データ主題推定装置1aは、図6に示すように、第1の実施形態に係る音声データ主題推定装置1の構成(図1)にさらに、概要キーワード抽出部13、主題DB新規登録部14を加え、主題判定部8aに機能が追加される。
入力部6は、入力データと概要データとが入力される。入力データには、音声データの主題(入力主題)が含まれ、概要データには、その主題に係る情報が含まれる。
(Second Embodiment)
As shown in FIG. 6, the speech data theme estimating device 1a according to the second embodiment of the present invention is further provided with a summary keyword extraction in addition to the configuration of the speech data theme estimating device 1 according to the first embodiment (FIG. 1). The function is added to the subject determination unit 8a by adding the unit 13 and the subject DB new registration unit 14.
The input unit 6 receives input data and summary data. The input data includes the subject of the audio data (input subject), and the summary data includes information related to the subject.

主題判定部8aは、入力部6から取得した入力主題(主題)と、主題推定部7から取得した推定主題(主題)とが一致するか否かを判定する。一致した場合、さらに、主題データベース2を参照して、一致する主題(入力主題=推定主題=一致主題)が、主題データベース2に登録されているか否かを判定する。登録されている場合、判定部10に登録済主題(一致主題)を送出し、登録されていない場合、概要キーワード抽出部13に未登録主題(一致主題)を送出する処理を行う。   The subject determination unit 8a determines whether or not the input subject (subject) acquired from the input unit 6 matches the estimated subject (subject) acquired from the subject estimation unit 7. In the case of a match, the subject database 2 is further referred to to determine whether or not a matching subject (input subject = estimated subject = matched subject) is registered in the subject database 2. If registered, the registered theme (matching theme) is sent to the determination unit 10. If not registered, the unregistered theme (matching theme) is sent to the summary keyword extraction unit 13.

概要キーワード抽出部13は、主題判定部8aから未登録主題を取得する。さらに、入力部6から概要データを取得し、用語データベース3に記憶された、辞書に記載された語彙を参照して、概要データに含まれる語彙と一致する語彙(概要キーワード)を抽出する処理を行う。
主題DB新規登録部14は、概要キーワード抽出部13から未登録主題と、概要キーワードを取得し、未登録主題を主題、概要キーワードをその主題に係るキーワードとして、主題データベース2に登録する処理を行う。
The summary keyword extraction unit 13 acquires an unregistered subject from the subject determination unit 8a. Furthermore, a process of acquiring summary data from the input unit 6 and extracting a vocabulary (summary keyword) that matches the vocabulary included in the summary data by referring to the vocabulary described in the dictionary stored in the term database 3. Do.
The new theme DB registration unit 14 acquires the unregistered subject and the overview keyword from the overview keyword extraction unit 13, and performs processing for registering the unregistered subject in the subject database 2 as the subject and the overview keyword as the keyword related to the subject. .

このように、第2の実施形態に係る音声データ主題推定装置1aは、前記の概要キーワード抽出部13と、主題DB新規登録部14と、を備えることで、主題データベース2に主題と、その主題に係るキーワードを登録することができる。   As described above, the speech data theme estimation device 1a according to the second embodiment includes the summary keyword extraction unit 13 and the theme DB new registration unit 14, so that the theme database 2 has a theme and its theme. The keyword concerning can be registered.

以下に、図7に示すフローチャートを用い、第2の実施形態に係る音声データ主題推定装置1aが主題データベース2に主題と、その主題に係るキーワードを登録する処理について説明する。
主題推定部7により行われる処理は、前記のS101〜S104(図2)の処理と同じであるため、説明を省略する。
Below, the process which the audio | voice data theme estimation apparatus 1a which concerns on 2nd Embodiment registers the theme and the keyword which concerns on the theme in the theme database 2 using the flowchart shown in FIG. 7 is demonstrated.
Since the process performed by the subject estimation unit 7 is the same as the process of S101 to S104 (FIG. 2), description thereof is omitted.

主題判定部8aは、利用者が入力部6を介して入力したデータ(入力主題)と、主題推定部7から推定された主題(推定主題)を取得する(図7,S301)。例えば、入力主題『ATMの場所の質問』と、推定主題『ATMの場所の質問』とを取得する。   The subject determination unit 8a acquires data (input subject) input by the user via the input unit 6 and the subject (estimated subject) estimated from the subject estimation unit 7 (S301 in FIG. 7). For example, an input subject “ATM location question” and an estimated subject “ATM location question” are acquired.

次に、主題判定部8aは、入力主題と推定主題とが一致するか否かを判定する(S302)。
一致しない場合(S302,No)、音声データ主題推定装置1は一連の処理を終了する。
一致する場合(S302,Yes)、主題判定部8aは、主題データベース2を参照して、一致主題(入力主題=推定主題)と一致する主題を検索し、一致主題が登録されているか否かを判定する(S303)。
Next, the subject determination unit 8a determines whether or not the input subject matches the estimated subject (S302).
If they do not match (S302, No), the speech data subject estimation device 1 ends the series of processes.
If they match (S302, Yes), the subject determination unit 8a refers to the subject database 2 to search for a subject that matches the matching subject (input subject = estimated subject), and determines whether the matching subject is registered. Determination is made (S303).

一致主題が登録されている場合(S303,Yes)、主題判定部8aは、主題データベース2に登録されている登録済主題(一致主題(主題A))に係るサンプル数に“1”を加える(S304)。そして、主題判定部8aは、主題Aを判定部10に送出する(S305)。その後の処理(S306)は、前記のS111〜S118(図3)の処理と同じであるため、説明を省略する。   When the matching subject is registered (S303, Yes), the subject determination unit 8a adds “1” to the number of samples related to the registered subject (matching subject (theme A)) registered in the subject database 2 ( S304). Then, the subject determination unit 8a sends the subject A to the determination unit 10 (S305). Since the subsequent processing (S306) is the same as the processing of S111 to S118 (FIG. 3), description thereof is omitted.

一方、一致主題が登録されていない場合(S303,No)、主題判定部8aは、未登録主題(一致主題)を概要キーワード抽出部13に送出する(S307)。
概要キーワード抽出部13は、主題判定部8aから送出された未登録主題と、利用者が入力部6を介して入力した概要データとを取得する(S308)。例えば、未登録主題『ATMの場所の質問』と、概要データ『虎ノ門駅近くの支店に設置されたATMはどこにありますか?』を取得する。
On the other hand, when the matching subject is not registered (S303, No), the subject determination unit 8a sends the unregistered subject (matching subject) to the overview keyword extraction unit 13 (S307).
The summary keyword extraction unit 13 acquires the unregistered subject sent from the subject determination unit 8a and the summary data input by the user via the input unit 6 (S308). For example, unregistered subject "ATM location question" and summary data "Where are the ATMs installed in the branch near Toranomon station?" ”Is acquired.

そして、概要キーワード抽出部13は、概要データの文字列と、用語データベース3に記憶された語彙とを照合して、一致する語彙(概要キーワード)を抽出する(S309)。例えば、『駅』、『支店』、『設置』、『ATM』を抽出する。
次に、未登録主題と抽出した語彙(概要キーワード:『駅』、『支店』、『設置』、『ATM』)を主題DB新規登録部14に送出する(S310)。
Then, the summary keyword extraction unit 13 collates the character string of the summary data with the vocabulary stored in the term database 3 and extracts a matching vocabulary (summary keyword) (S309). For example, “station”, “branch”, “installation”, and “ATM” are extracted.
Next, the unregistered subject and the extracted vocabulary (summary keywords: “station”, “branch”, “installation”, “ATM”) are sent to the subject DB new registration unit 14 (S310).

主題DB新規登録部14は、未登録主題(『ATMの場所の質問』)と概要キーワード(『駅』、『支店』、『設置』、『ATM』)を取得する(S311)。そして、主題DB新規登録部14は、未登録主題を主題、概要キーワードをその主題に係るキーワードとして、関連度“0”で、主題データベース2に登録する(S312)。登録後、音声データ主題推定装置1は処理を終了する。   The new theme DB registration unit 14 acquires an unregistered theme ("ATM location question") and summary keywords ("station", "branch", "installation", "ATM") (S311). Then, the new theme DB registration unit 14 registers the unregistered theme as the theme and the overview keyword as the keyword related to the theme with the relevance “0” in the theme database 2 (S312). After registration, the speech data subject estimation apparatus 1 ends the process.

第2の実施形態によれば、音声データ主題推定装置1aが備える主題データベース2に、未登録であった主題やその主題に係るキーワードを追加して登録することができる。   According to the second embodiment, an unregistered theme and a keyword related to the theme can be added and registered in the theme database 2 included in the speech data theme estimation apparatus 1a.

(音声データ主題推定装置を備えるコールセンタ)
本発明の実施形態に係る音声データ主題推定装置を、銀行のコールセンタに用いた実施例を示す。
(Call center with speech data subject estimation device)
The Example which used the audio | voice data subject estimation apparatus which concerns on embodiment of this invention for the call center of a bank is shown.

図8は、音声データ主題推定装置1を備えるコールセンタの構成図である。銀行のコールセンタ100は、CTサーバ101と、複数のオペレータ端末102と、複数の電話103とを備える。
CTサーバ101と、オペレータ端末102とは、LAN104等の通信回線で接続されており、通信回線を介して、データの送受信を行う。
電話103は、卓上電話でもよいし、例えば、IP(Internet Protocol)電話を用いることで、図8に示すように、ヘッドセットと接続されたオペレータ端末102が電話機能を有してもよい。
FIG. 8 is a configuration diagram of a call center including the voice data subject estimation device 1. The bank call center 100 includes a CT server 101, a plurality of operator terminals 102, and a plurality of telephones 103.
The CT server 101 and the operator terminal 102 are connected via a communication line such as a LAN 104, and transmit and receive data via the communication line.
The telephone 103 may be a desk phone or, for example, by using an IP (Internet Protocol) telephone, the operator terminal 102 connected to the headset may have a telephone function as shown in FIG.

CTサーバ101には、前記実施形態に係る音声データ主題推定装置1、1aが含まれる。CTサーバ101は他に、ユーザ300からかかってきた電話を各オペレータに振り分ける電話交換手段や、各オペレータ端末102のモニタに必要な情報を表示する手段や、その情報を記憶する手段、各オペレータ端末102から入力された情報を記憶する手段等、コールセンタを運営するために必要な構成を備える。   The CT server 101 includes the speech data subject estimation devices 1 and 1a according to the embodiment. In addition, the CT server 101 includes telephone exchange means for distributing calls received from the user 300 to each operator, means for displaying information necessary for monitoring each operator terminal 102, means for storing the information, and each operator terminal. A configuration necessary for operating the call center, such as a means for storing information input from 102, is provided.

オペレータ端末102は、PCと、モニタ、キーボード、マウス等の入出力装置と、ボイスレコーダ等の録音機器とで構成される。このオペレータ端末102の入力装置が、入力部6に該当し、録音機器により録音された音声データが、LAN104を介して、CTサーバ101内のデータ記憶部4に保存される。
ユーザ300からの電話をオペレータ105が受けることで、オペレータ端末102は、電話をかけたユーザ300とオペレータ105との会話を自身が備える録音機器に記憶する。
The operator terminal 102 includes a PC, an input / output device such as a monitor, a keyboard, and a mouse, and a recording device such as a voice recorder. The input device of the operator terminal 102 corresponds to the input unit 6, and voice data recorded by the recording device is stored in the data storage unit 4 in the CT server 101 via the LAN 104.
When the operator 105 receives a call from the user 300, the operator terminal 102 stores a conversation between the user 300 who made the call and the operator 105 in a recording device provided in the operator terminal 102.

前記構成を備えることで、音声データ主題推定装置1(図1)を、銀行のコールセンタに用いることが可能となる。
例えば、ユーザ300から電話にて「虎ノ門支店で口座解約の手続きをしたい」という質問があった場合に、オペレータが電話の内容に基づいて、主題に『解約の質問』、概要データに『虎ノ門支店での口座解約の手続き』を入力する。
また、音声データ主題推定装置1により、音声データ「虎ノ門支店で口座解約の手続きをしたい」から、主題『解約の質問』が推定される(図5、S205)。
前記処理が行われることで、音声データ主題推定装置1は、主題データベース2に登録された主題『解約の質問』に係るキーワード『支店』の追加や、キーワード『口座』、『解約』、『手続き』の関連度の更新をすることができる。
これにより、『解約の質問』は、キーワード『口座』、『解約』、『手続き』との関連度が増し、そのキーワードを含む音声データに対して、『解約の質問』を主題として推定する確率を高めることができる。
よって、当該処理により、音声データ主題推定装置1は、ユーザ300からの質問に対して、主題を正しく推定する精度を上げることができる。
With the above configuration, the speech data subject estimation device 1 (FIG. 1) can be used in a bank call center.
For example, when there is a question from the user 300 “I want to cancel my account at the Toranomon branch” over the phone, the operator will use the content of the phone call as “subject question of cancellation” and the summary data as “Toranomon branch”. Enter “Account Cancellation Procedure”.
Further, the speech data subject estimation device 1 estimates the subject “cancellation question” from the speech data “I would like to cancel the account at Toranomon branch” (FIG. 5, S205).
As a result of the above processing, the speech data subject estimation device 1 adds the keyword “branch” related to the subject “cancellation question” registered in the subject database 2 and the keywords “account”, “cancellation”, “procedure”. ”Can be updated.
As a result, the “cancellation question” is more relevant to the keywords “account”, “cancellation”, and “procedure”, and the probability of estimating the “cancellation question” as the subject for the voice data containing the keyword. Can be increased.
Therefore, the speech data subject estimation device 1 can increase the accuracy of correctly estimating the subject with respect to the question from the user 300 by this processing.

また、音声データ主題推定装置1を含むCTサーバ101に、オペレータ端末102を介して新たな主題と概要データを入力するとき、入力部6には、キーボードやマウス等を使ってもよいし、オペレータ105の操作ログを用いてもよい。   When inputting a new theme and summary data to the CT server 101 including the speech data theme estimating apparatus 1 via the operator terminal 102, the input unit 6 may use a keyboard, a mouse, or the like. 105 operation logs may be used.

入力部6にオペレータ105の操作ログを用いる場合を示す。
オペレータ端末102のモニタに表示されるすべての画面には、1画面につき1つのタイトルと、1つ以上の語彙が付与されている。
これにより、オペレータ105が、顧客との対話中に最も長い時間表示した画面に付与されたタイトルを、入力部6に入力された主題(入力主題)とすることができる。
そして、オペレータ105が、顧客との対話中に表示した全画面に付与された語彙を、第2の実施形態の音声データ主題推定装置1aのとき、概要キーワード抽出部13が抽出した語彙(概要キーワード)とすることができる。そして、オペレータ105の操作ログを用いて、主題判定部8aは入力主題、主題DB新規登録部14は概要キーワードを取得することができる。
また、オペレータ105の操作ログを用いることで、各抽出キーワードの関連度を、対話中に画面に表示された合計時間に応じて決めることができる。
例えば、表示時間が、30秒未満であれば“0”、30秒以上1分未満であれば“1”、1分以上5分未満であれば“2”、5分以上であれば“3”等である。そして、S114(図3)の処理の際に、主題DB更新部12は、これらの関連度の数値を、主題Aに係るキーワードBの関連度に加えることができる。
前記するように、入力手段にオペレータの操作ログを用いることで、オペレータが入力装置を用いて、主題を入力することなく、主題データベース2の更新を行うことができる。
The case where the operation log of the operator 105 is used for the input unit 6 is shown.
All the screens displayed on the monitor of the operator terminal 102 are assigned one title and one or more vocabularies per screen.
Thereby, the operator 105 can set the title given to the screen displayed for the longest time during the dialogue with the customer as the subject (input subject) input to the input unit 6.
Then, the vocabulary (summary keyword) extracted by the outline keyword extraction unit 13 when the operator 105 is the speech data subject estimation device 1a of the second embodiment, which is given to the entire screen displayed during the dialogue with the customer. ). Then, using the operation log of the operator 105, the subject determination unit 8a can acquire an input subject, and the subject DB new registration unit 14 can acquire a summary keyword.
Further, by using the operation log of the operator 105, the relevance of each extracted keyword can be determined according to the total time displayed on the screen during the dialogue.
For example, “0” if the display time is less than 30 seconds, “1” if it is 30 seconds or more and less than 1 minute, “2” if it is 1 minute or more and less than 5 minutes, and “3” if it is 5 minutes or more. Etc. Then, during the process of S114 (FIG. 3), the subject DB update unit 12 can add these relevance values to the relevance level of the keyword B related to the subject A.
As described above, by using the operation log of the operator as the input means, the operator can update the theme database 2 using the input device without inputting the theme.

本発明は、主題推定装置の使用期間が長くなっても、データベースに対して、キーワードの追加、主題とキーワードの関連度を変更、あるいは主題とキーワードの新規登録ができるため、音声データに対して最適な主題を推定するためのデータベースを提供することができる。   Since the present invention can add keywords to the database, change the degree of association between the subject and the keyword, or newly register the subject and the keyword even if the period of use of the subject estimation device becomes longer, A database for estimating the optimal subject can be provided.

主題データベースの更新が頻繁に行われる、新たな機能を頻繁に追加するシステムや、データの更新が頻繁に行われるシステムに対して、本発明を用いることで、次のような効果が得られる。   The following effects can be obtained by using the present invention for a system that frequently updates a theme database, a system that frequently adds new functions, and a system that frequently updates data.

以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。
例えば、PBX(電話交換機)に音声データ主題推定装置1を備えることで、電話の質問内容をシステムが自動で認識できる。そのため、質問内容とその質問に回答できる部署や人を関連付けたデータベースを追加して備えることで、発信者の電話の質問内容に応じて、質問を回答できる部署や人に電話を転送するシステムを作ることができる。これにより、発信者は、たらい回しにされることから解放される。
As mentioned above, although embodiment of this invention was described, this invention is not limited to this, It can implement in the range which does not change the meaning.
For example, by providing the PBX (telephone exchange) with the speech data subject estimation device 1, the system can automatically recognize the contents of telephone questions. Therefore, by adding a database that associates the contents of a question with the department or person who can answer the question, a system that forwards the call to the department or person who can answer the question according to the contents of the caller's telephone question. Can be made. This frees the caller from being traversed.

例えば、ATM(自動現金預払機)に音声データ主題推定装置1を備えることで、操作者が、ATMに取り付けられたマイクに向かって発話するだけで、所望する処理をシステムが自動で認識することができるため、ATMのタッチパネルを操作して、所望する処理が完了するまで、画面をタッチし続けるという煩わしい操作から解放される。   For example, by providing the voice data subject estimation device 1 in an ATM (automatic cash dispenser), the system can automatically recognize a desired process simply by an operator speaking into a microphone attached to the ATM. Therefore, it is freed from the troublesome operation of touching the screen until the desired processing is completed by operating the ATM touch panel.

本発明の第1の実施形態である音声データ主題推定装置の構成図である。It is a block diagram of the audio | voice data subject estimation apparatus which is the 1st Embodiment of this invention. 本発明の第1の実施形態である音声データ主題推定装置の処理手順を示すフローチャートである(処理前半)。It is a flowchart which shows the process sequence of the audio | voice data subject estimation apparatus which is the 1st Embodiment of this invention (the first half of a process). 本発明の第1の実施形態である音声データ主題推定装置の処理手順を示すフローチャートである(処理後半)。It is a flowchart which shows the process sequence of the audio | voice data theme estimation apparatus which is the 1st Embodiment of this invention (the process latter half). 主題データベースと入力データの一例である。It is an example of a theme database and input data. 音声データの主題を推定する処理手順を示すフローチャートである。It is a flowchart which shows the process sequence which estimates the theme of audio | voice data. 本発明の第2の実施形態である音声データ主題推定装置の構成図である。It is a block diagram of the audio | voice data subject estimation apparatus which is the 2nd Embodiment of this invention. 本発明の第2の実施形態である音声データ主題推定装置の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the audio | voice data theme estimation apparatus which is the 2nd Embodiment of this invention. 本発明の実施形態に係る音声データ主題推定装置を、銀行のコールセンタに用いた構成図である。It is the block diagram which used the audio | voice data subject estimation apparatus which concerns on embodiment of this invention for the call center of a bank.

符号の説明Explanation of symbols

1 音声データ主題推定装置
2 主題データベース
3 用語データベース
4 データ記憶部
5 音声認識部
6 入力部
7 主題推定部
8 主題判定部
9 キーワード抽出部
10 判定部
11 主題DB登録部
12 主題DB更新部
13 概要キーワード抽出部
14 主題DB新規登録部
100 コールセンタ
101 CTサーバ
102 オペレータ端末
103 電話
104 LAN
105 オペレータ
200 公衆回線網
300 ユーザ
DESCRIPTION OF SYMBOLS 1 Speech data theme estimation apparatus 2 Theme database 3 Term database 4 Data storage part 5 Speech recognition part 6 Input part 7 Theme estimation part 8 Theme determination part 9 Keyword extraction part 10 Judgment part 11 Theme DB registration part 12 Theme DB update part 13 Outline Keyword extraction unit 14 Subject DB new registration unit 100 Call center 101 CT server 102 Operator terminal 103 Telephone 104 LAN
105 Operator 200 Public network 300 User

Claims (5)

音声データを音声認識して、抽出したキーワードから前記音声データの主題を推定する音声データ主題推定装置であって、
前記音声データが記憶されたデータ記憶部と、
前記音声データを音声認識して、音声認識データを生成する音声認識部と、
辞書に掲載される語彙を格納する用語データベースと、
前記音声認識データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出するキーワード抽出部と、
データの主題と、前記主題に係るキーワードと、前記主題と前記キーワードとの関係が数値化された関連度とが格納された主題データベースと、
前記主題データベースを参照して、前記キーワード抽出部が抽出した抽出キーワードとの関連度が最も大きい主題を推定主題とする主題推定部と、
前記主題データベースを参照して、前記推定主題に係るキーワードを取得し、この取得した主題キーワードと、前記抽出キーワードとが一致するか否かを判定する判定部と、
前記判定部により不一致と判定された不一致キーワードを、前記推定主題に係るキーワードとして、前記主題データベースに登録する主題DB登録部と、
前記判定部により一致すると判定された前記主題キーワードの関連度を更新する主題DB更新部と、
を備えることを特徴とする音声データ主題推定装置。
A speech data theme estimation device that recognizes speech data and estimates a theme of the speech data from extracted keywords,
A data storage unit storing the audio data;
A voice recognition unit that recognizes the voice data and generates voice recognition data;
A terminology database that stores vocabulary that appears in the dictionary;
A keyword extraction unit for extracting a keyword in which the character string of the speech recognition data matches the vocabulary stored in the term database;
A theme database storing data themes, keywords related to the themes, and degrees of relevance in which relations between the themes and the keywords are quantified;
A subject estimation unit that refers to the subject database, and uses a subject that is most relevant to the extracted keyword extracted by the keyword extraction unit as an estimated subject;
A determination unit that refers to the subject database, acquires a keyword related to the estimated subject, and determines whether the acquired subject keyword matches the extracted keyword;
A subject DB registration unit for registering inconsistent keywords determined to be inconsistent by the determining unit as keywords related to the estimated subject in the subject database;
A subject matter DB update unit that updates the degree of association of the subject keywords determined to be matched by the determination unit;
A speech data subject estimation device comprising:
前記主題推定部は、
入力主題が入力される入力部と、
前記入力主題と前記推定主題とが一致するか否かを判定し、一致した主題を推定主題とする主題判定部と、
を備えることを特徴とする請求項1に記載の音声データ主題推定装置。
The subject estimation unit includes:
An input section in which an input subject is input;
Determining whether or not the input subject and the estimated subject match, and a subject determination unit having the matched subject as an estimated subject;
The speech data subject estimation device according to claim 1, comprising:
前記主題データベースには、前記主題判定部にて前記入力主題と前記推定主題とが一致した履歴の総数であるサンプル数が格納され、
前記主題判定部は、判定結果が一致した場合に、前記主題データベースを参照して、前記推定主題に係るサンプル数に1を加え、
前記主題推定部は、前記音声認識データの文字列と、前記主題データベースに格納されたキーワードとが一致するキーワードを抽出し、抽出したキーワードに係る主題と、その主題のサンプル数と、を取得し、前記主題に係るキーワードの関連度を合算して、さらに前記主題のサンプル数で除した平均関連度が最も大きい主題を推定主題とすることを特徴とする請求項2に記載の音声データ主題推定装置。
The subject database stores the number of samples that is the total number of histories in which the input subject and the estimated subject match in the subject determination unit,
When the determination result is matched, the subject determination unit refers to the subject database and adds 1 to the number of samples related to the estimated subject.
The subject estimation unit extracts a keyword in which a character string of the speech recognition data matches a keyword stored in the subject database, and acquires a subject related to the extracted keyword and the number of samples of the subject. 3. The speech data subject estimation according to claim 2, wherein the relevance of keywords related to the subject is added together, and the subject having the highest average relevance divided by the number of samples of the subject is taken as the subject of estimation. apparatus.
前記主題判定部は、さらに、前記主題データベースを参照して、前記推定主題と前記主題データベースに登録済みの主題とが一致するか否かを判定し、
一致しない場合に、前記用語データベースを参照して、前記入力部から入力される概要データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出する概要キーワード抽出部と、
前記推定主題と、前記概要キーワード抽出部が抽出した概要キーワードとを前記主題データベースに登録する主題DB新規登録部と、
を備えることを特徴とする請求項2または請求項3に記載の音声データ主題推定装置。
The subject determination unit further refers to the subject database to determine whether the estimated subject matches a subject registered in the subject database.
When there is no match, referring to the term database, a summary keyword extraction unit that extracts a keyword that matches the character string of the summary data input from the input unit and the vocabulary stored in the term database;
A subject DB new registration unit for registering the estimated subject and the summary keyword extracted by the summary keyword extraction unit in the subject database;
The speech data subject estimation apparatus according to claim 2, further comprising:
請求項1乃至請求項4の何れか1項に記載の音声データ主題推定装置を設けたことを特徴とするコールセンタ。   A call center comprising the speech data subject estimation device according to any one of claims 1 to 4.
JP2008159042A 2008-06-18 2008-06-18 Voice data subject estimation device, and call center using the same Pending JP2010002973A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008159042A JP2010002973A (en) 2008-06-18 2008-06-18 Voice data subject estimation device, and call center using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008159042A JP2010002973A (en) 2008-06-18 2008-06-18 Voice data subject estimation device, and call center using the same

Publications (1)

Publication Number Publication Date
JP2010002973A true JP2010002973A (en) 2010-01-07

Family

ID=41584682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008159042A Pending JP2010002973A (en) 2008-06-18 2008-06-18 Voice data subject estimation device, and call center using the same

Country Status (1)

Country Link
JP (1) JP2010002973A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999621A (en) * 2012-11-29 2013-03-27 广东欧珀移动通信有限公司 Method and device for setting themes
CN104580762A (en) * 2013-10-12 2015-04-29 深圳市赛格导航科技股份有限公司 Method and device for realizing call forwarding according to language
JP2017059205A (en) * 2015-09-17 2017-03-23 パナソニックIpマネジメント株式会社 Subject estimation system, subject estimation method, and program
JP2018028752A (en) * 2016-08-16 2018-02-22 国立研究開発法人情報通信研究機構 Dialog system and computer program therefor
JP2019003319A (en) * 2017-06-13 2019-01-10 株式会社野村総合研究所 Interactive business support system and interactive business support program
JP2023146216A (en) * 2022-03-29 2023-10-12 株式会社日立製作所 Conversion-into-text support device and conversion-into-text support method

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999621A (en) * 2012-11-29 2013-03-27 广东欧珀移动通信有限公司 Method and device for setting themes
CN102999621B (en) * 2012-11-29 2016-01-27 广东欧珀移动通信有限公司 A kind of method to set up of outward appearance theme and device
CN104580762A (en) * 2013-10-12 2015-04-29 深圳市赛格导航科技股份有限公司 Method and device for realizing call forwarding according to language
JP2017059205A (en) * 2015-09-17 2017-03-23 パナソニックIpマネジメント株式会社 Subject estimation system, subject estimation method, and program
JP2018028752A (en) * 2016-08-16 2018-02-22 国立研究開発法人情報通信研究機構 Dialog system and computer program therefor
US10936664B2 (en) 2016-08-16 2021-03-02 National Institute Of Information And Communications Technology Dialogue system and computer program therefor
JP2019003319A (en) * 2017-06-13 2019-01-10 株式会社野村総合研究所 Interactive business support system and interactive business support program
JP6998680B2 (en) 2017-06-13 2022-01-18 株式会社野村総合研究所 Interactive business support system and interactive business support program
JP2023146216A (en) * 2022-03-29 2023-10-12 株式会社日立製作所 Conversion-into-text support device and conversion-into-text support method
JP7497384B2 (en) 2022-03-29 2024-06-10 株式会社日立製作所 Text conversion support device and text conversion support method

Similar Documents

Publication Publication Date Title
US11349991B2 (en) Systems and methods to present voice message information to a user of a computing device
US9398128B2 (en) Identifying a contact based on a voice communication session
US8537980B2 (en) Conversation support
US8328089B2 (en) Hands free contact database information entry at a communication device
KR101795593B1 (en) Device and method for protecting phone counselor
US20040064322A1 (en) Automatic consolidation of voice enabled multi-user meeting minutes
US20130144619A1 (en) Enhanced voice conferencing
US20090292541A1 (en) Methods and apparatus for enhancing speech analytics
JP2001273283A (en) Method for identifying language and controlling audio reproducing device and communication device
JP6647722B1 (en) Information processing apparatus, information processing method, information processing program
WO2006085565A1 (en) Information communication terminal, information communication system, information communication method, information communication program, and recording medium on which program is recorded
JP2010102254A (en) Speaker template updating device and method
US11895269B2 (en) Determination and visual display of spoken menus for calls
US8374872B2 (en) Dynamic update of grammar for interactive voice response
JP2010002973A (en) Voice data subject estimation device, and call center using the same
US8009819B2 (en) Semi-supervised training of destination map for call handling applications
KR20150041592A (en) Method for updating contact information in callee electronic device, and the electronic device
JP7008992B2 (en) Voice analysis method
JP6233867B2 (en) Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program
JP2012222798A (en) Telephone terminal with speech voice history function
JP7370521B2 (en) Speech analysis device, speech analysis method, online communication system, and computer program
JP2008216461A (en) Speech recognition, keyword extraction, and knowledge base retrieval coordinating device
WO2023027833A1 (en) Determination and visual display of spoken menus for calls
JP2017134162A (en) Voice recognition device, voice recognition method, and voice recognition program
JP2008022493A (en) Reception support system and its program