JPH10301675A - Multimodal interface device and multimodal interface method - Google Patents
Multimodal interface device and multimodal interface methodInfo
- Publication number
- JPH10301675A JPH10301675A JP30395397A JP30395397A JPH10301675A JP H10301675 A JPH10301675 A JP H10301675A JP 30395397 A JP30395397 A JP 30395397A JP 30395397 A JP30395397 A JP 30395397A JP H10301675 A JPH10301675 A JP H10301675A
- Authority
- JP
- Japan
- Prior art keywords
- information
- user
- input
- image
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Controls And Circuits For Display Device (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
Abstract
       (57)【要約】
【課題】人間同士の対話のように人間にとって自然なか
たちで対話を進めることができるようにしたインタフェ
ースを提供すること。
【解決手段】擬人化されたエージェント画像を供給する
擬人化イメージ提供手段103と、利用者の注視対象を検
出する検出手段101と、利用者の音声入力情報、操作入
力情報、画像入力情報のうち、少なくとも一つ以上の入
力情報を取得する他メディア入力手段102と、この他メ
ディア入力手段からの入力情報を受け、認識動作の状況
を制御するものであって検出手段101により得られる注
視対象情報を基に利用者の注視対象が擬人化イメージ提
示手段により提示されるエージェント画像のいずれの部
分かを認識して、その認識結果に応じ前記他メディア入
力認識手段からの入力の受付選択をする制御手段107と
を備える。
 (57) [Summary] [Problem] To provide an interface that enables a dialogue to proceed in a manner natural to humans, such as a dialogue between humans. An anthropomorphic image providing means for supplying an anthropomorphized agent image, a detecting means for detecting a gaze target of a user, and a user's voice input information, operation input information, and image input information Other media input means 102 for obtaining at least one or more input information, and gaze target information obtained by the detection means 101, which receives input information from the other media input means and controls the state of the recognition operation. Control that recognizes which part of the agent image presented by the anthropomorphic image presenting means the user's gaze target is based on, and selects and accepts input from the other media input recognizing means according to the recognition result. Means 107.  
    
Description
【0001】[0001]
       【発明の属する技術分野】本発明は、自然言語情報、音
声情報、視覚情報、操作情報のうち少なくとも一つの入
力あるいは出力を通じて利用者と対話するマルチモーダ
ル対話装置に適用して最適なマルチモーダルインタフェ
ース装置およびマルチモーダルインタフェース方法に関
する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multimodal interface which is optimally applied to a multimodal dialogue device which interacts with a user through at least one input or output of natural language information, voice information, visual information and operation information. The present invention relates to an apparatus and a multimodal interface method.
    
【0002】[0002]
       【従来の技術】近年、パーソナルコンピュータを含む計
算機システムにおいて、従来のキーボードやマウスなど
による入力と、ディスプレイなどによる文字や画像情報
の出力に加えて、音声情報や画像情報などマルチメディ
ア情報を入出力することが可能になって来ている。2. Description of the Related Art In recent years, in a computer system including a personal computer, multimedia information such as voice information and image information has been input and output in addition to the conventional input by a keyboard and a mouse and the output of characters and image information by a display. It is becoming possible to do so.
    
       【0003】このような状況下に加え、自然言語解析や
自然言語生成、あるいは音声認識や音声合成技術あるい
は対話処理技術の進歩などによって、利用者と音声入出
力を対話する音声対話システムへの要求が高まってお
り、自由発話による音声入力によって利用可能な対話シ
ステムである“TOSBURG−II”(電子通信学会
論文誌、Vol.J77−D−II、No.8,pp1
417−1428,1994)など、様々な音声対話シ
ステムの研究開発がなされ、発表されている。[0003] In addition to these circumstances, due to the progress of natural language analysis, natural language generation, speech recognition, speech synthesis technology, and dialog processing technology, there is a demand for a speech dialogue system for interacting with a user for speech input / output. "TOSBURG-II" which is a dialogue system that can be used by voice input by free speech (IEEE Transactions, Vol. J77-D-II, No. 8, pp1) 
 417-1428, 1994), and various speech dialogue systems have been researched and developed and published.
    
       【0004】また、さらに、このような音声入出力に加
え、例えばカメラを使用しての視覚情報入力を利用した
り、あるいは、タッチパネル、ぺン、タブレット、デー
タグローブやフットスイッチ、対人センサ、ヘッドマウ
ントディスプレイ、フォースディスプレイ(提力装置)
など、様々な入出力デバイスを通じて利用者と授受でき
る情報を利用して、利用者とインタラクションを行なう
マルチモーダル対話システムへの要求が高まっている。Further, in addition to such voice input / output, for example, visual information input using a camera is utilized, or a touch panel, a pen, a tablet, a data glove or a foot switch, a human sensor, a head, or the like. Mount display, force display 
 For example, there is an increasing demand for a multi-modal interaction system that interacts with a user using information that can be exchanged with the user through various input / output devices.
    
       【0005】すなわち、このような各種入出力デバイス
を用いたマルチモーダルインタフェースを駆使すること
で、様々な情報を授受でき、従って、利用者はシステム
と自然な対話が可能であることから、人間にとって自然
で使い易いヒューマンインタフェースを実現するための
一つの有力な方法となり得る故に、注目を集めている。[0005] That is, by making full use of a multi-modal interface using such various input / output devices, various information can be transmitted and received. Therefore, a user can have a natural conversation with the system. It is attracting attention because it can be one powerful method for realizing a natural and easy-to-use human interface.
    
       【0006】つまり、人間同士の対話においても、例え
ば音声など一つのメディア(チャネル)のみを用いてコ
ミュニケーションを行なっている訳ではなく、身振りや
手ぶりあるいは表情といった様々なメディアを通じて授
受される非言語メッセージを駆使して対話することによ
って、自然で円滑なインタラクションを行なっている
(“Intelligent Multimedia 
Interfaces”,Maybury M.T,E
ds., The AAAI Press/The M
IT Press,1993参照)。[0006] In other words, even in the dialogue between humans, communication is not performed using only one medium (channel) such as voice, but non-verbal sent and received through various media such as gestures, hand gestures and facial expressions. By interacting with messages, natural and smooth interaction is performed (“Intelligent Multimedia”). 
 Interfaces ", Maybury MT, E 
 ds. , The AAAI Press / The M 
 IT Press, 1993).
    
       【0007】このことから考えても、自然で使い易いヒ
ューマンインタフェースを実現するためには、音声入出
力の他に、カメラを使用しての視覚情報入力、タッチパ
ネル、ぺン、タブレット、データグローブやフットスイ
ッチ、対人センサ、ヘッドマウントディスプレイ、フォ
ースディスプレイなど、様々な入出力のメディアを用い
た言語メッセージ、非言語メッセージによる対話の実現
と応用に期待が高まっている。Considering this, in order to realize a natural and easy-to-use human interface, in addition to voice input / output, visual information input using a camera, touch panel, pen, tablet, data glove, Expectations are growing for the realization and application of dialogue using linguistic and non-verbal messages using various input / output media such as foot switches, interpersonal sensors, head mounted displays, and force displays.
    
       【0008】しかし、次の(i)(ii)のような現状が
ある。 [バックグラウンド(i)]従来、それぞれのメディア
からの入力の解析精度の低さの問題や、それぞれの入出
力メディアの性質が十分に明らかとなっていないことな
どのため、新たに利用可能となった各入出力メディアあ
るいは、複数の入出力メディアを効率的に利用し、高能
率で、効果的で、利用者の負担を軽減する、マルチモー
ダルインタフェースは実現されていない。However, there are the following situations (i) and (ii). [Background (i)] Conventionally, due to the problem of low analysis accuracy of input from each medium and the fact that the properties of each input / output medium have not been sufficiently clarified, it can be newly used. A multi-modal interface that efficiently uses each input or output media or a plurality of input / output media, is highly efficient, effective, and reduces the burden on the user has not been realized.
    
       【0009】つまり、各メディアからの入力の解析精度
が不十分であるため、たとえば、音声入力における周囲
雑音などに起因する誤認識が発生したり、あるいはジェ
スチャ入力の認識処理において、入力デバイスから刻々
得られる信号の中から、利用者が入力メッセージとして
意図した信号部分の切り出しに失敗するといったことな
どによって、誤動作が起こり、それが結果的には利用者
への負担となる。That is, since the analysis accuracy of the input from each media is insufficient, for example, erroneous recognition due to ambient noise in the voice input may occur, or in the gesture input recognition process, the input device may instantly recognize the input. A malfunction occurs, for example, due to a failure to cut out a signal portion intended by the user as an input message from the obtained signals, and the like, resulting in a burden on the user.
    
       【0010】また、音声入力やジェスチャ入力など、利
用者が現在の操作対象である計算機などへの入力として
用いるだけでなく、例えば周囲の他の人間へ話しかけた
りする場合にも利用されるメディアを用いたインタフェ
ース装置では、利用者が、インタフェース装置ではな
く、たとえば自分の横にいる他人に対して話しかけた
り、ジェスチャを示したりした場合にも、インタフェー
ス装置が自己への入力であると判断して、認識処理など
を行ない、結果として誤動作を起す。そして、その誤動
作の取消や、誤動作の影響の復旧の処置を利用者は行わ
ねばならず、また、誤動作を避けるために利用者は絶え
ず注意を払わなくてはならないなど、利用者への負担が
大きい。[0010] Further, media used not only when a user uses a computer or the like as a current operation target but also when the user speaks to other nearby people, such as voice input and gesture input, is used. In the interface device used, even if the user talks to another person beside him / her or shows a gesture instead of the interface device, it is determined that the interface device is an input to itself. Performs recognition processing and the like, resulting in malfunction. The user must take measures to cancel the malfunction and restore the effects of the malfunction, and the user must pay constant attention to avoid the malfunction. large.
    
       【0011】また、本来、判断が不要な場面において
も、入力信号の処理が継続的にして行なわれるため、そ
の処理負荷によって、利用している装置に関与する他の
サービスの実行速度や利用効率が低下するなどの問題を
抱える。In addition, even in a situation where a decision is not necessary, the processing of the input signal is continuously performed. Therefore, depending on the processing load, the execution speed and the utilization efficiency of other services related to the apparatus being used. Have problems such as a decrease in
    
       【0012】また、この問題を解決するために、音声や
ジェスチャなどの入力を行なう際に、たとえば、ボタン
を押したり、メニュー選択するなど、特別な操作によっ
てモードを変更する方法も採用されているが、このよう
な特別な操作は、人間同士の会話であった場合、存在し
ない操作であるため、不自然なインタフェースとなるば
かりでなく、利用者にとって繁雑であったり、操作の種
類によっては、習得のための訓練が必要となったりする
ことによって、利用者の負担をいたずらに増やすことと
なっている。In order to solve this problem, a method of changing the mode by a special operation, such as pressing a button or selecting a menu, when inputting a voice or a gesture, for example, is also adopted. However, such a special operation is an operation that does not exist when it is a conversation between humans, so that not only an unnatural interface, but also complicated for the user or depending on the type of operation, The necessity of training for learning has increased the burden on users unnecessarily.
    
       【0013】また、例えば、音声入力の可否をボタン操
作によって切替える場合などでは、音声メディアの持つ
利点を活かすことができない。すなわち、音声メディア
による入力は、本来、口だけを使ってコミュニケーショ
ンが出来るもので、例えば手で行なっている作業があっ
たとしてもそれを妨害することがなく、双方を同時に利
用することが可能であるが、音声入力の可否をボタン操
作で切り替えることが必要な仕組みにした場合、このよ
うな音声メディア本来の利点を活かすことが出来ない。In addition, for example, in a case where the input / output of voice input is switched by a button operation, the advantage of the voice media cannot be utilized. In other words, voice media input allows you to communicate using only the mouth. For example, even if there is work done by hand, it can be used simultaneously without disturbing it. However, in the case where a mechanism is required to switch whether or not voice input is possible with a button operation, such an inherent advantage of the voice media cannot be utilized.
    
       【0014】また、音声出力や、動画像情報や、複数画
面に亙る文字や画像情報など、提示する情報がすぐ消滅
しまうものであったり、刻々変化するものであったりす
る等、一過性のメディアも用いて利用者に情報提示する
必要があるケースも多いが、このような場合、利用者が
その情報に注意を払っていないと、提示された情報の一
部あるいは全部を利用者が受け取れない場合があると言
う問題があった。In addition, the information to be presented, such as audio output, moving image information, characters and image information over a plurality of screens, may disappear immediately or may change every moment. In many cases, it is necessary to present information to the user using media, but in such a case, if the user does not pay attention to the information, the user can receive some or all of the presented information There was a problem that there was no case.
    
       【0015】また、従来は、一過性のメディアも用いて
利用者に情報提示する際、利用者が一度に受け取れる分
量毎の情報を提示し、利用者が何らかの特別な操作によ
る確認動作を行なうことによって、継続する次の情報を
提示する方法もあるが、この場合は、確認動作のため
に、利用者の負担が増えることになり、また、慣れない
と操作に戸惑い、システムの運用効率が悪くなるという
問題も残る。Conventionally, when presenting information to a user using a temporary medium, the user is presented with information for each amount that can be received at a time, and the user performs a confirmation operation through some special operation. Therefore, there is a method of presenting the next information to be continued, but in this case, the burden on the user increases due to the confirmation operation, and if the user is not accustomed to the operation, the operation is confused and the operation efficiency of the system is reduced. The problem of getting worse remains.
    
       【0016】また、従来のマルチモーダルインタフェー
スでは、利用技術の未発達から、人間同士のコミュニケ
ーションにおいては重要な役割を演じていると言われ
る、視線一致(アイコンタクト)、注視位置、身振り、
手振りなどのジェスチャ、顔表情などの非言語メッセー
ジを、効果的に利用することが出来ない。Further, in the conventional multimodal interface, it is said that, because of the undeveloped use technology, it plays an important role in communication between humans, such as gaze matching (eye contact), gaze position, gesture, 
 Gestures such as gestures and non-verbal messages such as facial expressions cannot be used effectively.
    
       【0017】[バックグラウンド(ii)]また、別の観
点として従来における現実のマルチモーダルインターフ
ェースを見てみると、音声入力、タッチセンサ入力、画
像入力、距離センサ入力といったものを扱うが、その処
理を考えてみる。[Background (ii)] As another viewpoint, when looking at a conventional actual multimodal interface, voice input, touch sensor input, image input, distance sensor input, and the like are handled. Consider
    
       【0018】音声入力の場合、たとえば利用者から音声
入力がなされたとして、その場合には入力された音声波
形信号を例えばアナログ/デジタル変換し、単位時間当
たりのパワー計算を行うことなどによって、音声区間を
検出し、これを例えばFFT(高速フーリエ変換)など
の方法によって分析すると共に、例えば、HMM(隠れ
マルコフモデル)などの方法を用いて、予め用意した標
準パターンである音声認識辞書と照合処理を行うことな
どにより、発声内容を推定し、その結果に応じた処理を
行う。In the case of voice input, for example, it is assumed that voice input has been made by a user, and in that case, the input voice waveform signal is converted, for example, from analog to digital, and the power per unit time is calculated. A section is detected and analyzed by, for example, a method such as FFT (Fast Fourier Transform) and, for example, is matched with a speech recognition dictionary, which is a standard pattern prepared in advance, by using a method such as HMM (Hidden Markov Model). , Etc., to estimate the content of the utterance, and perform processing according to the result.
    
       【0019】また、タッチセンサなどの接触式の入力装
置を通じて、利用者からの指し示しジェスチャの入力が
なされた場合には、タッチセンサの出力情報である、座
標情報、あるいはその時系列情報、あるいは入力圧力情
報、あるいは入力時間間隔などを用いて、指し示し先を
同定する処理を行う。When a pointing gesture is input by a user through a contact-type input device such as a touch sensor, coordinate information, time-series information, or input pressure, which is output information of the touch sensor, is input. A process for identifying the pointed-to destination is performed using information or an input time interval.
    
       【0020】また、画像を使用する場合には、単数ある
いは複数のカメラを用いて、例えば、利用者の手などを
撮影し、観察された形状、あるいは動作などを例えば、
“Uncalibrated Stereo Visi
on With Pointing for a Ma
n−Machine Interface(R.Cip
olla,et.al.,Proceedings o
f MVA’94,IAPR Workshop on
 Machine Vision Applicati
on,pp.163−166,1994.)などに示さ
れた方法を用いて解析することによって、利用者の指し
示した、実世界中の指示対象、あるいは表示画面上の指
示対象などを入力することが出来るようにしている。In the case of using an image, one or more cameras are used to photograph, for example, a user's hand, and the observed shape or operation is described, for example. 
 “Uncalibrated Stereo Visi 
 on With Pointing for a Ma 
 n-Machine Interface (R. Cip 
 olla, et. al. , Proceedings o 
 f MVA'94, IAPR Workshop on 
 Machine Vision Applicati 
 on, pp. 163-166, 1994. ), It is possible to input a pointing target in the real world or a pointing target on a display screen, which is pointed out by the user.
    
       【0021】また、距離センサ、この場合、例えば、赤
外線などを用いた距離センサなどを用いるがこの距離セ
ンサにより、利用者の手の位置や形、あるいは動きなど
を画像の場合と同様の解析方法により、解析して認識す
ることで、利用者の指し示した、実世界中の指示対象、
あるいは表示画面上の指示対象などへの指し示しジェス
チャを入力することが出来るようにしている。A distance sensor, in this case, for example, a distance sensor using infrared rays or the like is used. The distance sensor is used to analyze the position, shape, or movement of the user's hand in the same manner as in the case of an image. By analyzing and recognizing, the referents in the real world indicated by the user, 
 Alternatively, it is possible to input a pointing gesture to an instruction target or the like on the display screen.
    
       【0022】その他、入力手段としては利用者の手に、
例えば、磁気センサや加速度センサなどを装着すること
によって、手の空間的位置や、動き、あるいは形状を入
力したり、仮想現実(VR=Virtual Real
ity)技術のために開発された、データグローブやデ
ータスーツを利用者が装着することで、利用者の手や体
の、動き、位置、あるいは形状を解析することなどによ
って利用者の指し示した実世界中の指示対象、あるいは
表示画面上の指示対象などを入力するといったことが採
用可能である。In addition, as input means, a user's hand 
 For example, by mounting a magnetic sensor, an acceleration sensor, or the like, the spatial position, movement, or shape of the hand can be input, or virtual reality (VR = Virtual Real) can be input. 
 (it) The data pointed out by the user by analyzing the movement, position, or shape of the user's hand or body by wearing the data glove or data suit developed for the technology. It is possible to adopt input of an instruction target all over the world or an instruction target on a display screen.
    
       【0023】ところが、従来、指し示しジェスチャの入
力において、例えばタッチセンサを用いて実現されたイ
ンタフェース方法では、離れた位置からや、機器に接触
せずに、指し示しジェスチャを行うことが出来ないとい
う問題があった。さらに、例えばデータグローブや、磁
気センサや、加速度センサなどを利用者が装着すること
で実現されたインタフェース方法では、機器を装着しな
ければ利用できないという問題点があった。However, in the conventional pointing gesture input method, the interface method implemented using, for example, a touch sensor has a problem that the pointing gesture cannot be performed from a remote position or without touching the device. there were. Furthermore, there is a problem that an interface method realized by a user wearing a data glove, a magnetic sensor, an acceleration sensor, or the like cannot be used unless a device is worn.
    
       【0024】また、カメラなどを用いて、利用者の手な
どの形状、位置、あるいは動きを検出することで実現さ
れているインタフェース方法では、十分な精度が得られ
ないために、利用者が入力を意図したジェスチャだけ
を、適切に抽出することが困難であり、結果として、利
用者かジェスチャとしての入力を意図していない手の動
きや、形やなどを、誤ってジェスチャ入力であると誤認
識したり、あるいは利用者が入力を意図したジェスチャ
を、ジェスチャ入力であると正しく抽出することが出来
ないといったことが生じる。In the interface method implemented by detecting the shape, position, or movement of the user's hand or the like using a camera or the like, sufficient accuracy cannot be obtained. It is difficult to properly extract only gestures intended to be gestures, and as a result, hand movements, shapes, and the like that are not intended to be input by the user or gestures are mistaken for gesture input. In some cases, a gesture intended to be recognized or input by the user cannot be correctly extracted if the input is a gesture input.
    
       【0025】その結果、例えば、誤認識のために引き起
こされる誤動作の影響の訂正が必要になったり、あるい
は利用者が入力を意図して行ったジェスチャ入力が実際
にはシステムに正しく入力されず、利用者が再度入力を
行う必要が生じ、利用者の負担を増加させてしまうとい
う問題があった。As a result, for example, it is necessary to correct the influence of a malfunction caused by erroneous recognition, or a gesture input intentionally performed by a user is not correctly input to the system. There is a problem that the user needs to input again, which increases the burden on the user.
    
       【0026】また、利用者が入力したジェスチャが、解
析が終了した時点で得られるために、利用者が入力意図
したジェスチャを開始した時点あるいは入力を行ってい
る途中の時点では、システムがそのジェスチャ入力を正
しく抽出しているかどうかが分からない。Also, since the gesture input by the user is obtained at the time when the analysis is completed, at the time when the user starts the gesture intended to be input or at the time when the input is being performed, the gesture is performed by the system. I don't know if the input was extracted correctly.
    
       【0027】そのため、例えばジェスチャの開始時点が
間違っていたり、あるいは利用者によってジェスチャ入
力が行われていることを正しく検知できなかったりする
などして、利用者が現在入力途中のジェスチャが、実際
にはシステムによって正しく抽出されておらず、結果と
して誤認識を引き起こしたり、あるいは利用者が再度入
力を行わなくてはならなくなるなどして、利用者にかか
る負担が大きくなる。For this reason, for example, a gesture that the user is currently inputting is actually performed because the start time of the gesture is wrong, or it is not possible to correctly detect that the gesture input is being performed by the user. Is not correctly extracted by the system, and as a result, erroneous recognition is caused or the user has to input again, thereby increasing the burden on the user.
    
       【0028】あるいは、利用者がジェスチャ入力を行っ
ていないのにシステムが誤ってジェスチャが開始されて
いるなどと誤認識することによって、誤動作が起こり、
その影響の訂正をしなければならなくなる。Alternatively, a malfunction may occur when the system erroneously recognizes that a gesture has been started even though the user has not performed a gesture input. 
 The effect must be corrected.
    
       【0029】また、例えばタッチセンサやタブレットな
どの接触式の入力装置を用いたジェスチャ認識方法で
は、利用者は接触式入力装置自身の一部分を指し示すこ
ととなるため、その接触式入力装置自身以外の実世界の
場所や、ものなどを参照するための、指し示しジェスチ
ャを入力することが出来ないという問題があり、一方、
例えばカメラや赤外センサーや加速度センサなどを用い
る接触式でない入力方法を用いる、指し示しジェスチャ
入力の認識方法では、実世界の物体や場所を指し示すこ
とは可能であるがシステムがその指し示し先として、ど
の場所、あるいはどの物体あるいはそのどの部分を受け
取ったかを適切に表示する方法がないという問題があっ
た。In a gesture recognition method using a contact-type input device such as a touch sensor or a tablet, for example, a user points to a part of the contact-type input device itself. There is a problem that it is not possible to input pointing gestures to refer to real world places and things, etc. 
 For example, a pointing gesture input recognition method that uses a non-contact input method using a camera, an infrared sensor, an acceleration sensor, or the like can point to an object or a place in the real world, but the system uses There was a problem that there was no way to properly indicate the location, or which object or which part of it was received.
    
【0030】[0030]
       【発明が解決しようとする課題】以上、バックグラウン
ド(i)で説明したように、従来のマルチモーダルイン
タフェースは、それぞれの入出力メディアからの入力情
報についての解析精度の低さ、そして、それぞれの入出
力メディアの性質が十分に解明されていない等の点か
ら、新たに利用可能となった種々の入出力メディアある
いは、複数の入出力メディアを効果的に活用し、高能率
で、利用者の負担を軽減する、マルチモーダルインタフ
ェースは実現されていないと言う問題がある。As described above in the background (i), the conventional multi-modal interface has a low analysis accuracy for input information from each input / output medium, Because the characteristics of input / output media are not fully understood, various newly available input / output media or a plurality of input / output media can be effectively used to efficiently There is a problem that a multi-modal interface that reduces the burden is not realized.
    
       【0031】つまり、各メディアからの入力の解析精度
が不十分であるため、たとえば、音声入力における周囲
雑音などに起因する誤認識の発生や、あるいはジェスチ
ャ入力の認識処理において、入力デバイスから刻々得ら
れる信号の中から、利用者が入力メッセージとして意図
した信号部分の切り出しに失敗することなどによって、
誤動作が起こり、利用者へ負担が増加すると言う問題が
あつた。That is, since the analysis accuracy of the input from each medium is insufficient, for example, in the occurrence of erroneous recognition due to ambient noise or the like in voice input or in the recognition processing of gesture input, it is obtained from the input device every moment. For example, if the user fails to extract the signal part intended as an input message from the 
 There was a problem that a malfunction occurred and the burden on users increased.
    
       【0032】また、音声やジェスチャなどのメディアは
マルチモーダルインタフェースとして重要なものである
が、このメディアは、利用者が現在の操作対象である計
算機などへの入力として用いるだけでなく、例えば、周
囲の人との対話にも利用される。Further, media such as voices and gestures are important as a multi-modal interface. This media is used not only by a user as input to a computer or the like which is a current operation target, but also by, for example, surroundings. It is also used for dialogue with other people.
    
       【0033】そのため、このようなメディアを用いたイ
ンタフェース装置では、利用者が、インタフェース装置
ではなく、たとえば自分の横にいる人に対して話しかけ
たり、ジェスチャを示したりした場合にも、インタフェ
ース装置が自己への入力であると誤判断をして、その情
報の認識処理などを行なってしまい、誤動作を引き起こ
すことにもなる。そのため、その誤動作の取消や、誤動
作の影響の復旧に利用者が対処しなければならなくな
り、また、そのような誤動作を招かないようにするため
に、利用者は絶えず注意を払わなくてはならなくなると
いった具合に、利用者の負担が増えるという問題があっ
た。Therefore, in the interface device using such a medium, even when a user speaks or shows a gesture to a person next to the user instead of the interface device, the interface device can be used. If the input is erroneously determined to be an input to itself, recognition processing of the information is performed, and a malfunction may be caused. Therefore, the user must deal with the cancellation of the malfunction and recovery of the effects of the malfunction, and the user must pay constant attention to prevent such a malfunction. There has been a problem that the burden on the user increases when it disappears.
    
       【0034】また、マルチモーダル装置において本来、
情報の認識処理が不要な場面においても、入力信号の監
視と処理は継続的に行なわれるため、その処理負荷によ
って、利用している装置に関与する他のサービスの実行
速度や利用効率が低下するという問題点があった。Also, in a multimodal device, 
 Even when information recognition processing is not required, input signals are monitored and processed continuously, and the processing load reduces the execution speed and utilization efficiency of other services related to the device being used. There was a problem.
    
       【0035】また、この問題を解決するために、音声や
ジェスチャなどの入力を行なう際に、利用者にたとえ
ば、ボタンを押させるようにしたり、メニュー選択させ
るなど、特別な操作によってモードを変更するなどの手
法を用いることがあるが、このような特別な操作は、人
間同士の対話では本来ないものであるから、このような
操作を要求するインタフェースは、利用者にとって不自
然なインタフェースとなるだけでなく、繁雑で煩わしさ
を感じたり、操作の種類によっては、習得のための訓練
が必要となったりすることによって、利用者の負担増加
を招くという問題があった。In order to solve this problem, when inputting a voice or a gesture, the mode is changed by a special operation such as forcing the user to press a button or selecting a menu. Although such special operations may be used, such special operations are not inherent in human-to-human conversations, so an interface that requires such operations is only an unnatural interface for the user. In addition, there is a problem that the burden on the user is increased because the user feels troublesome and cumbersome or, depending on the type of operation, requires training for learning.
    
       【0036】また、音声メディアによる入力は、本来、
口だけを使ってコミュニケーションが出来るため、例え
ば手で行なっている作業を妨害することがなく、双方を
同時に利用することが可能であると言う利点があるが、
例えば、音声入力の可否をボタン操作によって切替える
といった構成とした場合などでは、このような音声メデ
ィアが本来持つ利点を損なってしまうという問題点があ
った。Also, the input by the voice media is originally 
 Since communication can be performed using only the mouth, there is an advantage that it is possible to use both at the same time without interrupting work done by hand, 
 For example, in a case where the input / output of voice input is switched by a button operation, there is a problem in that the inherent advantage of such a voice media is lost.
    
       【0037】また、例えば、音声出力や、動画像情報
や、複数画面に亙る文字や画像情報などでは、提示情報
が提示されるとすぐ消滅したり、刻々変化したりする一
過性のものとなることも多いが、このような一過性メデ
ィアも用いて利用者に情報提示する際、利用者がその情
報に注意を払っていないと提示された情報の一部あるい
は全部を利用者が受け取れない場合があると言う問題が
あった。Further, for example, audio output, moving image information, text and image information over a plurality of screens, etc., may disappear as soon as the presentation information is presented or may change momentarily. When presenting information to a user using such a transient medium, the user receives some or all of the information presented if the user has not paid attention to the information. There was a problem that there was no case.
    
       【0038】また、従来は、一過性のメディアも用いて
利用者に情報提示する際、利用者が一度に受け取れる分
量毎の情報を提示し、利用者が何らかの特別な操作によ
る確認動作を行なうことによって、継続する次の情報を
提示する手法を用いることがあるが、このような方法で
は、確認動作のために、利用者の負担が増加し、また、
システムの運用効率を悪くするという問題があった。Conventionally, when information is presented to a user using a temporary medium, the user is presented with information for each amount that can be received at a time, and the user performs a confirmation operation through some special operation. Therefore, a method of presenting the next information to be continued may be used. However, such a method increases the burden on the user due to the confirmation operation, 
 There was a problem that the operation efficiency of the system deteriorated.
    
       【0039】また、従来のマルチモーダルインタフェー
スでは、応用技術の未熟から人間同士のコミュニケーシ
ョンにおいて重要な役割を演じていると言われる、視線
一致(アイコンタクト)、注視位置、身振り、手振りな
どのジェスチャ、そして、顔表情などの非言語メッセー
ジを、効果的に利用することが出来ないという問題があ
った。In the conventional multimodal interface, gestures such as eye-gaze matching (eye contact), gaze position, gesture, hand gesture, etc., which are said to play an important role in human-to-human communication due to inexperience in applied technology, Then, there is a problem that non-verbal messages such as facial expressions cannot be used effectively.
    
       【0040】また、バックグラウンド(ii)で説明した
ように、マルチモーダルインタフェース用の現実の入力
手段においては、指し示しジェスチャの入力の場合、接
触式の入力機器を使用するインタフェース方法では、離
れた位置からや、機器に接触せずに、指し示しジェスチ
ャを行うことが出来ず、また、装着式のインタフェース
方法では、機器を装着しなければ利用できないという問
題があった。As described in the background (ii), in an actual input means for a multi-modal interface, in the case of inputting a pointing gesture, in an interface method using a contact-type input device, a remote location is used. There is a problem that the pointing gesture cannot be performed without touching the device or the device, and the wearing interface method cannot be used unless the device is worn.
    
       【0041】また、ジェスチャ認識を遠隔で行うインタ
フェース方法では、十分な精度が得られないために、利
用者がジェスチャとしての入力を意図していない手の動
きや、形やなどを、誤ってジェスチャ入力であると誤認
識してしまったり、あるいは利用者が入力を意図したジ
ェスチャを、ジェスチャ入力であると正しく抽出するこ
とが出来ない場合が多発するという問題があった。In the interface method for performing gesture recognition remotely, sufficient accuracy cannot be obtained, so that the user may erroneously perform gestures such as hand movements, shapes, and the like that are not intended to be input as gestures. There has been a problem that a gesture that is erroneously recognized as an input or a gesture intended by the user to be input frequently cannot be correctly extracted as a gesture input.
    
       【0042】また、利用者が入力意図したジェスチャを
開始した時点あるいは入力を行っている途中の時点で
は、システムが、そのジェスチャ入力を正しく抽出して
いるかどうかが分からないため、結果として誤認識を引
きおこしたり、あるいは、利用者が再度入力を行わなく
てはならなくなるなどして、利用者の負担が増加すると
いう問題があった。Further, at the point in time when the user starts a gesture intended for input or during input, the system does not know whether or not the gesture input has been correctly extracted. There is a problem that the burden on the user is increased because the user has to cause an input or need to input again.
    
       【0043】また、接触式の入力装置を用いたジェスチ
ャ認識方法では、その接触式入力装置自身以外の実世界
の場所や、ものなどを参照するための、指し示しジェス
チャを入力することが出来ず、一方、非接触式の入力方
法を用いる、指し示しジェスチャ入力の認識方法では、
実世界の物体や場所を指し示すことは可能であるが、シ
ステムがその指し示し先として、どの場所、あるいはど
の物体あるいはそのどの部分を受け取ったかを適切に表
示する方法がないという問題があった。In the gesture recognition method using the contact-type input device, a pointing gesture for referring to a place or an object in the real world other than the contact-type input device itself cannot be input. On the other hand, in the method of recognizing pointing gesture input using a non-contact input method, 
 Although it is possible to indicate an object or place in the real world, there is a problem in that there is no way to appropriately indicate which place, which object, or which part thereof has been received by the system.
    
       【0044】さらに、以上示した問題によって誘発され
る従来方法の問題としては、例えば、誤動作による影響
の訂正が必要になったり、あるいは再度の入力が必要に
なったり、あるいは利用者が入力を行う際に、現在行っ
ている入力が正しくシステムに入力されているかどうか
が分からないため、不安になるなどして、利用者の負担
が増すという問題があった。Further, as a problem of the conventional method induced by the above-described problem, for example, it is necessary to correct the influence of a malfunction, or it is necessary to input again, or a user makes an input. At this time, there is a problem that the user's burden increases due to anxiety and the like, because it is not known whether the current input is correctly input to the system.
    
       【0045】そこでこの発明の目的とするところは、バ
ックグラウンド(i)の課題を解決するために、第1に
は、複数種の入出力メディアを効率的、効果的に利用す
ることができ、利用者の負担を軽減できて人間同士のコ
ミュニケーションに近い状態で自然な対話ができるよう
にしたマルチモーダルインタフエースを提供することに
ある。Therefore, the object of the present invention is to solve the problem of the background (i) by firstly making it possible to use a plurality of types of input / output media efficiently and effectively. It is an object of the present invention to provide a multi-modal interface capable of reducing a burden on a user and enabling a natural conversation in a state close to communication between humans.
    
       【0046】また、本発明の第2の目的は、各メディア
からの入力の解析精度が不十分であるための誤動作や、
あるいは周囲雑音による誤動作や、あるいは入力デバイ
スから刻々得られる信号の中から、利用者が入力メッセ
ージとして意図した信号部分の切り出しの失敗などに起
因する誤動作などによる利用者への負担を解消するマル
チモーダルインタフェースを提供するものである。Further, a second object of the present invention is to provide a method for detecting a malfunction due to insufficient analysis accuracy of an input from each medium, 
 Or multi-modal that eliminates the burden on users due to malfunctions due to malfunctions due to ambient noise or failure to cut out the signal part intended by the user as an input message from signals obtained from the input device every time Provides an interface.
    
       【0047】また、第3には、音声やジェスチャなどの
ように、利用者が現在の操作対象である計算機などへの
入力として用いるだけでなく、人間同士の対話に用いる
メディアを用いたインタフェース装置では、利用者が、
操作中のマルチモーダルシステムのインタフェース装置
にではなく、たとえば自分の横にいる他人に対して話し
かけたり、ジェスチャを示したりした場合にも、利用者
がマルチモーダルシステムのそばにいるがために、その
マルチモーダルシステムのインタフェース装置が自己へ
の入力であると判断してしまうことになり誤動作の原因
となるが、その場合でもこのような事態を解消でき、誤
動作に伴う取消操作や、誤動作の影響の復旧のための処
置や、誤動作を避けるために利用者が絶えず注意を払わ
なくてはならないといった負荷を含め、利用者への負担
を解消することができるマルチモーダルインタフェース
を提供することにある。Third, an interface device using a medium, such as a voice or a gesture, which is used not only by a user as an input to a computer or the like as a current operation target but also used by a human for dialogue. Then, the user 
 Instead of using the interface device of the operating multi-modal system, for example, when speaking to another person beside you or showing a gesture, because the user is near the multi-modal system, The interface device of the multi-modal system will judge that it is an input to itself and cause a malfunction, but even in such a case, such a situation can be resolved and the cancellation operation accompanying the malfunction and the influence of the malfunction It is an object of the present invention to provide a multi-modal interface that can eliminate a burden on a user, including a measure for recovery and a load that the user must constantly pay attention to avoid malfunction.
    
       【0048】また、第4には、システムの処理動作状態
から、本来メディア入力の情報識別が不要な場面におい
ても、入力信号の処理が継続的に行なわれることによっ
てその割り込み処理のために、現在処理中の作業の遅延
を招くという悪影響をなくすべく、不要な場面でのメデ
ィア入力に対する処理負荷を解消できるようにすること
により、利用している装置に関与する他のサービスの実
行速度や利用効率の低下を抑制できるようにしたマルチ
モーダルインタフェースを提供することにある。Fourth, even in a situation where information identification of media input is originally unnecessary from the processing operation state of the system, input signal processing is continuously performed, so that interrupt processing is performed. The execution speed and utilization efficiency of other services related to the device being used by eliminating the processing load on media input in unnecessary situations to eliminate the adverse effect of delaying work during processing It is an object of the present invention to provide a multi-modal interface capable of suppressing a decrease in the number.
    
       【0049】また、第5には、音声やジェスチャなどの
入力を行なう際に、たとえば、ボタンを押したり、メニ
ュー選択などによるモード変更などといった、特別な操
作を必要としない構成とすることにより、煩雑さを伴わ
ず、自然で、しかも、習得のための訓練などが不要、且
つ、利用者に負担をかけないマルチモーダルインタフェ
ースを提供することにある。Fifth, when inputting voices and gestures, a special operation such as pressing a button or changing a mode by selecting a menu is not required. An object of the present invention is to provide a multi-modal interface that is natural, does not require any training for learning, and does not impose a burden on a user without any complexity.
    
       【0050】また、第6には、音声メディアを使用する
際には、例えば、音声入力の可否をボタン操作によって
切替えるといった余分な操作を完全に排除して、しか
も、必要な音声情報を取得することができるようにした
マルチモーダルインタフェースを提供することにある。Sixth, when audio media is used, for example, unnecessary operations such as switching between the input and output of audio by a button operation are completely eliminated, and necessary audio information is obtained. It is an object of the present invention to provide a multi-modal interface capable of performing such operations.
    
       【0051】また、第7には、提示が一過性となるかた
ちでの情報を、見逃すことなく利用者が受け取れるよう
にしたマルチモーダルインタフェースを提供することに
ある。Seventh, it is an object of the present invention to provide a multimodal interface that allows a user to receive information in a form in which presentation is temporary, without overlooking the information.
    
       【0052】また、第8には、一過性のメディアによる
情報提示の際に、利用者が一度に受け取れる量に小分け
して提示するようにした場合に、特別な操作など利用者
の負担を負わせることなく円滑に情報を提示できるよう
にしたインタフェースを提供することにある。Eighth, when presenting information by means of a transient medium, when the user is presented with the information divided into small amounts that can be received at one time, the burden on the user such as a special operation is reduced. An object of the present invention is to provide an interface capable of presenting information smoothly without imposing.
    
       【0053】また、第9には、人間同士のコミュニケー
ションにおいては重要な役割を演じていると言われる
が、従来のマルチモーダルインタフェースでは、効果的
に利用することが出なかった、視線一致(アイコンタク
ト)、注視位置、身振り、手振りなどのジェスチャ、顔
表情など非言語メッセージを、効果的に活用できるイン
タフェースを提供することにある。Ninth, it is said that it plays an important role in human-to-human communication, but it is difficult to effectively use the conventional multi-modal interface. It is an object of the present invention to provide an interface that can effectively use non-verbal messages such as gestures such as contact, gaze position, gesture, hand gesture, and facial expressions.
    
       【0054】また、この発明の目的とするところは、バ
ックグラウンド(ii)の課題を解決するために、利用者
がシステムから離れた位置や、あるいは機器に接触せず
に、かつ、機器を装着せずに、遠隔で指し示しジェスチ
ャを行って指示を入力することが出来、かつ、ジェスチ
ャ認識方式の精度が十分に得られないために発生する誤
認識やジェスチャ抽出の失敗を無くすことができるよう
にしたマルチモーダルインタフェース装置およびマルチ
モーダルインタフェース方法を提供するものである。ま
た、利用者が入力意図したジェスチャを開始した時点あ
るいは入力を行っている途中の時点では、システムがそ
のジェスチャ入力を正しく抽出しているか否かが分から
ないため、結果として誤認識を引きおこしたり、あるい
は、利用者が再度入力を行わなくてはならなくなるなど
して発生する利用者の負担を抑制することが可能なマル
チモーダルインタフェース装置およびマルチモーダルイ
ンタフェース方法を提供するものである。Another object of the present invention is to solve the problem of the background (ii), in which the user attaches the device to a position away from the system or without touching the device. Without pointing, it is possible to perform pointing gestures remotely and input instructions, and to eliminate false recognition and gesture extraction failures caused by insufficient accuracy of the gesture recognition method. To provide a multimodal interface device and a multimodal interface method. Also, at the point when the user starts the gesture intended to be input or during the input, it is not known whether the system has correctly extracted the gesture input, and as a result, misrecognition may occur. Another object of the present invention is to provide a multi-modal interface device and a multi-modal interface method capable of suppressing a user's burden caused by the user having to input again.
    
       【0055】また、実世界の場所やものなどを参照する
ための利用者からの指し示しジェスチャ入力に対して、
その指し示し先として、どの場所、あるいはどの物体あ
るいはそのどの部分を受け取ったかを適切に表示するこ
とが可能なマルチモーダルインタフェース装置およびマ
ルチモーダルインタフェース方法を提供するものであ
る。Further, in response to a pointing gesture input from a user for referring to a place or thing in the real world, 
 An object of the present invention is to provide a multimodal interface device and a multimodal interface method capable of appropriately displaying which place, which object, or which part thereof has been received.
    
       【0056】さらに、前述の問題によって誘発される従
来方法の問題である、誤動作による影響の訂正や、ある
いは再度の入力によって引き起こされる利用者の負担
や、利用者の入力の際の不安による利用者の負担を解消
することができるマルチモーダルインタフェース装置お
よびマルチモーダルインタフェース方式を提供すること
にある。Further, the problems of the conventional method induced by the above-mentioned problems, such as the correction of the influence of the malfunction, the burden on the user caused by the re-input, and the user's anxiety at the time of the input by the user. It is an object of the present invention to provide a multi-modal interface device and a multi-modal interface system which can eliminate the burden of the above.
    
       【0057】さらに、擬人化インタフェースを用いたイ
ンタフェース装置、およびインタフェース方法で、利用
者の視界、および擬人化エージェントから視界などを考
慮した、適切なエージェントの表情を生成し、フィード
バックとして提示することが出来るマルチモーダルイン
タフェース装置およびマルチモーダルインタフェース方
式を提供することにある。Further, by using an interface apparatus and an interface method using an anthropomorphic interface, it is possible to generate an appropriate facial expression of an agent in consideration of the field of view of the user and the anthropomorphic agent from the anthropomorphic agent, and present it as feedback. An object of the present invention is to provide a multi-modal interface device and a multi-modal interface method that can be performed.
    
【0058】[0058]
       【課題を解決するための手段】上記目的を達成するた
め、本発明は次のように構成する。バックグラウンド
(i)に関する課題を解決するために、 [1] 第1には、利用者の注視対象を検出する検出手
段と、利用者の音声入力情報、操作入力情報、画像入力
情報のうち、少なくとも一つ以上の入力情報を受け、認
識動作の状況を制御する制御手段とを備えたことを特徴
とする。In order to achieve the above object, the present invention is configured as follows. In order to solve the problem relating to the background (i), [1] First, a detection unit that detects a gaze target of a user, and among voice input information, operation input information, and image input information of the user, Control means for receiving at least one or more pieces of input information and controlling the state of the recognition operation.
    
       【0059】本発明にかかるマルチモーダルインタフェ
ースは、利用者を観察するカメラや利用者が装着したカ
メラなどから入力される視覚情報を用いた視線検出処理
や、利用者の視線の動きを検出するアイトラッカや、利
用者の頭部の動きを検出するヘッドトラッカや、着席セ
ンサ、対人センサなどによって、利用者が、現在見てい
るか、あるいは向いている、場所、領域、方向、物、あ
るいはその部分を検出して、注視対象情報としてを出力
する検出手段と、音声入力や、ジェスチャ入力や、キー
ボード入力や、ポインティングデバイスを用いた入力
や、カメラからの視覚入力情報や、マイクからの音声入
力情報や、キーボード、タッチパネル、ぺン、マウスな
どポインティングデバイス、データグローブなどからの
操作入力情報など、利用者の注視対象以外を表す利用者
からの入力情報を受けとり処理を行なう少なくとも一つ
の他メディア入力処理手段とを具備しており、制御手段
により、該注視対象情報に応じて、少なくとも一つの他
メディア入力処理手段の、入力受付可否、あるいは処理
あるいは認識動作の開始、終了、中断、再開、処理レベ
ルの調整などの動作状況を適宜制御するようにしたもの
である。The multi-modal interface according to the present invention is a gaze detection process using visual information input from a camera for observing a user or a camera worn by a user, and an eye tracker for detecting a movement of a gaze of a user. Or a head tracker that detects the movement of the user's head, a seating sensor, an interpersonal sensor, etc., can be used to determine the location, area, direction, object, or part thereof that the user is currently looking at or facing. Detecting means for detecting and outputting as gaze target information, voice input, gesture input, keyboard input, input using a pointing device, visual input information from a camera, voice input information from a microphone, , Keyboard, touch panel, mouse, pointing device such as mouse, operation input information from data glove, etc. At least one other media input processing means for receiving and processing input information from a user representing an object other than the user's gazing target, and the control means controlling the at least one other media input processing means in accordance with the gazing target information. The media input processing means appropriately controls the operation acceptability of input input, or the operation status such as start, end, interruption, restart, and adjustment of the processing level of the processing or recognition operation.
    
       【0060】[2] 第2には、擬人化されたエージェ
ント画像を供給する擬人化イメージ提供手段と、利用者
の注視対象を検出する検出手段と、利用者の音声入力情
報、操作入力情報、画像入力情報のうち、少なくとも一
つ以上の入力情報を取得する他メディア入力手段と、こ
の他メディア入力手段からの入力情報を受け、認識動作
の状況を制御するものであって、前記検出手段により得
られる注視対象情報を基に、利用者の注視対象が擬人化
イメージ提示手段により提示されるエージェント画像の
いずれの部分かを認識して、その認識結果に応じ前記他
メディア入力認識手段からの入力の受付選択をする制御
手段とを備えたことを特徴とする。[2] Second, anthropomorphic image providing means for supplying an anthropomorphized agent image, detecting means for detecting a gaze target of the user, voice input information of the user, operation input information, Among the image input information, other media input means for acquiring at least one or more input information, for receiving input information from the other media input means and controlling the state of a recognition operation, wherein the detection means Based on the obtained gazing target information, the gazing target of the user recognizes any part of the agent image presented by the anthropomorphic image presenting means, and inputs from the other media input recognizing means in accordance with the recognition result. And control means for selecting the reception of
    
       【0061】この構成によれば、利用者に対して応対す
る擬人化されたエージェント画像具体的には、利用者と
対面してサービスを提供する人物、生物、機械、あるい
はロボットなどとして擬人化されたエージェント人物
の、静止画あるいは動画による画像情報を、利用者へ提
示する擬人化イメージ提示手段があり、検出手段によっ
て得られる注視対象情報に応じて、利用者の注視対象
が、擬人化イメージ提示手段で提示されるエージェント
人物の、全体、あるいは、顔、目、口、耳など一部を指
しているか否かに応じて、制御手段は他メディア入力認
識手段からの入力受付を選択するようにしたものであ
る。According to this configuration, an anthropomorphic agent image responding to the user is specifically anthropomorphized as a person, a creature, a machine, a robot, or the like, who provides services while facing the user. There is an anthropomorphic image presenting means for presenting image information of a still person or a moving image of the agent person to the user, and according to the gazing object information obtained by the detecting means, an anthropomorphic image presentation of the user Depending on whether or not the agent person presented by the means points to the whole, or part of the face, eyes, mouth, ears, etc., the control means selects input reception from other media input recognition means. It was done.
    
       【0062】[3] 第3には、文字情報、音声情報、
静止面像情報、動画像情報、力の提示など少なくとも一
つの信号の提示により、利用者に対してフィードバック
信号提示するフィードバック提示手段と、注視対象情報
を参照して、メディア入力認識手段からの入力の受付選
択をする際に、該フィードバック提示手段を通じて適宜
利用者へのフィードバック信号を提示すべく制御する制
御手段を更に具備したことを特徴とする。[3] Third, character information, voice information, 
 Feedback presentation means for presenting a feedback signal to the user by presenting at least one signal such as still surface image information, moving image information, and force, and input from the media input recognition means with reference to the gaze target information. And a control means for controlling so as to appropriately present a feedback signal to the user through the feedback presenting means when making a selection of reception.
    
       【0063】この場合、利用者に対し、文字情報、音声
情報、静止画像情報、動画像情報、力の提示など少なく
とも一つの信号の提示によって、フィードバック信号を
提示するフィードバック提示手段があり、制御手段は、
注視対象情報を参照して、メディア入力認識手段からの
入力を受付可否を切替える際に、該フィードバック提示
手段を通じて利用者へのフィードバック信号を適宜提示
するよう制御することを特徴とするものである。In this case, there is a feedback presenting means for presenting a feedback signal to the user by presenting at least one signal such as text information, voice information, still image information, moving image information, and force. Is 
 When switching whether or not to accept input from the media input recognition means with reference to the gaze target information, control is performed so as to appropriately present a feedback signal to the user through the feedback presentation means.
    
       【0064】[4] 第4には、利用者と対面してサー
ビスを提供する擬人化されたエージェン卜人物の画像で
あって、該エージェント人物画像は利用者に、所要のジ
ェスチャ、表情変化を持つ画像による非言語メッセージ
として当該画像を提示する擬人化イメージ提示手段と、
注視対象情報を参照して、メディア入力認識手段からの
入力の受付選択する際に、擬人化イメージ提示手段を通
じて利用者への非言語メッセージによる信号を適宜提示
すべく制御する制御手段とを具備したことを特徴とす
る。[4] Fourth, an image of an anthropomorphized agent person who provides a service facing the user. The agent person image provides the user with necessary gestures and facial expression changes. Anthropomorphic image presentation means for presenting the image as a non-verbal message with the image having 
 A control means for controlling to appropriately present a signal by a non-verbal message to the user through the anthropomorphic image presenting means when receiving and selecting an input from the media input recognizing means with reference to the gaze target information. It is characterized by the following.
    
       【0065】この場合、擬人化イメージ提示手段は、利
用者と対面してサービスを提供する人物、生物、機械、
あるいはロボットなどとして擬人化されたエージェント
人物の、静止画あるいは動画による面像情報と、利用者
へ、うなづき、身振り、手振り、などのジェスチャや、
表情変化など、任意個数、任意種類のエージェント人物
画像を用意、あるいは適宜に生成できるようにしてあ
り、これらの画像を使用して非言語メッセージを提示す
ることができるようにしてあって、制御手段により、注
視対象情報を参照して、メディア入力認識手段からの入
力を受付選択する際に、擬人化イメージ提示手段を通じ
て利用者への非言語メッセージによる信号を適宜提示す
るよう制御するものである。In this case, the personification image presenting means includes a person, a creature, a machine, 
 Or, the image information of the agent personified as a robot or the like by a still image or a moving image, and gestures such as nodding, gesture, hand gesture to the user, 
 Any number and any kind of agent person images, such as changes in facial expressions, can be prepared or appropriately generated, and these images can be used to present non-verbal messages. Thus, when the input from the media input recognition means is received and selected with reference to the gaze target information, control is performed so as to appropriately present a signal by a non-verbal message to the user through the anthropomorphic image presentation means.
    
       【0066】[5] 第5には、利用者の注視対象を検
出する検出手段と、利用者への音声情報、操作情報、画
像情報を出力する情報出力手段と、利用者からの音声入
力情報、操作入力情報、画像入力情報のうち、少なくと
も一つ以上の入力情報を受け、認識動作の状況を制御す
る第1の制御手段と、前記注視対象情報を参照して、少
なくとも一つの情報出力手段の、出力の開始、終了、中
断、再開、あるいは提示速度の調整などの動作状況を適
宜制御する第2の制御手段とを備したことを特徴とす
る。[5] Fifth, a detecting means for detecting a gaze target of the user, an information output means for outputting voice information, operation information, and image information to the user, and voice input information from the user First control means for receiving at least one of input information among operation input information and image input information and controlling a state of a recognition operation; and at least one information output means by referring to the gazing target information. A second control means for appropriately controlling an operation state such as start, end, interruption, resumption of output, or adjustment of presentation speed.
    
       【0067】この構成の場合、注視対象物を検出する検
出手段、具体的には、利用者を観察するカメラや利用者
が装着したカメラなどから入力される視覚情報を用いた
視線検出処理や、利用者の視線の動きを検出するアイト
ラッカや、利用者の頭部の動きを検出するヘッドトラッ
カや、着席センサ、対人センサなどによって、利用者
が、現在見ているか、あるいは向いている、場所、領
域、方向、物、あるいはその部分を検出して、注視対象
情報としてを出力する注視対象検出用の検出手段があ
り、また、利用者へ、文字情報、音声情報、静止画像情
報、動画像情報、力の提示など少なくとも一つの信号の
提示によって、情報を出力する少なくとも一つの情報出
力手段があって、制御手段は前記注視対象情報を参照し
て、少なくとも一つの情報出力手段の、出力の開始、終
了、中断、再開、あるいは提示速度の調整などの動作状
況を適宜制御するものである。In the case of this configuration, detection means for detecting a gaze target, specifically, a gaze detection process using visual information input from a camera for observing a user or a camera worn by the user, An eye tracker that detects the movement of the user's line of sight, a head tracker that detects the movement of the user's head, a seating sensor, an interpersonal sensor, etc., the user is currently viewing or facing, There is a detection means for gaze target detection that detects an area, a direction, an object, or a part thereof and outputs the information as gaze target information, and further provides text information, voice information, still image information, and moving image information to a user. There is at least one information output means for outputting information by the presentation of at least one signal such as the presentation of a force, and the control means refers to the gazing target information and outputs at least one information. Output means, the start of the output, ends, interrupted, and controls restart, or the operation conditions such as adjustment of the presentation rate appropriate.
    
       【0068】[6] 第6には、文字情報、音声情報、
静止面像情報、動画像情報、力の提示などのうち、少な
くとも一つの信号の提示によって、利用者の注意を喚起
する注意喚起手段と、情報出力手段から情報を提示する
際に、注視対象情報に応じて、注意喚起手段を通じて、
利用者の注意を喚起するための信号を適宜提示するよう
制御する第2の制御手段とを更に具備する。[6] Sixth, character information, voice information, 
 By presenting at least one of the static surface image information, the moving image information, and the presentation of the force, the information to be watched when presenting the information from the information output means and the alerting means for calling the user's attention by presenting at least one signal. Depending on the 
 And a second control means for controlling so as to appropriately present a signal for calling the user's attention.
    
       【0069】この構成の場合、文字情報、音声情報、静
止画像情報、動画像情報、力の提示など少なくとも一つ
の信号の提示によって、利用者の注意を喚起する注意喚
起手段があり、第2の制御手段は、情報出力手段から情
報を提示する際に、注視対象情報に応じて、注意喚起手
段を通じて、利用者の注意を喚起するための信号を適宜
提示するよう制御する。In the case of this configuration, there is an alerting means for alerting the user by presenting at least one signal such as character information, voice information, still image information, moving image information, and presentation of force. The control means, when presenting the information from the information output means, controls so as to appropriately present a signal for calling the user's attention through the attention calling means in accordance with the attention target information.
    
       【0070】[7] 第7には、注視対象情報あるい
は、カメラ、マイク、キーボード、スイッチ、ポインテ
ィングデバイス、センサなどの入力手段のうち、少なく
とも一つの入力手段を用いて、該注意喚起のための信号
に対する利用者の反応を検知し、これを利用者反応情報
として出力する反応検知手段と、利用者反応情報の内容
に応じて、情報出力手段の動作状況および注意喚起手段
の少なくとも一つを適宜制御する制御手段を設ける。[7] Seventh, by using at least one of input means such as gaze target information or input means such as a camera, a microphone, a keyboard, a switch, a pointing device, a sensor, etc. Reaction detection means for detecting a user's response to the signal and outputting this as user response information, and at least one of an operation status of the information output means and a warning means according to the content of the user response information. Control means for controlling is provided.
    
       【0071】このような構成において、注視対象情報あ
るいは、カメラ、マイク、キーボード、スイッチ、ポイ
ンティングデバイス、センサなどの入力手段を用いて、
該注意喚起のための信号に対する利用者の反応を検知し
利用者反応情報として出力する反応検知手段があり、制
御手段は、利用者反応情報の内容に応じて、情報出力手
段の動作状況およぴ注意喚起手段の少なくとも一つを適
宜制御するようにしたものである。In such a configuration, the gaze target information or input means such as a camera, a microphone, a keyboard, a switch, a pointing device, and a sensor is used. 
 There is reaction detection means for detecting a user's response to the signal for alerting and outputting it as user response information, and the control means controls the operation status of the information output means and the operation status of the information output means according to the content of the user response information. (4) At least one of the warning means is appropriately controlled.
    
       【0072】[8] 第8には、利用者の注視対象を検
出する検出手段と、利用者の音声入力情報、操作入力情
報、画像入力情報のうち、少なくとも一つ以上の入力情
報を取得する他メディア入力手段と、利用者と対面して
サービスを提供する擬人化されたエージェント人物の画
像であって、該エージェント人物画像は利用者に所要の
ジェスチャ、表情変化を持つ画像による非言語メッセー
ジとして当該画像を提示する擬人化イメージ提示手段
と、文字情報、音声情報、静止画像情報、動画像情報、
力の提示などのうち、少なくとも一つの信号の提示によ
り、利用者に対して情報を出力する情報出力手段と、前
記擬人化イメージ提示手段を通しての非言語メッセージ
の提示により、利用者の注意を喚起する注意喚起手段
と、注視対象情報あるいは、カメラ、マイク、キーボー
ド、スイッチ、ポインティングデバイス、センサなどか
らの入力情報のうち、少なくとも一つの情報を参照し
て、前記注意喚起のための信号に対する利用者の反応を
検知し、利用者反応情報として出力する反応検知手段
と、該注視対象情報に応じて、少なくとも一つの他メデ
ィア入力処理手段の、入力受付可否、あるいは処理ある
いは認識動作の開始、終了、中断、再開、処理レベルの
調整などの動作状況を適宜制御し、注視対象情報を参照
して、メディア入力認識手段からの入力を受付可否を切
替える際に、利用者へ、文字情報、音声情報、静止画像
情報、動画像情報、力の提示、あるいは、擬人化イメー
ジ提示手段を通じて利用者への非言語メッセージによる
信号を適宜提示するよう制御し、該注視対象情報を参照
して、少なくとも一つの情報出力手段の、出力の開始、
終了、中断、再開、処理レベルの調整などの動作状況を
適宜制御し、情報出力手段から情報を提示する際に、注
視対象情報に応じて、注意喚起手段を通じて、利用者の
注意を喚起するための信号を適宜提示するよう制御し、
利用者反応情報の内容に応じて、情報出力手段の動作状
況および注意喚起手段の少なくとも一つを適宜制御する
制御手段とを具備する。[8] Eighthly, a detecting means for detecting a gaze target of the user and at least one or more input information among the user's voice input information, operation input information, and image input information are obtained. An image of an anthropomorphic agent person providing a service facing the user with other media input means, wherein the agent person image is a non-verbal message of an image having a required gesture and facial expression change to the user. Anthropomorphic image presenting means for presenting the image, character information, audio information, still image information, moving image information, 
 By presenting at least one signal out of the presentation of power or the like, the information output means for outputting information to the user and the presentation of a non-verbal message through the anthropomorphic image presenting means draw the user's attention. A user who responds to the signal for alerting by referring to at least one of information to be alerted and information to be watched or input information from a camera, a microphone, a keyboard, a switch, a pointing device, a sensor, or the like. Response detection means for detecting the response of the user, and output as user response information, and at least one of the other media input processing means according to the gaze target information, whether or not input acceptance, or start or end of processing or recognition operation, Appropriately control the operation status such as suspending, resuming, adjusting the processing level, and referencing the gaze target information to recognize the media input. When switching between accepting and not accepting input from the stage, use text information, voice information, still image information, moving image information, force presentation, or non-verbal message to the user through anthropomorphic image presentation means Controlling to present a signal as appropriate, referring to the gaze target information, at least one information output unit, start of output, 
 To properly control the operation status such as termination, interruption, resumption, adjustment of the processing level, etc., and to present the information from the information output means, according to the information to be watched, to call the attention of the user through the warning means Control to present the signal of 
 Control means for appropriately controlling at least one of the operation status of the information output means and the alerting means according to the content of the user reaction information.
    
       【0073】このような構成においては、注視対象を検
出する検出手段、具体的には、利用者を観察するカメラ
や利用者が装着したカメラなどから入力される視覚情報
を用いた視線検出処理や、利用者の視線の動きを検出す
るアイトラッカや、利用者の頭部の動きを検出するヘッ
ドトラッカや、着席センサ、対人センサなどによって、
利用者が、現在見ているか、あるいは向いている、場
所、領域、方向、物、あるいはその部分を検出して、注
視対象情報としてを出力する検出手段があり、音声入力
や、ジェスチャ入力や、キーボード入力や、ポインティ
ングデバイスを用いた入力や、カメラからの視覚入力情
報や、マイクからの音声入力情報や、キーボード、タッ
チパネル、ペン、マウスなどポインティングデバイス、
データグローブなどからの操作入力情報など、利用者の
注視対象以外を表す利用者からの入力情報を受け取り、
処理を行なう少なくとも一つの他メディア入力処理手段
と、利用者と対面してサービスを提供する人物、生物、
機械、あるいはロボットなどとして擬人化されたエージ
ェント人物の、静止画あるいは動画による画像情報と、
利用者へ、うなづき、身振り、手振り、などのジェスチ
ャや、表情変化など、任意個数、任意種類の非言語メッ
セージを提示する提示する擬人化イメージ提示手段と、
利用者へ、文字情報、音声情報、静止画像情報、動画像
情報、力の提示など少なくとも一つの信号の提示によっ
て、情報を出力する少なくとも一つの情報出力手段と、
利用者へ、文字情報、音声情報、静止画像情報、動画像
情報、力の提示など少なくとも一つの信号の提示あるい
は、擬人化イメージ提示手段を通じての非言語メッセー
ジの提示によって、利用者の注意を喚起する注意喚起手
段と、注視対象情報あるいは、カメラ、マイク、キーボ
ード、スイッチ、ポインティングデバイス、センサなど
からの入力情報を参照して、該注意喚起のための信号に
対する利用者の反応を検知し利用者反応情報として出力
する反応検知手段があり、制御手段は、前記注視対象情
報に応じて、少なくとも一つの他メディア入力処理手段
の、入力受付可否、あるいは処理あるいは認識動作の開
始、終了、中断、再開、処理レベルの調整などの動作状
況を適宜制御し、注視対象情報を参照して、メディア入
力認識手段からの入力を受付可否を切替える際に、利用
者へ、文字情報、音声情報、静止画像情報、動画像情
報、力の提示、あるいは、擬人化イメージ提示手段を通
じて利用者への非言語メッセージによる信号を適宜提示
するよう制御し、該注視対象情報を参照して、少なくと
も一つの情報出力手段の、出力の開始、終了、中断、再
開、処理レベルの調整などの動作状況を適宜制御し、情
報出力手段から情報を提示する際に、注視対象情報に応
じて、注意喚起手段を通じて、利用者の注意を喚起する
ための信号を適宜提示するよう制御し、利用者反応情報
の内容に応じて、情報出力手段の動作状況および注意喚
起手段の少なくとも一つを適宜制御するものである。In such a configuration, detection means for detecting a gaze target, specifically, a gaze detection process using visual information input from a camera for observing a user or a camera worn by the user, or the like. , An eye tracker that detects the movement of the user's line of sight, a head tracker that detects the movement of the user's head, a seating sensor, an interpersonal sensor, etc. 
 There is a detecting means for detecting a place, an area, a direction, an object, or a part thereof, which the user is currently looking at or facing, and outputs the information as gaze target information, such as voice input, gesture input, Keyboard input, input using a pointing device, visual input information from a camera, voice input information from a microphone, pointing devices such as a keyboard, touch panel, pen, and mouse, 
 Receives input information from the user that indicates something other than the user's gaze, such as operation input information from a data glove, 
 At least one other media input processing means for performing processing; 
 Image information of still or moving images of an agent personified as a machine or robot, 
 Anthropomorphic image presentation means for presenting a user with gestures such as nodding, gesture, hand gesture, and any number of non-verbal messages such as facial expression changes, 
 To the user, text information, audio information, still image information, moving image information, at least one signal output such as presentation of force, at least one information output means for outputting information, 
 To alert the user by presenting at least one signal such as text information, audio information, still image information, moving image information, or force, or by presenting a non-verbal message through an anthropomorphic image presentation means The user's response to the signal for alerting is detected by referring to the alerting means to be watched and the information to be watched or the input information from the camera, microphone, keyboard, switch, pointing device, sensor, etc. There is reaction detection means for outputting as reaction information, and the control means controls whether at least one other media input processing means can accept input, or starts, ends, suspends, or resumes processing or recognition operation in accordance with the gaze target information. , Control the operation status such as adjusting the processing level as appropriate, refer to the gaze target information, and When switching between accepting and not accepting force, the user is provided with text information, audio information, still image information, moving image information, presentation of force, or a non-verbal message to the user through anthropomorphic image presentation means as appropriate. Control to present, referring to the gaze target information, at least one of the information output means, output start, end, interruption, restart, appropriately control the operation status such as adjustment of the processing level, from the information output means When presenting information, control is performed so as to appropriately present a signal for calling the user's attention through the alerting means according to the attention target information, and according to the content of the user reaction information, the information output means And at least one of the alerting means is appropriately controlled.
    
       【0074】[9] また、第9には、マルチモーダル
インタフェース方法として、利用者の注視対象を検出
し、利用者の音声、ジェスチャ、操作手段による利用者
の操作情報などのうち、少なくとも一つの情報への処理
について、前記注視対象情報に応じて、入力受付の選
択、あるいは処理あるいは認識動作の開始、終了、中
断、再開、処理レベルの調整などの動作状況を適宜制御
するようにした。また、利用者の注視対象を検出すると
ともに、利用者と対面してサービスを提供する擬人化さ
れたエージェント人物の画像を画像情報として利用者へ
提示し、また、注視対象情報を基に、注視対象が前記エ
ージェン卜人物画像のどの部分かに応じて、利用者の音
声、ジェスチャ、操作手段による利用者の操作情報など
の受付を選択するようにした。[9] Ninth, as a multi-modal interface method, a gaze target of a user is detected, and at least one of a user's voice, gesture, operation information of the user by operation means, and the like is used. Regarding the processing of the information, the operation status such as selection of input reception or start, end, interruption, restart, and adjustment of the processing level of the processing or recognition operation is appropriately controlled in accordance with the gaze target information. It also detects the user's gaze target, presents an image of an anthropomorphic agent person who provides services facing the user to the user as image information, and based on the gaze target information, Acceptance of the user's voice, gesture, operation information of the user by the operation means, and the like is selected depending on which part of the agent person image is the target.
    
       【0075】すなわち、マルチモーダル入力にあたって
は、利用者を観察するカメラや利用者が装着したカメラ
などから入力される視覚情報を用いた視線検出処理や、
利用者の視線の動きを検出するアイトラッカや、利用者
の頭部の動きを検出するヘッドトラッカや、着席セン
サ、対人センサなどによって、利用者が、現在見ている
か、あるいは向いている、場所、領域、方向、物、ある
いはその部分を検出して注視対象情報としてを出力し、
音声入力や、ジェスチャ入力や、キーボード入力や、ポ
インティングデバイスを用いた入力や、カメラからの視
覚入力情報や、マイクからの音声入力情報や、キーボー
ド、タッチパネル、ぺン、マウスなどポインティングデ
バイス、データグローブなどからの操作入力情報など、
利用者の注視対象以外を表す利用者からの少なくとも一
つの入力情報への処理について、注視対象情報に応じ
て、入力受付可否、あるいは処理あるいは認識動作の開
始、終了、中断、再開、処理レベルの調整などの動作状
況を適宜制御する方法である。That is, in the multi-modal input, a gaze detection process using visual information input from a camera for observing a user or a camera worn by the user, 
 An eye tracker that detects the movement of the user's line of sight, a head tracker that detects the movement of the user's head, a seating sensor, an interpersonal sensor, etc., the user is currently viewing or facing, Detects the area, direction, object, or part thereof and outputs it as gaze target information, 
 Voice input, gesture input, keyboard input, input using a pointing device, visual input information from a camera, voice input information from a microphone, pointing device such as keyboard, touch panel, mouse, mouse, data glove Such as operation input information from 
 Regarding the processing of at least one input information from the user that indicates other than the user's gaze target, depending on the gaze target information, input acceptability, or start, end, interruption, restart, processing level of processing or recognition operation This is a method for appropriately controlling the operation status such as adjustment.
    
       【0076】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止画あるいは動画によ
る画像情報を、利用者ヘ提示し、注視対象情報に応じ
て、注視対象が、擬人化イメージ提示手段で提示される
エージェント人物の、全体、あるいは、顔、目、口、耳
など一部を指しているか否かに応じて、他メディア入力
認識手段からの入力を受付可否を切替えるものである。Further, still image or moving image information of an agent personified as a person, a creature, a machine, a robot, or the like providing a service facing the user is presented to the user, and the object to be watched is displayed. According to the information, other media input recognition is performed depending on whether or not the gaze target points to the entirety of the agent person presented by the anthropomorphic image presentation means or a part such as a face, eyes, mouth, and ears. It switches the acceptability of the input from the means.
    
       【0077】また、注視対象情報を参照して、メディア
入力認識手段からの入力を受付可否を切替える際に、利
用者へ、文字情報、音声情報、静止画像情報、動画像情
報、力の提示など少なくとも一つの信号の提示によっ
て、フィードバック信号を提示する。When switching the acceptability of the input from the media input recognizing means by referring to the gazing target information, the user is presented with character information, voice information, still image information, moving image information, force information, and the like. The presentation of the at least one signal provides a feedback signal.
    
       【0078】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止面あるいは動画によ
る画像情報と、利用者ヘ、うなづき、身振り、手振り、
などのジェスチャや、表情変化など、任意個数、任意種
類の非言語メッセージを提示し、注視対象情報を参照し
て、メディア入力認識手段からの入力を受付可否を切替
える際に、擬人化イメージ提示手段を通じて利用者への
非言語メッセージによる信号を適宜提示する。Also, the image information of a person, an anthropomorphic person, such as a person, a creature, a machine, or a robot, who provides a service to the user in a face-to-face or a moving image, and the user, nodding, gesture, Gestures, 
 When presenting an arbitrary number and type of non-verbal messages such as gestures and facial expression changes, referring to the gaze target information, and switching whether or not to accept input from the media input recognition means, anthropomorphic image presentation means Through a non-verbal message to the user.
    
       【0079】[10] 第10には、文字情報、音声情
報、静止画像情報、動画像情報、力の提示などのうち、
少なくとも一つの信号の提示によって、利用者に情報を
提供するにあたり、利用者の注視対象を検出し、この検
出された注視対象情報を参照して、前記提示の開始、終
了、中断、再開、処理レベルの調整などの動作状況を制
御するようにする。[10] Tenth, among character information, audio information, still image information, moving image information, and presentation of power, 
 In providing information to a user by presenting at least one signal, a gaze target of the user is detected, and referring to the detected gaze target information, start, end, suspension, restart, and processing of the presentation are performed. Control operating conditions such as level adjustment.
    
       【0080】また、情報を提示する際に、注視対象情報
に応じて、利用者へ、文字情報、音声情報、静止画像情
報、動画像情報、力の提示などのうち、少なくとも一つ
の信号の提示によって、利用者の注意を喚起するように
する。また、注意喚起のための信号に対する利用者の反
応を検知し、利用者反応情報として得ると共に、利用者
反応情報内容に応じて、利用者の音声入力情報、操作入
力情報、画像入力情報の取得および注意喚起の少なくと
も一つを制御するようにする。When presenting information, at least one signal of character information, voice information, still image information, moving image information, force presentation, etc., is presented to the user in accordance with the gaze target information. To draw the user's attention. It also detects the user's response to the signal for alerting and obtains it as user response information, and acquires the user's voice input information, operation input information, and image input information according to the content of the user response information. And at least one of the alerts is controlled.
    
       【0081】このように、利用者の注視対象を検知して
その情報を注視対象情報として得る。具体的には利用者
を観察するカメラや利用者が装着したカメラなどから入
力される視覚情報を用いた視線検出処理や、利用者の視
線の動きを検出するアイトラッカや、利用者の頭部の動
きを検出するヘッドトラッカや、着席センサ、対人セン
サなどによって、利用者が、現在見ているか、あるいは
向いている、場所、領域、方向、物、あるいはその部分
を検出して、注視対象情報として得る。そして、利用者
へ、文字情報、音声情報、静止画像情報、動画像情報、
力の提示など少なくとも一つの信号の提示によって、情
報を出力する際に、この注視対象情報を参照して、出力
の開始、終了、中断、再開、処理レベルの調整などの動
作状況を適宜制御する。As described above, the gaze target of the user is detected, and the information is obtained as the gaze target information. Specifically, gaze detection processing using visual information input from a camera that observes the user or a camera worn by the user, an eye tracker that detects the movement of the user's gaze, a user's head A head tracker that detects movement, a seating sensor, an interpersonal sensor, etc., detects the location, area, direction, object, or part thereof that the user is currently looking at or facing, and as gaze target information obtain. Then, to the user, text information, audio information, still image information, moving image information, 
 When outputting information by presenting at least one signal such as the presentation of force, by referring to this gaze target information, the operation status such as start, end, interruption, restart, and adjustment of the processing level is appropriately controlled. .
    
       【0082】また、情報出力手段から情報を提示する際
に、注視対象情報に応じて、利用者へ、文字情報、音声
情報、静止画像情報、動画像情報、力の提示など少なく
とも一つの信号の提示によって、利用者の注意を喚起す
る。When information is presented from the information output means, at least one signal such as character information, audio information, still image information, moving image information, and force information is presented to the user in accordance with the gaze target information. The presentation calls for the user's attention.
    
       【0083】また、注視対象情報あるいは、カメラ、マ
イク、キーボード、スイッチ、ポインティングデバイ
ス、センサなどの入力手段を用いて、該注意喚起のため
の信号に対する利用者の反応を検知し利用者反応情報と
して出力し、利用者反応情報の内容に応じて、情報出力
手段の動作状況および注意喚起手段の少なくとも一つを
適宜制御する。Further, the user's response to the signal for alerting is detected by using gazing target information or input means such as a camera, a microphone, a keyboard, a switch, a pointing device, and a sensor, and the user response information is obtained. The information is output and at least one of the operation status of the information output means and the alerting means is appropriately controlled in accordance with the content of the user response information.
    
       【0084】[11] 第11には、利用者の注視対象
を検出して注視対象情報として出力し、利用者に対面し
てサービスを提供する擬人化されたエージェント人物画
像であって該エージェント人物画像は利用者に所要のジ
ェスチャ、表情変化を持つ画像による非言語メッセージ
として提示するようにし、また、文字情報、音声情報、
静止画像情報、動画像情報、力の提示などのうち、少な
くとも一つの信号の提示によって、利用者に情報を出力
し、利用者の音声入力情報、ジェスチャ入力情報、操作
入力情報のうち、少なくとも一つ以上の入力情報を受
け、処理を行なう際に、注視対象情報に応じて、入力受
付可否、あるいは処理あるいは認識動作の開始、終了、
中断、再開、処理レベルの調整などの動作状況を制御す
る。また、注視対象情報を参照して、入力を受付可否を
切替える際に、利用者へ、文字情報、音声情報、静止画
像情報、動画像情報、力の提示、あるいは、擬人化イメ
ージ人物画像により所要の提示をする。[11] Eleventh is an anthropomorphic agent person image which detects a user's gaze target, outputs it as gaze target information, and provides services to the user. The image should be presented to the user as a non-verbal message with the required gestures and facial expression changes, as well as textual information, audio information, 
 By presenting at least one signal among still image information, moving image information, and force presentation, the information is output to the user, and at least one of the user's voice input information, gesture input information, and operation input information is output. When receiving more than one input information and performing the processing, depending on the gaze target information, whether or not input reception is possible, or the start or end of the processing or recognition operation, 
 Controls operating conditions such as suspension, resumption, and adjustment of processing levels. In addition, when switching input acceptability with reference to the gaze target information, it is necessary to present text information, voice information, still image information, moving image information, force, or anthropomorphic image to the user. Make a presentation.
    
       【0085】[12] 第12には、利用者の注視対象
を検出して注視対象情報として出力し、利用者に対面し
てサービスを提供する擬人化されたエージェント人物画
像であって該エージェント人物画像は利用者に所要のジ
ェスチャ、表情変化を持つ画像による非言語メッセージ
として提示するようにし、また、文字情報、音声情報、
静止画像情報、動画像情報、力の提示などのうち、少な
くとも一つの信号の提示によって、利用者に情報を出力
し、利用者の音声入力情報、ジェスチャ入力情報、操作
入力情報のうち、少なくとも一つ以上の入力情報を受
け、処理を行なう際に、注視対象情報に応じて、入力受
付可否、あるいは処理あるいは認識動作の開始、終了、
中断、再開、処理レベルの調整などの動作状況を制御す
ることを特徴とする。[12] A twelfth is a personified agent person image that detects a user's gaze target, outputs it as gaze target information, and provides a service to the user. The image should be presented to the user as a non-verbal message with the required gestures and facial expression changes, as well as textual information, audio information, 
 By presenting at least one signal among still image information, moving image information, and force presentation, the information is output to the user, and at least one of the user's voice input information, gesture input information, and operation input information is output. When receiving more than one input information and performing the processing, depending on the gaze target information, whether or not input reception is possible, or the start or end of the processing or recognition operation, 
 It is characterized by controlling operation states such as suspension, resumption, and adjustment of the processing level.
    
       【0086】また、注視対象情報を参照して、入力を受
付可否を切替える際に、利用者へ、文字情報、音声情
報、静止画像情報、動画像情報、力の提示、あるいは、
擬人化イメージ人物画像により所要の提示をすることを
特徴とする。[0086] When switching input acceptability with reference to the gaze target information, the user is presented with character information, audio information, still image information, moving image information, force, or 
 It is characterized in that a required presentation is made using a personified image person image.
    
       【0087】これは、利用者を観察するカメラや利用者
が装着したカメラなどから入力される視覚情報を用いた
視線検出処理や、利用者の視線の動きを検出するアイト
ラッカや、利用者の頭部の動きを検出するヘッドトラッ
カや、着席センサ、対人センサなどによって、利用者
が、現在見ているか、あるいは向いている、場所、領
域、方向、物、あるいはその部分を検出して、注視対象
情報としてを出力し、利用者と対面してサービスを提供
する人物、生物、機械、あるいはロボットなどとして擬
人化されたエージェント人物の、静止画あるいは動画に
よる画像情報と、利用者へ、うなづき、身振り、手振
り、などのジェスチャや、表情変化など、任意個数、任
意種類の非言語メッセージを提示する提示し、利用者
へ、文字情報、音声情報、静止画像情報、動面像情報、
力の提示など少なくとも一つの信号の提示によって、情
報を出力し、音声入力や、ジェスチャ入力や、キーボー
ド入力や、ポインティングデバイスを用いた入力や、カ
メラからの視覚入力情報や、マイクからの音声入力情報
や、キーボード、タッチパネル、ぺン、マウスなどポイ
ンティングデバイス、データグローブなどからの操作入
力情報など、利用者の注視対象以外を表す利用者からの
入力情報を受けとり処理を行なう際に、注視対象情報に
応じて、入力受付可否、あるいは処理あるいは認識動作
の開始、終了、中断、再開、処理レベルの調整などの動
作状況を適宜制御する方法である。This is a gaze detection process using visual information input from a camera for observing the user or a camera worn by the user, an eye tracker for detecting the movement of the gaze of the user, a head track of the user. A head tracker that detects the movement of the part, a seating sensor, an interpersonal sensor, etc. detects the place, area, direction, object, or part thereof that the user is currently looking at or facing Information is output, and still or moving image information of an agent personified as a person, creature, machine, robot, or the like who provides services facing the user, and nods and gestures to the user , Hand gestures, gestures, facial expression changes, and any number of other types of non-verbal messages. Stop image information, sliding surface image information, 
 By outputting at least one signal such as the presentation of force, information is output, voice input, gesture input, keyboard input, input using a pointing device, visual input information from a camera, voice input from a microphone When receiving and processing input information from a user other than the user's gaze target, such as information and operation input information from a keyboard, touch panel, pointing device such as mouse, mouse, data glove, etc., the gaze target information is processed. In accordance with the method, it is a method of appropriately controlling the input / output acceptability, or the operation status such as start, end, interruption, restart, and adjustment of the processing level of the processing or recognition operation.
    
       【0088】また、注視対象情報を参照して、入力を受
付可否を切替える際に、利用者へ、文字情報、音声情
報、静止画像情報、動画像情報、力の提示、あるいは、
擬人化イメージ提示手段を通じて利用者への非言語メッ
セージによる信号を適宜提示する方法である。When switching the acceptability of input with reference to the gaze target information, when the user is presented with character information, audio information, still image information, moving image information, force, or 
 This is a method of appropriately presenting a signal based on a non-verbal message to a user through an anthropomorphic image presenting means.
    
       【0089】また、注視対象情報あるいは、カメラ、マ
イク、キーボード、スイッチ、ポインティングデバイ
ス、センサなどからの入力情報を参照して、該注意喚起
のための信号に対する利用者の反応を検知し利用者反応
情報として出力し、利用者反応情報の内容に応じて、情
報出力手段の動作状況および注意喚起手段の少なくとも
一つを適宜制御する。Further, by referring to information to be watched or input information from a camera, a microphone, a keyboard, a switch, a pointing device, a sensor, and the like, a user's response to the signal for alerting is detected, and the user's response is detected. The information is output as information, and at least one of the operation status of the information output means and the alerting means is appropriately controlled in accordance with the content of the user response information.
    
       【0090】以上、本発明は、視線検出等の技術を用
い、利用者の注視対象を検出するとともに、その検出し
た注視対象に応じて他メディアからの入力の受付可否
や、認識処理、あるいは出力の提示方法や中断、確認等
を制御するようにしたものであって、特に擬人化インタ
ーフェースでは例えば顔を見ることによって会話を開始
できるようにする等、人間同士のコミュニケーションで
の非言語メッセージの使用法や役割をシミュレートする
ようにシステムに応用したものである。As described above, the present invention detects the user's gaze target by using the technology of gaze detection and the like, and accepts or rejects input from other media, and performs recognition processing or output in accordance with the detected gaze target. The use of non-verbal messages in human-to-human communication, such as controlling the presentation method, interruption, confirmation, etc., especially in anthropomorphic interfaces, such as enabling conversations to be started by looking at faces It is applied to a system to simulate laws and roles.
    
       【0091】従って、本発明によれば、複数種の入出力
メディアを効率的、効果的に利用することができ、利用
者の負担を軽減できて人間同士のコミュニケーションに
近い状態で自然な対話ができるようにしたインタフエー
スを提供できる。Therefore, according to the present invention, a plurality of types of input / output media can be used efficiently and effectively, the burden on the user can be reduced, and natural dialogue can be performed in a state close to communication between humans. An interface can be provided.
    
       【0092】また、各メディアからの入力の解析精度が
不十分であるための誤動作や、あるいは周囲雑音による
誤動作や、あるいは入力デバイスから刻々得られる信号
の中から、利用者が入力メッセージとして意図した信号
部分の切り出しの失敗などに起因する誤動作などによる
利用者への負担を解消するインタフェースを提供でき
る。[0092] Further, the user intends as an input message from a malfunction due to insufficient analysis accuracy of an input from each medium, a malfunction due to ambient noise, or a signal obtained from the input device every moment. It is possible to provide an interface that eliminates a burden on the user due to a malfunction due to a failure to cut out a signal portion or the like.
    
       【0093】また、音声やジェスチャなどのように、利
用者が現在の操作対象である計算機などへの入力として
用いるだけでなく、人間同士の対話に用いるメディアを
用いたインタフェース装置では、利用者が、操作中のマ
ルチモーダルシステムのインタフェース装置にではな
く、たとえば自分の横にいる他人に対して話しかけた
り、ジェスチャを示したりした場合にも、利用者がマル
チモーダルシステムのそばにいるがために、そのマルチ
モーダルシステムのインタフェース装置が自己への入力
であると判断してしまうことになり誤動作の原因となる
が、その場合でもこのような事態を解消でき、誤動作に
伴う取消操作や、誤動作の影響の復旧のための処置や、
誤動作を避けるために利用者が絶えず注意を払わなくて
はならないといった負荷を含め、利用者への負担を解消
することができるインタフェースを提供できる。In an interface device using a medium such as a voice or a gesture that is used not only by the user as an input to a computer or the like as a current operation target but also by a medium used for human-to-human dialogue, Because the user is near the multi-modal system, not when using the interface device of the operating multi-modal system, for example, when talking to another person next to him or showing a gesture, The interface device of the multi-modal system will judge that it is an input to itself and cause a malfunction, but even in such a case, such a situation can be resolved and the cancellation operation accompanying the malfunction and the effect of the malfunction Measures for recovery of 
 An interface can be provided that can reduce the burden on the user, including the burden that the user must constantly pay attention to avoid malfunction.
    
       【0094】また、システムの処理動作状態から、本来
メディア入力の情報識別が不要な場面においても、入力
信号の処理が継続的に行なわれることによってその割り
込み処理のために、現在処理中の作業の遅延を招くとい
う悪影響をなくすべく、不要な場面でのメディア入力に
対する処理負荷を解消できるようにすることにより、利
用している装置に関与する他のサービスの実行速度や利
用効率の低下を抑制できるようにしたインタフェースを
提供できる。Further, even in a situation where it is not originally necessary to identify the information of the media input from the processing operation state of the system, the input signal processing is continuously performed, so that the interruption of the input signal causes the work currently being processed to be interrupted. By eliminating the processing load on media input in unnecessary situations in order to eliminate the adverse effect of causing delay, it is possible to suppress a decrease in the execution speed and utilization efficiency of other services related to the device being used. Such an interface can be provided.
    
       【0095】また、音声やジェスチャなどの入力を行な
う際に、たとえば、ボタンを押したり、メニュー選択な
どによるモード変更などといった、特別な操作を必要と
しない構成とすることにより、煩雑さを伴わず、自然
で、しかも、習得のための訓練などが不要で、利用者に
負担を与えないインタフェースを提供できる。Further, when inputting voices and gestures, there is no need for a special operation such as pressing a button or changing a mode by selecting a menu. It is possible to provide an interface that is natural, does not require training for learning, and does not impose a burden on the user.
    
       【0096】また、本発明によれば、音声メディアによ
る入力の場合、本来、口だけを用いてコミュニケーショ
ンが出来るため、例えば手で行なっている作業を妨害す
ることがなく、双方を同時に利用することが可能である
と言う、音声メディア本来の利点を、阻害することなく
活用できるインタフェースを提供できる。Further, according to the present invention, in the case of input by voice media, communication can be performed by using only the mouth, so that, for example, it is possible to use both of them at the same time without interrupting the work performed by hand. It is possible to provide an interface that can utilize the inherent advantages of the voice media, which is said to be possible.
    
       【0097】また、例えば、音声出力や、動画像情報
や、複数画面に亙る文字や面像情報など、提示される情
報が提示してすぐ消滅したり、刻々変化したりする一過
性のメディアも用いて利用者に情報提示する際に、利用
者がその情報に注意を払っていなかった場合にも、提示
された情報の一部あるいは全部を利用者が受け取れない
といったことのないようにしたインタフェースを提供で
きる。Further, for example, a transient medium in which presented information such as audio output, moving image information, text and image information over a plurality of screens disappears immediately after presentation, or changes every moment. When presenting information to a user by using, even if the user did not pay attention to the information, the user was not able to receive part or all of the presented information Can provide an interface.
    
       【0098】また、一過性のメディアも用いて利用者に
情報提示する際、利用者が一度に受け取れる分量毎の情
報を提示して、継続する次の情報を提示する際に、利用
者が何らかの特別な操作を行なうといった負担を負わせ
ることなく、円滑に情報提示できるようになるインタフ
ェースを提供できる。Further, when presenting information to a user using a temporary medium, the user presents information for each quantity that can be received at one time, and when presenting the next information to be continued, It is possible to provide an interface that can smoothly present information without imposing a burden such as performing some special operation.
    
       【0099】また、擬人化エージェント人物画像で現在
の様々な状況を表示するようにし、利用者の視線を検知
して、利用者が注意を向けている事柄を知って、対処す
るようにしたので、人間同士のコミュニケーションに近
い形でシステムと人間との対話を進めることができるよ
うになるインタフェースを提供できる。Also, various present situations are displayed in the personification agent person image, the user's gaze is detected, and the user is aware of what the user is paying attention to and takes action. In addition, it is possible to provide an interface that enables the system and the human to proceed with the dialog in a form similar to the communication between humans.
    
       【0100】また、バックグラウンド(ii)に関する課
題、すなわち、非接触遠隔操作を可能にし、誤認識を防
止し、利用者の負担を解消するために、擬人化エージェ
ントに利用者の指し示したジェスチャの指示対象を、注
視させるようにし、これにより、システムの側で認識で
きなくなったり、システム側での認識結果が誤っていな
いかなどが、利用者の側で直感的にわかるようにするべ
く、本発明は次のように構成する。すなわち、 [13] 利用者からの音声入力を取り込むマイク、あ
るいは利用者の動作や表情などを観察するカメラ、ある
いは利用者の目の動きを検出するアイトラッカ、あるい
は頭部の動きを検知するヘッドトラッカ、あるいは手や
足など体の一部あるいは全体の動きを検知する動きセン
サ、あるいは利用者の接近、離脱、着席などを検知する
対人センサのうち少なくとも一つからなり、利用者から
の入力を随時取り込み入力情報として出力する入力手段
と、該入力手段から得られる入力情報を受け、音声検出
処理、音声認識、形状検出処理、画像認識、ジェスチャ
認識、表情認識、視線検出処理、あるいは動作認識の少
なくとも一つの処理を施すことによって、該利用者から
の入力を、受付中であること、受け付け完了したこと、
認識成功したこと、あるいは認識失敗したこと、などと
いった利用者からの入力の受け付け状況を、動作状況情
報として出力する入力認識手段と、警告音、合成音声、
文字列、画像、あるいは動画を用い、フィードバックと
して利用者に提示する出力手段と、該入力認識手段から
得られる該動作状況情報に応じて、該出力手段を通じ
て、利用者にフィードバック情報を提示する制御手段を
具備したことを特徴とする。Also, in order to enable the non-contact remote operation, prevent erroneous recognition, and eliminate the burden on the user, the problem related to the background (ii) is to give the anthropomorphic agent the gesture of the gesture indicated by the user. Attention should be paid to the instruction target, so that the user can intuitively understand whether the system can no longer recognize it or the recognition result on the system is incorrect. The invention is configured as follows. [13] A microphone that captures voice input from the user, a camera that observes the user's movements and expressions, an eye tracker that detects the movement of the user's eyes, or a head tracker that detects the movement of the head , Or at least one of a motion sensor that detects the movement of part or all of the body such as hands and feet, or an interpersonal sensor that detects the approach, departure, or seating of the user. An input unit that outputs the captured input information, and receives input information obtained from the input unit, and performs at least one of a voice detection process, a voice recognition, a shape detection process, an image recognition, a gesture recognition, a facial expression recognition, a gaze detection process, and a motion recognition. By performing one process, the input from the user is being received, that the reception has been completed, 
 An input recognition unit that outputs, as operation status information, a reception status of an input from the user such as recognition success or recognition failure, a warning sound, a synthetic voice, 
 An output unit that presents to the user as feedback using a character string, an image, or a moving image, and a control that presents feedback information to the user through the output unit in accordance with the operation status information obtained from the input recognition unit. Means are provided.
    
       【0101】[14] また、カメラ(撮像装置)など
の画像入力手段によって利用者の画像を取り込み、入力
情報として例えばアナログデジタル変換された画像情報
を出力する入力手段と、前記入力手段から得られる画像
情報に対して、例えば前時点の画像との差分抽出やオプ
ティカルフローなどの方法を適用することで、例えば動
領域を検出し、例えばパターンマッチング技術などの手
法によって照合することで、入力画像から、ジェスチャ
入力を抽出し、これら各処理の進行状況を動作状況情報
として随時出力する入力認識手段と、該入力認識手段か
ら得られる動作状況情報に応じて、文字列や画像を、あ
るいはブザー音や音声信号などを、例えば、CRTディ
スプレイやスピーカといった出力手段から出力するよう
制御する制御部を持つことを特徴とする。[14] Further, an image of a user is captured by image input means such as a camera (imaging device) and input means for outputting, for example, analog-to-digital converted image information as input information, is obtained from the input means. For image information, for example, by applying a method such as extraction of a difference from an image at a previous time point or an optical flow, for example, a moving region is detected, and collation is performed by, for example, a method such as a pattern matching technology. An input recognition means for extracting a gesture input and outputting the progress of each of these processes as operation status information as needed, and a character string or an image or a buzzer sound or the like in accordance with the operation status information obtained from the input recognition means. It has a control unit that controls to output audio signals from output means such as a CRT display and a speaker. It is characterized by the following.
    
       【0102】[15] また、入力手段から得られる入
力情報、および入力認識手段から得られる動作状況情報
の少なくとも一方の内容に応じて、利用者へのフィード
バックとして提示すべき情報であるフィードバック情報
を生成するフィードバック情報生成手段を具備したこと
を特徴とする。[15] Further, according to at least one of the input information obtained from the input means and the operation status information obtained from the input recognizing means, feedback information to be presented as feedback to the user is provided. It is characterized by comprising feedback information generating means for generating.
    
       【0103】[16] また、利用者と対面してサービ
スを提供する人物、生物、機械、あるいはロボットなど
として擬人化されたエージェント人物の、静止画あるい
は動画による画像情報を、利用者へ提示する擬人化イメ
ージを生成するフィードバック情報生成手段と、入力認
識手段から得られる動作状況情報に応じて、利用者に提
示すべき擬人化イメージの表情あるいは動作の少なくと
も一方を決定し、出力手段を通じて、例えば指し示しジ
ェスチャの指し示し先、あるいは例えば指先や顔や目な
ど、利用者がジェスチャ表現を実現している部位あるい
はその一部分など、注視する表情であるフィードバック
情報を生成するフィードバック情報生成手段と、利用者
に該フィードバック情報生成手段によって生成されたフ
ィードバック情報を、出力手段から利用者へのフィード
バック情報として提示する制御手段を具備したことを特
徴とする。[16] In addition, the user is presented with image information of a person, a living thing, a machine, or an agent personified as a robot or the like who provides a service facing the user, as a still image or a moving image. Feedback information generating means for generating an anthropomorphic image, and at least one of the facial expression or action of the anthropomorphic image to be presented to the user is determined according to the operation status information obtained from the input recognizing means. Feedback information generating means for generating feedback information that is a facial expression to be watched, such as a pointing destination of a pointing gesture, or a part or a part thereof where the user realizes a gesture expression, such as a fingertip, face, or eyes; The feedback information generated by the feedback information generating means is And control means for presenting feedback information from the output means to the user.
    
       【0104】[17] また、入力手段の空間的位置、
および出力手段の空間的位置に関する情報、および利用
者の空間的位置に関する情報の少なくとも一つを配置置
情報として保持する配置情報記憶手段と、利用者の入力
した指し示しジェスチャの参照物、利用者、利用者の顔
や手などの空間位置を表す参照物位置情報を出力する入
力認識手段と、該配置情報記憶手段から得られる配置情
報と、該入力認識手段から得られる参照物位置情報と、
動作状況情報との少なくとも一つを参照して、擬人化エ
ージェントの動作、あるいは表情、あるいは制御タイミ
ングの少なくとも一つを決定し、フィードバック情報と
して出力するフィードバック手段を具備したことを特徴
とする。[17] Also, the spatial position of the input means, 
 And information on the spatial position of the output means, and arrangement information storage means for holding at least one of the information on the spatial position of the user as arrangement information, a reference object of the pointing gesture input by the user, the user, An input recognition unit that outputs reference object position information indicating a spatial position of a user's face, hand, or the like; arrangement information obtained from the arrangement information storage unit; reference object position information obtained from the input recognition unit; 
 Feedback means is provided for determining at least one of the operation, expression, or control timing of the anthropomorphic agent with reference to at least one of the operation status information and outputting the determined result as feedback information.
    
       【0105】[18] また、利用者からの音声入力を
取り込むマイク、あるいは利用者の動作や表情などを観
察するカメラ、あるいは利用者の目の動きを検出するア
イトラッカ、あるいは頭部の動きを検知するヘッドトラ
ッカ、あるいは手や足など体の一部あるいは全体の動き
を検知する動きセンサ、あるいは利用者の接近、離脱、
着席などを検知する対人センサのうち少なくとも一つか
らなり、利用者からの入力を随時取り込み入力情報とし
て出力する入力ステップと、該入力ステップによって得
られる該入力情報を受け、音声検出処理、音声認識、形
状検出処理、画像認識、ジェスチャ認識、表情認識、視
線検出処理、あるいは動作認識の少なくとも一つの処理
を施すことによって、該利用者からの入力を、受付中で
あること、受け付け完了したこと、認識成功したこと、
あるいは認識失敗したこと、などといった利用者からの
入力の受け付け状況を、動作状況情報として出力する入
力認識ステップと、警告音、合成音声、文字列、画像、
あるいは動画を用い、フィードバックとして利用者に提
示する出力ステップと、入力認識ステップによって得ら
れる動作状況情報に基づいて、出力ステップを制御し
て、フィードバックを利用者に提示することを特徴とす
る。[18] Also, a microphone that captures voice input from the user, a camera that observes the user's movements and facial expressions, an eye tracker that detects the user's eye movement, or a head movement detection Head tracker, or a motion sensor that detects the movement of part or all of the body such as hands or feet, or the approach, departure, 
 An input step comprising at least one of an interpersonal sensor for detecting seating and the like, receiving an input from a user as needed, and outputting the input information; receiving the input information obtained by the input step; By performing at least one of shape detection processing, image recognition, gesture recognition, facial expression recognition, gaze detection processing, or motion recognition, input from the user is being received, that reception has been completed, Successful recognition, 
 Alternatively, an input recognition step of outputting, as operation status information, an input reception status from the user such as recognition failure, and the like, a warning sound, a synthesized voice, a character string, an image, 
 Alternatively, it is characterized in that the output step is controlled based on the operation status information obtained by the output step of presenting the user as feedback and the input recognition step using a moving image, and the feedback is presented to the user.
    
       【0106】[19] また、利用者と対面してサービ
スを提供する人物、生物、機械、あるいはロボットなど
として擬人化されたエージェント人物の、静止画あるい
は動画による画像情報を、入力認識ステップから得られ
る動作状況情報に応じて、利用者に提示すべき擬人化イ
メージ情報として生成するフィードバック情報生成ステ
ップと、入力認識ステップによって得られる動作状況情
報に基づいて、フィードバック情報生成ステップと、出
力ステップを制御することによって、たとえば音声入力
がなされた時点で擬人化エージェントによって例えば、
「うなずき」の表情を提示するなど、利用者にフィード
バックを提示することを特徴とする。[19] Also, from the input recognition step, image information of still or moving images of an agent personified as a person, a creature, a machine, a robot, or the like who provides a service facing the user is obtained. A feedback information generating step of generating as anthropomorphic image information to be presented to the user according to the operating state information to be provided, and a feedback information generating step and an output step based on the operating state information obtained by the input recognition step. By doing so, for example, at the time the speech input is made, 
 It is characterized by presenting feedback to the user, such as presenting an expression of “nodding”.
    
       【0107】[20] また、利用者の入力した指し示
しジェスチャの参照物、利用者、利用者の顔や手などの
空間位置に関する情報である位置情報を出力する認識ス
テップと、入力部の空間的位置、および出力部の空間的
位置に関する情報、および利用者の空間的位置に関する
情報の少なくとも一つを配置情報として保持する配置情
報記憶ステップと、位置情報、および配置情報、動作状
況情報の少なくとも一つに応じて、例えば、利用者の指
し示しジェスチャの対象である参照物を、随時注視する
表情を提示するなど利用者にフィードバックを提示する
ことを特徴とするものである。[20] Also, a recognition step of outputting position information which is information relating to the spatial position of the pointing gesture input by the user, the user, the user's face and hands, and the like. A location information storage step of storing, as location information, at least one of a location, information on a spatial location of the output unit, and information on a spatial location of the user; and at least one of location information, location information, and operation status information. According to the present invention, for example, feedback is presented to the user by, for example, presenting an expression for gazing at a reference object which is a target of the pointing gesture of the user at any time.
    
       【0108】そして、このような構成の本システムは、
利用者からの音声入力を取り込むマイク、あるいは利用
者の動作や表情などを観察するカメラ、あるいは利用者
の目の動きを検出するアイトラッカあるいは頭部の動き
を検知するヘッドトラッカー、あるいは手や足など体の
一部あるいは全体の動きを検知する動きセンサ、あるい
は利用者の接近、離脱、着席などを検知する対人センサ
などによる入力手段のうち、少なくとも一つから入力さ
れる利用者からの入力を随時取り込み、入力情報として
得、これを音声検出処理、音声認識、形状検出処理、画
像認識、ジェスチャ認識、表情認識、視線検出処理、あ
るいは動作認識のうち、少なくとも一つの認識処理を施
すことによって、該利用者からの入力に対する受付状況
の情報、すなわち、受付中であること、受け付け完了し
たこと、認識成功したこと、あるいは認識失敗したこ
と、などといった利用者からの入力の受付状況の情報を
動作状況情報として得、得られた動作状況情報に基づい
て、警告音、合成音声、文字列、画像、あるいは動画を
用い、利用者に対するシステム側からのフィードバック
(すなわち、システム側から利用者に対する認識状況対
応の反応)として、利用者に提示するものである。The present system having such a configuration is as follows. 
 A microphone that captures voice input from the user, a camera that observes the user's movements and facial expressions, an eye tracker that detects the user's eye movement, a head tracker that detects the movement of the head, hands, feet, etc. At any time, input from the user input from at least one of the input means such as a motion sensor that detects the movement of a part or the whole body or an interpersonal sensor that detects the approach, departure, seating, etc. of the user Capture, obtain as input information, and perform at least one of recognition processing of voice detection processing, voice recognition, shape detection processing, image recognition, gesture recognition, facial expression recognition, eye-gaze detection processing, or motion recognition. Information on the reception status in response to the input from the user, that is, reception is being performed, reception has been completed, recognition has been successful. Information or information on the status of reception of input from the user, such as the fact that recognition has failed, is obtained as operation status information, and based on the obtained operation status information, a warning sound, a synthesized voice, a character string, an image, or A moving image is presented to the user as feedback from the system to the user (that is, a reaction from the system to the recognition situation of the user).
    
       【0109】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止画あるいは動画によ
る画像情報を、フィードバック情報認識手段から得られ
る動作状況情報に応じて、利用者に提示すべき擬人化イ
メージ情報として生成し、これを表示することで、たと
えば音声入力がなされた時点で擬人化エージェントによ
って例えば「うなずき」の表情を提示するなど利用者に
フィードバックを提示する。Further, an operation in which image information in a still image or a moving image of an agent personified as a person, a creature, a machine, a robot, or the like who provides a service while facing the user is obtained from the feedback information recognition means. By generating as anthropomorphic image information to be presented to the user in accordance with the situation information and displaying this, for example, when a voice input is made, an anthropomorphic agent presents an expression such as "nodding", for example. Give feedback to the person.
    
       【0110】また、認識手段により画像認識して、利用
者の入力した指し示しジェスチャの参照物、利用者、利
用者の顔や手などの空間位置に関する情報である位置情
報を得、配置情報記憶手段により入力部の空間的位置、
および出力部の空間的位置に関する情報、および利用者
の空間的位置に関する情報の少なくとも一つを配置情報
として保持し、位置情報、および配置情報、動作状況情
報の少なくとも一つに応じて、例えば、利用者の指し示
しジェスチャの対象である参照物を、随時注視する表情
を提示するなど利用者にフィードバックを提示する。Further, the image recognition is performed by the recognition means to obtain position information which is information relating to the spatial position of the pointing gesture input by the user, the user, the user's face and hands, and the like. The spatial position of the input, 
 And information on the spatial position of the output unit, and holds at least one of the information on the spatial position of the user as arrangement information, position information, and arrangement information, according to at least one of the operation status information, for example, It provides feedback to the user, such as presenting an expression to look at the reference object that is the target of the pointing gesture of the user as needed.
    
       【0111】このように、利用者がシステムから離れた
位置や、あるいは機器に非接触状態で行った指し示しジ
ェスチャを認識させ、そのジェスチャによる指示を入力
させることが出来るようになり、かつ、誤認識なくジェ
スチャ認識を行えて、ジェスチャ抽出の失敗を無くすこ
とができるようになるマルチモーダルインタフェース装
置およびマルチモーダルインタフェース方法を提供する
ことができる。また、利用者が入力意図したジェスチャ
を開始した時点あるいは入力を行っている途中の時点
で、システムがそのジェスチャ入力を正しく抽出してい
るか否かを知ることができ、利用者が再入力を行わなく
てはならなくなるな負担を解消できるマルチモーダルイ
ンタフェース装置およびマルチモーダルインタフェース
方法を提供できる。また、実世界の場所やものなどを参
照するための利用者からの指し示しジェスチャ入力に対
して、その指し示し先として、どの場所、あるいはどの
物体あるいはそのどの部分を受け取ったかを適切に表示
することができるマルチモーダルインタフェース装置お
よびマルチモーダルインタフェース方法を提供できる。As described above, the user can recognize a position distant from the system or a pointing gesture performed in a non-contact state with the device, and can input an instruction based on the gesture, and can perform erroneous recognition. It is possible to provide a multi-modal interface device and a multi-modal interface method that can perform gesture recognition without error and eliminate failure in gesture extraction. Also, at the time when the user starts the gesture intended to be input or at the time when the input is being performed, the user can know whether or not the system has correctly extracted the gesture input. It is possible to provide a multi-modal interface device and a multi-modal interface method that can eliminate an indispensable burden. In addition, in response to a pointing gesture input from a user for referring to a place or thing in the real world, it is possible to appropriately display which place, which object, or which part has been received as the pointing destination. A multimodal interface device and a multimodal interface method that can be provided.
    
【0112】[0112]
       【発明の実施の形態】以下、図面を参照して本発明の実
施例を説明するが、初めに上述のバックグラウンド
(i)に関わるその解決策としての発明の実施例を説明
する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described with reference to the drawings. First, embodiments of the invention as a solution to the above-mentioned background (i) will be described.
    
       【0113】(第1の実施例)本発明は、視線検出等の
技術を使用し、利用者の注視対象に応じて他メディアか
らの入力の受付可否や、認識処理、あるいは出力の提示
方法や中断、確認等を制御するもので、特に擬人化イン
ターフェースでは例えば顔を見ることによって会話を開
始できるようにする等、人間同士のコミュニケーション
での非言語メッセージの使用法や役割をシミュレートす
ることで、利用者にとって自然で負担がなく、かつ確実
なヒューマンインタフェースを実現する。(First Embodiment) The present invention uses a technique of gaze detection or the like to determine whether or not an input from another medium can be accepted, a recognition process, or a method of presenting an output, according to the user's gaze target. It controls interruption, confirmation, etc., especially in the anthropomorphic interface, by simulating the use and role of non-verbal messages in human-to-human communication, for example, by starting a conversation by looking at a face. In addition, a user interface that is natural, has no burden on the user, and is surely realized.
    
       【0114】以下、図面を参照して、本発明の第1の実
施例に係るマルチモーダル対話装置について詳細に説明
する。Hereinafter, a multi-modal dialogue device according to the first embodiment of the present invention will be described in detail with reference to the drawings.
    
       【0115】本発明は種々のメディアを駆使して、より
自然な対話を進めることができるようにしたマルチモー
ダル対話装置におけるヒューマンインタフェースに関わ
るものであり、発明の主体はヒューマンインタフェース
(マルチモーダルインタフェース)の部分にあるが、マ
ルチモーダル対話装置全体から、それぞれ必要な構成要
素とその機能を抽出し組み合わせることによって、イン
タフェース部分の各種構成が実現可能であるため、ここ
では、マルチモーダル対話装置に係る一実施形態を示す
こととする。The present invention relates to a human interface in a multi-modal dialog device which enables a more natural conversation to proceed using various media. The subject of the present invention is a human interface (multi-modal interface). However, since various components of the interface part can be realized by extracting and combining necessary components and their functions from the entire multi-modal interaction device, here, the one related to the multi-modal interaction device is described. An embodiment will be described.
    
       【0116】<本装置の構成の説明>図1は、本発明の
一例としてのマルチモーダル対話装置の構成例を示した
ブロック図であり、図に示す如く、本装置は注視対象検
出部101、他メディア入力部102、擬人化イメージ
提示部103、情報出力部104、注意喚起部105、
反応検知部106、および制御部107から構成されて
いる。<Description of the Configuration of the Present Apparatus> FIG. 1 is a block diagram showing a configuration example of a multi-modal interactive apparatus as an example of the present invention. As shown in FIG. Other media input unit 102, anthropomorphic image presentation unit 103, information output unit 104, alert unit 105, 
 It comprises a reaction detection unit 106 and a control unit 107.
    
       【0117】これらのうち、注視対象検出部101は、
当該マルチモーダル対話装置の利用者の視線方向を検出
して、当該利用者が向いている“場所”、“領域”、
“方向”、“物”、あるいはその“部分”を検出し、注
視対象情報としてを出力する装置である。この注視対象
検出部101は、例えば、利用者の眼球運動を観察する
アイトラッカ装置や、利用者の頭部の動きを検出するヘ
ッドトラッカ装置や、着席センサや、例えば、特開平0
8−059071号公報「視箇所推定装置とその方法」
に開示されている方法などによって、利用者を観察する
カメラや利用者が装着したカメラから得られる画像情報
を処理し、利用者の視線方向の検出することなどによっ
て、利用者が、“現在見ている”か、あるいは利用者が
向いている“場所”、“領域”、“方向”、“物”、あ
るいはその“部分”を検出して、注視対象情報としてを
出力するようにしている。Of these, the gaze target detection unit 101 
 The gaze direction of the user of the multi-modal interaction device is detected, and the “place”, “region”, 
 It is a device that detects “direction”, “object”, or “part” thereof, and outputs it as gaze target information. The gaze target detection unit 101 includes, for example, an eye tracker device for observing the user's eye movements, a head tracker device for detecting the movement of the user's head, a seating sensor, 
 Japanese Patent Application Laid-Open No. 8-059071 "Viewing Location Estimation Apparatus and Method" 
 By processing image information obtained from a camera for observing the user or a camera worn by the user by the method disclosed in, for example, and detecting the direction of the user's line of sight, Is detected, or the "place", "area", "direction", "object", or "part" thereof to which the user is facing is detected, and the gaze target information is output.
    
       【0118】また、注視対象検出部101では、任意の
注視対象となる物体の全部あるいは位置部分や、任意の
注視対象となる領域と、その注視対象の記述(名称な
ど)の組を予め定義して保存しておくことによって、注
視対象記述を含む注視対象情報と、利用者がその注視対
象を注視した時間に関する情報を出力するようにしてい
る。The gaze target detection unit 101 defines in advance a set of all or a position of an arbitrary gaze target, an arbitrary gaze target region, and a description (name or the like) of the gaze target. By storing the information, the gaze target information including the gaze target description and the information on the time at which the user gazes at the gaze target are output.
    
       【0119】図2は、当該注視対象検出部101により
出力される注視対象情報の例を表しており、注視対象情
報が、“注視対象情報ID”、“注視対象記述情報
A”、“時間情報B”、などから構成されていることを
示している。FIG. 2 shows an example of the gaze target information output by the gaze target detection unit 101. The gaze target information includes “gaze target information ID”, “gaze target description information A”, and “time information”. B ", and so on.
    
       【0120】図2に示した注視対象情報では、“注視対
象情報ID”の欄には“P101”,“P102”,
“P103”,…“P201”,…といった具合に、対
応する注視対象情報の識別記号が記録されている。In the gaze target information shown in FIG. 2, “P101”, “P102”, 
 .., “P201”,..., Etc., the identification symbols of the corresponding gaze target information are recorded.
    
       【0121】また、“注視対象記述A”の欄には、“擬
人化イメージ”,“他人物”,“出力領域”,“画面外
領域”,…といった具合に、注視対象検出部101によ
って検出された注視対象の記述が記録され、また、“時
間情報B”の欄には“t3”,“t10”,“t1
5”,“t18”,…といった具合に、利用者が、対応
する注視対象を注視した時点に関する時間情報が記録さ
れている。In the column of “attention object description A”, the attention object detection unit 101 detects “personalized image”, “other person”, “output area”, “out-of-screen area”, and so on. The description of the watched object is recorded, and "t3", "t10", "t1" 
 Time information about the point in time at which the user gazes at the corresponding gaze target, such as “5”, “t18”,.
    
       【0122】すなわち、利用者が注視行動をとり、それ
が検出される毎に“P101”,“P102”,“P1
03”,“P104”,“P105”,…といった具合
に順に、ID(識別符号)が付与され、その検出された
注視行動の対象が何であるか、そして、それが行われた
時点がいつであるのかが、注視対象情報として出力され
る。That is, the user takes a gaze action, and every time it is detected, "P101", "P102", "P1" 
 03 ”,“ P104 ”,“ P105 ”,..., In that order, an ID (identification code) is assigned, what is the target of the detected gaze behavior, and Whether or not there is is output as gaze target information.
    
       【0123】図2の例はIDが“P101”の情報は、
注視対象が“擬人化イメージ”であり、発生時点は“t
3”であり、IDが“P102”の情報は、注視対象が
“他人物”であり、発生時点は“t10”であり、ID
が“P106”の情報は、注視対象が“出力領域”であ
り、発生時点は“t22a”であるといったことを示し
ている。In the example of FIG. 2, the information with the ID “P101” is 
 The gaze target is “personified image”, and the point of occurrence is “t”. 
 3 ”, the information with the ID“ P102 ”indicates that the gaze target is“ other person ”, the time of occurrence is“ t10 ”, and the ID 
 The information of “P106” indicates that the gaze target is the “output area” and the time of occurrence is “t22a”.
    
       【0124】図1における他メディア入力部102は、
種々の入力デバイスから得られる利用者からの入力情報
を取得するためのものであって、その詳細な構成例を図
3に示す。The other media input unit 102 in FIG. 
 FIG. 3 shows a detailed configuration example for acquiring input information from a user obtained from various input devices.
    
       【0125】すなわち、他メディア入力部102は、図
3に示すように、入力デバイス部とデータ処理部とに別
れており、これらのうち、データ処理部の構成要素とし
ては、音声認識装置102a、文字認識装置102b、
言語解析装置102c、操作入力解析装置102d、画
像認識装置102e、ジェスチャ解析装置102f等か
が該当する。また、入力デバイス部の構成要素として
は、マイク(マイクロフォン)102g、キーボード1
02h、ペンタブレット102i、OCR(光学文字認
識装置)102j、マウス102k、スイッチ102
l、タッチパネル102m、カメラ102n、データグ
ローブ102o、データスーツ102p、さらにはアイ
トラッカ、ヘッドトラッカ、対人センサ、着席センサ、
…等が該当する。That is, as shown in FIG. 3, the other media input unit 102 is divided into an input device unit and a data processing unit. Of these, the components of the data processing unit are the speech recognition device 102a, Character recognition device 102b, 
 The language analysis device 102c, the operation input analysis device 102d, the image recognition device 102e, the gesture analysis device 102f, and the like correspond to this. Further, as components of the input device unit, a microphone (microphone) 102g, a keyboard 1 
 02h, pen tablet 102i, OCR (optical character recognition device) 102j, mouse 102k, switch 102 
 1, touch panel 102m, camera 102n, data glove 102o, data suit 102p, eye tracker, head tracker, interpersonal sensor, seating sensor, 
 ... and so on.
    
       【0126】これらのうち、音声認識装置102aは、
マイク102gの音声出力信号を解析して単語の情報に
して順次出力する装置であり、文字認識装置102b
は、ペンタブレット102iやOCR 102jから得
られる文字パターン情報を基に、どのような文字である
かを認識し、その認識した文字情報を出力するものであ
る。Of these, the speech recognition device 102a 
 The character recognition device 102b analyzes a voice output signal of the microphone 102g and sequentially outputs the information as word information. 
 Is for recognizing a character based on character pattern information obtained from the pen tablet 102i or the OCR 102j, and outputs the recognized character information.
    
       【0127】また、言語解析装置102cは、キーボー
ド102hからの文字コード情報、音声認識装置102
aや文字認識装置102bからの文字情報を基に、言語
解析して利用者の意図する内容を利用者入力情報として
出力する装置である。The language analysis device 102c is provided with a character code information from the keyboard 102h and a speech recognition device 102c. 
 This is a device that performs language analysis on the basis of character information from a and character recognition device 102b and outputs the contents intended by the user as user input information.
    
       【0128】また、操作入力解析装置102dは、マウ
ス102kやスイッチ102l、あるいはタッチパネル
102mなどによる利用者の操作情報を解析して、利用
者の意図する内容を利用者入力情報として出力する装置
である。また、画像認識装置102eは、逐次、カメラ
102nで得た利用者の画像から、利用者のシルエット
や、視線、顔の向き等を認識してその情報を出力する装
置である。The operation input analysis device 102d is a device that analyzes the operation information of the user using the mouse 102k, the switch 102l, the touch panel 102m, or the like, and outputs the content intended by the user as the user input information. . The image recognition device 102e is a device for sequentially recognizing a user's silhouette, line of sight, face direction, and the like from a user's image obtained by the camera 102n and outputting the information.
    
       【0129】また、データグローブ102oは、各所に
各種センサを設けたものであり、利用者の手に当該グロ
ーブをはめることにより、指の曲げや指の開き、指の動
き等の情報を出力することができる装置であり、データ
スーツ102pは各所に各種のセンサを取り付けたもの
で、利用者に当該データスーツ102pを着せることに
より、利用者の体の動き情報を種々得ることができるも
のである。The data glove 102o is provided with various sensors at various places, and outputs information such as bending of the finger, opening of the finger, and movement of the finger by putting the glove on the user's hand. The data suit 102p is a device in which various sensors are attached to various places, and by wearing the data suit 102p on the user, various types of information on the body movement of the user can be obtained. .
    
       【0130】ジェスチャ解析装置102fは、これらデ
ータスーツ102pやデータグローブ102oからの情
報、あるいは画像認識装置102eからの情報を基に、
使用者の示した行動がどのようなジェスチャであるかを
解析してその解析したジェスチャ対応の情報を利用者入
力情報として出力するものである。The gesture analysis device 102f uses the information from the data suit 102p and the data glove 102o or the information from the image recognition device 102e to 
 The gesture of the action indicated by the user is analyzed, and the information corresponding to the analyzed gesture is output as user input information.
    
       【0131】すなわち、他メディア入力部102は、マ
イク102gや、カメラ102n、キーボード102
h、タッチパネル102m、ペンタブレット102i、
そして、マウス102k(あるいはトラックボール)な
どのポインティングデバイス、あるいはデータグローブ
102oや、データスーツ102p、さらにはアイトラ
ッカ、ヘッドトラッカ、OCR102j、そして、さら
には図3には示さなかったが、対人センサ、着席セン
サ、などを含め、これらのうちの少なくとも一つの入力
デバイスを通じて得られる利用者からの音声情報、視覚
情報、操作情報などの入力に対して、取り込み、標本
化、コード化、ディジタル化、フイルタリング、信号変
換、記録、保存、パターン認識、言語/音声/画像/動
作/操作の解析、理解、意図抽出など、少なくとも一つ
の処理を処理を行なうことによって利用者からの装置へ
の入力である利用者入力情報を得る様にしている。That is, the other media input unit 102 includes the microphone 102g, the camera 102n, and the keyboard 102 
 h, touch panel 102m, pen tablet 102i, 
 Then, a pointing device such as a mouse 102k (or a trackball), a data glove 102o, a data suit 102p, an eye tracker, a head tracker, an OCR 102j, and further, although not shown in FIG. Capture, sample, code, digitize, and filter the input of voice, visual, and operation information from the user obtained through at least one of these input devices, including sensors. , Signal conversion, recording, storage, pattern recognition, language / sound / image / operation / operation analysis, understanding, intention extraction, etc. User input information.
    
       【0132】なお、図3は、他メディア入力部の構成の
一例を示したものに過ぎず、その構成要素およびその数
およびそれら構成要素間の接続関係はこの例に限定され
るものではない。FIG. 3 shows only an example of the configuration of the other media input unit, and the components, the number thereof, and the connection relationship between the components are not limited to this example.
    
       【0133】図1における擬人化イメージ提示部103
は、身振り、手振り、顔表情の変化などのジェスチャ
を、利用者に対して像として提示するための装置であ
り、図4に擬人化イメージ提示部103の出力を含むデ
ィスプレイ画面の例を示す。The personified image presentation unit 103 in FIG. 
 Is a device for presenting gestures such as gestures, hand gestures, changes in facial expressions, etc. to the user as images. FIG. 4 shows an example of a display screen including the output of the anthropomorphic image presentation unit 103.
    
       【0134】図4において、103aは擬人化イメージ
を提示するための表示領域であり、102bは情報を出
力するための表示領域である。擬人化イメージ提示部1
03は、マルチモーダル対話装置が利用者に対して対話
する上で、提示したい意図を、身振り、手振り、顔表情
の変化などのジェスチャのかたちで画像提示できるよう
にしており、後述の制御部107からの制御によって、
“肯定”や、“呼掛け”、“音声を聞きとり可能であ
る”こと、“コミュニケーションが失敗した”ことなど
を適宜、利用者にジェスチャ画像で提示するようにして
いる。In FIG. 4, 103a is a display area for presenting a personified image, and 102b is a display area for outputting information. Anthropomorphic image presentation part 1 
 Reference numeral 03 denotes a multimodal dialogue device that enables the user to present an intention to be presented in the form of gestures such as gestures, hand gestures, changes in facial expressions, and the like when interacting with the user. Control from 
 “Affirmation”, “calling”, “voice can be heard”, “communication failed”, and the like are appropriately presented to the user with a gesture image.
    
       【0135】従って、利用者はこのジェスチャ画像を見
ることで、今どのような状態か、直感的に認識できるよ
うになるものである。すなわち、ここでは人間同士の対
話のように、状況や理解の度合い等をジェスチャにより
示すことで、機械と人とのコミュニケーションを円滑に
行い、意志疎通を図ることができるようにしている。Therefore, the user can intuitively recognize the current state by looking at the gesture image. That is, here, as in a dialogue between humans, the situation, the degree of understanding, and the like are indicated by gestures, so that communication between the machine and the human can be performed smoothly and communication can be achieved.
    
       【0136】図1における情報出力部104は、利用者
に対して、“文字”、“静止面画”、“動画像”、“音
声”、“警告音”、“力”などの情報提示を行なう装置
であり、図5にこの情報出力部104の構成例を示す。The information output unit 104 shown in FIG. 1 presents information such as “characters”, “still images”, “moving images”, “sounds”, “warning sounds”, and “power” to the user. FIG. 5 shows a configuration example of the information output unit 104.
    
       【0137】図5に示すように、情報出力部104は文
字画像信号生成装置104a、音声信号生成駆動装置1
04b、機器制御信号生成装置104c等から構成され
る。これらのうち、文字画像信号生成装置104aは、
制御部107からの出力情報を基に、表示すべき文字列
の画像信号である文字時画像信号を生成する装置であ
り、また、音声信号生成駆動装置104bは制御部10
7からの出力情報を基に、利用者に伝えるべき音声の信
号を生成してマルチモーダル対話装置の備えるスピーカ
やヘッドホーン、イヤホン等の音声出力装置に与え、駆
動するものである。また、機器制御信号生成装置104
cは、制御部107からの出力情報を基に、利用者に対
する反応としての動作を物理的な力で返すフォースディ
スプレイ(提力装置)に対する制御信号や、ランプ表示
などのための制御信号を発生する装置である。As shown in FIG. 5, the information output unit 104 includes a character image signal generation device 104a and an audio signal generation drive device 1. 
 04b, a device control signal generation device 104c, and the like. Among these, the character image signal generation device 104a 
 It is a device for generating a character image signal which is an image signal of a character string to be displayed based on the output information from the control unit 107. 
 Based on the output information from 7, a voice signal to be transmitted to the user is generated and provided to a voice output device such as a speaker, a headphone, or an earphone included in the multi-modal interactive device, and is driven. Also, the device control signal generation device 104 
 c generates, based on the output information from the control unit 107, a control signal for a force display (power supply device) that returns an operation as a response to the user by physical force, and a control signal for lamp display and the like. It is a device to do.
    
       【0138】このような構成の情報出力部104では、
利用者への出力すべき情報として、当該情報出力部10
4が接続されるマルチモーダル対話装置の構成要素であ
る問題解決装置やデータベース装置などから渡される出
力情報を受け取り、文字および画像ディスプレイや、ス
ピーカやフォースディスプレイ(提力装置)などの出力
デバイスを制御して、利用者へ、文字、静止面画、動画
像、音声、警告音、力など情報提示を行なう様にしてい
る。In the information output unit 104 having such a configuration, 
 As information to be output to the user, the information output unit 10 
 4 receives the output information passed from the problem-solving device or database device which is a component of the multi-modal dialogue device to which it is connected, and controls output devices such as character and image displays, speakers and force displays (power devices). Then, information such as characters, still images, moving images, sounds, warning sounds, and power is presented to the user.
    
       【0139】すなわち、マルチモーダル対話装置は、利
用者が投げかける質問や、要求、要望、戸惑い等を解釈
して解決しなければならない問題や為すべき事柄を解釈
し、その解を求める装置である問題解決装置や、この問
題解決装置の用いるデータベース(知識ベースなども含
む)を備える。そして、問題解決装置やデータベース装
置などから渡される出力情報を受け取り、文字および画
像ディスプレイや、スピーカやフォースディスプレイ
(提力装置)などの出力デバイスを制御して、利用者
へ、“文字”、“静止面画”、“動画像”、“音声”、
“警告音”、“力”など様々な意志伝達手段を活用して
情報提示を行なうものである。That is, the multimodal dialogue device is a device that interprets a question to be asked by a user, a problem to be solved or a problem to be solved by interpreting a request, a request, or a puzzle, and seeks a solution. A solution apparatus and a database (including a knowledge base) used by the problem solution apparatus are provided. Then, it receives output information passed from a problem solving device or a database device, and controls output devices such as a character and image display, a speaker and a force display (power supply device), and provides a user with “characters”, “ "Still face image", "moving image", "audio", 
 Information is presented using various communication means such as "warning sound" and "power".
    
       【0140】また、図1における注意喚起部105は、
利用者に対して呼び掛けや警告音を発するなどして注意
を喚起する装置である。この注意喚起部105は、制御
部107の制御に従って、利用者に対し、警告音や、呼
掛けのための特定の言語表現や、利用者の名前などを音
声信号として提示したり、画面表示部に文字信号として
提示したり、ディスプレイ画面を繰り返し反転(フラッ
シュ)表示させたり、ランプなどを用いて光信号を提示
したり、フォースディスプレイを用いることによって、
物理的な力信号を利用者に提示したり、あるいは擬人化
イメージ提示部103を通じて、例えば身振り、手振
り、表情変化、身体動作を摸した画像情報などを提示す
るといったことを行い、これによって、利用者の注意を
喚起するようにしている。The alerting unit 105 in FIG. 
 This is a device that alerts the user by calling or issuing a warning sound. Under the control of the control unit 107, the alerting unit 105 presents a warning sound, a specific linguistic expression for a call, the name of the user, or the like to the user as an audio signal, or a screen display unit. By presenting as a character signal, repeatedly inverting (flashing) the display screen, presenting an optical signal using a lamp, or using a force display, 
 The physical force signal is presented to the user, or through the anthropomorphic image presentation unit 103, for example, gestures, hand gestures, facial expression changes, image information simulating body movements, and the like are performed. To draw the attention of the elderly.
    
       【0141】なお、この注意喚起部105は、独立した
一つの要素として構成したり、あるいは、利用者への注
意喚起のための信号の提示を出力部104を利用して行
なうように構成することも可能である。It is to be noted that the alerting unit 105 is configured as one independent element, or is configured to use the output unit 104 to present a signal for alerting the user. Is also possible.
    
       【0142】図1における反応検知部106はマルチモ
ーダル対話装置からのアクションに対して、利用者が何
らかの反応を示したか否かを検知するものである。この
反応検知106は、カメラ、マイク、キーボード、スイ
ッチ、ポインティングデバイス、センサなどの入力手段
を用いて、注意喚起部105により利用者に注意喚起の
提示をした際に、利用者が予め定めた特定の操作を行っ
たり、予め定めた特定の音声を発したり、予め定めた特
定の身振り手振りなどを行なったりしたことを検知した
り、あるいは、注視対象検出部101から得られる注視
対象情報を参照することによって、利用者が注意喚起の
ための信号に反応したかどうかを判断し、利用者反応情
報として出力する様にしている。The reaction detecting section 106 in FIG. 1 detects whether or not the user has responded to an action from the multi-modal interactive device. The reaction detection 106 is performed by using a camera, a microphone, a keyboard, a switch, a pointing device, a sensor, or other input means, and when a warning is presented to the user by the warning unit 105, a user-specified identification is performed. Operation, emits a predetermined specific voice, detects that a predetermined specific gesture is performed, or refers to gaze target information obtained from the gaze target detection unit 101. Thus, it is determined whether or not the user has responded to the signal for alerting, and is output as user response information.
    
       【0143】なお、この反応検知部106は、独立した
一つの部品として構成することも、あるいは、他メディ
ア入力部102に機能として組み込んで実現することも
可能である。The reaction detecting section 106 can be constituted as one independent component, or can be realized by being incorporated in the other media input section 102 as a function.
    
       【0144】図1における制御部107は、本システム
の各種制御や、演算処理、判断等を司どるもので、本シ
ステムの制御、演算の中枢を担うものである。The control unit 107 in FIG. 1 is responsible for various controls of this system, arithmetic processing, judgment, and the like, and plays a central role in control and arithmetic of this system.
    
       【0145】なお、この制御部107が本装置の他の構
成要素を制御することによって、本発明装置の動作を実
現し、本発明装置の効果を得るものであるので、この制
御部107の処理の手順については後で、その詳細に触
れることとする。The control unit 107 controls the other components of the apparatus to realize the operation of the apparatus of the present invention and obtain the effect of the apparatus of the present invention. The procedure will be described later in detail.
    
       【0146】図6に制御部107の内部構成例を示す。
図に示すように、制御部107は、制御処理実行部20
1、制御規則記憶部202、および解釈規則記憶部20
3などから構成される。FIG. 6 shows an example of the internal configuration of the control unit 107. 
 As shown in the figure, the control unit 107 controls the control process execution unit 20 
 1. Control rule storage unit 202 and interpretation rule storage unit 20 
 3 and the like.
    
       【0147】これらのうち、制御処理実行部201は、
内部に各要素の状態情報を保持するための状態レジスタ
Sと、情報種別を保持する情報種レジスタMとを持ち、
また、本マルチモーダル対話装置の各構成要素の動作状
況、注視対象情報、利用者反応情報、出力情報など、各
構成要素からの信号を受け取ると共に、これらの信号
と、状態レジスタSの内容と、制御規則記憶部202お
よび解釈規則記憶部203の内容を参照して、後述の処
理手順Aに沿った処理を行ない、得られた結果対応に本
マルチモーダルインタフェース装置の各構成要素への制
御信号を出力することによつて、本マルチモーダルイン
タフェース装置の機能と効果を実現するものである。Of these, the control processing execution unit 201 
 A status register S for holding status information of each element and an information type register M for holding an information type are provided therein. 
 In addition to receiving signals from each component, such as the operation status of each component of the multi-modal dialogue device, gaze target information, user response information, output information, and the like, these signals, the contents of the status register S, With reference to the contents of the control rule storage unit 202 and the interpretation rule storage unit 203, processing according to the processing procedure A described below is performed, and control signals to each component of the multimodal interface device are transmitted in accordance with the obtained result. By outputting, the functions and effects of the multimodal interface device are realized.
    
       【0148】また、制御規則記憶部202は所定の制御
規則を保持させたものであり、また、解釈規則記憶部2
03は、所定の解釈規則を保持させたものである。The control rule storage unit 202 stores a predetermined control rule. 
 03 holds a predetermined interpretation rule.
    
       【0149】図7は、制御規則記憶部202に記憶され
た制御規則の内容例を表している。ここでは、各制御規
則の情報が、“規則ID”、“現状態情報A”、“イベ
ント条件情報B”、“アクションリスト情報C”、“次
状態情報D”などに分類され記録されるようにしてい
る。FIG. 7 shows an example of the contents of a control rule stored in the control rule storage unit 202. Here, the information of each control rule is classified and recorded as “rule ID”, “current state information A”, “event condition information B”, “action list information C”, “next state information D”, and the like. I have to.
    
       【0150】制御記憶記憶部202の各エントリに於い
て、“規則ID”には制御規則毎の識別記号が記録され
る。In each entry of the control storage unit 202, an identification symbol for each control rule is recorded in “rule ID”.
    
       【0151】また、“現状態情報A”の欄には、対応す
るエントリの制御規則を適用するための条件となる状態
レジスタSの内容に対する制限が記録され、“イベント
情報B”の欄には、対応するエントリの制御規則を適用
するための条件となるイベントに対する制限が記録され
るようにしている。In the “current status information A” column, restrictions on the contents of the status register S, which is a condition for applying the control rule of the corresponding entry, are recorded. In the “event information B” column, In addition, a limit on an event serving as a condition for applying the control rule of the corresponding entry is recorded.
    
       【0152】また、“アクションリスト情報C”の欄に
は、対応する制御規則を適応した場合に、行なうベき制
御処理に関する情報が記録されており、また、“次状態
情報D”の欄には、対応するエントリの制御規則を実行
した場合に、状態レジスタSに更新値として記録すべき
状態に関する情報が記録されるようにしている。In the column of “action list information C”, information on the control process to be performed when the corresponding control rule is applied is recorded. In the column of “next state information D”, When the control rule of the corresponding entry is executed, information on a state to be recorded as an update value is recorded in the state register S.
    
       【0153】具体的には、制御記憶記憶部202の各エ
ントリに於いて、“規則ID”には“Q1”,“Q
2”,“Q3”,“Q4”,“Q5”,…といった具合
に制御規則毎の識別記号が記録される。また、“現状態
情報A”には、“入出力待機”,“入力中”,“可否確
認中”,“出力中”,“準備中”,“中断中”,“呼掛
中”,…といった具合に、それぞれの規則IDによるエ
ントリの制御規則を適用するための条件として状態レジ
スタSの内容が、どのようなものでなければならないか
を規則ID対応に設定してある。Specifically, in each entry of the control storage unit 202, “Q1”, “Q 
 An identification symbol for each control rule is recorded in the form of “2”, “Q3”, “Q4”, “Q5”, etc. In “current state information A”, “input / output standby”, “input in progress” "," Checking availability "," Outputting "," Preparing "," Suspended "," Calling ", etc. as conditions for applying the control rules of the entry by each rule ID. The contents of the status register S must be set in correspondence with the rule ID.
    
       【0154】また、“イベント条件情報B”は、“入力
要求”,“出力制御受信”,“出力開始要求”,“出力
準備要求”,“入力完了”,…といった具合に、対応す
るエントリの制御規則を適用するための条件となるイベ
ントがどのようなものでなければならないかを規則ID
対応に設定してある。また、“アクション情報C”は、
“[入力受付FB 入力受付開始]”,“[]”,
“[出力開始]”,“[出力可否]”,“[入力受付停
止 入力完了FB]”,“[入力受付停止 取消FB提
示]”,“[出力開始]”,“[呼掛け]”,…といっ
た具合に、対応する制御規則を適用した場合に、どのよ
うなアクションを行うのかを規則ID対応に設定してあ
る。The "event condition information B" includes "input request", "output control reception", "output start request", "output preparation request", "input completed",. Rule ID indicates what event must be the condition for applying the control rule 
 It is set to correspond. “Action information C” is 
 “[Input reception FB input reception start]”, “[]”, 
 “[Output start]”, “[output enable / disable]”, “[input acceptance stop input complete FB]”, “[input acceptance stop cancel FB presentation]”, “[output start]”, “[interrogation]”, .., Etc., when a corresponding control rule is applied, what kind of action is to be performed is set corresponding to the rule ID.
    
       【0155】なお、“アクション情報C”の欄に記録さ
れる制御処理のうち、“[入力受付FB(フィードバッ
ク)]”は利用者に対して、本装置の他メディア入力部
102からの入力が可能な状態になったことを示すフィ
ードバックを提示するものであり、例えば文字列や、面
像情報あるいはチャイムや肯定の意味を持つ相槌など音
声などの音信号を提示したり、あるいは擬人化イメージ
提示部103を通じて利用者へ視線を向けたり、耳に手
を当てるジェスチャを表示するなどを利用者へ提示する
処理を表している。In the control processing recorded in the column of “action information C”, “[input reception FB (feedback)]” indicates to the user that an input from the other media input unit 102 of the present apparatus is required. It presents feedback indicating that it has become possible, for example, presents a sound signal such as a character string, image information, or a sound such as a chime or a hammer with a positive meaning, or presents an anthropomorphic image The processing of presenting to the user, for example, directing the user's gaze through the unit 103 or displaying a gesture of placing a hand on the ear is shown.
    
       【0156】また、“[入力完了FB(フィードバッ
ク)]”と“[確認受領FB(フィードバック)]”
は、利用者に対してコミュニケーションが正しく行なわ
れたこと、あるいは利用者への呼掛けに対する利用者か
らの確認の意図を正しく受け取ったことを表すフィード
バックを提示する処理である。In addition, “[input completion FB (feedback)]” and “[confirmation reception FB (feedback)]” 
 Is a process of presenting feedback to the user that the communication has been performed correctly or that the user has correctly received the intention of confirmation from the user in response to the call to the user.
    
       【0157】なお、“アクションリスト情報C”の欄に
記録される制御処理のうち、“[入力受付FB(フィー
ドバック)]”は利用者に対して、本装置の他メディア
入力部102からの入力が可能な状態になったことを示
すフィードバックを提示するものであり、その提示方法
としては例えば“文字列”や、“面像情報”で提示した
り、あるいは“チャイム”や肯定の意味を持つ“相槌”
の音声などのように、音信号で提示したり、あるいは擬
人化イメージ提示部103を通じて利用者へ視線を向け
たり、耳に手を当てるジェスチャの画像を表示するな
ど、利用者に対しての反応を提示する処理を表してい
る。In the control processing recorded in the column of “action list information C”, “[input reception FB (feedback)]” is provided to the user by inputting from the other media input unit 102 of the apparatus. Is presented as feedback indicating that the state has become possible. For example, the presentation method is “character string”, “plane image information”, or “chime” or affirmative. "Aoi hammer" 
 Reaction to the user, such as presenting with a sound signal, such as the voice of a person, or turning the gaze to the user through the anthropomorphic image presentation unit 103, or displaying an image of a gesture of placing a hand on the ear. Is presented.
    
       【0158】また、“[入力完了FB(フィードバッ
ク)]”と“[確認受領FB(フィードバック)]”
は、利用者に対してコミュニケーションが正しく行なわ
れたこと、あるいは利用者への呼掛けに対する利用者か
らの確認の意図を正しく受け取ったことを表すフィード
バックを提示する処理であり、“[入力受付FB(フィ
ードバック)]”と同様に、音や音声や文字や画像によ
る信号を提示したり、あるいは擬人化イメージ提示部1
03を通じて、例えば「うなづき」などのジェスチャを
提示する処理を表している。In addition, “[input completion FB (feedback)]” and “[confirmation reception FB (feedback)]” 
 Is a process for presenting feedback indicating that communication has been correctly performed to the user or that the intention of confirmation from the user in response to the call to the user has been correctly received. (Feedback)] As in the case of "), a signal by sound, voice, text, or image is presented, or the personified image presentation unit 1 
 Through 03, a process of presenting a gesture such as “nodding” is shown.
    
       【0159】また、“[取消FB(フィードバッ
ク)]”は、利用者とのコミュニケーションにおいて、
何らかの問題が生じたことを示すフィードバックをを利
用者に提示する処理であり、警告音や、警告を意味する
文字列や画像を提示したり、あるいは、擬人化イメージ
提示部103を通じて、例えば手の平を上にした両手を
曲げながら広げるジェスチャを提示する処理を表してい
る。“[Cancel FB (feedback)]” is used in communication with the user. 
 This is a process of presenting a user with feedback indicating that a problem has occurred. For example, a warning sound, a character string or an image indicating a warning is presented, or the palm is displayed through the anthropomorphic image presentation unit 103. This represents a process of presenting a gesture of spreading the hands while bending both hands.
    
       【0160】また、“[入力受付開始]”、および
“[入力受付停止]”はそれぞれ、他モード入力部10
2の入力を開始、および停止する処理であり、同様に
“[出力開始]”、“[出力中断]”、“[出力再
開]”、“[出力停止]”は情報出力部104からの利
用者への情報の出力を、それぞれ開始、中断、再開、お
よび停止する処理を表している。Also, “[input reception start]” and “[input reception stop]” respectively correspond to the other mode input unit 10. 
 2 is a process for starting and stopping the input of “2.” Similarly, “[output start]”, “[output interruption]”, “[output restart]”, and “[output stop]” are used from the information output unit 104. The process of starting, suspending, resuming, and stopping the output of information to the user respectively.
    
       【0161】また、“[出力可否検査]”は、注視対象
検出部101から出力される注視対象情報と、解釈規則
記憶部203の内容を参照して、利用者へ提示しようと
している情報を、現在利用者に提示可能であるかどうか
を調べる処理を表している。“[Output availability check]” refers to the gaze target information output from the gaze target detection unit 101 and the information to be presented to the user with reference to the contents of the interpretation rule storage unit 203. This represents a process of checking whether or not it can be currently presented to the user.
    
       【0162】また、“[呼掛け]”は、利用者へ情報を
提示する際に、利用者の注意を喚起するためにに、例え
ば警告音を提示したり、呼掛けの間投詞音声を提示した
り、利用者の名前を提示したり、画面をフラッシュ(一
次的に繰り返し反転表示させる)させたり、特定の画像
を提示したり、あるいは擬人化イメージ提示部103を
通じて、例えば手を左右に振るジェスチャを提示する処
理を表している。[0162] In addition, "[calling]" presents, for example, a warning sound or an interjection voice during calling in order to draw the user's attention when presenting information to the user. For example, a gesture of presenting the user's name, flashing the screen (temporarily repeatedly inverting the display), presenting a specific image, or waving a hand to the right or left through the anthropomorphic image presenting unit 103 Is presented.
    
       【0163】“[入力受付FB(フィードバック)]”
と同様に、音や音声や文字や画像による信号を提示した
り、あるいは擬人化イメージ提示部103を通じて、例
えば「うなづき」などのジェスチャを提示する処理を表
している。"[Input reception FB (feedback)]" 
 In the same manner as above, the process of presenting a signal such as a sound, a voice, a character, or an image, or presenting a gesture such as “nodding” through the anthropomorphic image presenting unit 103 is shown.
    
       【0164】また、“[取消FB(フィードバッ
ク)]”は、利用者とのコミュニケーションにおいて、
何らかの問題が生じたことを示すフィードバックをを利
用者に提示する処理であり、警告音や、警告を意味する
文字列や画像を提示ししたり、あるいは、擬人化イメー
ジ提示部103を通じて、例えば手の平を上にした両手
を曲げながら広げるジェスチャを提示する処理を表して
いる。"[Cancel FB (feedback)]" indicates that communication with the user 
 This is a process of presenting a user with feedback indicating that a problem has occurred. For example, a warning sound, a character string or an image indicating a warning is presented, or a palm is displayed through the anthropomorphic image presentation unit 103. Represents a process of presenting a gesture of spreading the hands while bending both hands with the "?"
    
       【0165】また、“[入力受付開始]”、および
“[入力受付停止]”はそれぞれ、他モード入力部10
2の入力を開始、および停止する処理であり、同様に
“[出力開始]”、“[出力中断]”、“[出力再
開]”、“[出力停止]”は情報出力部104からの利
用者への情報の出力を、それぞれ開始、中断、再開、お
よび停止する処理を表している。Also, “[input reception start]” and “[input reception stop]” respectively correspond to the other mode input unit 10. 
 2 is a process for starting and stopping the input of “2.” Similarly, “[output start]”, “[output interruption]”, “[output restart]”, and “[output stop]” are used from the information output unit 104. The process of starting, suspending, resuming, and stopping the output of information to the user respectively.
    
       【0166】また、“[出力可否検査]”は、注視対象
検出部101から出力される注視対象情報と、解釈規則
記憶部203の内容を参照して、利用者へ提示しようと
している情報を、現在利用者に提示可能であるかどうか
を調べる処理を表している。The “[output possibility check]” refers to the gaze target information output from the gaze target detection unit 101 and the information to be presented to the user with reference to the contents of the interpretation rule storage unit 203. This represents a process of checking whether or not it can be currently presented to the user.
    
       【0167】また、“[呼掛け]”は、利用者へ情報を
提示する際に、利用者の注意を喚起するために、例えば
警告音を提示したり、呼掛けの間投詞音声を提示した
り、利用者の名前を提示したり、画面をフラッシュ(一
次的に反転表示させる)させたり、特定の画像を提示し
たり、あるいは擬人化イメージ提示部103を通じて、
例えば手を左右に振るジェスチャを提示する処理を表し
ている。"[Interrogation]" is for presenting information to the user, for example, by presenting a warning sound or presenting a spoken word during interrogation in order to draw the user's attention. , Presenting the user's name, flashing the screen (temporarily inverting the display), presenting a specific image, or through the anthropomorphic image presenting unit 103, 
 For example, a process of presenting a gesture of waving a hand left and right is shown.
    
       【0168】また、“次状態情報D”は、“入力中”,
“可否確認中”,“出力中”,“準備中”,“入出力待
機”,“呼掛中”,…といった具合に、対応するエント
リの制御規則を実行した場合に、状態レジスタSに更新
値として記録すべき情報(状態に関する情報)を規則I
D対応に設定してある。The “next state information D” includes “inputting”, 
 Updates the status register S when the control rule of the corresponding entry is executed, such as “Checking availability”, “Output”, “Preparing”, “I / O standby”, “Interrogation”, etc. The information to be recorded as a value (information about the state) is described in Rule I. 
 D is set.
    
       【0169】従って、“規則ID”が“Q1”のもの
は、対応するエントリの制御規則を適用する条件となる
状態レジスタSの内容が“入出力待機”であり、“Q
1”なるエントリが発生したときは、状態レジスタSの
内容が“入出力待機”であれば、イベントとして“入力
要求”が起こり、このとき、“入力受付フィードバック
と入力受付開始”という制御処理を行って、状態レジス
タSには“入力中”なる内容を書き込んで、“入出力待
機”から“入力中”なる内容に当該状態レジスタSの内
容を更新させる、ということがこの制御規則で示されて
いることになる。Therefore, when the "rule ID" is "Q1", the contents of the status register S, which is a condition to which the control rule of the corresponding entry is applied, are "input / output standby" and "Q1". 
 When the entry "1" occurs, if the content of the status register S is "input / output standby", an "input request" occurs as an event. At this time, a control process of "input reception feedback and input reception start" is performed. This control rule indicates that the contents of "inputting" are written to the status register S, and the contents of the status register S are updated from "input / output standby" to "inputting". Will be.
    
       【0170】同様に“規則ID”が“Q5”のものは、
対応するエントリの制御規則を適用する条件となる状態
レジスタSの内容が“入力中”であり、“Q5”なるエ
ントリが発生したときは、状態レジスタSの内容が“入
力中”であれば、イベントとして“入力完了”が起こ
り、このとき“入力受付停止と入力完了フィードバッ
ク”という制御処理を行って、状態レジスタSはその内
容を“入出力待機”に改める、ということがこの制御規
則で示されていることになる。Similarly, when the “rule ID” is “Q5”, 
 If the content of the status register S, which is a condition for applying the control rule of the corresponding entry, is "inputting" and an entry "Q5" occurs, if the content of the status register S is "inputting", This control rule indicates that "input completion" occurs as an event, and at this time, control processing of "input acceptance stop and input completion feedback" is performed, and the status register S changes its contents to "input / output standby". It will be.
    
       【0171】図8は、解釈規則記憶部203の内容例を
表しており、各解釈規則に関する情報が、“現状態情報
A”、“注視対象情報B”、“入出力情報種情報C”、
および“解釈結果情報D”などに分類され記録されるよ
うにしている。FIG. 8 shows an example of the contents of the interpretation rule storage unit 203. Information regarding each interpretation rule includes “current state information A”, “gazing target information B”, “input / output information type information C”, 
 And "interpretation result information D".
    
       【0172】解釈規則記憶部203の各エントリにおい
て、“規則ID”の欄には、対応する規則の識別記号が
記録されている。また、“現状態情報A”の欄には対応
する解釈規則を適応する場合の、状態レジスタSに対す
る制約が記録されている。In each entry of the interpretation rule storage unit 203, an identification symbol of a corresponding rule is recorded in a “rule ID” column. In the column of "current state information A", restrictions on the state register S when the corresponding interpretation rule is applied are recorded.
    
       【0173】また、“注視対象情報B”の欄には、注視
対象検出部101から受け取り、制御処理実行部201
によって解釈を行なう、注視対象情報の“注視対象情報
A”の欄と比較照合するための注視対象に関する情報が
記録されている。In the field of “gazing target information B”, the control processing executing unit 201 
 The information on the gaze target for comparison and collation with the column of “gaze target information A” of the gaze target information to be interpreted is recorded.
    
       【0174】また、“入出力情報C”の欄には、入力時
には利用者から入力される情報の種類に対する制約が、
また出力時には利用者へ提示する情報の種類に関する制
約が記録されるようにしている。In the column of “input / output information C”, there are restrictions on the type of information input by the user at the time of input. 
 At the time of output, restrictions on the type of information to be presented to the user are recorded.
    
       【0175】そして、“解釈結果情報D”の欄には、受
け取った注視対象情報に対してその解釈規則を適用した
場合の解釈結果が記録されるようにしている。In the field of "interpretation result information D", an interpretation result when the interpretation rule is applied to the received gaze target information is recorded.
    
       【0176】具体的には、“規則ID”には、“R
1”,“R2”,“R3”,“R4”,“R5”,“R
6”,…といった具合に、対応する規則の識別符号が記
録される。また、“現状態情報A”には“入出力待
機”,“入力中”,“可否確認中”,“出力中”,“準
備中”,“中断中”,…といった具合に、対応する解釈
規則を適応する場合に、状態レジスタSの保持している
情報の持つべき内容が記録されている。Specifically, “Rule ID” includes “R 
 1 "," R2 "," R3 "," R4 "," R5 "," R 
 The identification code of the corresponding rule is recorded in the form of “6”, etc. The “current state information A” contains “input / output standby”, “input being performed”, “checking availability”, “outputting”. , "In preparation", "interruption", and so on, the contents to be held by the information held in the status register S when the corresponding interpretation rule is applied are recorded.
    
       【0177】また、“注視対象情報B”には、“入力要
求領域”,“擬人化イメージ”,“マイク領域”,“カ
メラ領域”,“出力要求領域”,“キャンセル要求領
域”,“出力要求領域以外”,“他人物”,“出力領
域”,“装置正面”,…といった具合に、注視対象検出
部101から受け取り、制御処理実行部201によって
解釈を行なう、注視対象情報の“注視対象情報A”の欄
と比較照合するための注視対象に関する情報が記録され
ている。The “gazing target information B” includes “input request area”, “personified image”, “microphone area”, “camera area”, “output request area”, “cancel request area”, and “output”. The “gaze target” of the gaze target information received from the gaze target detection unit 101 and interpreted by the control processing execution unit 201 in a manner such as “other than the requested area”, “other person”, “output area”, “front of the device”,. Information on the gaze target for comparison and collation with the column of information A ″ is recorded.
    
       【0178】また、“入出力情報種情報C”には、“音
声情報”,“視覚情報”,“動画情報”,“動画情報以
外”,“静止画情報”,…といった具合に、入力時にお
いては利用者から入力される情報の種類に対する制約
が、また出力時には利用者へ提示する情報の種類に関す
る制約が記録される。The “input / output information type information C” includes “audio information”, “visual information”, “moving picture information”, “other than moving picture information”, “still picture information”, and so on. In, restrictions on the type of information input from the user are recorded, and at the time of output, restrictions on the type of information presented to the user are recorded.
    
       【0179】そして、“解釈結果情報D”には、“入力
要求”,“出力準備”,“取消要求”,“要中断”,
“開始可能”,“再会可能”,“確認検出”,…といっ
た具合に、受け取った注視対象情報に対してその解釈規
則を適用した場合の解釈結果が記録される。The "interpretation result information D" includes "input request", "output preparation", "cancel request", "interrupt required", 
 The interpretation result when the interpretation rule is applied to the received gaze target information is recorded in a state such as “startable”, “reunitable”, “confirmation detected”,.
    
       【0180】従って、例えば、“規則ID”が“R2”
である規則を適用する場合は、状態レジスタSの内容が
“入出力待機”である必要があり、注視対象領域は“擬
人化イメージ”であり、入力時及び出力時は“音声情
報”を使用し、解釈結果は“入力要求”であることを示
している。Therefore, for example, if the “rule ID” is “R2” 
 When the rule is applied, the contents of the status register S need to be “input / output standby”, the area to be watched is “anthropomorphic image”, and “voice information” is used at the time of input and output. However, it indicates that the interpretation result is “input request”.
    
【0181】以上が制御部107の構成である。The configuration of the control unit 107 has been described above.
       【0182】続いて、本発明装置において、中心的な役
割を演じる制御処理実行部201での処理の詳細につい
て説明する。Next, the details of the processing in the control processing execution section 201 which plays a central role in the apparatus of the present invention will be described.
    
       【0183】制御部107の構成要素である制御処理実
行部201での処理は下記の処理手順Aに沿って行なわ
れる。The processing in the control processing execution unit 201 which is a component of the control unit 107 is performed according to the following processing procedure A.
    
       【0184】なお、図9は処理手順Aの流れを表すフロ
ーチャートである。FIG. 9 is a flowchart showing the flow of the processing procedure A.
    
       【0185】<処理手順A> [ステップA1] まずはじめに、制御処理部201
は初期化処理をする。この初期化処理は状態レジスタS
と情報種レジスタMを初期状態に設定するもので、この
初期化処理により状態レジスタSには「入出力待機」な
る内容の情報が設定され、情報種レジスタMには、「未
定義」なる内容の情報が設定され、他メディア入力部1
02が入力非受付状態にされる(初期化)。<Processing Procedure A> [Step A1] First, the control processing unit 201 
 Performs initialization processing. This initialization process is performed by the status register S 
 And the information type register M are set to the initial state. By this initialization processing, the information of the content "I / O standby" is set in the status register S, and the content of "undefined" is set in the information type register M. Is set, and the other media input unit 1 is set. 
 02 is set in an input non-accepting state (initialization).
    
       【0186】[ステップA2] 初期化が済んだなら
ば、入力/出力の判断がなされる。本制御部107への
入力を待ち、入力があった場合には、その入力が注視対
象検出部101からであった場合、すなわち、注視対象
検出部101からその検出出力である注視対象情報Gi
が送られて来た場合は、注視情報解釈処理を行うステッ
プA3へと進む。また、本発明では直接関係ないので詳
細は説明しないが、マルチモーダル対話装置の主要な構
成要素となる問題解決装置あるいは、データベース装
置、あるいはサービス提供装置から、本制御部107に
出力情報Ojが与えられた時は、入力/出力判断ステッ
プであるステップA2ではステップA12へと処理を移
す。[Step A2] After initialization, input / output determination is made. Waiting for an input to the control unit 107, if there is an input, the input is from the gaze target detection unit 101, that is, the gaze target information Gi that is the detection output from the gaze target detection unit 101. 
 Is sent, the process proceeds to step A3 for performing the gaze information interpretation process. Although the details are not described because they are not directly related to the present invention, the output information Oj is supplied to the control unit 107 from a problem solving device, a database device, or a service providing device which is a main component of the multi-modal interactive device. If it is, the process goes to step A12 in step A2 which is an input / output determination step.
    
       【0187】すなわち、制御部107ではA2におい
て、解決装置やデータベース装置あるいはサービス提供
装置から出力情報Ojが与えられたときは、ステップA
12に進む。出力情報Ojは情報出力部104を用い
て、利用者へ情報出力を行なうための制御信号であり、
利用者へ提示すべき情報内容Cjと、情報の種類である
情報種別Mjを含む(入力/出力判定)。That is, when the control unit 107 receives the output information Oj from the solving device, the database device, or the service providing device in A2, the process proceeds to step A2. 
 Proceed to 12. The output information Oj is a control signal for outputting information to the user using the information output unit 104, 
 It contains information content Cj to be presented to the user and information type Mj, which is the type of information (input / output determination).
    
       【0188】[ステップA3] ここでの処理は注視
情報解釈であり、状態レジスタSの内容、および注視対
象情報Giの内容、および情報種レジスタMの内容と、
解釈規則記憶部203の各エントリの“現状態情報A”
の内容、および“注視注対象情報B”の内容、および
“入出力情報種情報C”とを、それぞれ比較照合するこ
とで、解釈規則中で条件が適合する解釈規則Ri(i=
1,2,3,4,5…)を探す(注視情報解釈)。[Step A3] The processing here is interpretation of gaze information. The contents of the state register S, the contents of the gaze target information Gi, the contents of the information type register M, 
 “Current state information A” of each entry in the interpretation rule storage unit 203 
 Is compared with the contents of the “gazing attention target information B” and the “input / output information type information C”, and the interpretation rule Ri (i = 
 1, 2, 3, 4, 5 ...) (interpretation of gaze information).
    
       【0189】[ステップA4] ステップA3におい
て、条件が適合する解釈規則Riが見つからない場合に
は、ステップA11へ進み、見つかった場合はステップ
A5に進む(解釈可能判定)。[Step A4] In step A3, if no interpretation rule Ri that satisfies the condition is found, the flow proceeds to step A11, and if found, the flow proceeds to step A5 (interpretability determination).
    
       【0190】[ステップA5] 見つかった解釈規則
Riに対応する“解釈結果情報D”を参照し、当該“解
釈結果情報D”に記述されている解釈結果Iiを得る。
そして、ステップA6に進む(解釈結果決定)。[Step A5] The "interpretation result information D" corresponding to the found interpretation rule Ri is referred to, and the interpretation result Ii described in the "interpretation result information D" is obtained. 
 Then, the process proceeds to Step A6 (interpretation result determination).
    
       【0191】[ステップA6] 状態レジスタSの内
容、および解釈結果Iiを、制御規則記憶部202の
“現状対情報A”の内容、および“イベント条件情報
B”の内容と、それぞれ比較照合することで、対応する
制御規則Qiを探す。そして、ステップA7に進む(制
御規則検索)。[Step A6] The contents of the status register S and the interpretation result Ii are compared with the contents of “current state information A” and the contents of “event condition information B” in the control rule storage unit 202, respectively. Then, a corresponding control rule Qi is searched. Then, the process proceeds to step A7 (control rule search).
    
       【0192】[ステップA7] ステップA6の処理
において、条件に適合する解釈規則Qiが見つからなか
った場合には、ステップA11へ進む。一方、条件に適
合する解釈規則Qiが見つかった場合にはステップA8
に進む(制御規則有無判定)。[Step A7] If no interpretation rule Qi that satisfies the condition is found in the process of step A6, the process proceeds to step A11. On the other hand, if an interpretation rule Qi that meets the conditions is found, the process proceeds to step A8. 
 Proceed to (control rule presence / absence determination).
    
       【0193】[ステップA8] ここでは制御規則Q
iの、“アクション情報C”の欄を参照して、実行すべ
き制御処理のリスト[Ci1.Ci2、…]を得る。そ
して、ステップA9に進む(制御処理リスト取得)。[Step A8] Here, control rule Q 
 i, a list of control processes to be executed [Ci1. Ci2, ...]. Then, the process proceeds to step A9 (control processing list acquisition).
    
       【0194】[ステップA9] 実行すべき制御処理
のリスト[Ci1.Ci2、…]が得られたならば、こ
の得られた制御処理のリスト[Ci1.Ci2、…]の
各要素について、順次<処理手順B>(後述)に従い制
御処理を実行する(各制御処理実行)。[Step A9] List of control processes to be executed [Ci1. ..] Are obtained, a list of the obtained control processes [Ci1. ..] Are sequentially executed in accordance with <Processing Procedure B> (described later) (execution of each control process).
    
       【0195】[ステップA10] 状態レジスタSに、
Qiの“次状態情報D”の内容を記録する。そして、ス
テップA11に進む(状態更新)。[Step A10] In the status register S, 
 The contents of “next state information D” of Qi are recorded. Then, the process proceeds to step A11 (state update).
    
       【0196】[ステップA11] 注視対象情報Giに
関する処理を終了し、ステップA2へ戻る(リターン処
理)。[Step A11] The processing related to the gaze target information Gi is completed, and the process returns to step A2 (return processing).
    
       【0197】[ステップA12] ステップA2におい
て、出力情報Ojが与えられた時は、制御部107はス
テップA12の処理に進むが、このステップでは情報種
レジスタMに、その出力情報Ojの情報種別Mjを記録
し、制御規則記憶部202に記憶されている制御規則を
参照し、その中の“現状状態A”の内容が状態レジスタ
Sの内容と一致し、かつ“イベント条件情報B”の内容
が「出力制御受信」であるエントリQk(k=1,2,
3,4,5,…)を探す。そして、ステップA13の処
理に移る(制御規則検索)。[Step A12] In step A2, when the output information Oj is given, the control section 107 proceeds to the process of step A12. In this step, the information type register M stores the information type Mj of the output information Oj. Is referred to, and the control rule stored in the control rule storage unit 202 is referred to, and the content of “current status A” matches the content of the status register S and the content of “event condition information B” is Entry Qk (k = 1, 2, 2) which is “output control reception” 
 3, 4, 5, ...). Then, the process proceeds to step A13 (control rule search).
    
       【0198】[ステップA13] ここでは、ステップ
A12において、Q1からQxの規則IDの中から、条
件に適合する制御規則ID Qk(k=1,2,3,
4,…k−1,k、k+1,k+2,…x)が見つから
ない場合には、ステップA17へ進み、条件に適合する
制御規則Qkが見つかった場合はステップA14に進む
(該当する制御規則の有無判定)。[Step A13] Here, in step A12, from among the rule IDs of Q1 to Qx, a control rule ID Qk (k = 1, 2, 3, 
 (4,... K-1, k, k + 1, k + 2,... X) are not found, the process proceeds to step A17, and if a control rule Qk that meets the conditions is found, the process proceeds to step A14 (of the corresponding control rule). Determination).
    
       【0199】[ステップA14] ステップA14で
は、制御規則記憶部202にある制御規則中の“アクシ
ョン情報C”のうち、見つかった制御規則Qkに対応す
る“アクション情報C”を参照して、実行すべき制御処
理のリスト[Ck1.Ck2、…」を得る(制御処理リ
スト取得)。[Step A14] In step A14, of the "action information C" in the control rules stored in the control rule storage section 202, the "action information C" corresponding to the found control rule Qk is referred to and executed. List of power control processes [Ck1. Ck2, ... "(control processing list acquisition).
    
       【0200】[ステップA15] 制御処理のリスト
[Ck1、Ck2、…」の各要素について、順次<処理
手順B>(後述)に従い制御処理を実行する(各制御処
理実行)。[Step A15] For each element of the control processing list [Ck1, Ck2,...], Control processing is sequentially executed in accordance with <processing procedure B> (described later) (execution of each control processing).
    
       【0201】[ステップA16] そして、状態レジス
タSに、Qkなる規則IDに対応する“次状態情報D”
の内容を記録する(状態更新)。[Step A16] The status register S stores "next status information D" corresponding to the rule ID of Qk. 
 Record the contents (status update).
    
       【0202】[ステップA17] 情報情報Ojに関す
る処理を終了し、ステップA2へ戻る(リターン処
理)。[Step A17] The processing related to the information information Oj is completed, and the process returns to step A2 (return processing).
    
       【0203】以上が、処理手順Aの内容であり、入って
きた情報が、利用者からのものであるか、利用者に対し
て提示するものであるかを判定し、前者(利用者からの
情報)であれば注視情報を解釈し、解釈結果を決定し、
その決定した解釈結果に対応する制御規則を検索し、該
当の制御規則があればどのような制御をするのかを制御
規則中からリストアップし、そのリストアップされた制
御内容の制御を実施し、また、後者(利用者に対して提
示するもの)であれば出力のための制御規則を検索し、
該当制御規則があればどのような制御をするのかを制御
規則中からリストアップし、そのリストアップされた制
御内容の出力制御処理を行うようにしたもので、音声
や、映像、カメラ、キーボードやマウス、データグロー
ブなど、様々な入出力デバイスと解析処理や制御技術を
用いてコミュニケーションを図る際に、人間同士のコミ
ュニケーションのように、何に注意を払って対話を進め
れば良いかをルールで決めて、対話の流れと用いたデバ
イスに応じて、使用すべき情報とそれ以外の情報とに分
け、対話のための制御を進めていくようにしたから、雑
音成分の取り込みを排除できて、誤動作を防止できるよ
うにし、また、状況に応じて、注意を喚起したり、理解
度や対話の状況、反応を擬人化画像でジェスチャ表示し
たりして、自然な対話を可能にした。The above is the contents of the processing procedure A. It is determined whether the information entered is from the user or presented to the user, and the former (from the user) is determined. Information), interpret the gaze information, determine the interpretation result, 
 The control rule corresponding to the determined interpretation result is searched, and if there is a corresponding control rule, what kind of control is performed is listed from among the control rules, and control of the listed control content is performed, If the latter (presented to the user), search for control rules for output, 
 If there is a corresponding control rule, what kind of control is performed is listed from the control rule, and output control processing of the listed control content is performed, and audio, video, camera, keyboard, When communicating with various input / output devices such as mice and data gloves using analysis processing and control technology, rules such as what to pay attention to, such as communication between humans, should be followed. Decided and divided into information to be used and other information according to the flow of the dialog and the device used, and proceeded with control for the dialog, so it was possible to eliminate the capture of noise components, In order to prevent malfunction, depending on the situation, attention is raised, the understanding level, the situation of dialogue and the reaction are displayed with gestures using anthropomorphic images, and natural It made it possible to.
    
       【0204】次に処理手順Bを説明する。処理手順Bで
は、アクション情報の内容に応じて次のような提示動作
や制御動作をする。Next, the processing procedure B will be described. In the processing procedure B, the following presentation operation and control operation are performed according to the content of the action information.
    
       【0205】<処理手順B> [ステップB1] まず、アクション情報である制御
処理Cxが「入力受付FB」である場合は、例えば「入
力可能」といった文字列や、「マイクに丸印の付された
絵」といった画像情報や、あるいはチャイム音や、肯定
の意味を持つ「はい」といった相槌などを、音声や文字
で提示したり、あるいは擬人化イメージ提示部103を
通じて利用者へ視線を向けたり、耳に手を当てるジェス
チャを表示する。<Processing Procedure B> [Step B1] First, when the control processing Cx as the action information is “input reception FB”, for example, a character string such as “input is possible” or “a microphone is circled” Image information such as "tae", or chime sound, or a hammer such as "yes" having a positive meaning, etc., are presented by voice or text, or turned to the user through the anthropomorphic image presentation unit 103, Display a gesture of placing your hand on the ear.
    
       【0206】[ステップB2] 制御処理Cxが「入
力完了FB」である場合は、例えば「入力完了」といっ
た文字列や、「マイクに×印の絵」といった画像情報
や、あるいは「チャイム音」や、肯定の意味を持つ「は
い」や、「判りました」といった相槌などを、音声や文
字で提示したり、あるいは擬人化イメージ提示部103
を通じて利用者へ視線を向ける画像を提示したり、うな
づく画像を提示したりといった具合にジェスチャを画像
で表示する。[Step B2] When the control process Cx is “input completed FB”, for example, a character string such as “input completed”, image information such as “picture of cross mark on microphone”, or “chime sound” , Such as “Yes” or “Ok,” which have a positive meaning, are presented by voice or character, or anthropomorphic image presentation unit 103 
 A gesture is displayed as an image, such as presenting an image that directs the user's gaze to the user or presenting a nodding image.
    
       【0207】[ステップB3] 制御処理Cxが、
「受領確認FB」である場合は、例えば「確認」といっ
た文字列や、画像情報や、あるいはチャイム音や、肯定
の意味を持つ「はい」や、「判りました」といった相槌
などを、音声や文字で提示したり、あるいは擬人化イメ
ージ提示部103を通じて利用者へ視線を向けたり、う
なづくなどの画像を用いてジェスチャを表示する。[Step B3] The control process Cx is 
 In the case of the "acknowledgment FB", for example, a character string such as "confirmation", image information, a chime sound, a souvenir such as "yes" or "yes" having a positive meaning, or the like, may be voice or the like. The gesture is displayed by using an image such as presenting a character, or turning the gaze to the user through the anthropomorphic image presenting unit 103 or nodding.
    
       【0208】[ステップB4] 制御処理Cxが、
「取消FB」である場合は、警告音や、警告を意味する
文字列や、記号や、画像を提示したり、あるいは、擬人
化イメージ提示部103を通じて、例えば手の平を上に
した両手を曲げながら広げるといった具合の画像を用い
てジェスチャを提示する。[Step B4] The control process Cx 
 In the case of “cancellation FB”, a warning sound, a character string, a symbol, or an image indicating a warning is presented, or an anthropomorphic image presenting unit 103 is used, for example, while bending both hands with the palm up. The gesture is presented by using an image such as spreading.
    
       【0209】[ステップB5] 制御処理Cxが、
「入力受付開始」および、「入力受付停止」である場合
は、他モード入力部102からの入力をそれぞれ、開始
および停止する。[Step B5] The control process Cx is 
 In the case of “input reception start” and “input reception stop”, the input from the other mode input unit 102 is started and stopped, respectively.
    
       【0210】[ステップB7] 制御処理Cxが、
「出力開始」、「出力中断」、「出力再開」、および
「出力停止」である場合は、情報出力部104からの利
用者への情報の出力を、それぞれ開始、中断、再開、お
よび停止する。[Step B7] The control process Cx 
 In the case of “output start”, “output interruption”, “output restart”, and “output stop”, the output of information from the information output unit 104 to the user is started, interrupted, resumed, and stopped, respectively. .
    
       【0211】[ステップB8] 制御処理Cxが、
「呼掛け」である場合は、例えば警告音を提示したり、
例えば「もしもし」などの呼掛けの間投詞音声を提示し
たり、利用者の名前を提示したり、画面をフラッシュ
(一次的に反転表示させる)させたり、特定の画像を提
示したり、あるいは擬人化イメージ提示部103を通じ
て、例えば手を左右に振るジェスチャを提示する。[Step B8] The control process Cx 
 In the case of "calling", for example, a warning sound is presented, 
 For example, presenting the interjection voice of a call such as "Hello", presenting the user's name, flashing the screen (temporarily highlighting), presenting a specific image, or anthropomorphizing For example, a gesture of waving a hand right and left is presented through the image presentation unit 103.
    
       【0212】なお、情報種レジスタMには、利用者へ提
示しようとする際に、出力情報の種類が適宜記録される
ようにしている。[0212] The information type register M is adapted to appropriately record the type of output information when the information is to be presented to the user.
    
【0213】以上が本装置の構成とその機能である。The above is the configuration and functions of the present apparatus.
       【0214】<具体例を用いた説明>続いて、上述した
マルチモーダルインタフェース装置およびマルチモーダ
ルインタフェース方法について、さらに詳しく説明す
る。<Explanation Using Specific Example> Next, the above-described multimodal interface device and multimodal interface method will be described in more detail.
    
       【0215】ここでは、利用者の視線および頭部方向検
機能と、本装置の前にいる利用者と他人を認識する人物
認識出機能を持つ注視対象抽出部101と、他メディア
入力手段102としての音声入力部と、身振り、手振
り、表情変化によるジェスチャを利用者に提示可能な擬
人化イメージ提示部103と、情報出力部104として
の文字情報および静止画像情報および動画像情報の画像
出力と音声出力部を持つ装置を利用者が使用する場面
を、具体例として説明を行なう。Here, a gaze target extraction unit 101 having a function of detecting the user's line of sight and head direction, a function of recognizing a user in front of the apparatus and a person recognizing another person, and other media input means 102 are provided. , An anthropomorphic image presentation unit 103 capable of presenting a gesture based on gestures, hand gestures, and facial expression changes to a user, and image output and voice of character information, still image information, and moving image information as an information output unit 104 A situation where a user uses a device having an output unit will be described as a specific example.
    
       【0216】なお、図10は、各時点における本装置の
内部状態を表している。FIG. 10 shows the internal state of the apparatus at each time.
    
       【0217】[t0] 制御部107では“処理手順
A”におけるステップA1の処理によって、状態レジス
タSおよび情報種レジスタMにそれぞれ「入出力待機」
と「未定義」が記録され、これにより他メディア入力手
段102の構成要素の一つである音声入力部は「入力非
受付」の状態となる。[T0] In the control unit 107, the status register S and the information type register M are set to “input / output standby” by the processing of step A1 in “processing procedure A”. 
 And “undefined” are recorded, whereby the audio input unit, which is one of the components of the other media input unit 102, is in the “input non-acceptance” state.
    
       【0218】[t1] ここで、本装置の周囲でノイ
ズ(雑音)が発生したとする。しかし、音声入力は非受
付の状態であるので、このノイズを音声として拾うこと
はなく、従って、ノイズによる誤動作は起こらない。[T1] Here, it is assumed that noise (noise) is generated around the present apparatus. However, since voice input is in a non-accepted state, this noise is not picked up as voice, and therefore, no malfunction due to noise occurs.
    
       【0219】[t2] つづいて、擬人化イメージ提
示部103の顔を見ることで、利用者が音声入力の開始
を試みる。すなわち、擬人化イメージ提示部103には
図4に示すように、利用者とジェスチャをまじえたコミ
ュニケーションをとることができるようにディスプレイ
画面に受付嬢の画像を提示する擬人化イメージ提示部1
02aがあり、また、文字や映像等で情報を出力するた
めに、情報出力領域102bがある。この擬人化イメー
ジ提示部103には、初期の段階では図11(a)に示
すような待機状態の受付嬢の上半身の姿が提示されるよ
うに制御されている。従って、利用者は無意識のうちに
この受付嬢の姿を目で注視することになる。[T2] Subsequently, the user tries to start voice input by looking at the face of the anthropomorphic image presentation unit 103. That is, as shown in FIG. 4, the anthropomorphic image presenting section 103 presents an image of a receptionist on a display screen so that the user can communicate with a gesture. 
 02a, and an information output area 102b for outputting information such as characters and images. At the initial stage, the anthropomorphic image presentation unit 103 is controlled so as to present the upper body of the receptionist in a standby state as shown in FIG. Accordingly, the user unawarely watches the appearance of the receptionist.
    
       【0220】[t3] 注視対象検出部101が、こ
れを検知して、注視対象情報として、図2のID=P1
01の欄に示した、注視対象情報を出力する。[T3] The gaze target detection unit 101 detects this, and as the gaze target information, ID = P1 in FIG. 
 The gaze target information shown in the 01 column is output.
    
       【0221】[t4] “処理手順A”におけるステ
ップA2での判断によって、ステップA3へ進み、解釈
規則記憶部203から対応する解釈規則が検索され、ま
たこのとき、“状態レジスタS”の内容が「入出力待
機」であり、かつID=P101の注視対象情報の“注
視対象情報A”が「擬人化イメージ」であることから、
図8に示した解釈規則記憶部203から、規則ID=R
2の解釈規則が抽出される(図8における“規則ID”
が“R2”の該当する“解釈結果情報D”である「入力
要求」という解釈結果情報が抽出される)。[T4] According to the determination at step A2 in “procedure A”, the process proceeds to step A3, where the corresponding interpretation rule is retrieved from the interpretation rule storage unit 203, and at this time, the contents of the “status register S” are Since the “gaze target information A” of the gaze target information of ID = P101 is “anthropomorphic image” 
 From the interpretation rule storage unit 203 shown in FIG. 
 2 are extracted ("rule ID" in FIG. 8). 
 Is interpreted as “input request”, which is “interpretation result information D” corresponding to “R2”).
    
       【0222】[t5] “処理手順A”におけるステ
ップA5によって、“解釈規則R2”の“解釈結果情報
D”の内容から、解釈結果として「入力要求」が得られ
る。[T5] At step A5 in “processing procedure A”, an “input request” is obtained as the interpretation result from the contents of “interpretation result information D” of “interpretation rule R2”.
    
       【0223】[t6] “処理手順A”におけるステ
ップA6の処理によって、制御規則記憶部202からの
検索が行なわれ、現状態情報(図2の“注視対象情報
A”)が「入力待機」であり、かつ、イベン卜条件情報
(図2の“時間情報B”)が「入力要求」であることか
ら、図7の“規則ID”が[Q1]なるIDの制御規則
が選択され、ステップA8の処理によって、“制御規則
Q2”の対応の“アクション情報C”の内容として、
“[入力受付FB、入力受付開始]”を得る。[T6] By the processing of step A6 in “processing procedure A”, a search is performed from the control rule storage unit 202, and the current state information (“gazing target information A” in FIG. 2) is “input standby”. In addition, since the event condition information (“time information B” in FIG. 2) is “input request”, a control rule with an ID “rule ID” of [Q1] in FIG. 7 is selected, and step A8 is performed. As a result, as the content of the “action information C” corresponding to the “control rule Q2”, 
 “[Input reception FB, input reception start]” is obtained.
    
       【0224】[t7] “処理手順A”におけるステ
ップA9の処理および、“処理手順B”での処理によっ
て、例えば、擬人化イメージ提示部103を通じて、図
11(b)の如き「耳に手をかざす」ジェスチャの画像
が利用者に提示されるとともに、「はい」という音声が
利用者に提示され、音声入力の受付が開始され、ステッ
プA10,ステップA11によって、状態レジスタSお
よび情報種レジスタMの内容が更新される。[T7] By the processing of step A9 in the “procedure A” and the processing in the “procedure B”, for example, through the anthropomorphic image presentation unit 103, the “hand in the ear” as shown in FIG. The image of the gesture “over” is presented to the user, the voice of “yes” is presented to the user, the acceptance of the voice input is started, and the status register S and the information type register M are registered in steps A10 and A11. The content is updated.
    
       【0225】[t8] 利用者からの音声入力が完了
し、制御信号(イベン卜)として「入力完了」が制御部
に通知され、“処理手順A”に従った処理により、解釈
規則Q5が選択/実行され、音声入力が非受付となった
後、“処理手順B2”によって、例えば「入力完了」と
いった文字列や、マイクに×印の絵といった画像情報
や、あるいはチャイム音が利用者に提示される。[T8] The voice input from the user is completed, "input completed" is notified to the control unit as a control signal (event), and the interpretation rule Q5 is selected by the processing according to "processing procedure A". / Executed and after the voice input is rejected, a character string such as "input completed", image information such as a picture of an X mark on the microphone, or a chime sound is presented to the user by "processing procedure B2". Is done.
    
       【0226】以上例示した処理によって、“音声入力が
必要でない場面”では入力を“非受付”としておくこと
によって、ノイズなどによる誤動作を防ぐことが出来、
また“音声入力が必要な場面”では、単に擬人化イメー
ジの方を向くだけで音声入力が可能となり、さらに、そ
のときジェスチャなどにより利用者へフィードバックを
提示することによって、音声入力の受付状態が変更され
たことが利用者に判るようになることによって、誤動作
がなく、しかも、特別な操作による負担がなく、人間同
士の対話での方法と同じであるために、自然で、習得や
余分な負担が必要のないヒューマンインタフェースにふ
さわしいマルチモーダルインタフェースを実現してい
る。According to the processing exemplified above, in a “scene where no voice input is required”, by setting the input to “non-acceptance”, a malfunction due to noise or the like can be prevented. 
 In “scenes where voice input is required”, voice input can be performed simply by facing the personified image. At that time, feedback is presented to the user through gestures, etc. Being aware of the changes will make it easier for the user to understand, without any malfunctions, and without the burden of special operations. A multi-modal interface suitable for a human interface with no burden is realized.
    
       【0227】[t9] つづいて、利用者ではない他
の人物xが利用者に近付き、利用者がその人物xの方向
を向いたとする。[T9] Next, it is assumed that another person x who is not the user approaches the user, and the user turns to the direction of the person x.
    
       【0228】[t10] ここで、注視対象検出部10
1が、これを検知して、注視対象情報として、図2の
“注視対象情報ID”のうち、“P102”なるIDの
欄に示した、“注視対象情報A”である「他人物」なる
注視対象情報を出力する。[T10] Here, the gaze target detecting unit 10 
 1 detects this, and as the gaze target information, “other person”, which is “gaze target information A” shown in the column of ID “P102” in “gaze target information ID” in FIG. Outputs the gaze target information.
    
       【0229】[t11] 時点t4と同様の処理が行な
われるが、この場合の条件に適合する解釈規則は存在し
ないから、ステップA11へ進み、この注視対象情報に
関する処理は終了する。[T11] The same processing as at time t4 is performed. However, since there is no interpretation rule that meets the condition in this case, the flow proceeds to step A11, and the processing relating to the watch target information ends.
    
       【0230】[t12] さらに、利用者が“人物x”
の方向を向いたままの状態であるときに、制御部107
に対して、例えば、情報種別M=「動画情報」である出
力情報Ojを利用者に提示するための出力制御信号が与
えられたとする。[T12] Further, if the user is “person x” 
 When the control unit 107 remains in the state of 
 For example, it is assumed that an output control signal for presenting output information Oj of the information type M = “moving image information” to the user is provided.
    
       【0231】[t13] “制御手順A”におけるステ
ップA2によって、ステップA12へ進み、情報種レジ
スタMに「動画情報」が記録され、制御規則記憶部20
2を参照し、“現状態情報A”が、状態レジスタSの内
容「入出力待機」と一致し、かつ“イベント条件情報
B”が、「出力制御受信」であるエントリとして、規則
ID=Q2の制御規則が抽出される。[T13] At step A2 in the “control procedure A”, the process proceeds to step A12, where “moving picture information” is recorded in the information type register M, and the control rule storage section 20 
 2, as the entry in which the “current status information A” matches the content “input / output standby” of the status register S and the “event condition information B” is “output control reception”, rule ID = Q2 Are extracted.
    
       【0232】[t14] “制御手順A”におけるステ
ップA13〜A17の処理を経ることによって、“制御
規則Q2”の対応する“アクション情報C”から、「実
行すべき制御処理はない」ことが判り、ステップA16
の処理によって、“制御規則Q2”の対応する“次状態
情報D”を参照し、状態レジスタSに「可否確認中」が
記録され、ステップA2の処理へと進む。[T14] Through the processing of steps A13 to A17 in the “control procedure A”, it is found from the “action information C” corresponding to the “control rule Q2” that “there is no control processing to be executed”. , Step A16 
 With reference to the "next state information D" corresponding to the "control rule Q2", "under confirmation of availability" is recorded in the state register S, and the process proceeds to step A2.
    
       【0233】[t15] 続いて、利用者が“人物X”
の方向を向いていることから、注視対象検出部101か
ら、図2の注視対象情報IDのうち、“P103”なる
IDを持つ注視対象情報が得られる。[T15] Subsequently, the user sets “person X” 
 2, the gaze target information having the ID “P103” among the gaze target information IDs in FIG. 2 can be obtained from the gaze target detection unit 101.
    
       【0234】[t16] “処理手順A”におけるステ
ップA2〜A5の処理を経ることによって、状態レジス
タSの内容が「可否確認中」であり、かつ注視対象情報
P103の“注視対象情報A”が「他人物」であり、か
つ情報種レジスタMの内容が「動画像情報」であること
から、図8の規則ID=R11のエントリが抽出され、
解釈結果として、「出力不能」が得られる。[T16] Through the processing of steps A2 to A5 in the “procedure A”, the content of the status register S is “confirmation of propriety” and the “gaze target information A” of the gaze target information P103 is Since it is “other person” and the content of the information type register M is “moving image information”, the entry of the rule ID = R11 in FIG. 8 is extracted, 
 "Unable to output" is obtained as the interpretation result.
    
       【0235】[t17] “処理手順A”のステップA
6〜A9の処理を経ることによって、時点t6〜t8と
様の処理により“制御規則Q9”が選択され、処理手順
BのステップB8の処理によって、利用者に対して、例
えば、画面フラッシュや名前の呼掛けが行なわれる。[T17] Step A of “processing procedure A” 
 Through the processing of steps 6 to A9, the “control rule Q9” is selected by the processing similar to the time point t6 to t8, and the processing of step B8 of the processing procedure B provides the user with, for example, a screen flash or a name. Is called.
    
       【0236】[t18] ここで利用者が、動画情報が
提示される画面領域を向くことによって、注視対象検出
部101から、図2における“P104”なる注視対象
IDの注視対象情報が出力され、上述の場合と同様の処
理によって、“解釈規則R22”から、解釈結果として
「確認検出」が得られ、図7の“制御規則Q14”によ
って、その“アクション情報C”から、制御処理とし
て、[確認受領FB提示、出力開始]なるアクション情
報が得られる。[T18] Here, the user turns to the screen area on which the moving image information is presented, so that the gaze target detection unit 101 outputs the gaze target information of the gaze target ID “P104” in FIG. By the same processing as described above, “confirmation detection” is obtained as an interpretation result from “interpretation rule R22”, and “control rule Q14” in FIG. FB presentation, output start].
    
       【0237】[t19] “処理手順A”におけるステ
ップA9および“処理手順B”におけるステップB3の
処理によって、例えば、「はい」といった相槌などが音
声や文字で利用者に提示されたあと、“処理手順B”の
ステップB7の処理によって利用者に提示すべき動画情
報の出力が開始され、ステップA10で状態レジスタS
の内容が 「出力中」に更新される。[T19] By the processing of step A9 in “procedure A” and step B3 in “procedure B”, for example, a hammer such as “yes” is presented to the user by voice or characters, and then “process The output of the moving image information to be presented to the user is started by the processing of step B7 of procedure B ", and the state register S is output in step A10. 
 Is updated to "outputting".
    
       【0238】以上の処理によって、本装置では、利用者
の注視対象、および提示する情報の種類に応じて、適切
に出力の開始を制御し、また、利用者への呼掛けと、そ
の呼掛けに対する利用者の反応に応じて各部を制御する
ことによって、利用者の注意が別に向いており、かつそ
の状態で情報の提示を開始すると、提示する情報の一部
あるいは全部を利用者が受け取れなくなるという問題を
解消している。With the above processing, the present apparatus appropriately controls the start of output in accordance with the user's gaze target and the type of information to be presented, Control of each part according to the user's response to the user's attention, the user's attention is directed differently, and if the presentation of the information is started in that state, the user cannot receive part or all of the presented information That problem has been solved.
    
       【0239】[t20] さらに、この動画情報の提示
中に利用者が再度、他の“人物X”の方を向き、それが
注視対象検出部101によって検知され、注視対象情報
IDが “P101”なる注視対象情報が出力されたと
する。[T20] Further, during the presentation of the moving image information, the user turns to another “person X” again, which is detected by the gazing target detecting unit 101, and the gazing target information ID is “P101”. It is assumed that the gaze target information is output.
    
       【0240】[t21] その結果、解釈規則記憶部2
03の持つ図8の記憶情報のうちの“解釈規則R14”
により、「要中断」なる“解釈結果情報D”が得られ、
制御規則記憶部202の記憶情報中の当該「要中断」な
る“イベント条件情報B”に対応する制御規則である
“制御規則Q11”なる規則IDの制御規則により、出
力が中断され、状態レジスタが「中断中」となる。[T21] As a result, the interpretation rule storage unit 2 
 "Interpretation rule R14" in the storage information of FIG. 
 As a result, "interpretation result information D" which is "interrupted" is obtained, 
 The output is interrupted by the control rule of the rule ID of “control rule Q11”, which is the control rule corresponding to the “event condition information B” of “required interruption” in the information stored in the control rule storage unit 202, and the status register is "Paused".
    
       【0241】[t22a] その後、利用者が再度出力
領域を注視すれば、“注視対象情報P106”が出力さ
れ、“解釈規則R19”と、“制御規則Q12”により
出力が再開される。[T22a] Thereafter, if the user gazes again at the output area, "gaze target information P106" is output, and output is restarted by "interpretation rule R19" and "control rule Q12".
    
       【0242】[t22b] あるいは、例えば、利用者
がそのまま他に注意を向け続けた場合には、予め定めた
時間の経過などによって、中断タイムアウトの制御信号
が出力され、“制御規則Q13”によって、動画像の出
力の中断その報告がなされる。[T22b] Alternatively, for example, when the user continues to pay attention to another, a control signal of an interruption timeout is output due to elapse of a predetermined time or the like, and according to the “control rule Q13”, The interruption of the output of the moving image is reported.
    
       【0243】以上示した通り、本装置によって、利用者
の注意の向けられる対象である注視対象と、装置の動作
状況と、提示する情報の種類や性質に応じて、適切に情
報の提示を制御することによって、注意を逸らした状態
では正しく受け取ることが困難な情報を、利用者が受け
取り損なうという問題や、情報の出力を中断したり、あ
るいは中断した出力を再開する際に特別な操作を行なう
必要があるために利用者の負担が増加するという問題を
解決することが出来る。As described above, the present apparatus appropriately controls the presentation of information according to the gaze target to which the user pays attention, the operation status of the apparatus, and the type and nature of the information to be presented. By doing so, the user may fail to receive information that is difficult to receive correctly in a distracted state, or may perform a special operation when interrupting the output of information or resuming the interrupted output. The problem that the burden on the user increases due to the necessity can be solved.
    
       【0244】さらに、上記の動作例には含まれてない
が、図7の制御規則Q4、Q12、Q13などを使用す
ることによって、例えば動画情報などのように利用者が
出力領域を注視していない状態で、出力を開始すると、
提示情報の一部あるいは全部を利用者が受け取り損なう
恐れのある情報を提示する際、情報の出力要求があった
時点では出力を開始せず、状態を準備中として待機し、
注視対象情報から利用者が出力対象領域を注視したこと
を知った段階で、解釈規則R13、R14、R15など
を利用することによって、情報提示が開始可能であるこ
とを検知し、その時点で情報の提示を開始することで、
これらの問題を回避することも可能である。Further, although not included in the above operation example, by using the control rules Q4, Q12, Q13, etc. in FIG. 7, the user is watching the output area as in the case of, for example, moving picture information. If you start output without any 
 When presenting information that may cause the user to fail to receive a part or all of the presented information, when the information output request is received, the output is not started, the state is being prepared, and standby is performed. 
 At the stage that the user has noticed that the user has gazed at the output target area from the gazing target information, it is detected that the presentation of information can be started by using the interpretation rules R13, R14, R15, etc. By starting the presentation of 
 It is also possible to avoid these problems.
    
       【0245】あるいは、解釈規則R3、解釈規則R4、
解釈規則R18、解釈規則R21などを用いることによ
って、例えば、マイクを注視したら音声入力が受付られ
るように構成したり、カメラを注視したら画像入力が開
始されるようにしたり、あるいはスピーカを注視した
ら、音声出力が開始されるように構成することも可能で
ある。Alternatively, interpretation rule R3, interpretation rule R4, 
 By using the interpretation rule R18, the interpretation rule R21, or the like, for example, a configuration in which voice input is accepted when the user gazes at the microphone, an image input is started when the user gazes at the camera, or when the user gazes at the speaker, It is also possible to configure so that audio output is started.
    
       【0246】なお、以上はマルチモーダル対話装置とし
ての具体例であるが、前述の通り、本発明のインタフェ
ースとしての構成要素部分は、本実施例のマルチモーダ
ル対話装置から、それぞれ必要な構成要素とその機能を
抽出し組み合わせることによって、実現可能である。Although the above is a specific example of the multimodal dialogue device, as described above, the components of the interface of the present invention are different from the multimodal dialogue device of the present embodiment in terms of necessary components. It can be realized by extracting and combining the functions.
    
       【0247】具体的には、課題を解決するための手段の
項における[1]の発明の装置は、注視対象検出部10
1と、他メディア入力部102、および制御部107を
組み合わせることによって実現可能である。More specifically, the apparatus of the invention of [1] in the section of means for solving the problems is characterized in that the gaze target detecting section 10 
 1 and the other media input unit 102 and the control unit 107.
    
       【0248】また、[2]の発明および[4]の発明の
装置は、これらに擬人化イメージ提示部103を加える
ことによって実現可能であり、また、[3]の発明の装
置は、[4]の発明の装置において、擬人化イメージ提
示部103を通じてなされる、利用者へのフィードバッ
クの提示を、文字情報、音声情報、静止画像情報、動画
像情報、力の提示など少なくとも一つの信号の提示する
機能を追加することによって実現することができる。The apparatus of the invention [2] and the apparatus of the invention [4] can be realized by adding a personification image presenting unit 103 to them, and the apparatus of the invention [3] can be realized by the apparatus [4]. In the apparatus of the present invention, the presentation of the feedback to the user through the anthropomorphic image presentation unit 103 is performed by presentation of at least one signal such as text information, audio information, still image information, moving image information, and force presentation. It can be realized by adding a function that performs
    
       【0249】また、[5]の発明の装置は、注視対象検
出部101と、情報出力部104、および制御部107
を組み合わせることで実現でき、[6]の発明の装置
は、[5]の発明の装置に、注意喚起部105を追加す
ることによつて実現することができ、[7]の発明の装
置は、[6]の発明の装置に、反応検知部106を追加
することによって実現できる。以上が本装置の構成と機
能である。[0249] Further, the apparatus of the present invention according to [5] comprises a gaze target detecting section 101, an information output section 104, and a control section 107. 
 The device of the invention of [6] can be realized by adding the alerting unit 105 to the device of the invention of [5]. , [6] can be realized by adding a reaction detection unit 106 to the apparatus of the invention of [6]. The above is the configuration and functions of the present apparatus.
    
       【0250】なお、第1の実施例に示した本発明は方法
としても適用できるものであり、また、上述の具体例の
中で示した処理手順、フローチャート、解釈規則や制御
規則をプログラムとして記述し、実装し、汎用の計算機
システムで実行することによっても同様の機能と効果を
得ることが可能である。The present invention shown in the first embodiment can be applied as a method, and the processing procedures, flowcharts, interpretation rules, and control rules shown in the above specific examples are described as programs. Then, the same functions and effects can be obtained by mounting, executing, and using a general-purpose computer system.
    
       【0251】すなわち、本発明は汎用コンピュータによ
り実現することも可能で、この場合、図12に示すよう
に、CPU 301,メモリ302,大容量外部記憶装
置303,通信インタフェース304などからなる汎用
コンピュータに、入力インタフェース305a〜305
nと、入力デバイス306a〜306n、そして、出力
インタフェース307a〜307mと出力デバイス30
8a〜308mを設け、入力デバイス306a〜306
nとして、マイクやキーボード、ペンタブレット、OC
R、マウス、スイッチ、タッチパネル、カメラ、データ
グローブ、データスーツといったものを使用し、そし
て、出力デバイス308a〜308mとして、ディスプ
レイ、スピーカ、フォースディスプレイ、等を用いてC
PU 301によるソフトウエア制御により、上述の如
き動作を実現することができる。That is, the present invention can be realized by a general-purpose computer. In this case, as shown in FIG. 12, a general-purpose computer including a CPU 301, a memory 302, a large-capacity external storage device 303, a communication interface 304, and the like is used. , Input interfaces 305a to 305 
 n, input devices 306a to 306n, and output interfaces 307a to 307m and output device 30 
 8a to 308m, and input devices 306a to 306m. 
 n, microphone, keyboard, pen tablet, OC 
 R, a mouse, a switch, a touch panel, a camera, a data glove, a data suit, and the like, and as output devices 308a to 308m, a display, a speaker, a force display, etc. 
 By the software control by the PU 301, the above-described operation can be realized.
    
       【0252】以上、バックグラウンド(i)に関わるそ
の解決策を提示した。次に上述のバックグラウンド(i
i)に関わるその解決策としての発明の実施例を説明す
る。The solution relating to the background (i) has been described above. Next, the background (i 
 An embodiment of the invention as a solution to i) will be described.
    
       【0253】利用者が入力を意図した音声やジェスチャ
などの非言語メッセージを、自然且つ、円滑に入力でき
るようにするべく擬人化エージェントを提示すること
は、利用者にとって自然人との対話をしているかの如き
効果があり、操作性の著しい改善が期待できるが、これ
を更に一歩進めて、利用者の指し示したジェスチャの指
示対象を擬人化エージェントが注視するよう表示する構
成とすることにより、利用者のジェスチャの指し示し先
をシステムの側で認識できなくなったり、システム側で
の認識結果が誤っていないかなどが、利用者の側で直感
的にわかるようになり、このようにすると、利用者にと
って、自然人の案内係が一層懇切丁寧に応対してくれて
いるかの如き操作性が得られ、操作にとまどったり、操
作上、無用に利用者に負担をかける心配が無くなる。そ
こで、次にこのようなシステムを実現するための実施例
を第2の実施例として説明する。Presenting an anthropomorphic agent so that a user can naturally and smoothly input a non-verbal message such as a voice or a gesture intended for input requires a user to interact with a natural person. It is possible to expect a remarkable improvement in operability.However, by taking this one step further, it is possible to use the gesture target indicated by the user by displaying it so that the anthropomorphic agent gazes at it. The user can intuitively understand whether the pointing destination of the gesture of the user is not recognized on the system side or if the recognition result on the system side is incorrect, etc. For the user, the operability as if the guide of a natural person was responding more carefully was obtained. Worry that burden is eliminated. Therefore, an embodiment for realizing such a system will be described as a second embodiment.
    
       【0254】(第2の実施例)ここでは、利用者が入力
を意図した音声やジェスチャなどの非言語メッセージ
を、自然且つ、円滑に入力できるようにするべく、利用
者からのジェスチャ入力を検知した際に、擬人化エージ
ェントの表情によって、ジェスチャ入力を行う手などを
随時注視したり、あるいは指し示しジェスチャに対し
て、その参照対象を注視することによって、利用者へ自
然なフィードバック(すなわち、システム側から利用者
に対する認識状況対応の反応)を提示できるようにし、
さらに、その際、利用者や擬人化エージェン卜の視界、
あるいは参照対象等の空間的位置を考慮して、擬人化エ
ージェントを適切な場所に移動、表示するよう制御でき
るようにした例を説明する。(Second Embodiment) Here, a gesture input from a user is detected in order to allow a user to naturally and smoothly input a non-verbal message such as a voice or a gesture intended to be input. At that time, the hand of the gesture input is gazed at any time depending on the expression of the anthropomorphic agent, or the pointing target is gazed at the reference target, thereby providing natural feedback to the user (that is, the system side). To respond to the user's recognition situation) 
 In addition, at that time, the view of the user and the personification agent, 
 Alternatively, an example will be described in which the anthropomorphic agent can be controlled to be moved and displayed in an appropriate place in consideration of the spatial position of a reference target or the like.
    
       【0255】また、この第2の実施例では、その目的と
して、機器の装着や機器の接触操作による指示は勿論の
こと、これに加えて一つは離れた位置からや、機器に非
接触で、かつ、機器を装着せずとも、遠隔で指し示しジ
ェスチャを行い、認識させることも可能であり、かつ、
ジェスチャ認識方式の精度が十分に得られないために発
生する誤認識やジェスチャ抽出の失敗を抑制することが
できるようにする実施例を示す。また、利用者が入力意
図したジェスチャを開始した時点あるいは入力を行って
いる途中の時点では、システムがそのジェスチャ入力を
正しく抽出しているか否かが分からないため、結果とし
て誤認識を引きおこしたり、あるいは、利用者が再度入
力を行わなくてはならなくなるなどして生じる利用者の
負担を抑制するため、このようなことを未然に防ぐこと
ができるようにする技術を示す。Further, in the second embodiment, the purpose is, of course, not only instructing by mounting the device or touching the device, but also in addition to the above, one is provided from a remote position or in a non-contact manner with the device. It is also possible to perform a pointing gesture and recognize it remotely without wearing a device, and 
 An embodiment will be described in which erroneous recognition and gesture extraction failure that occur due to insufficient accuracy of the gesture recognition method can be suppressed. Also, at the point when the user starts the gesture intended to be input or during the input, it is not known whether the system has correctly extracted the gesture input, and as a result, misrecognition may occur. Alternatively, in order to suppress the burden on the user caused by the user having to perform the input again, a technique for preventing such a situation will be described.
    
       【0256】また、実世界の場所やものなどを参照する
ための利用者からの指し示しジェスチャ入力に対して、
その指し示し先として、どの場所、あるいはどの物体あ
るいはそのどの部分を受け取ったかを適切に表示するこ
とを可能にする技術提供するものである。さらに、前述
の問題によって誘発される従来方法の問題である、誤動
作による影響の訂正や、あるいは再度の入力によって引
き起こされる利用者の負担や、利用者の入力の際の不安
による利用者の負担を解消することができるようにす
る。Also, in response to a pointing gesture input from a user for referring to a place or thing in the real world, 
 It is an object of the present invention to provide a technology capable of appropriately displaying which place, which object, or which part thereof has been received as the pointing destination. In addition, the problem of the conventional method induced by the above-mentioned problem, that is, the correction of the effect of malfunction or the burden on the user caused by re-input, and the burden on the user due to anxiety at the time of user input. So that it can be resolved.
    
       【0257】さらに、擬人化インタフェースを用いたイ
ンタフェース装置、およびインタフェース方法で、利用
者の視界、および擬人化エージェントから視界などを考
慮した、適切なエージェントの表情を生成し、フィード
バックとして提示することが出来るようにする。Further, with an interface apparatus and an interface method using an anthropomorphic interface, it is possible to generate an appropriate facial expression of an agent in consideration of the field of view of the user and the anthropomorphic agent from the anthropomorphic agent, and present it as feedback. Make it possible.
    
       【0258】以下、図面を参照して本発明の第2の実施
例に係るマルチモーダルインタフェース装置およびマル
チモーダルインタフェース方式につき説明する。はじめ
に構成を説明する。A multimodal interface device and a multimodal interface system according to a second embodiment of the present invention will be described below with reference to the drawings. First, the configuration will be described.
    
       【0259】<構 成>図13は、本発明の第2の実施
例にかかるマルチモーダルインタフェース装置の構成の
概要を表すブロック図であり、図13に示す如く本装置
は、入力部1101、認識部1102、フィードバック
生成部1103、出力部1104、配置情報記憶部11
05、および制御部1106から構成される。<Structure> FIG. 13 is a block diagram showing the outline of the structure of a multimodal interface device according to the second embodiment of the present invention. As shown in FIG. Unit 1102, feedback generation unit 1103, output unit 1104, arrangement information storage unit 11 
 05 and a control unit 1106.
    
       【0260】このうち、入力部1101は、当該マルチ
モーダルインタフェース装置の利用者からの音声信号、
あるいは画像信号、あるいは操作信号などの入力を随
時、取り込むことができるものであり、利用者からの音
声入力を取り込むマイクロフォン、あるいは利用者の動
作や表情などを観察するカメラ、あるいは利用者の目の
動きを検出するアイトラッカ、あるいは頭部の動きを検
知するヘッドトラッカ、あるいは利用者の手や足など体
の一部あるいは全体の動きを検知する動きセンサ、ある
いは利用者の接近、離脱、着席などを検知する対人セン
サなどのうち少なくとも一つからなるものである。The input unit 1101 receives an audio signal from a user of the multimodal interface device, 
 Alternatively, it can capture an input such as an image signal or an operation signal at any time, such as a microphone that captures a voice input from a user, a camera that observes a user's operation or facial expression, or a user's eye. An eye tracker that detects movement, a head tracker that detects movement of the head, a motion sensor that detects movement of part or all of the body such as the user's hands and feet, or a user approaching, leaving, sitting, etc. It comprises at least one of an interpersonal sensor and the like to be detected.
    
       【0261】そして、利用者からの入力として音声入力
を想定する場合には、入力部1101は、例えば、マイ
クロフォン、アンプ、アナログ/デジタル(A/D)変
換装置などから構成されることとなり、また利用者から
の入力として、画像入力を想定する場合には、入力部1
101は、例えば、カメラ、CCD素子(固体撮像素
子)、アンプ、A/D変換装置、画像メモリ装置などか
ら構成されることとなる。When assuming a voice input as an input from the user, the input unit 1101 is composed of, for example, a microphone, an amplifier, an analog / digital (A / D) converter, and the like. When an image input is assumed as an input from the user, the input unit 1 
 The 101 is constituted by, for example, a camera, a CCD device (solid-state imaging device), an amplifier, an A / D converter, an image memory device, and the like.
    
       【0262】また、認識部1102は、入力部1101
から入力される入力信号を随時解析し、例えば、利用者
の意図した入力の時間的区間あるいは空間的区間の抽出
処理や、あるいは標準パターンとの照合処理などによっ
て認識結果を出力するものである。[0262] The recognizing unit 1102 is provided with an input unit 1101. 
 It analyzes the input signal input from the OPC at any time, and outputs a recognition result by, for example, extracting a temporal section or a spatial section of the input intended by the user, or performing collation processing with a standard pattern.
    
       【0263】より具体的に説明すると当該認識部110
2は、音声入力に対しては、例えば、時間当たりのパワ
ーを計算することなどによって音声区間を検出し、例え
ばFFT(高速フーリエ変換)などの方法によって周波
数分析を行い、例えばHMM(隠れマルコフモデル)
や、ニューラルネットワークなどを用いて照合弁別処理
や、あるいは標準パターンである音声辞書との、例えば
DP(ダイナミックプログラミング)などの方法を用い
た照合処理によって、認識結果を出力するようにしてい
る。More specifically, the recognition unit 110 
 2 detects a speech section by calculating power per time, for example, with respect to a speech input, performs frequency analysis by, for example, a method such as FFT (Fast Fourier Transform), and performs, for example, HMM (Hidden Markov Model). ) 
 The recognition result is output by collation discrimination processing using a neural network or the like, or collation processing with a speech dictionary that is a standard pattern using a method such as DP (dynamic programming).
    
       【0264】また、画像入力に対しては、例えば“Un
calibrated Stereo Vision 
with Pointing for a Man−M
achine Interface”(R.Cipol
la,et.al.,Proceedings of 
MVA′94,IAPR Workshop onMa
chine Vision Appllcation,
pp.163−166,1994.)に示された方法な
どを用いて、利用者の手の領域を抽出し、その形状、空
間位置、向き、あるいは動きなどを認識結果として出力
するようにしている。For image input, for example, “Un 
 calibrated Stereo Vision 
 with Pointing for a Man-M 
 Achine Interface "(R. Cipol 
 la, et. al. , Proceedings of 
 MVA'94, IAPR Works on Ma 
 chine Vision Application, 
 pp. 163-166, 1994. ), The region of the user's hand is extracted, and the shape, spatial position, orientation, movement, and the like are output as a recognition result.
    
       【0265】図14は、画像入力を想定した場合の実施
例の入力部1101および認識部1102の内部構成の
例を表している。FIG. 14 shows an example of the internal configuration of the input unit 1101 and the recognition unit 1102 of the embodiment when image input is assumed.
    
       【0266】図14において、1201はカメラ、12
02はA/D変換部、1203は画像メモリであり、入
力部1101はこれらにて構成される。カメラ1201
は、利用者の全身あるいは、例えば、顔や手などの部分
を撮影し、例えばCCD素子などによって画像信号を出
力するようにしている。また、A/D変換部1202
は、カメラ1201から得られる画像信号を変換し、例
えばビットマップなどのデイジタル画像信号に変換する
様にしている。また、画像メモリ1203は、A/D変
換部1202から得られるディジタル画像信号を随時記
録するようにしている。In FIG. 14, reference numeral 1201 denotes a camera; 
 02 is an A / D converter, 1203 is an image memory, and the input unit 1101 is composed of these. Camera 1201 
 Captures the whole body of a user or a part such as a face or a hand, and outputs an image signal using, for example, a CCD element. A / D converter 1202 
 Converts an image signal obtained from the camera 1201 to a digital image signal such as a bitmap. The image memory 1203 records a digital image signal obtained from the A / D converter 1202 as needed.
    
       【0267】また、図14において1204は注目領域
推定部、1205は認識辞書記憶部、1206は照合部
であり、これら1204〜1206にて認識部1102
は構成される。In FIG. 14, reference numeral 1204 denotes an attention area estimation unit; 1205, a recognition dictionary storage unit; 1206, a collation unit; 
 Is composed.
    
       【0268】認識部1102の構成要素のうち、注目領
域推定部1204は、画像メモリ1203の内容を参照
し、例えば差分画像や、オプティカルフローなどの手法
によって、例えば、利用者の顔や目や口、あるはジェス
チャ入力を行っている手や腕などといった注目領域情報
を抽出するようにして構成されている。また、認識辞書
記憶部1205は、認識対象の代表画像や、抽象化され
た特徴情報などを、あらかじめ用意した標準パターンと
して記憶するものである。また、照合部1206は、画
像メモリ1203と、注目領域推定部1204から得ら
れる注目領域情報の内容と認識辞書記憶部1205の内
容とを参照し、例えば、パターンマッチングや、DP
(ダイナミックプログラミング)や、HMM(隠れマル
コフモデル)や、ニューラルネットなどの手法を用いて
両者を比較照合し、認識結果を出力するものである。Of the components of the recognizing unit 1102, the attention area estimating unit 1204 refers to the contents of the image memory 1203, and uses, for example, a difference image or an optical flow to obtain, for example, the face, eyes, and mouth of the user. , Or attention area information such as a hand or an arm performing a gesture input. The recognition dictionary storage unit 1205 stores a representative image to be recognized, abstracted feature information, and the like as a standard pattern prepared in advance. Also, the matching unit 1206 refers to the image memory 1203, the contents of the attention area information obtained from the attention area estimation unit 1204, and the contents of the recognition dictionary storage unit 1205, and performs, for example, pattern matching, DP 
 (Dynamic programming), HMM (Hidden Markov Model), neural network, and other methods are used to compare and collate the two, and output a recognition result.
    
       【0269】なお、注目領域推定部1204および照合
部1206の動作状況は、動作状況情報として制御部1
106に随時通知されるようにしている。また、注目領
域推定部1204および照合部1206は、両者の処理
を一括して行う同一のモジュールとして実現することも
可能である。The operation states of the attention area estimation unit 1204 and the comparison unit 1206 are stored in the control unit 1 as operation state information. 
 106 is notified at any time. Further, the attention area estimation unit 1204 and the collation unit 1206 can be realized as the same module that performs both processes collectively.
    
       【0270】以上が、入力部1101と認識部1102
の詳細である。The above is the description of the input unit 1101 and the recognition unit 1102. 
 It is the details of.
    
       【0271】再び、図13の構成に戻って説明を続け
る。図13におけるフィードバック生成部1103は、
利用者ヘフィードバックとして提示すべき情報を生成す
るものであり、例えば、利用者に対する注意喚起や、シ
ステムの動作状況を知らせるために、予め用意した警告
音や、文字列、画像を選択したりあるいは、動的に生成
したり、あるいは、提示すべき文字列から合成音声技術
を利用して音声波形を生成したり、あるいは第1の実施
例に示した「マルチモーダル対話装置及びマルチモーダ
ル対話方法」での擬人化イメージ提示部103や、ある
いは本発明者等が提案し、特許出願した「身体動作生成
装置および身体動作動作制御方法(特願平8−5796
7号)」に開示した技術等と同様に、例えば、CG(コ
ンピュータグラフィックス)を用いて、利用者と対面
し、サービスを行う「人間」、「動物、」あるいは「ロ
ボット」など、擬人化されたキャラクタが、例えば顔表
情や身振り、手振りなどを表現した静止画像あるいは動
画像を生成したりするようにしている。Returning to the configuration of FIG. 13, the description will be continued. The feedback generation unit 1103 in FIG. 
 Generates information to be presented as feedback to the user, for example, to alert the user, to notify the operating status of the system, to select a warning sound, a character string, an image prepared in advance, or , A dynamic waveform, or a speech waveform generated from a character string to be presented using a synthetic speech technique, or the "multimodal dialogue apparatus and multimodal dialogue method" described in the first embodiment. , Or a body motion generation device and a body motion control method proposed by the present inventors and applied for a patent (Japanese Patent Application No. 8-5796). 
 7)), for example, using CG (computer graphics) to face the user and provide services such as "human", "animal", or "robot". The generated character generates a still image or a moving image expressing, for example, facial expressions, gestures, and hand gestures.
    
       【0272】また、出力部1404は、例えば、ラン
プ、CRTディスプレイ、LCD(液晶)ディスプレ
イ、プラズマディスプレイ、スピーカ、アンプ、HMD
(へッドマウントディスプレイ)、提力ディスプレイ、
ヘッドフォン、イヤホン、など少なくとも一つの出力装
置から構成され、フィードバック生成部1103によっ
て生成された、フィードバック情報を利用者に提示する
ようにしている。The output unit 1404 includes, for example, a lamp, a CRT display, an LCD (liquid crystal) display, a plasma display, a speaker, an amplifier, and an HMD. 
 (Head Mount Display), Power Display, 
 It is composed of at least one output device such as a headphone, an earphone, etc., and presents the feedback information generated by the feedback generation unit 1103 to the user.
    
       【0273】なお、ここではフィードバック生成部11
03で音声信号が生成されるマルチモーダルインタフェ
ース装置を実現する場合には、例えばスピーカなど音声
信号を出力するための出力装置によって出力部1104
が構成され、また、フィードバック生成部1103にお
いて、例えば、擬人化イメージが生成されるマルチモー
ダルインタフェース装置を実現する場合には、例えばC
RTディスプレイによって出力部1104が構成され
る。Here, the feedback generation unit 11 
 In the case where a multi-modal interface device that generates an audio signal at 03 is realized, the output unit 1104 is provided by an output device for outputting an audio signal, such as a speaker. 
 When the feedback generation unit 1103 implements, for example, a multi-modal interface device that generates an anthropomorphic image, for example, C 
 The output unit 1104 is configured by the RT display.
    
       【0274】また、配置情報記憶部1105は、利用者
の入力した指し示しジェスチャの参照物、利用者、利用
者の顔や手などの空間位置に関する情報である位置情報
を得、入力部の空間的位置、および出力部の空間的位置
に関する情報、および利用者の空間的位置に関する情報
の少なくとも一つを配置情報として保持するようにする
と共に、位置情報、および配置情報、動作状況情報の少
なくとも一つに応じて、例えば、利用者の指し示しジェ
スチャの対象である参照物を、随時注視する表情を提示
するなど利用者にフィードバックを提示する方式にする
場合に使用される。The arrangement information storage unit 1105 obtains position information, which is information relating to the spatial position of the pointing gesture input by the user, the user, the user's face, hands, and the like, and obtains the spatial information of the input unit. At least one of the position, the information on the spatial position of the output unit, and the information on the spatial position of the user is held as arrangement information, and at least one of the position information, the arrangement information, and the operation state information For example, this method is used when a method of presenting feedback to the user, such as presenting an expression to be watched at any time, is performed on the reference object that is the target of the pointing gesture of the user.
    
       【0275】配置情報記憶部1105には、例えば、利
用者からの実世界への指し示しジェスチャを装置が受け
付ける場合に、利用者に対して提示するフィードバック
情報の生成の際に参照される出力部1104の空間位置
から指し示す際に必要となる方向情報算出用の出力部1
104の空間位置あるは配置方向などの情報(利用者に
対して提示するフィードバック情報生成の際に参照され
る空間位置情報あるいは方向情報であって、入力部11
01から入力され、認識部1102によって認識されて
出力される参照物位置情報に含まれる利用者の意図した
参照先の空間位置を、出力部1104の空間位置から指
し示す際に必要となる方向情報の算出のための出力部1
104の空間位置、あるは配置方向などの情報)が記録
されるようにしている。The arrangement information storage unit 1105 includes an output unit 1104 that is referred to when generating feedback information to be presented to the user when the device accepts a pointing gesture to the real world from the user. Output unit 1 for calculating direction information required when pointing from a spatial position of 
 Information such as the spatial position of 104 or the arrangement direction (spatial position information or direction information referred to when generating feedback information to be presented to the user, 
 01, the spatial position of the reference destination intended by the user included in the reference object position information recognized and output by the recognizing unit 1102 from the spatial position of the output unit 1104. Output unit 1 for calculation 
 104, or information such as the arrangement direction).
    
       【0276】図15は、この配置情報記憶部1105の
保持内容の例を表している。FIG. 15 shows an example of the contents held in the arrangement information storage unit 1105.
    
       【0277】図15に示す一例としての配置情報記憶部
1105の各エントリには、本装置の構成要素である認
識部1102によって得られる指示場所、指示対象およ
び利用者の手や顔の位置、および指し示しジェスチャの
参照先の位置、および方向などに関する情報が、「ラベ
ル情報A」、「代表位置情報B」、「方向情報C」など
と分類され、随時記録されるようにしている。Each entry of the arrangement information storage unit 1105 as an example shown in FIG. 15 includes the designated place obtained by the recognition unit 1102 which is a component of the present apparatus, the designated object, the position of the hand and face of the user, and Information regarding the position and direction of the reference destination of the pointing gesture is classified into “label information A”, “representative position information B”, “direction information C”, and the like, and is recorded as needed.
    
       【0278】ここで、配置情報記憶部1105の各エン
トリにおいて、「ラベル情報A」の欄には該エントリに
その位置情報および方向情報を記録している場所や物を
識別するためのラベルが記録される。また、「代表位置
情報B」の欄には対応する場所あるいはものの位置(座
標)が記録される。また、「方向情報C」の欄には、対
応する場所あるいはものの方向を表現するための方向ベ
クトルの値が、必要に応じて記録される。Here, in each entry of the arrangement information storage unit 1105, a label for identifying the place or object where the position information and the direction information are recorded in the entry is recorded in the column of “label information A”. Is done. In the column of "representative position information B", the position (coordinate) of the corresponding place or thing is recorded. In the column of "direction information C", a value of a direction vector for expressing the direction of the corresponding place or object is recorded as necessary.
    
       【0279】なお、これら「代表位置情報B」および
「方向情報C」はあらかじめ定めた座標系(世界座標
系)に基づいて記述されるようにしている。[0279] The "representative position information B" and "direction information C" are described based on a predetermined coordinate system (world coordinate system).
    
       【0280】また、図15の各エントリにおいて、記号
「−」は対応する手間の内容が空であることを表し、ま
た記号「〜」は本実施例の説明において不要な情報を省
略したものであることを表し、また記号「:」は本発明
の説明において不要なエントリを省略して表しているも
のとする(以下同様)。In each entry of FIG. 15, the symbol "-" indicates that the content of the corresponding trouble is empty, and the symbol "-" is a symbol in which unnecessary information is omitted in the description of the present embodiment. The symbol ":" indicates that unnecessary entries are omitted in the description of the present invention (the same applies hereinafter).
    
       【0281】また、図13における制御部1106は、
本発明システムにおける入力部1101、認識部110
2、フィードバック部1103、出力部1104、およ
び配置情報記憶部1105などの各構成要素の動作及び
これら要素間で入出力される情報の授受などの制御を司
るものである。Also, the control unit 1106 in FIG. 
 Input unit 1101 and recognition unit 110 in the system of the present invention 
 2. It controls the operation of each component such as the feedback unit 1103, the output unit 1104, and the arrangement information storage unit 1105, and controls the exchange of information input and output between these components.
    
       【0282】なお、本システムにおいては制御部110
6の動作が本発明システムの実現に重要な役割を担って
いるので、この動作については後に詳しく述べることと
する。In the present system, the control unit 110 
 Since the operation 6 plays an important role in realizing the system of the present invention, this operation will be described later in detail.
    
       【0283】以上が本システムの装置構成とその機能で
ある。つづいて、制御部1106の制御によってなされ
る本発明システムの処理の流れについて説明する。The above is the device configuration of this system and its functions. Next, the flow of processing of the system of the present invention performed under the control of the control unit 1106 will be described.
    
       【0284】<制御部1106による制御内容>制御部
1106の制御による本発明システムの処理の流れにつ
いて説明する。なお、ここからは、入力部1101とし
て、図14に示したようにカメラ1201による画像入
力手段を有すると共に、また、例えば、“Uncali
brated Stereo Vision with
 Pointing for aMan−Machin
e Interface”(R.Cipolla,e
t.al.,Proceedings of MVA
 ’94,IAPR Workshop on Mac
hine Vision Applicatio,p
p.163−166,1994.)に示された方法など
によって、実世界の場所あるいは物への利用者の指し示
しジェスチャを認識し、利用者の指し示しジェスチャの
参照対象の位置、および利用者の顔の位置及び向きなど
を出力する認識部1102を持ち、かつ、例えば第1の
実施例において説明した「マルチモーダル対話装置及び
マルチモーダル対話方法」での擬人化イメージ提示部1
03や、あるいは既に特許出願済みの技術である「身体
動作生成装置および身体動作動作制御方法(特願平8−
57967号)」に開示されている技術等と同様に、例
えばCG(コンピュータグラフィックス)を用いて、利
用者と対面し、サービスを行う人間、動物、あるいはロ
ボットなど、擬人化されたキャラクタによって指定した
方向へ視線を向けた顔表情や、「驚き」や「謝罪」を表
す顔表情や身振りや、ジェスチャを持つ擬人化エージェ
ントの表情あるいは動作などの静止画像あるいは動画像
を生成するフィードバック生成部1103を持ち、かつ
少なくとも一つの例えばCRTディスプレイなどによる
出力部1104を持つマルチモーダルインタフェース装
置を例題として、本発明の実施例を説明することとす
る。<Contents of Control by Control Unit 1106> The flow of processing of the system of the present invention under the control of the control unit 1106 will be described. From here on, as shown in FIG. 14, the input unit 1101 includes an image input unit by the camera 1201 and, for example, “Uncali 
 bladed Stereo Vision with 
 Pointing for a Man-Machin 
 e Interface "(R. Cipolla, e 
 t. al. , Proceedings of MVA 
 '94, IAPR Works on Mac 
 hine Vision Application, p 
 p. 163-166, 1994. ), The user's pointing gesture to the real world place or object is recognized, and the position of the user's pointing gesture reference target, and the position and orientation of the user's face are output. An anthropomorphic image presentation unit 1 having a recognition unit 1102 and using, for example, the “multimodal interaction apparatus and multimodal interaction method” described in the first embodiment. 
 03 or a technique already applied for a patent, “Body motion generation device and body motion motion control method (Japanese Patent Application No. Hei 8- 
 No. 57967)), using, for example, CG (computer graphics) to designate a person, such as a human, an animal, or a robot, who faces the user and provides services. A feedback generation unit 1103 that generates a still image or a moving image, such as a facial expression with a gaze in the specified direction, a facial expression or gesture representing “surprise” or “apology”, or a facial expression or action of a personification agent having a gesture. An embodiment of the present invention will be described using a multi-modal interface device having an output unit 1104 having at least one CRT display as an example.
    
       【0285】第2の実施例システムにおける制御部11
06は下記の“<処理手順AA>”、“<処理手順BB
>”、“<処理手順CC>”、“<処理手順DD>”、
および“<処理手順EE>”に沿った処理に従った制御
動作をする。Control Unit 11 in the Second Embodiment System 
 06 is “<procedure AA>”, “<procedure BB” 
 >","<ProcedureCC>","<procedureDD>", 
 And the control operation according to the processing according to “<procedure EE>”.
    
       【0286】ここで、“<処理手順AA>”は、「処理
のメインルーチン」であり、“<処理手順BB>”は、
「擬人化エージェントから利用者のジェスチャ入力位置
が注視可能か否かを判定する」処理手順であり、“<処
理手順CC>”は、「ある擬人化エージェントの提示位
置Lcを想定した場合に、利用者から擬人化エージェン
トを観察可能であるかどうかを判定する」ための手順で
あり、“<処理手順DD>”は、「ある擬人化エージェ
ントの提示位置Ldを想定した場合に、擬人化エージェ
ントから、現在注目しているある指し示しジェスチャG
の指示対象Rが注視可能であるか否かの判定をする」処
理手順であり、“<処理手順EE>”は「注視対象Zを
注視する擬人化エージェントの表情」を生成する擬人化
エージェント表情生成手順である。Here, “<procedure AA>” is a “main routine of processing”, and “<procedure BB>” is 
 This is a processing procedure of “determining whether or not the gesture input position of the user can be watched from the anthropomorphic agent”. “<Processing procedure CC>” is “when the presentation position Lc of a certain anthropomorphic agent is assumed, This is a procedure for “determining whether or not the user can observe the anthropomorphic agent”. “<Processing procedure DD>” is “when the presentation position Ld of a certain anthropomorphic agent is assumed, From, a pointing gesture G currently focused on 
 Is a processing procedure for determining whether or not the pointing object R is gazeable. “<Processing procedure EE>” is an anthropomorphic agent expression that generates “an expression of an anthropomorphic agent gazing at the gazing object Z”. This is a generation procedure.
    
       【0287】<処理手順AA> [ステップAA1]: 認識部1102の動作状況情報
から、利用者がジェスチャ入力(Gi)の開始を検知す
るまで待機し、検知したならばステップ(AA2)へ進
む。<Processing Procedure AA> [Step AA1]: It waits until the user detects the start of gesture input (Gi) from the operation status information of recognition section 1102, and if detected, proceeds to step (AA2).
    
       【0288】[ステップAA2]: “<処理手順BB
>”により、「現在の擬人化エージェントの提示位置L
jから、ジェスチャ入力Giが行われている場所Liを
擬人化エージェントから注視可能である」と判断されて
おり、かつ、“<処理手順CC>”により「提示位置L
jに提示されている擬人化エージェントを、利用者が観
察可能である」と判断された場合にはステップAA6へ
進み、そうでない場合はステップAA3へ進む。[Step AA2]: “<procedure BB 
 > ”,“ The present presentation position L of the anthropomorphic agent 
 j, it is determined that the place Li where the gesture input Gi is performed can be watched by the anthropomorphic agent ", and the" presentation position L "is determined by"<processing procedure CC>". 
 It is determined that the user can observe the anthropomorphic agent presented in j. ", and the process proceeds to step AA6; otherwise, the process proceeds to step AA3.
    
       【0289】[ステップAA3]: 配置情報記憶部1
105を参照し、全ての提示位置に対応するエントリに
対して順次、“<処理手順BB>”と“<処理手順CC
>”を用いた条件判断を実施することによって、「ジェ
スチャ入力Giが行われている場所Liを、擬人化エー
ジェントが注視可能」であり、かつ「利用者から擬人化
エージェントを観察可能」であるような擬人化エージェ
ントの提示位置Lkを探す。[Step AA3]: arrangement information storage unit 1 
 105, “<processing procedure BB>” and “<processing procedure CC” for entries corresponding to all the presentation positions. 
 By performing the condition judgment using “>”, “the place where the gesture input Gi is performed can be watched by the anthropomorphic agent” and “the user can observe the anthropomorphic agent”. The presentation position Lk of such an anthropomorphic agent is searched.
    
       【0290】[ステップAA4]: 提示位置Lkが見
つかったならば、ステップAA5へ進み、見つからない
場合は、ステップAA7へ進む。[Step AA4]: If the presentation position Lk is found, the process proceeds to step AA5. If not, the process proceeds to step AA7.
    
       【0291】[ステップAA5]: 出力部1104を
制御し、擬人化エージェントを提示位置Lkへ移動す
る。[Step AA5]: The output unit 1104 is controlled to move the personification agent to the presentation position Lk.
    
       【0292】[ステップAA6]: フィードバック生
成部1103と出力部1104を制御し、“<処理手順
EE>”によってジェスチャ入力が行われている場所L
iを注視する擬人化エージェントの表情を生成し、提示
し、ステップ(AA12)ヘ進む。[Step AA6]: The feedback generation unit 1103 and the output unit 1104 are controlled, and the location L where the gesture input is performed by “<processing procedure EE>” 
 A facial expression of the anthropomorphic agent gazing at i is generated and presented, and the process proceeds to step (AA12).
    
       【0293】[ステップAA7]: “<処理手順CC
>”によって、「利用者から擬人化エージェントを観察
可能」であるかどうかを調べ、その結果、観察可能であ
れば、ステップAA11へ進み、そうでなければ、ステ
ップAA8へ進む。[Step AA7]: “<Processing procedure CC 
 >, It is checked whether or not "the user can observe the anthropomorphic agent". As a result, if observable, the process proceeds to step AA11; otherwise, the process proceeds to step AA8.
    
       【0294】[ステップAA8]: 配置情報記憶部1
105を参照し、全ての提示位置に対応するエントリに
対して順次、“<処理手順CC>”を用いた条件判断を
実施することによって、利用者から擬人化エージェント
を観察可能であるような擬人化エージェントの提示位置
Lmを探す。[Step AA8]: Arrangement information storage unit 1 
 105, a condition judgment using “<procedure procedure CC>” is sequentially performed on the entries corresponding to all the presentation positions, so that the user can observe the personification agent from the user. The presentation position Lm of the agent is searched.
    
       【0295】[ステップAA9]: 提示位置Lmが存
在する場合は、ステップAA10に進み、そうでない場
合はステップAA12へ進む。[Step AA9]: When the presentation position Lm exists, the process proceeds to Step AA10, and otherwise, the process proceeds to Step AA12.
    
       【0296】[ステップAA10]: 出力部1104
を制御し、擬人化エージェン卜を、提示位置Lmへ移動
する。[Step AA10]: Output unit 1104 
 To move the personification agent to the presentation position Lm.
    
       【0297】[ステップAA11]: フィードバック
生成部1103を制御し、「現在、システムが利用者か
らの指し示しジェスチャ入力を受付中」であることを表
す、例えば「うなづき」などの表情を生成し、出力部1
104を制御して利用者に提示する。[Step AA11]: The feedback generation unit 1103 is controlled to generate an expression such as “Nodding” indicating that “the system is currently accepting a pointing gesture input from the user”, and output the expression. Part 1 
 104 is controlled and presented to the user.
    
       【0298】[ステップAA12]: もし、入力部1
101あるいは認識部1102から得られる動作状況情
報により、ジェスチャGi入力を行っている場所Li
が、入力部1101の観察範囲から逸脱したならばステ
ップAA13へ進み、そうでない場合、ステップAA1
4へ進む。[Step AA12]: If input unit 1 
 101 or the location Li where the gesture Gi is input, based on the operation status information obtained from the recognition unit 1102. 
 Proceeds to step AA13 if deviated from the observation range of the input unit 1101, otherwise proceeds to step AA1. 
 Proceed to 4.
    
       【0299】[ステップAA13]: フィードバック
生成部1103を制御し、現在システムが受け取り途中
であった、利用者からの指し示しジェスチャ入力の解析
失敗を表す、例えば「驚き」などの表情を生成し、出力
部1104を制御して、利用者に提示し、ステップAA
1へ進む。[Step AA13]: The feedback generation unit 1103 is controlled to generate a facial expression such as “surprise”, for example, which indicates that the system has failed to analyze the input of the pointing gesture from the user, which is currently being received. Controlling the unit 1104 to present it to the user, 
 Proceed to 1.
    
       【0300】[ステップAA14]: 認識部1102
から得られる動作状況情報から、利用者が入力してきた
ジェスチャ入力Giの終了を検知した場合は、ステップ
AA15ヘ進み、そうでない場合はステップAA26へ
進む。[Step AA14]: Recognition Unit 1102 
 If the end of the gesture input Gi input by the user is detected from the operation status information obtained from the above, the process proceeds to step AA15, and if not, the process proceeds to step AA26.
    
       【0301】[ステップAA15]: 認識部1102
から得られるジェスチャ入力Giの認識結果が、指し示
しジェスチャ(ポインティングジェスチャ)であった場
合はステツプAA16へ進み、そうでない場合はステッ
プAA21ヘ進む。[Step AA15]: Recognition unit 1102 
 If the recognition result of the gesture input Gi obtained from is a pointing gesture (pointing gesture), the process proceeds to step AA16; otherwise, the process proceeds to step AA21.
    
       【0302】[ステップAA16]: “<処理手順D
D>”によって擬人化エージェントから、指し示しジェ
スチャGiの指示対象Rlを注視可能であると判断さ
れ、かつ“<処理手順CC>”によって、利用者から擬
人化エージェン卜を観察可能であると判定された場合に
は、ステップAA20へ進み、そうでなければ、ステッ
プAA17へ進む。[Step AA16]: "<Processing procedure D 
 D> ”, the anthropomorphic agent determines that the pointing target Rl of the pointing gesture Gi can be watched, and“ <procedure CC> ”determines that the user can observe the anthropomorphic agent. If so, the process proceeds to step AA20; otherwise, the process proceeds to step AA17.
    
       【0303】[ステップAA17]: 配置情報記憶部
1105を参照し、全ての提示位置に対応するエントリ
に対して、順次、“<処理手順DD>”および“<処理
手順CC>”を用いた条件判断を行うことによって、擬
人化エージェントから、指し示しジェスチャGiの指示
対象Rlが注視可能であり、かつ利用者から擬人化エー
ジェントを観察可能であるような、擬人化エージェント
の提示位置Lnを探す。[Step AA17]: Referring to the arrangement information storage unit 1105, conditions using “<procedure procedure DD>” and “<procedure procedure CC>” are sequentially applied to entries corresponding to all presentation positions. By making the determination, the presentation position Ln of the anthropomorphic agent is searched from the anthropomorphic agent such that the pointing target R1 of the pointing gesture Gi can be watched and the user can observe the anthropomorphic agent.
    
       【0304】[ステップAA18]: 提示位置Lnが
存在する場合は、ステップAA19へ進み、そうでない
場合はステップAA21へ進む。[Step AA18]: If the presentation position Ln exists, the process proceeds to Step AA19, and if not, the process proceeds to Step AA21.
    
       【0305】[ステップAA19]: 出力部1104
を制御し、擬人化エージェントを、提示位置Lnへ移動
する。[Step AA19]: Output unit 1104 
 To move the anthropomorphic agent to the presentation position Ln.
    
       【0306】[ステップAA20]: “<処理手順E
E>”を用いて、フィードバック生成部1103を制御
し、ジェスチャGiの参照先Rlを注視する擬人化エー
ジェント表情を生成し、出力部1104を制御して利用
者に提示し、ステップAA1ヘ進む。[Step AA20]: “<procedure E 
 Using E>", the feedback generation unit 1103 is controlled to generate an anthropomorphic agent expression for gazing at the reference destination Rl of the gesture Gi, and the output unit 1104 is controlled and presented to the user, and the process proceeds to step AA1.
    
       【0307】[ステップAA21]: “<処理手順C
C>”によって、「利用者から擬人化エージェントを観
察可能」であるかどうかを調べ、その結果、観察可能で
あればステップAA25へ進み、そうでなければステッ
プAA22へ進む。[Step AA21]: "<procedure C 
 C> ”, it is checked whether or not“ the user can observe the anthropomorphic agent ”. As a result, if observable, the process proceeds to step AA25; otherwise, the process proceeds to step AA22.
    
       【0308】[ステップAA22]: 配置情報記憶部
1105を参照し、全ての提示位置に対応するエントリ
に対して、順次、“<処理手順CC>”を用いた条件判
断を実施することにより、利用者から擬人化エージェン
トを観察可能であるような擬人化エージェン卜の提示位
置Loを探す。[Step AA22]: By referring to the arrangement information storage unit 1105 and sequentially performing a condition judgment using “<processing procedure CC>” for the entries corresponding to all the presentation positions, use is made. The presentation position Lo of the anthropomorphic agent that enables the person to observe the anthropomorphic agent is searched.
    
       【0309】[ステップAA23]: 提示位置Loが
存在する場合は、ステップAA24へ進み、そうでない
場合はステップAA1へ進む。[Step AA23]: If the presentation position Lo exists, the process proceeds to Step AA24; otherwise, the process proceeds to Step AA1.
    
       【0310】[ステップAA24]: 出力部1404
を制御し、擬人化エージェントを提示位置Loへ移動す
る。[Step AA24]: Output unit 1404 
 To move the anthropomorphic agent to the presentation position Lo.
    
       【0311】[ステップAA25]: 次に制御部11
06はフィードバック生成部1103を制御し、「現在
システムが利用者からの指し示しジェスチャ入力を受付
中」であることを表す例えば、「うなづき」などの表情
を生成し、出力部1104を制御して利用者に提示し、
ステップAA1の処理へ戻る。[Step AA25]: Next, the control unit 11 
 06 controls the feedback generation unit 1103 to generate a facial expression such as “nodding” indicating that “the system is currently accepting the pointing gesture input from the user”, and controls the output unit 1104 for use. To the person, 
 The process returns to step AA1.
    
       【0312】[ステップAA26]: 制御部1106
は認識部1102から得られる動作状況情報から、利用
者から入力受付中のジェスチャ入力の解析に失敗したこ
とが判明した場合には、ステップAA27へ進み、そう
でない場合はステップAA12ヘ進む。[Step AA26]: Control unit 1106 
 If it is determined from the operation status information obtained from the recognizing unit 1102 that the analysis of the gesture input during the input reception from the user has failed, the process proceeds to step AA27; otherwise, the process proceeds to step AA12.
    
       【0313】[ステップAA27]: 制御部1106
はフィードバック生成部1103を制御し、システムが
利用者からのジェスチャ入力の解析に失敗したことを表
す、「謝罪」などの表情を生成し、さらに出力部110
4を制御して、利用者に提示し、ステップAA1へ戻
る。[Step AA27]: Control unit 1106 
 Controls the feedback generation unit 1103 to generate a facial expression such as “apology” indicating that the system failed to analyze the gesture input from the user, and further to the output unit 110 
 4 and presents it to the user, and returns to step AA1.
    
       【0314】なお、図17は、制御部1106による以
上の“<処理手順AA>”をフローチャートの形で表現
したものであり、記号「T」の付与された矢印線は分岐
条件が成立した場合の分岐方向を表し、記号「F」が付
与された矢印線は分岐条件が成立しなかった場合の分岐
方向を表すものとする。また、図18〜図20に図17
のフローチャートの部分詳細を示す。FIG. 17 is a flowchart showing the above-mentioned “<processing procedure AA>” by the control unit 1106. The arrow line with the symbol “T” indicates that the branch condition is satisfied. It is assumed that the arrow line with the symbol “F” represents the branch direction when the branch condition is not satisfied. 18 to FIG. 
 Part of the flowchart of FIG.
    
       【0315】次に“<処理手順BB>”を説明する。当
該“<処理手順BB>”では以下の手順を実行すること
によって、ある擬人化エージェントの提示位置Lbを想
定した場合に、擬人化エージェントから、例えば、利用
者の指の先端など、ジェスチャ入力Gが行われている位
置Lgが注視可能であるかどうかの判定を行う。Next, “<procedure BB>” will be described. In the "<procedure procedure BB>", by performing the following procedure, when the presentation position Lb of a certain anthropomorphic agent is assumed, a gesture input G such as a tip of a user's finger is input from the anthropomorphic agent. It is determined whether or not the position Lg where is performed can be watched.
    
       【0316】<処理手順BB> [ステップBB1]: 制御部1106は配置情報記憶
部1105を参照し、提示位置Lbに対応する“エント
リHb”を得る。<Processing Procedure BB> [Step BB1]: The control unit 1106 refers to the arrangement information storage unit 1105, and obtains “entry Hb” corresponding to the presentation position Lb.
    
       【0317】[ステップBB2]: また、配置情報記
憶部1105を参照し、ラベル情報Aの欄を調べること
によって、ジェスチャが行われている位置Gに対応する
“エントリHg”を得る。[Step BB2]: By referring to the arrangement information storage unit 1105 and checking the column of the label information A, an “entry Hg” corresponding to the position G where the gesture is performed is obtained.
    
       【0318】[ステップBB3]: “エントリHb”
と“エントリHg”が得られると、制御部1106は配
置情報記憶部1105に記憶されている“エントリH
b”の“代表位置情報B”の値(Xb,Yb,Zb)、
および“方向情報C”の値(Ib,Jb,Kb)、およ
び、“エントリHg”の“代表位置情報B”の値(X
g,Yg,Zg)を参照し、ベクトル(Xb−Xg,Y
b−Yg,Zb−Zg)とベクトル(Ib,Jb,K
b)の内積の値Ibを計算する。[Step BB3]: “Entry Hb” 
 And the “entry Hg” are obtained, the control unit 1106 stores the “entry Hg” stored in the arrangement information storage unit 1105. 
 b ”(Xb, Yb, Zb) of“ representative position information B ”, 
 And the value of the “direction information C” (Ib, Jb, Kb) and the value of the “representative position information B” of the “entry Hg” (X 
 g, Yg, Zg), and the vector (Xb−Xg, Y 
 b-Yg, Zb-Zg) and vector (Ib, Jb, K 
 Calculate the value Ib of the inner product of b).
    
       【0319】[ステップBB4]: そして、制御部1
106は次に当該計算結果である内積の値Ibが正の値
であるか負の値であるかを調べ、その結果、正の値であ
る場合は、“エントリHb”に対応する提示位置Lbに
提示する擬人化エージェントから、“エントリHg”に
対応するジェスチャGが行われている位置Lgが「注視
可能」であると判断し、負である場合は「注視不可能」
であると判断する。[Step BB4]: Then, the control section 1 
 Then, 106 checks whether the value Ib of the inner product, which is the calculation result, is a positive value or a negative value. If the value is a positive value, the presentation position Lb corresponding to the “entry Hb” is determined. Is determined that the position Lg where the gesture G corresponding to “entry Hg” is performed is “gazeable”, and if the position Lg is negative, “gaze impossible” 
 Is determined to be.
    
       【0320】以上により、「擬人化エージェントから利
用者のジェスチャ入力位置が注視可能か否かを判定す
る」処理が行える。As described above, the processing of “determining whether or not the gesture input position of the user can be watched from the anthropomorphic agent” can be performed.
    
       【0321】同様に、以下の“<処理手順CC>”によ
って、ある擬人化エージェントの提示位置Lcを想定し
た場合に、利用者から擬人化エージェントを観察可能で
あるかどうかの判定が行われる。Similarly, if the presentation position Lc of a certain anthropomorphic agent is assumed, whether or not the user can observe the anthropomorphic agent is determined by the following “<procedure CC>”.
    
       【0322】<処理手順CC> [ステップCC1]: 制御部1106は配置情報記憶
部1105を参照し、提示位置Lcに対応する“エント
リHc”を得る。<Processing Procedure CC> [Step CC1]: The control unit 1106 refers to the arrangement information storage unit 1105 and obtains “entry Hc” corresponding to the presentation position Lc.
    
       【0323】[ステップCC2]: 配置情報記憶部1
105を参照し、ラベル情報Aの内容を調べることによ
って、利用者の顔の位置に対応する“エントリHu”を
得る。[Step CC2]: arrangement information storage unit 1 
 The “entry Hu” corresponding to the position of the user's face is obtained by checking the contents of the label information A with reference to 105.
    
       【0324】[ステップCC3]: “エントリHc”
と“エントリHu”が得られたなばらば次に制御部11
06は配置情報記憶部1105をもとに“エントリH
c”の“代表位置情報B”の値(Xc,Yc,Zc)、
および“方向情報C”の値(Ic,Jc,Kc)、およ
び、“エントリHu”の“代表位置情報B”の値(X
u.Yu.Zu)を参照し、ベクトル(Xc−Xu,Y
c−Yu,Zc−Zu)とベクトル(Ic,Jc,K
c)の内積の値Icを計算する。[Step CC3]: “Entry Hc” 
 And the “entry Hu” are obtained. 
 06 is “entry H” based on the arrangement information storage unit 1105. 
 c ”(Xc, Yc, Zc) of“ representative position information B ”; 
 And the value (Ic, Jc, Kc) of “direction information C” and the value (X of “representative position information B” of “entry Hu” 
 u. Yu. Zu) and the vector (Xc-Xu, Y 
 c-Yu, Zc-Zu) and vector (Ic, Jc, K 
 Calculate the value Ic of the inner product of c).
    
       【0325】[ステップCC4]: 次に制御部110
6は内積の値Icが正の値であるか負の値であるかを判
別し、その結果、正の値である場合は、“エントリH
c”に対応する提示位置Lcに提示する擬人化エージェ
ントが、「利用者から観察可能」と判断し、負である場
合は「観察不可能」と判断する。[Step CC4]: Next, the controller 110 
 6 determines whether the value of the inner product Ic is a positive value or a negative value. 
 The anthropomorphic agent presenting at the presentation position Lc corresponding to c "determines that" observable from the user ", and if negative, determines that" observable ".
    
       【0326】また、同様に以下の“<処理手順DD>”
によって、「ある擬人化エージェントの提示位置Ldを
想定した場合に、擬人化エージェントから、現在注目し
ているある指し示しジェスチャGの指示対象Rが注視可
能であるかどうか」の判定が行われる。Similarly, the following “<procedure DD>” 
 Accordingly, it is determined whether or not, assuming the presentation position Ld of a certain anthropomorphic agent, the anthropomorphic agent can gaze at the pointing target R of a certain pointing gesture G that is currently focused on.
    
       【0327】<処理手順DD> [ステップDD1]: 制御部1106は配置情報記憶
部1105を参照し、提示位置Ldに対応する“エント
リHd”を得る。<Processing Procedure DD> [Step DD1]: The control unit 1106 refers to the arrangement information storage unit 1105 and obtains “entry Hd” corresponding to the presentation position Ld.
    
       【0328】[ステップDD2]: また、配置情報記
憶部1105を参照し、“ラベル情報A”の内容を調べ
ることによって、“指示対象R”に対応する“エントリ
Hr”を得る。[Step DD2] Also, by referring to the arrangement information storage unit 1105 and examining the contents of “label information A”, “entry Hr” corresponding to “instruction target R” is obtained.
    
       【0329】[ステップDD3]: “エントリHd”
と“エントリHr”が得られたならば、制御部1106
は“エントリHd”の“代表位置情報B”の値(Xd,
Yd,Zd)、および“方向情報C”の値(Id,J
d,Kd)、および、“エントリHr”の“代表位置情
報B”の値(Xr,Yr,Zr)を参照し、ベクトル
(Xd−Xr,Yd−Yr,Zd−Zr)とベクトル
(Id,Jd,Kd)の内積の値Idを計算する。[Step DD3]: “Entry Hd” 
 And “entry Hr” are obtained, the control unit 1106 
 Is the value of the “representative position information B” of the “entry Hd” (Xd, 
 Yd, Zd) and the value of “direction information C” (Id, J 
 d, Kd) and the value (Xr, Yr, Zr) of the “representative position information B” of the “entry Hr”, and the vector (Xd−Xr, Yd−Yr, Zd−Zr) and the vector (Id, Id, Jd, Kd) is calculated.
    
       【0330】[ステップDD4]: 次に制御部110
6は求められた内積の値Idが正の値であるか負の値で
あるかを判断する。その結果、正の値である場合は、
“エントリHd”に対応する“提示位置Ld”に提示す
る擬人化エージェントから、“エントリHr”に対応す
る指し示しジェスチャGの“参照先R”を「注視可能」
と判断し、負である場合には「注視不可能」と判断す
る。[Step DD4]: Next, the controller 110 
 6 determines whether the obtained inner product value Id is a positive value or a negative value. As a result, if it is positive, 
 From the anthropomorphic agent presenting at “presentation position Ld” corresponding to “entry Hd”, “reference destination R” of pointing gesture G corresponding to “entry Hr” is “gazeable” 
 Is determined, and if negative, it is determined that “gazing is impossible”.
    
       【0331】また、以下の“<処理手順EE>”によっ
て、フィードバック生成部1103によって、ある提示
位置Leを想定した際に、擬人化エージェントが、例え
ば、ジェスチャの行われている位置や、あるいは指し示
しジェスチャの参照先などの、“注視対象Z”を注視す
る擬人化エージェントの表情が生成される。Further, according to the following “<procedure EE>”, when a certain presentation position Le is assumed by the feedback generation unit 1103, the anthropomorphic agent can, for example, perform a gesture or a pointing operation. A facial expression of an anthropomorphic agent that gazes at “gaze target Z”, such as a gesture reference destination, is generated.
    
       【0332】<処理手順EE> [ステップEE1]: 制御部1106は配置情報記憶
部1105を参照し、提示位置Leに対応する“エント
リHe”を得る。<Processing Procedure EE> [Step EE1]: The control unit 1106 refers to the arrangement information storage unit 1105 and obtains “entry He” corresponding to the presentation position Le.
    
       【0333】[ステップEE2]: また、配置情報記
憶部1105を参照し、“ラベル情報A”の内容を調べ
ることによって、注視対象zに対応する“エントリH
z”を得る。[Step EE2] Also, by referring to the arrangement information storage unit 1105 and examining the contents of “label information A”, “entry H” corresponding to the watch target z is obtained. 
 z ″.
    
       【0334】[ステップEE3]: 次に制御部110
6は“エントリHe”の“代表位置情報B”の値(X
e,Ye,Ze)、および、“エントリHz”の“代表
位置情報B”の値(Xz,Yz,Zz)を参照し、ベク
トルVf=(Xe−Xz,Ye−Yz,Ze−Ze)を
得る。[Step EE3]: Next, the control unit 110 
 6 is the value (X) of the “representative position information B” of the “entry He”. 
 e, Ye, Ze) and the value (Xz, Yz, Zz) of the “representative position information B” of the “entry Hz”, and the vector Vf = (Xe−Xz, Ye−Yz, Ze−Ze). obtain.
    
       【0335】[ステップEE4]: “エントリHe”
と“ベクトルVf”が求められたならば、制御部110
6は次に“エントリHe”の“方向情報C”から得られ
る提示位置Leの基準方向を正面とした場合で擬人化エ
ージェントが“べクトルVf”の方向を向く表情を作成
する。このような表情作成には本発明者等が提案し、特
許出願した例えば、「身体動作生成装置および身体動作
動作制御方法(特願平8−57967号)」に開示の技
術などが適用可能である。[Step EE4]: “Entry He” 
 And “vector Vf” are obtained, the control unit 110 
 Next, when the reference direction of the presentation position Le obtained from the “direction information C” of the “entry He” is set to the front, an anthropomorphic agent creates a facial expression pointing in the direction of “vector Vf”. The technique disclosed in, for example, “Body motion generation device and body motion motion control method (Japanese Patent Application No. 8-57967)” proposed by the present inventors and applied for a patent can be applied to such expression creation. is there.
    
       【0336】このようにして、制御部1106は、擬人
化エージェントから利用者のジェスチャ入力位置が注視
可能か否かを判定し、ある擬人化エージェントの提示位
置Lcを想定した場合に、利用者から擬人化エージェン
トを観察可能であるか否かを判断し、ある擬人化エージ
ェントの提示位置Ldを想定した場合に、擬人化エージ
ェントから、現在注目しているある指し示しジェスチャ
Gの指示対象Rが注視可能であるか否か判断し、注視可
能であれば注視対象Zを注視する擬人化エージェントの
表情を生成する。また、注視不可能の場合や認識失敗の
場合はそれを端的に示すジェスチャの擬人化エージェン
トを表示する。In this manner, the control unit 1106 determines whether or not the gesture input position of the user can be watched from the anthropomorphic agent, and when the presentation position Lc of a certain anthropomorphic agent is assumed, the control unit 1106 It is determined whether or not the anthropomorphic agent can be observed, and assuming a presentation position Ld of a certain anthropomorphic agent, the anthropomorphic agent can gaze at the pointing target R of a certain pointing gesture G that is currently focused on. Is determined, and if gaze is possible, a facial expression of an anthropomorphic agent that gazes at the gaze target Z is generated. In addition, when gaze is impossible or recognition fails, a gesture anthropomorphic agent that indicates the fact is displayed.
    
       【0337】以上が、本発明にかかるマルチモーダルイ
ンタフェース装置およびマルチモーダルインタフェース
方法の構成と機能及び主要な処理の流れである。続い
て、本発明にかかるマルチモーダルインタフェース装置
の動作の様子を、図を参照しながら、具体例を用いて更
に詳しく説明する。The above is the configuration and functions of the multi-modal interface device and the multi-modal interface method according to the present invention and the flow of main processing. Next, the operation of the multi-modal interface device according to the present invention will be described in more detail using a specific example with reference to the drawings.
    
       【0338】<第2の具体例装置の具体な動作例>ここ
では、カメラを用いた入力部1101と画像認識技術と
により、利用者の顔の位置、向き、および指し示しのた
めのハンドジェスチャの行われている位置、方向、およ
び参照先の位置情報を得る認識部1102と、利用者と
システムとの自然な対話を進めるために重要な擬人化エ
ージェントのCGを生成するフィードバック生成部11
03と、2つのディスプレイ装置を出力部1104とし
て持つ、本発明の第2の実施例に基づくマルチモーダル
インタフェース装置に向かって、利用者が指し示しジェ
スチャ入力を行うという設定で具体的動作を説明する。<Specific operation example of the second specific example> [0338] Here, the input unit 1101 using a camera and image recognition technology use a hand gesture for pointing and pointing the user's face and pointing. A recognition unit 1102 that obtains information on the position, direction, and position of a reference destination that is being performed, and a feedback generation unit 11 that generates a CG of an anthropomorphic agent that is important for advancing a natural conversation between the user and the system. 
 03, and a specific operation will be described with a setting in which the user points and performs a gesture input toward a multimodal interface device according to the second embodiment of the present invention, which has two display devices as the output unit 1104.
    
       【0339】図16は、この動作例の状況を説明する図
である。図16において、X,Y,Zは世界座標系の座
標軸を表している。また、P1,P2,P3,〜P9は
それぞれ場所であり、これらのうち、場所P1(P1の
座標=(10,20,40))は、“提示場所1”の代
表位置を表しており、場所P1から描かれた矢印V1
(V1の先端位置座標=(10,0,1))は、“提示
場所1”の法線方向を表すベクトルである。FIG. 16 is a diagram for explaining the situation of this operation example. In FIG. 16, X, Y, and Z represent coordinate axes in the world coordinate system. Further, P1, P2, P3 to P9 are locations, respectively. Of these, location P1 (coordinate of P1 = (10, 20, 40)) represents a representative position of “presentation location 1”, Arrow V1 drawn from location P1 
 (Coordinate of the tip end position of V1 = (10, 0, 1)) is a vector representing the normal direction of “presentation location 1”.
    
       【0340】同様に、場所P2(P2の座標=(−2
0,0,30))は、“提示位置2”の代表位置を表し
ており、場所P2から描かれた矢印V2(V2の先端位
置座標=(10,10,−1))は、“提示場所2”の
法線方向を表すベクトルである。Similarly, location P2 (coordinate of P2 = (− 2 
 0, 0, 30)) represents the representative position of the “presentation position 2”, and the arrow V2 (the tip position coordinate of V2 = (10, 10, −1)) drawn from the place P2 is “presentation position”. This is a vector representing the normal direction of location 2 ″.
    
       【0341】また、場所P3(P3の座標=(40,3
0,50))は、認識部1102から得られる現在の利
用者の顔を代表位置を表しており、場所P3から描かれ
た矢印V3(V3の先端位置座標=(−4,−3,−1
0))は、利用者の顔の向きを表すベクトルである。ま
た、場所P4(P4の座標=(40,10,20))
は、ある時点(T2〜T8)において、利用者が指し示
しジェスチャを行った際の指の先端位置を表しており、
場所P4から描かれたV4(V4の先端位置座標=(−
1,−1,−1))は、その指し示しジェスチャの方向
を表すベクトルである。The location P3 (coordinate of P3 = (40,3 
 (0, 50)) represents the representative position of the current user's face obtained from the recognition unit 1102, and is indicated by an arrow V3 (tip position coordinates of V3 = (− 4, −3, −)) drawn from the place P3. 1 
 0)) is a vector representing the orientation of the user's face. Further, a location P4 (coordinates of P4 = (40, 10, 20)) 
 Represents the tip position of the finger when the user points and makes a gesture at a certain time point (T2 to T8), 
 V4 drawn from the place P4 (the tip position coordinates of V4 = (− 
 1, -1, -1)) is a vector representing the direction of the pointing gesture.
    
       【0342】また、場所P5(P5の座標=(20,1
0,20))は、ある時点(T14〜T15)におい
て、利用者が指し示しジェスチャを行った際の指の先端
位置を表しており、場所P5から描かれたV5(V5の
先端位置座標=(−1,−1,−1))は、その指し示
しジェスチャの方向を表すべクトルである。The location P5 (coordinate of P5 = (20, 1 
 (0, 20)) represents the tip position of the finger when the user points and makes a gesture at a certain point in time (T14 to T15), and V5 (tip position coordinates of V5 = (tip position of V5) drawn from the place P5) -1, -1, -1)) is a vector representing the direction of the pointing gesture.
    
       【0343】また、場所P8(P8の座標=(30,
0,10))は、ある時点(T2〜T8)において、利
用者が行った指し示しジェスチャの指示対象である“物
体A”の代表位置を表している。また、場所P9(P9
の座標=(0,−10,0))は、ある時点(T14〜
T15)において、利用者が行った指し示しジェスチャ
の指示対象である“物体B”の代表位置を表している。The location P8 (the coordinates of P8 = (30, 
 0, 10)) represents a representative position of the “object A” as a pointing target of the pointing gesture performed by the user at a certain time point (T2 to T8). In addition, place P9 (P9 
 Coordinates = (0, -10, 0)) at a certain time point (T14 to 
 At T15), the representative position of “object B”, which is the pointing target of the pointing gesture performed by the user, is shown.
    
       【0344】なお、以上の代表位置および方向に関する
情報は、予め用意されるか、あるいは入力部1101か
ら得られる画像情報などを解析する認識部1102によ
って検知され、配置情報記憶部1105に随時記録され
るようにしている。The information on the representative position and the direction described above is prepared in advance, or is detected by the recognition unit 1102 that analyzes the image information or the like obtained from the input unit 1101, and is recorded in the arrangement information storage unit 1105 as needed. I am trying to.
    
【0345】続いて、処理の流れに沿って説明を行う。Next, description will be made along the flow of processing.
       【0346】<処理例1>ここでは、利用者が指し示し
ジェスチャ入力を行った際に、そのフィードバック情報
として、参照先を注視する擬人化エージェントの表情を
利用者に提示するための処理例を説明する。<Processing Example 1> Here, a description will be given of a processing example for presenting, to the user, an expression of an anthropomorphic agent who gazes at a reference destination as feedback information when the user performs a pointing gesture input. I do.
    
       【0347】[T1]: 最初、場所P1に対応する
“提示場所1”に擬人化エージェントが表示されている
ものとする。[T1]: First, it is assumed that the anthropomorphic agent is displayed at “presentation place 1” corresponding to place P1.
    
       【0348】[T2]: ここで、利用者が“物体A”
への指し示しジェスチャ(G1とする)を開始したとす
る。[T2]: Here, the user is “object A” 
 It is assumed that the pointing gesture (G1) has been started.
    
       【0349】[T3]: 入力部1101からの入力画
像を解析する認識部1102が、ジェスチャG1の開始
を検知して、動作状況情報として制御部1106に通知
する。[T3]: The recognizing unit 1102, which analyzes the input image from the input unit 1101, detects the start of the gesture G1, and notifies the control unit 1106 as operating status information.
    
       【0350】[T4]: 制御部1106では“<処理
手順AA>”のステップAA1からAA2へと処理を進
める。[T4]: The control section 1106 advances the processing from step AA1 of "<procedure AA>" to AA2.
    
       【0351】[T5]: 制御部1106はステップA
A2の処理においてで、まず、図15に示した配置情報
記憶部1105の“エントリQ1”と“エントリQ4”
を参照した“<処理手順BB>”に基づく処理によっ
て、現在の擬人化エージェントの提示位置P1から、ジ
ェスチャG1の行われている位置P4が注視可能である
ことが判明する。[T5]: The control unit 1106 proceeds to step A 
 In the process of A2, first, “entry Q1” and “entry Q4” of the arrangement information storage unit 1105 shown in FIG. 
 , It is determined that the position P4 where the gesture G1 is performed can be watched from the present position P1 of the anthropomorphic agent.
    
       【0352】[T6]: また、図15に示した配置情
報記憶部1105の“エントリQ1”と“エントリQ
3”を参照した“<処理手順CC>”に基づく処理によ
って、現在の利用者の顔の位置であるP3から、現在の
擬人化エージェントの提示位置P1が観察可能であるこ
とが判明する。[T6]: Also, “entry Q1” and “entry Q” in the arrangement information storage unit 1105 shown in FIG. 
 Through the processing based on “<procedure procedure CC>” with reference to “3”, it becomes clear from the current user face position P3 that the current presentation position P1 of the anthropomorphic agent can be observed.
    
       【0353】[ステップT7]: 次に制御部1106
はステップAA6の処理へと進み、“<処理手順EE
>”に基づく処理を実行することにより、フィードバッ
ク生成部1103により、現在利用者が行っているジェ
スチャG1を注視する擬人化エージェントの表情を生成
し、出力部1104を通じて利用者に提示させる。[Step T7]: Next, the controller 1106 
 Goes to the processing of step AA6, and “<procedure EE 
 By performing the processing based on >>, the feedback generation unit 1103 generates a facial expression of an anthropomorphic agent that gazes at the gesture G1 currently performed by the user, and presents the expression to the user via the output unit 1104.
    
       【0354】以上の処理によって、利用者がジェスチャ
入力を開始した際に、フィードバック情報として、ジェ
スチャ入力を行っている利用者の手や指などを注視する
擬人化エージェントの表情を、利用者に提示することが
出来る。According to the above processing, when the user starts gesture input, the expression of the anthropomorphic agent who gazes at the hand or finger of the user who is performing the gesture input is presented to the user as feedback information. You can do it.
    
       【0355】[T8]: 次に制御部1106はステッ
プAA12の処理に移る。ここでは、ジェスチャG1が
入力部1101の観察範囲から外れたか否かを判断す
る。[T8]: Next, the control unit 1106 proceeds to the process of step AA12. Here, it is determined whether or not the gesture G1 is out of the observation range of the input unit 1101.
    
       【0356】なお、ジェスチャG1は入力部1101の
観察範囲から逸脱しなかっとし、その結果、ステップA
A14ヘ進んだものとする。The gesture G1 does not deviate from the observation range of the input unit 1101. 
 It is assumed that the vehicle has proceeded to A14.
    
       【0357】[T9]: 制御部1106はステップA
A14において、利用者のジェスチャが終了を指示した
か否かを認識部1102の動作状況情報から判断する。
いま、ジェスチャG1の終了が認識部1102から動作
状況情報として通知されたものとする。従って、この場
合、ジェスチャG1の終了を制御部1106は認識す
る。[T9]: The control unit 1106 proceeds to step A 
 In A14, it is determined from the operation status information of the recognition unit 1102 whether or not the user's gesture has instructed termination. 
 Now, it is assumed that the end of the gesture G1 has been notified from the recognition unit 1102 as operation status information. Therefore, in this case, the control unit 1106 recognizes the end of the gesture G1.
    
       【0358】[T10]: 次に制御部1106はステ
ップAA15の処理に移る。当該処理においては、ジェ
スチャが指し示しジェスチャであるかを判断する。そし
て、この場合、ジェスチャG1は指し示しジェスチャで
あるので、認識部1102から得られる動作状況情報に
基づいて、ステップAA16へ進む。[T10]: Next, the control unit 1106 proceeds to the process of step AA15. In this process, it is determined whether the gesture is a pointing gesture. In this case, since the gesture G1 is a pointing gesture, the process proceeds to step AA16 based on the operation status information obtained from the recognition unit 1102.
    
       【0359】[T11]: 制御部1106はステップ
AA16の処理において、まず、図15に示した配置情
報記憶部1105の“エントリQ1”と“エントリQ
8”を参照した“<処理手順D>”に基づく処理を行
う。そして、これにより、ジェスチャG1の指示示対象
である“物体A”を擬人化エージェントから注視可能で
あることを知る。[T11]: In the process of step AA16, the control unit 1106 first reads “entry Q1” and “entry Q” in the arrangement information storage unit 1105 shown in FIG. 
 Then, the process based on “<procedure D>” referring to “8.” Then, it is known that “object A”, which is the indication target of the gesture G1, can be watched from the anthropomorphic agent.
    
       【0360】[T12]: また、図15に示した配置
情報記憶部1105の“エントリQ1”と“エントリQ
3”を参照した“<処理手順CC>”に基づく処理によ
って、利用者から擬人化エージェントを観察可能である
ことも判明し、ステップAA20への処理へと移る。[T12]: Also, “entry Q1” and “entry Q” in the arrangement information storage unit 1105 shown in FIG. 
 It is also found that the user can observe the anthropomorphic agent by the processing based on “<procedure CC” referring to “3”, and the process proceeds to step AA20.
    
       【0361】[T13] ステップAA20において、
制御部1106は図15に示した配置情報記憶部110
5の“エントリQ1”と“エントリQ8”を参照した
“<処理手順EE>”に基づく処理を実施し、これによ
って、ジェスチャG1の参照先である“物体A”の場所
P8を注視するエージェント表情を利用者に提示させ
る。そして、ステップAA1ヘ戻る。[T13] In step AA20, 
 The control unit 1106 controls the arrangement information storage unit 110 shown in FIG. 
 5 performs a process based on “<procedure EE>” with reference to “entry Q1” and “entry Q8”, whereby an agent expression that gazes at a place P8 of “object A” to which the gesture G1 is referred Is presented to the user. Then, the process returns to step AA1.
    
       【0362】以上の処理によって、利用者が指し示しジ
ェスチャ入力を行った際に、そのフィードバック情報と
して、参照先を注視する擬人化エージェントの表情を利
用者に提示することが可能となる。According to the above-described processing, when the user performs the pointing gesture input, the expression of the anthropomorphic agent watching the reference destination can be presented to the user as the feedback information.
    
【0363】続いて、条件の異なる別の処理例を示す。Next, another processing example with different conditions will be described.
       【0364】<処理例2> [T21]: 利用者から、場所P9にある“物体B”
を参照する、指し示しジェスチャG2の入力が開始され
始めたとする。<Processing Example 2> [T21]: From user, "object B" at location P9 
 It is assumed that the input of the pointing gesture G2 has begun.
    
       【0365】[T22]: ステップT2〜T7での処
理と同様の処理によって、ジェスチャG2を注視する擬
人化エージェント表情が利用者に提示される。[T22]: An anthropomorphic agent expression that gazes at the gesture G2 is presented to the user by the same processing as the processing in steps T2 to T7.
    
       【0366】[T23]: ステップAA16で、ま
ず、図15に示した配置情報記憶部1105の“エント
リQ1”と“エントリQ9”を参照した“<処理手順B
B>”に基づく処理によって、現在の擬人化エージェン
トの提示位置P1から、ジェスチャG2の行われている
位置P9が注視不可能であることが判明する。[T23]: In step AA16, first, referring to “entry Q1” and “entry Q9” in the arrangement information storage unit 1105 shown in FIG. 
 By the processing based on B>", it is determined that the position P9 where the gesture G2 is performed cannot be watched from the present position P1 of the anthropomorphic agent.
    
       【0367】[T24]: ステップAA17におい
て、図15に示した配置情報記憶105のエントリQ1
およびエントリQ2など全ての提示位置に対応するエン
トリを、“<処理手順DD>”に基づく処理によって判
定することによって、ジェスチャG1の指示対象である
物体Bを、擬人化エージェントが注視可能で、かつ利用
者の位置であるP3から観察可能な提示位置が検索さ
れ、提示位置2に対応する場所P2が得られる。[T24]: At step AA17, entry Q1 in arrangement information storage 105 shown in FIG. 
 And the entries corresponding to all the presentation positions such as the entry Q2 are determined by the processing based on “<processing procedure DD>”, so that the anthropomorphic agent can gaze at the object B, which is the pointing target of the gesture G1, and An observable presentation position is searched from the user's position P3, and a place P2 corresponding to the presentation position 2 is obtained.
    
       【0368】[T25]: ステップAA19へ進み、
出力部1104を通じて擬人化エージェントを場所P2
へ移動させ、ステップAA20へ進む。[T25]: Proceed to step AA19, 
 Place the anthropomorphic agent at the location P2 through the output unit 1104 
 To step AA20.
    
       【0369】[T26]: 前記T13と同様の処理に
よって、指示対象である“物体B”を注視する擬人化エ
ージェン卜の表情が、ジェスチャG2に対するフィード
バックとして利用者に提示される。[T26]: By the same processing as in T13, the expression of the anthropomorphic agent gazing at the "object B" to be pointed is presented to the user as feedback to the gesture G2.
    
       【0370】制御部1106による以上の処理の結果、
利用者が行った指し示しジェスチャの参照先が擬人化エ
ージェントから注視できない場所にあった場合でも、適
切な位置に擬人化エージェントが移動されるようにした
ことで、適切なフィードバックを利用者に提示すること
が可能となる。As a result of the above processing by the control unit 1106, 
 Even when the reference point of the pointing gesture made by the user is in a place where the anthropomorphic agent cannot gaze, the anthropomorphic agent is moved to an appropriate position to provide appropriate feedback to the user. It becomes possible.
    
       【0371】その他、利用者が行ったジェスチャ入力
を、擬人化エージェントが注視できない場合には、ステ
ップAA3の処理によって、適切な位置に擬人化エージ
ェントを移動させることで、適切なフィードバックを利
用者に提示することが可能となる。また、そのような移
動が不可能である場合には、ステップAA7〜AA11
の処理によって、「うなずき」の表情がフィードバック
として提示される。In addition, when the anthropomorphic agent cannot gaze at the gesture input made by the user, the anthropomorphic agent is moved to an appropriate position by the processing of step AA3, so that appropriate feedback is provided to the user. It can be presented. If such movement is not possible, steps AA7 to AA11 
 , The expression of “nodding” is presented as feedback.
    
       【0372】また、利用者の行っているジェスチャ入力
の途中で、例えばジェスチャ入力を行っている手が、カ
メラの撮影視野から外れるなどした場合には、ステップ
AA12〜AA13の処理によって、「驚きの表情」が
フィードバックとして利用者に提示される。If the hand performing the gesture input is out of the field of view of the camera during the gesture input performed by the user, for example, the processing of steps AA12 to AA13 indicates “surprise”. The "expression" is presented to the user as feedback.
    
       【0373】また、利用者の入力したジェスチャ入力
が、指し示しジェスチャ以外の種類である場合にも、ス
テップAA21〜AA25の処理によって、必要に応じ
て擬人化エージェントの表示位置を移動させた上で、
「うなずき」の表情がフィードバックとして提示され
る。また、利用者の入力したジェスチャの認識に失敗し
た場合にも、ステップAA27の処理によって、擬人化
エージェントの「謝罪」の表情がフィードバックとして
利用者に提示される。Also, when the gesture input by the user is of a type other than the pointing gesture, the display position of the anthropomorphic agent is moved by the processing of steps AA21 to AA25 as necessary. 
 The expression "nodding" is presented as feedback. Also, when the gesture input by the user fails to be recognized, the expression of “apology” of the anthropomorphic agent is presented to the user as feedback by the processing of step AA27.
    
       【0374】かくして、このように構成された本装置に
よれば、利用者が、離れた位置からや、機器に接触せず
に、かつ、機器を装着せずに、遠隔で指し示しジェスチ
ャを行うことが出来、かつ、ジェスチャ認識方式の精度
が十分に得られないために発生する誤認識やジェスチャ
抽出の失敗を抑制することが可能となる。Thus, according to the present device configured as described above, the user can perform a pointing gesture remotely from a remote position, without touching the device, and without mounting the device. It is possible to suppress erroneous recognition and gesture extraction failure that occur due to insufficient accuracy of the gesture recognition method.
    
       【0375】また、利用者が入力意図したジェスチャを
開始した時点あるいは入力を行っている途中の時点で
は、システムがそのジェスチャ入力を正しく抽出してい
るかどうか分からないため、結果として誤認識を引き起
こしたり、あるいは、利用者が再度入力を行わなくては
ならなくなるなどして発生する利用者の負担を抑制する
ことができるようになる。Also, at the point in time when the user starts a gesture intended to be input or in the middle of inputting, it is not known whether or not the system has correctly extracted the gesture input. Alternatively, it is possible to reduce the burden on the user which occurs when the user has to perform the input again.
    
       【0376】また、実世界の場所やものなどを参照する
ための利用者からの指し示しジェスチャ入力に対して、
その指し示し先として、どの場所、あるいはどの物体あ
るいはそのどの部分を受け取ったかを適切に表示するこ
とが可能となる。さらに、前述の問題によって誘発され
る従来方法の問題である、誤動作による影響の訂正や、
あるいは再度の入力によって引き起こされる利用者の負
担や、利用者の入力の際の不安による利用者の負担を解
消することができる。Also, in response to a pointing gesture input from a user for referring to a place or thing in the real world, 
 As the pointing destination, it is possible to appropriately display which place, which object or which part thereof has been received. In addition, correction of the effects of malfunctions, which are problems of the conventional method induced by the aforementioned problems, 
 Alternatively, the burden on the user caused by the input again and the burden on the user due to anxiety at the time of the input by the user can be eliminated.
    
       【0377】さらに、擬人化インタフェースを用いたイ
ンタフェース装置、およびインタフェース方法では、利
用者の視界、および擬人化エージェントから視界などを
考慮した、適切なエージェントの表情を生成し、フィー
ドバックとして提示することが可能となる。Further, in the interface device and the interface method using the anthropomorphic interface, it is possible to generate an appropriate facial expression of an agent in consideration of the field of view of the user and the anthropomorphic agent from the anthropomorphic agent and to present it as feedback. It becomes possible.
    
       【0378】尚、本発明にかかるマルチモーダルインタ
フェース装置およびマルチモーダルインタフェース方法
の実施形態は、上述した例に限定されるものではない。
例えば、上述の実施例では、カメラを用いて取り込んだ
画像から利用者のジェスチャおよび顔等などの位置や向
きの認識処理を行うようにしているが、これを例えば、
磁気センサ、赤外センサ、データグローブ、あるいはデ
ータスーツなどを用いた方法によって実現することも可
能である。また、上述の実施例では、擬人化エージェン
トの注視の表情によって、指し示し先のフィードバック
を実現しているが、例えば、擬人化エージェントが指示
対象を手で指し示す動作をすることなどによって指し示
し先のフィードバックを実現することも可能である。The embodiments of the multimodal interface device and the multimodal interface method according to the present invention are not limited to the above-described examples. 
 For example, in the above-described embodiment, recognition processing of the position and orientation of the user's gesture, face, and the like is performed from the image captured using the camera. 
 It can also be realized by a method using a magnetic sensor, an infrared sensor, a data glove, a data suit, or the like. Further, in the above-described embodiment, the feedback of the pointing destination is realized by the expression of the gaze of the anthropomorphic agent. For example, the feedback of the pointing destination is performed by, for example, performing an operation of pointing the pointing target by hand by the anthropomorphic agent. It is also possible to realize.
    
       【0379】また、上述の実施例では、一箇所の場所を
指すポインティングによる指し示しジェスチャの入力を
例として説明したが、例えば空間中のある広がりを持っ
た領域を囲う動作によるサークリングジェスチャなどに
対して、例えばサークリングを行っている指先を、擬人
化エージェントが随時注視することなどによって、フィ
ードバック行うよう構成することも可能である。Also, in the above-described embodiment, the input of the pointing gesture by pointing to one place has been described as an example. However, for example, a circling gesture by an operation of surrounding an area having a certain spread in the space may be used. Thus, for example, it is also possible to adopt a configuration in which the fingertip performing circling is fed back by the anthropomorphic agent gazing at any time.
    
       【0380】また、上述の実施例では、配置情報記憶部
の内容のうち、例えば、出力部に関するエントリを予め
用意しておくよう構成していたが、例えば、出力部など
に、例えば、磁気センサなどを取り付けたり、あるいは
入力部などによって周囲環境の変化を随時観察し、出力
部や利用者の位置などが変更された場合に、動的に配置
情報記憶部の内容を更新するように構成することも可能
である。Further, in the above-described embodiment, an entry relating to, for example, the output unit in the contents of the arrangement information storage unit is prepared in advance. It is configured so that the contents of the arrangement information storage unit are dynamically updated when the output unit or the position of the user is changed, if necessary, by observing changes in the surrounding environment using the input unit or the like. It is also possible.
    
       【0381】また、上述の実施例では、利用者の指し示
したジェスチャの指示対象を擬人化エージェントが注視
するよう構成し、これにより、システムの側で認識でき
なくなったり、システム側での認識結果が誤っていない
かなどが、利用者の側で直感的にわかるようにしていた
が、逆にたとえば擬人化エージェントが、例えばフロッ
ピドライブの物理的な位置を利用者に教える場合などに
も、擬人化エージェントがその方向を見るように表示す
ることで、擬人化エージェントの目配せによる指示によ
り利用者がその対象の位置を認識し易くするように構成
することも出来る。Further, in the above-described embodiment, the anthropomorphic agent is configured to gaze at the object pointed by the gesture pointed by the user, so that the system cannot recognize the object or the recognition result on the system cannot be obtained. Although the user was intuitively aware of whether or not there was a mistake, the conversely, for example, when an anthropomorphic agent tells the user the physical location of the floppy drive, for example, By displaying the agent so as to look in the direction, it is also possible to configure so that the user can easily recognize the position of the target by the instruction by the look of the anthropomorphic agent.
    
       【0382】あるいは、上述の実施例では、たとえば、
利用者や擬人化エージェントから、ある位置が注視可能
あるいは観察可能であるかを、それらの方向ベクトルに
垂直な平面との位置関係によって判定を行っているが、
例えば、円錐状の領域によって判定を行ったり、あるい
は実際の人間の視界パターンを模擬した領域形状によっ
て判定を行うよう構成することも可能である。あるい
は、上述の実施例では、CRTディスプレイに表示され
る擬人化エージェントによる実施例を示したが、例え
ば、ホログラフなどの三次元表示技術を利用した出力部
を用いて、本発明を実現することも可能である。Alternatively, in the above embodiment, for example, 
 From the user or the anthropomorphic agent, whether a certain position can be watched or observed is determined by the positional relationship with a plane perpendicular to their direction vector, 
 For example, the configuration may be such that the determination is performed based on a conical area, or the determination is performed based on an area shape simulating an actual human visual field pattern. Alternatively, in the above-described embodiment, the embodiment using the anthropomorphic agent displayed on the CRT display has been described. However, for example, the present invention may be realized using an output unit using a three-dimensional display technology such as holography. It is possible.
    
       【0383】また、本発明の出力部は、一つの表示装置
によって実現することも可能であるし、あるいは物理的
に複数の表示装置を用いて実現することも可能である
し、あるいは物理的には一つである表示装置の複数の領
域を用いて実現することも可能である。あるいは、例え
ば図12に示した様な汎用コンピュータを用い、上述の
処理手順に基づいて作成されたプログラムを、例えば、
フロッピディスクなど外部記憶媒体に記録しておき、こ
れをメモリに読み込み、例えば、CPU(中央演算装
置)などで実行することによっても、本発明を実現する
ことも可能である。The output section of the present invention can be realized by one display device, can be physically realized by using a plurality of display devices, or can be physically realized. Can be realized using a plurality of regions of one display device. Alternatively, for example, using a general-purpose computer as shown in FIG. 
 The present invention can also be realized by recording the data in an external storage medium such as a floppy disk, reading the data into a memory, and executing the read data in, for example, a CPU (Central Processing Unit).
    
       【0384】以上、第2の実施例に示す本発明は、利用
者からの音声入力を取り込むマイク、あるいは利用者の
動作や表情などを観察するカメラ、あるいは利用者の目
の動きを検出するアイトラッカ、あるいは頭部の動きを
検知するヘッドトラッカー、あるいは手や足など体の一
部あるいは全体の動きを検知する動きセンサ、あるいは
利用者が装着しその動作などを取り込むデータグロー
ブ、あるいはデータスーツ、あるいは利用者の接近、離
脱、着席などを検知する対人センサなどのうち、少なく
とも一つからなり、利用者からの入力を随時取り込んで
入力情報として出力する入力手段と、該入力手段から得
られる該入力情報を受け取り、音声検出処理、音声認
識、形状検出処理、画像認識、ジェスチャ認識、表情認
識、視線検出処理、あるいは動作認識の少なくとも一つ
の処理を施すことによって、該利用者からの入力を、
「受付中」であること、「受け付け完了」したこと、
「認識成功」したこと、あるいは「認識失敗」したこと
などの如き利用者からの入力の受け付け状況情報を、動
作状況情報として出力する入力認識手段と、警告音、合
成音声、文字列、画像、あるいは動画を用い、フィード
バックとして利用者に提示する出力手段と、該入力認識
手段から得られる該動作状況情報に応じ、該出力手段を
通じて利用者にフィードバック情報を提示する制御手段
とより構成したことを特徴とするものである。As described above, the present invention shown in the second embodiment is a microphone for taking in a voice input from a user, a camera for observing a user's motion or facial expression, or an eye tracker for detecting a user's eye movement. , Or a head tracker that detects the movement of the head, or a motion sensor that detects the movement of part or all of the body such as hands and feet, or a data glove, or a data suit that is worn by the user and captures the movement, or An input unit that includes at least one of an interpersonal sensor and the like that detects approach, departure, and seating of the user, and that takes in an input from the user as needed and outputs it as input information; and an input obtained from the input unit. Receiving information, voice detection processing, voice recognition, shape detection processing, image recognition, gesture recognition, facial expression recognition, gaze detection processing, By There is subjected to at least one processing operation recognition, the input from the user, 
 "Accepted", "Accepted", 
 Input recognition means for outputting, as operation status information, information on the status of acceptance of input from the user, such as "recognition success" or "recognition failure"; a warning sound, a synthesized voice, a character string, an image, Alternatively, an output unit that presents the user with feedback using a moving image, and a control unit that presents feedback information to the user through the output unit in accordance with the operation status information obtained from the input recognition unit. It is a feature.
    
       【0385】あるいは、入力手段はカメラ(撮像装置)
などの画像取得手段によって利用者の画像を取り込み、
入力情報として例えば、アナログデジタル変換された画
像情報を出力する手段を用い、入力認識手段は該入力手
段から得られる該画像情報に対して、例えば前時点の画
像との差分抽出やオプティカルフローなどの方法を適用
することで、例えば動領域を検出し、例えばパターンマ
ッチング技術などの手法によって照合することで、入力
画像から、ジェスチャ入力を抽出し、これら各処理の進
行状況を動作状況情報として随時出力する認識手段と
し、制御手段は該入力認識手段から得られる該動作状況
情報に応じて、文字列や画像を、あるいはブザー音や音
声信号などを、例えば、CRTディスプレイやスピーカ
といった出力手段から出力するよう制御する手段とする
ことを特徴とする。さらには、入力手段から得られる入
力情報、および入力認識手段から得られる動作状況情報
の少なくとも一方の内容に応じて、利用者へのフィード
バックとして提示すべき情報であるフィードバック情報
を生成するフィードバック情報生成手段を具備する。ま
た、利用者と対面してサービスを提供する人物、生物、
機械、あるいはロボットなどとして擬人化されたエージ
ェント人物の、静止画あるいは動画による画像情報を、
利用者へ提示する擬人化イメージとして生成するフィー
ドバック情報生成手段と、入力認識手段から得られる動
作状況情報に応じて、利用者に提示すべき擬人化イメー
ジの表情あるいは動作の少なくとも一方を決定し、出力
手段を通じて、例えば、指し示しジェスチャの指し示し
先、あるいは例えば指先や顔や目など、利用者がジェス
チャ表現を実現している部位あるいはその一部など注視
する表情であるフィードバック情報を生成するフィード
バック情報生成手段とを更に設け、制御手段には、利用
者に該フィードバック情報生成手段によって生成された
フィードバック情報を、出力手段から利用者へのフィー
ドバック情報として提示する機能を持たせるようにした
ものである。更には、入力手段の空間的位置、および出
力手段の空間的位置に関する情報、および利用者の空間
的位置に関する情報の少なくとも一つを配置情報として
保持する配置情報記憶手段を設け、入力認識手段には、
利用者の入力した指し示しジェスチャの参照物、利用
者、利用者の顔や手などの空間位置を表す位置情報を出
力する機能を設けると共に、また、配置情報記憶手段か
ら得られる配置情報および該入力認識手段から得られる
位置情報および動作状況情報のうち、少なくとも一つを
参照して擬人化エージェントの動作、あるいは表情ある
いは制御タイミングの少なくとも一つを決定し、フィー
ドバック情報として出力するフィードバック手段とを設
ける構成としたものである。Alternatively, the input means is a camera (imaging device) 
 The user's image is captured by image acquisition means such as 
 As input information, for example, a unit that outputs analog-to-digital converted image information is used, and the input recognizing unit outputs the image information obtained from the input unit, such as a difference extraction from an image at a previous point in time or an optical flow. By applying the method, for example, a moving region is detected and, for example, a gesture input is extracted from an input image by performing collation by a method such as a pattern matching technique, and a progress status of each of the processes is output as motion status information as needed. The control unit outputs a character string, an image, a buzzer sound, a sound signal, or the like from an output unit such as a CRT display or a speaker, according to the operation status information obtained from the input recognition unit. This is characterized in that it is means for such control. Further, according to at least one of the input information obtained from the input means and the operation status information obtained from the input recognizing means, feedback information generation for generating feedback information to be presented as feedback to the user. Means. In addition, the person, creature, 
 Image information of still or moving images of an agent personified as a machine or robot, 
 Feedback information generating means to be generated as an anthropomorphic image to be presented to the user, and at least one of the facial expression or action of the anthropomorphic image to be presented to the user is determined according to the operation status information obtained from the input recognition means, Through the output means, for example, feedback information generation for generating feedback information which is a facial expression to which the user gazes, such as a pointing destination of a pointing gesture, or a part or part thereof where the user realizes the gesture expression, for example, a fingertip, face, or eyes. Means is further provided, and the control means is provided with a function of presenting the feedback information generated by the feedback information generating means to the user as feedback information from the output means to the user. Furthermore, a location information storage means for holding at least one of the spatial position of the input means, the information relating to the spatial position of the output means, and the information relating to the spatial position of the user as placement information is provided, and the input recognition means is provided. Is 
 In addition to providing a function of outputting position information indicating a spatial position such as a reference object of the pointing gesture input by the user, the user, the user's face or hand, the layout information obtained from the layout information storage means and the input A feedback unit that determines at least one of the operation of the anthropomorphic agent or an expression or control timing by referring to at least one of the position information and the operation status information obtained from the recognition unit, and outputs the determined information as feedback information; It is configured.
    
       【0386】そして、このような構成の本システムは、
利用者からの音声入力を取り込むマイク、あるいは利用
者の動作や表情などを観察するカメラ、あるいは利用者
の目の動きを検出するアイトラッカあるいは頭部の動き
を検知するヘッドトラッカー、あるいは手や足など体の
一部あるいは全体の動きを検知する動きセンサ、あるい
は利用者の接近、離脱、着席などを検知する対人センサ
などによる入力手段のうち、少なくとも一つから入力さ
れる利用者からの入力を随時取り込み、入力情報として
得、これを音声検出処理、音声認識、形状検出処理、画
像認識、ジェスチャ認識、表情認識、視線検出処理、あ
るいは動作認識のうち、少なくとも一つの認識処理を施
すことによって、該利用者からの入力に対する受付状況
の情報、すなわち、受付中であること、受け付け完了し
たこと、認識成功したこと、あるいは認識失敗したこ
と、などといった利用者からの入力の受付状況の情報を
動作状況情報として得、得られた動作状況情報に基づい
て、警告音、合成音声、文字列、画像、あるいは動画を
用い、フィードバックとして、利用者に提示するもので
ある。[0386] The present system having such a configuration is as follows. 
 A microphone that captures voice input from the user, a camera that observes the user's movements and facial expressions, an eye tracker that detects the user's eye movement, a head tracker that detects the movement of the head, hands, feet, etc. At any time, input from the user input from at least one of the input means such as a motion sensor that detects the movement of a part or the whole body or an interpersonal sensor that detects the approach, departure, seating, etc. of the user Capture, obtain as input information, and perform at least one of recognition processing of voice detection processing, voice recognition, shape detection processing, image recognition, gesture recognition, facial expression recognition, eye-gaze detection processing, or motion recognition. Information on the reception status in response to the input from the user, that is, reception is being performed, reception has been completed, recognition has been successful. Information or information on the status of reception of input from the user, such as the fact that recognition has failed, is obtained as operation status information, and based on the obtained operation status information, a warning sound, a synthesized voice, a character string, an image, or The video is presented to the user as feedback using a moving image.
    
       【0387】また、利用者と対面してサービスを提供す
る人物、生物、機械、あるいはロボットなどとして擬人
化されたエージェント人物の、静止画あるいは動画によ
る画像情報を、フィードバック情報認識手段から得られ
る動作状況情報に応じて、利用者に提示すべき擬人化イ
メージ情報として生成し、これを表示することで、たと
えば音声入力がなされた時点で擬人化エージェントによ
って例えば「うなずき」の表情を提示するなど利用者に
フィードバックを提示する。Also, an operation in which image information in a still image or a moving image of an agent personified as a person, a creature, a machine, a robot, or the like who provides a service to face a user is obtained from feedback information recognition means. By generating as anthropomorphic image information to be presented to the user in accordance with the situation information and displaying this, for example, when a voice input is made, an anthropomorphic agent presents an expression such as "nodding", for example. Give feedback to the person.
    
       【0388】また、認識手段により画像認識して、利用
者の入力した指し示しジェスチャの参照物、利用者、利
用者の顔や手などの空間位置に関する情報である位置情
報を得、配置情報記憶手段により入力部の空間的位置、
および出力部の空間的位置に関する情報、および利用者
の空間的位置に関する情報の少なくとも一つを配置情報
として保持し、位置情報、および配置情報、動作状況情
報の少なくとも一つに応じて、例えば、利用者の指し示
しジェスチャの対象である参照物を、随時注視する表情
を提示するなど利用者にフィードバックを提示する。[0388] Further, image recognition is performed by the recognition means to obtain position information which is information relating to the spatial position of the pointing gesture input by the user, the user, the user's face and hands, and the like. The spatial position of the input, 
 And information on the spatial position of the output unit, and holds at least one of the information on the spatial position of the user as arrangement information, position information, and arrangement information, according to at least one of the operation status information, for example, It provides feedback to the user, such as presenting an expression to look at the reference object that is the target of the pointing gesture of the user as needed.
    
       【0389】このように、利用者がシステムから離れた
位置や、あるいは機器に非接触状態で指し示しジェスチ
ャを認識させ、指示を入力することが出来るようにな
り、かつ、誤認識なくジェスチャ認識を行えて、ジェス
チャ抽出の失敗を無くすことができるようになるマルチ
モーダルインタフェース装置およびマルチモーダルイン
タフェース方法を提供することができる。また、利用者
が入力意図したジェスチャを開始した時点あるいは入力
を行っている途中の時点で、システムがそのジェスチャ
入力を正しく抽出しているか否かを知ることができ、利
用者が再入力を行わなくてはならなくなるな負担を解消
できるマルチモーダルインタフェース装置およびマルチ
モーダルインタフェース方法を提供できる。また、実世
界の場所やものなどを参照するための利用者からの指し
示しジェスチャ入力に対して、その指し示し先として、
どの場所、あるいはどの物体あるいはそのどの部分を受
け取ったかを適切に表示することができるマルチモーダ
ルインタフェース装置およびマルチモーダルインタフェ
ース方法を提供できる。As described above, the user can recognize the gesture by pointing to the position away from the system or the device in a non-contact state, and input the instruction, and perform the gesture recognition without erroneous recognition. Thus, it is possible to provide a multi-modal interface device and a multi-modal interface method that can eliminate failure in gesture extraction. Also, at the time when the user starts the gesture intended to be input or at the time when the input is being performed, the user can know whether or not the system has correctly extracted the gesture input. It is possible to provide a multi-modal interface device and a multi-modal interface method that can eliminate an indispensable burden. In addition, in response to a pointing gesture input from a user for referring to a place or thing in the real world, as a pointing destination, 
 It is possible to provide a multi-modal interface device and a multi-modal interface method capable of appropriately displaying which place, which object, or which part thereof has been received.
    
       【0390】なお、第2の実施例に示した本発明は方法
としても適用できるものであり、また、上述の具体例の
中で示した処理手順、フローチャートをプログラムとし
て記述し、実装し、汎用の計算機システムで実行するこ
とによっても同様の機能と効果を得ることが可能であ
る。すなわち、この場合、図12に示したように、CP
U 301,メモリ302,大容量外部記憶装置30
3,通信インタフェース304などからなる汎用コンピ
ュータに、入力インタフェース305a〜305nと、
入力デバイス306a〜306n、そして、出力インタ
フェース307a〜307mと出力デバイス308a〜
308mを設け、入力デバイス306a〜306nとし
て、マイクやキーボード、ペンタブレット、OCR、マ
ウス、スイッチ、タッチパネル、カメラ、データグロー
ブ、データスーツといったものを使用し、そして、出力
デバイス308a〜308mとして、ディスプレイ、ス
ピーカ、フォースディスプレイ、等を用いてCPU 3
01によるソフトウエア制御により、上述の如き動作を
実現することができる。The present invention shown in the second embodiment can be applied as a method, and the processing procedures and flowcharts shown in the above-described specific examples are described as programs, implemented, and The same functions and effects can be obtained by executing the above-mentioned computer system. That is, in this case, as shown in FIG. 
 U 301, memory 302, large-capacity external storage device 30 
 3, a general-purpose computer including a communication interface 304 and the like, input interfaces 305a to 305n, 
 Input devices 306a to 306n, output interfaces 307a to 307m, and output devices 308a to 308n 
 308m, input devices 306a to 306n, such as a microphone, a keyboard, a pen tablet, an OCR, a mouse, a switch, a touch panel, a camera, a data glove, and a data suit, and as output devices 308a to 308m, CPU 3 using speakers, force display, etc. 
 01 by the software control, the above-described operation can be realized.
    
       【0391】すなわち、第1及び第2の実施例に記載し
た手法は、コンピュータに実行させることのできるプロ
グラムとして、磁気ディスク(フロッピーディスク、ハ
ードディスクなど)、光ディスク(CD−ROM、DV
Dなど)、半導体メモリなどの記録媒体に格納して頒布
することもできるので、この記録媒体を用いてコンピュ
ータにプログラムを読み込み、CPU 301に実行さ
せれば、本発明のマルチモーダル対話装置が実現できる
ことになる。In other words, the methods described in the first and second embodiments can be executed by a computer as a program such as a magnetic disk (floppy disk, hard disk, etc.), an optical disk (CD-ROM, DV 
 D) can be stored and distributed on a recording medium such as a semiconductor memory. If the computer reads a program using the recording medium and causes the CPU 301 to execute the program, the multi-modal interactive device of the present invention is realized. You can do it.
    
【0392】[0392]
       【発明の効果】以上示したように本発明は、視線検出等
の技術を用い、利用者の注視対象に応じて他メディアか
らの入力の受付可否や、認識処理、あるいは出力の提示
方法や中断、確認等を制御するようにしたものであっ
て、特に擬人化インターフェースでは例えば顔を見るこ
とによって会話を開始できるようにする等、人間同士の
コミュニケーションでの非言語メッセージの使用法や役
割をシミュレートするようにして適用したものである。
従って、本発明によれば、複数の入出力メディアを効率
的に利用し、高能率で、効果的で、利用者の負担を軽減
する、マルチモーダルインタフェースは実現することが
出来る。As described above, the present invention uses the technology of gaze detection and the like to determine whether or not to accept input from other media according to the user's gaze target, to perform recognition processing, or to present or suspend output. Simulates the use and role of non-verbal messages in human-to-human communication, such as allowing a person to start a conversation by looking at a face, especially in anthropomorphic interfaces. It is applied in such a way that 
 Therefore, according to the present invention, it is possible to realize a multi-modal interface that efficiently utilizes a plurality of input / output media, is efficient, effective, and reduces the burden on the user.
    
       【0393】また、各メディアからの入力の解析精度が
不十分であるため、たとえば、音声入力における周囲雑
音などに起因する誤認識の発生や、あるいはジェスチャ
入力の認識処理において、入力デバイスから刻々得られ
る信号のなかから、利用者が入力メッセージとして意図
した信号部分の切りだしに失敗することなどによる誤動
作が起こらないインタフェースが実現できる。また、音
声入力やジェスチャ入力など、利用者が現在の操作対象
である計算機などへの入力として用いるだけでなく、例
えば周囲の他の人間へ話しかけたりする場合にも利用さ
れるメディアを用いたインタフェース装置では、利用者
が、インタフェース装置ではなく、たとえば自分の横に
いる他人に対して話しかけたり、ジェスチャを示したり
した場合にも、インタフェース装置が自分への入力であ
ると誤って判断をして、認識処理などを行なって、誤動
作を起こり、その誤動作の取消や、誤動作の影響の復旧
や、誤動作を避けるために利用者が絶えず注意を払わな
くてはいけなくなるなどの負荷を解消することによっ
て、利用者の負担を軽減することが出来る。In addition, since the analysis accuracy of the input from each medium is insufficient, for example, in the case of occurrence of erroneous recognition due to ambient noise in voice input, or in the recognition processing of gesture input, it may be obtained from the input device every moment. An interface that does not cause a malfunction due to a failure to cut out a signal portion intended by the user as an input message from among the signals to be input can be realized. In addition, an interface using media that is used not only as an input to the computer, etc. that the user is currently operating, such as voice input and gesture input, but also used when talking to other people around, for example In the device, even if the user speaks or shows a gesture to another person besides the interface device instead of the interface device, for example, the user mistakenly judges that the interface device is an input to the user. , By performing recognition processing, etc., to cause a malfunction, cancel the malfunction, recover the effects of the malfunction, and eliminate the load that the user must constantly pay attention to avoid the malfunction Thus, the burden on the user can be reduced.
    
       【0394】また、本来不要な場面には、入力信号の処
理を継続的にして行なわないようにできるため、利用し
ている装置に関与する他のサービスの実行速度や利用効
率を向上することが出来る。Further, since it is possible to prevent the processing of the input signal from being performed continuously in a scene that is not originally required, it is possible to improve the execution speed and the use efficiency of other services related to the apparatus in use. I can do it.
    
       【0395】また、入力モードなどを変更するための特
別な操作が必要なく、利用者にとって繁雑でなく、習得
や訓練が必要でなく、利用者に負担を与えない人間同士
の会話と同様の自然なインタフェースを実現することが
出来る。Also, no special operation for changing the input mode or the like is required, it is not complicated for the user, there is no need for learning and training, and the same natural conversation as between humans without burdening the user. Interface can be realized.
    
       【0396】また、例えば音声入力は手で行なっている
作業を妨害することがなく、双方を同時に利用すること
が可能であると言う、音声メディア本来の利点を有効に
活用するインタフェースを実現することが出来る。[0396] Also, for example, an interface that effectively utilizes the inherent advantages of voice media, that voice input does not disturb the work being performed by hand and that both can be used simultaneously can be realized. Can be done.
    
       【0397】また、提示される情報が提示してすぐ消滅
したり、刻々変化したりする一過性のメディアも用いて
利用者に情報提示する際にも、利用者がそれらの情報を
受け損なうことのないインタフェースを実現することが
出来る。Also, when presenting information to a user using a temporary medium in which the information to be presented disappears immediately after presentation or changes every moment, the user fails to receive the information. Interface can be realized.
    
       【0398】また、一過性のメディアも用いて利用者に
情報提示する際、利用者が一度に受け取れる分量毎の情
報を提示し、継続する次の情報を提示する場合にも、特
別な操作が不要なインタフェースを実現することが出来
る。Also, when presenting information to a user using a transient medium, a special operation is also performed when presenting information for each amount that can be received at a time and presenting the next information to be continued. Can realize an unnecessary interface.
    
       【0399】また、従来のマルチモーダルインタフェー
ス不可能であった視線一致(アイコンタクト)、注視位
置、身振り、手振りなどのジェスチャ、顔表情など非言
語メッセージを、効果的活用することが出来る。In addition, non-verbal messages such as gaze matching (eye contact), gaze position, gestures such as gestures and hand gestures, and facial expressions, which were impossible in the conventional multi-modal interface, can be effectively used.
    
       【0400】つまり本発明によって、複数の入出力メデ
ィアを効率的に利用し、高能率で、効果的で、利用者の
負担を軽減する、インタフェースが実現できる。That is, according to the present invention, it is possible to realize an interface that uses a plurality of input / output media efficiently, is efficient, effective, and reduces the burden on the user.
    
       【0401】また、本発明は、利用者が入力を意図した
音声やジェスチャを、自然且つ、円滑に入力可能にする
ものであり、利用者からのジェスチャ入力を検知した際
に、擬人化エージェントの表情によって、ジェスチャ入
力を行う手などを随時注視したり、あるいは指し示しジ
ェスチャに対して、その参照対象を注視することによっ
て、利用者へ自然なフィードバックを提示し、さらに、
その際、利用者や擬人化エージェン卜の視界、あるいは
参照対象等の空間的位置を考慮して、擬人化エージェン
トを適切な場所に移動、表示するよう制御するようにし
たもので、このような本発明によれば、利用者が離れた
位置や、あるいは機器に接触せずに、かつ、機器を装着
せずに、遠隔で指し示しジェスチャを行うことが出来、
かつ、ジェスチャ認識方式の精度が十分に得られないた
めに発生する誤認識やジェスチャ抽出の失敗を抑制する
ことが可能となる。Further, the present invention enables a user to naturally and smoothly input voices and gestures intended for input by a user. When a gesture input from a user is detected, the anthropomorphic agent is activated. Depending on the facial expression, the user performs a gesture input at any time, or, for the pointing gesture, gazing at the reference target to present natural feedback to the user, 
 At this time, the anthropomorphic agent is controlled to be moved and displayed at an appropriate place in consideration of the view of the user and the anthropomorphic agent, or the spatial position of the reference target, etc. According to the present invention, it is possible for a user to perform a pointing gesture remotely without contacting a device at a remote location or with a device, and without wearing a device. 
 In addition, it is possible to suppress erroneous recognition and gesture extraction failure that occur due to insufficient accuracy of the gesture recognition method.
    
       【0402】また、利用者が入力意図したジェスチャを
開始した時点あるいは入力を行っている途中の時点で
は、システムが、そのジェスチャ入力を正しく抽出して
いるかどうかが分からないため、結果として誤認識を引
き起こしたり、あるいは、利用者が再度入力を行わなく
てはならなくなるなどして発生する利用者の負担を抑制
することが可能となる。また、実世界の場所やものなど
を参照するための利用者からの指し示しジェスチャ入力
に対して、その指し示し先として、どの場所、あるいは
どの物体あるいはそのどの部分を受け取ったかを適切に
表示することが可能となる。さらに、利用者の視界、お
よび擬人化エージェントから視界などを考慮した、適切
なエージェントの表情を生成し、フィードバックとして
提示することが可能となる。Also, at the point in time when the user starts a gesture intended to be input or in the middle of inputting, it is not known whether the system has correctly extracted the gesture input. It is possible to reduce the burden on the user caused by causing the user or having to perform the input again by the user. In addition, in response to a pointing gesture input from a user for referring to a place or thing in the real world, it is possible to appropriately display which place, which object, or which part has been received as the pointing destination. It becomes possible. Furthermore, it is possible to generate an appropriate expression of the agent in consideration of the field of view of the user and the field of view from the anthropomorphic agent, and to present it as feedback.
    
       【0403】さらに、前述の問題によって誘発される従
来方法の問題である、誤動作による影響の訂正や、ある
いは再度の入力によって引き起こされる利用者の負担
や、利用者の入力の際の不安による利用者の負担を解消
することができる等の実用上多大な効果が奏せられる。Further, the problem of the conventional method induced by the above-mentioned problem, such as the correction of the influence of the malfunction, the burden on the user caused by the re-input, and the user's anxiety at the time of the input by the user. Thus, a great effect can be obtained in practical use, such as the burden on the user can be eliminated.
    
       【図1】本発明を説明するための図であって、本発明の
一具体例としてのマルチモーダル装置の構成例を示す
図。FIG. 1 is a diagram for explaining the present invention, showing a configuration example of a multimodal device as one specific example of the present invention.
    
       【図2】本発明を説明するための図であって、本発明装
置において出力される注視対象情報の例を示す図。FIG. 2 is a diagram for explaining the present invention, showing an example of gaze target information output by the present invention device.
    
       【図3】本発明を説明するための図であって、本発明装
置における他メディア入力部102の構成例を示す図。FIG. 3 is a diagram for explaining the present invention, showing a configuration example of another media input unit 102 in the device of the present invention.
    
       【図4】本発明を説明するための図であって、本発明装
置における擬人化イメージ提示部103の出力を含むデ
ィスプレイ画面の例を示す図。FIG. 4 is a view for explaining the present invention, showing an example of a display screen including an output of the anthropomorphic image presentation unit 103 in the apparatus of the present invention.
    
       【図5】本発明を説明するための図であって、本発明装
置における情報出力部104の構成例を示す図。FIG. 5 is a diagram for explaining the present invention, showing a configuration example of an information output unit 104 in the device of the present invention.
    
       【図6】本発明を説明するための図であって、本発明装
置における制御部107の内部構成の例を示す図。FIG. 6 is a diagram for explaining the present invention, showing an example of an internal configuration of a control unit 107 in the device of the present invention.
    
       【図7】本発明を説明するための図であって、本発明装
置における制御規則記憶部202の内容の例を示す図。FIG. 7 is a diagram for explaining the present invention, showing an example of the contents of a control rule storage unit 202 in the device of the present invention.
    
       【図8】本発明を説明するための図であって、本発明装
置における解釈規則記憶部203の内容の例を示す図。FIG. 8 is a view for explaining the present invention, showing an example of the contents of an interpretation rule storage unit 203 in the apparatus of the present invention.
    
       【図9】本発明を説明するための図であって、本発明装
置における処理手順Aの流れを示す図。FIG. 9 is a diagram for explaining the present invention, showing a flow of a processing procedure A in the device of the present invention.
    
       【図10】本発明を説明するための図であって、本発明
装置における各時点における本装置の内部状態を説明す
る図。FIG. 10 is a diagram for explaining the present invention, illustrating the internal state of the device at each point in the device of the present invention.
    
       【図11】本発明を説明するための図であって、本発明
装置の擬人化イメージ提示部103において使用する一
例として擬人化エージェント人物の画像を示す図。FIG. 11 is a diagram for explaining the present invention, showing an image of a personification agent person as an example used in the personification image presentation unit 103 of the device of the present invention.
    
       【図12】本発明を説明するための図であって、本発明
を汎用コンピュータで実現するための装置構成例を示す
ブロック図。FIG. 12 is a diagram for explaining the present invention, and is a block diagram showing an example of a device configuration for realizing the present invention with a general-purpose computer.
    
       【図13】本発明を説明するための図であって、本発明
の第2の実施例に関わるマルチモーダルインタフェース
装置の構成例を示すブロック図。FIG. 13 is a diagram for explaining the present invention, and is a block diagram showing a configuration example of a multimodal interface device according to a second embodiment of the present invention.
    
       【図14】本発明を説明するための図であって、画像入
力を想定した場合における第2の実施例での入力部11
01および認識部1102の構成例を示すブロック図。FIG. 14 is a diagram for explaining the present invention, and illustrates an input unit 11 in a second embodiment when image input is assumed. 
 FIG. 2 is a block diagram showing a configuration example of a recognition unit and a recognition unit.
    
       【図15】本発明を説明するための図であって、本発明
の第2の実施例における配置情報記憶部1105の保持
内容の一例を示す図。FIG. 15 is a diagram for explaining the present invention, showing an example of contents held in an arrangement information storage unit 1105 according to the second embodiment of the present invention.
    
       【図16】本発明を説明するための図であって、本発明
の第2の実施例における動作例を示す状況の説明図。FIG. 16 is a diagram for explaining the present invention, and is an explanatory diagram of a situation showing an operation example in the second embodiment of the present invention.
    
       【図17】本発明を説明するための図であって、本発明
の第2の実施例における制御部1106における“<処
理手順AA>”の内容例を示すフローチャート。FIG. 17 is a diagram for explaining the present invention, and is a flowchart showing an example of the content of “<processing procedure AA>” in the control unit 1106 according to the second embodiment of the present invention.
    
       【図18】本発明を説明するための図であって、本発明
の第2の実施例における図17のフローチャートの部分
詳細を示す図。FIG. 18 is a diagram for explaining the present invention, showing a part of the flowchart of FIG. 17 in detail according to the second embodiment of the present invention;
    
       【図19】本発明を説明するための図であって、本発明
の第2の実施例における図17のフローチャートの部分
詳細を示す図。FIG. 19 is a diagram for explaining the present invention, showing a part of the flowchart of FIG. 17 in detail according to the second embodiment of the present invention;
    
       【図20】本発明を説明するための図であって、本発明
の第2の実施例における図17のフローチャートの部分
詳細を示す図。FIG. 20 is a diagram for explaining the present invention, showing a part of the flowchart of FIG. 17 in detail according to the second embodiment of the present invention;
    
101…注視対象検出部 102…他メディア入力部 102a…音声認識装置 102b…文字認識装置 102c…言語解析装置 102d…操作入力解析装置 102e…画像認識装置 102f…ジェスチャ解析装置 102g…マイク 102h…キーボード 102i…ペンタブレット 102j…OCR 102k…マウス 102l…スイッチ 102m…タッチパネル 102n…カメラ 102o…データグローブ 102p…データスーツ 103…擬人化イメージ提示部 104…情報出力部 104a…文字画像信号生成装置 104b…音声信号生成駆動装置 104c…機器制御信号生成装置 105…注意喚起部 106…反応検知部 107…制御部 201…制御処理実行部 202…制御規則記憶部 203…解釈規則記憶部。 1101…入力部 1102…認識部 1103…フィードバック生成部 1104…出力部 1105…配置情報記憶部 1106…制御部 1201…カメラ 1202…A/D変換部 1203…画像メモリ 1204…注目領域推定部 1205…照合部 1206…認識辞書記憶部 101: Gaze target detection unit 102: Other media input unit 102a: Voice recognition device 102b: Character recognition device 102c: Language analysis device 102d: Operation input analysis device 102e: Image recognition device 102f: Gesture analysis device 102g: Microphone 102h: Keyboard 102i ... pen tablet 102j ... OCR 102k ... mouse 102l ... switch 102m ... touch panel 102n ... camera 102o ... data glove 102p ... data suit 103 ... personification image presentation unit 104 ... information output unit 104a ... character image signal generation device 104b ... audio signal generation Driving device 104c: device control signal generating device 105: alerting unit 106: reaction detecting unit 107: control unit 201: control processing executing unit 202: control rule storage unit 203: interpretation rule storage unit. 1101 input unit 1102 recognition unit 1103 feedback generation unit 1104 output unit 1105 placement information storage unit 1106 control unit 1201 camera 1202 A / D conversion unit 1203 image memory 1204 attention area estimation unit 1205 verification Unit 1206: recognition dictionary storage unit
───────────────────────────────────────────────────── フロントページの続き (72)発明者 屋野 武秀 兵庫県神戸市東灘区本山南町8丁目6番26 号 株式会社東芝関西研究所内 (72)発明者 田中 克己 兵庫県神戸市東灘区本山南町8丁目6番26 号 株式会社東芝関西研究所内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Takehide Yano 8-6-26 Motoyama Minamicho, Higashinada-ku, Kobe City, Hyogo Prefecture Inside the Toshiba Kansai Research Institute Co., Ltd. 8-6-26 Toshiba Kansai Research Institute Co., Ltd.
Claims (21)
報及び利用者の動作情報のうち、少なくとも一つ以上の
情報を受け、その情報の中から対象装置の制御に必要な
情報を選別する制御手段と、を備えたことを特徴とする
マルチモーダルインタフェース装置。1. A detecting means for detecting a gaze target of a user, and receiving at least one or more of voice input information, operation input information, image input information, and user operation information of the user, A control unit for selecting information necessary for controlling the target device from the information, a multimodal interface device.
ジェント画像を供給する擬人化イメージ提供手段と、 前記利用者の注視対象を検出する検出手段と、 前記利用者の音声入力情報、操作入力情報、画像入力情
報のうち、少なくとも一つ以上の入力情報を取得するメ
ディア入力手段と、 前記検出手段により得られる注視対象情報を基に、前記
利用者の注視対象が擬人化イメージ提示手段により提示
されるエージェント画像のいずれの部分かを認識して、
その認識結果とエージェント画像の状態に応じ前記メデ
ィア入力認識手段からの入力の受付選択をする制御手段
と、を備えたことを特徴とするマルチモーダルインタフ
ェース装置。2. An anthropomorphic image providing means for supplying an anthropomorphized agent image corresponding to a user; a detecting means for detecting a gaze target of the user; voice input information of the user; Input information, media input means for acquiring at least one or more input information among image input information, and a gaze target of the user is provided by anthropomorphic image presentation means based on gaze target information obtained by the detection means. Recognizing which part of the presented agent image,
Control means for receiving and selecting an input from the media input recognition means according to the recognition result and the state of the agent image.
化されたエージェン卜人物の画像であって、該エージェ
ント人物画像は前記利用者に、所要のジェスチャ、表情
変化を持つ画像による非言語メッセージとして当該画像
を提示する擬人化イメージ提示手段と、 前記注視対象情報を参照して、メディア入力認識手段か
らの入力の受付選択する際に、擬人化イメージ提示手段
を通じて前記利用者への非言語メッセージによる信号を
提示すべく制御する制御手段と、を具備したことを特徴
とする請求項2に記載のマルチモーダルインタフェース
装置。3. An image of an anthropomorphized agent person who provides a service in a face-to-face manner with a user, wherein the agent person image is a non-verbal image by an image having a required gesture and facial expression change. Anthropomorphic image presenting means for presenting the image as a message, non-verbal communication to the user through the anthropomorphic image presenting means when the input from the media input recognizing means is selected by referring to the gaze target information. 3. The multimodal interface device according to claim 2, further comprising control means for performing control so as to present a signal based on a message.
情報を出力する情報出力手段と、 利用者への音声情報、操作情報、画像情報のうち、少な
くとも一つ以上の情報を受け、その情報の中から対象装
置の制御に必要な情報を選別する第1の制御手段と前記
注視対象情報を参照して、少なくとも一つの情報出力手
段の、出力の開始、終了、中断、再開、あるいは提示速
度の調整動作を制御する第2の制御手段と、を備したこ
とを特徴とするマルチモーダルインタフェース装置。4. A detecting means for detecting a gaze target of a user, an information output means for outputting voice information or operation information or image information to the user, a voice information, operation information or image for the user First control means for receiving at least one or more pieces of information from among the information and selecting information necessary for controlling the target apparatus from the information, and at least one information output means by referring to the gazing target information; A second control means for controlling an output start, end, interruption, restart, or adjustment operation of the presentation speed.
報のうち、少なくとも一つ以上の情報を取得するメディ
ア入力手段と、 利用者と対面してサービスを提供する擬人化されたエー
ジェント人物の画像であって、該エージェント人物画像
は利用者に所要のジェスチャ、表情変化を持つ画像によ
る非言語メッセージとして当該画像を提示する擬人化イ
メージ提示手段と、 文字情報、音声情報、静止画像情報、動画像情報の少な
くとも一つの信号の提示により、前記利用者に対して情
報を出力する情報出力手段と、 前記擬人化イメージ提示手段を通しての非言語メッセー
ジの提示により、前記利用者の注意を喚起する注意喚起
手段と、 注視対象情報あるいは、前記メディア入力手段からの入
力情報のうち、少なくとも一つの情報を参照して、前記
注意喚起のための信号に対する利用者の反応を検知し、
利用者反応情報として出力する反応検知手段と、 該注視対象情報に応じて、少なくとも一つのメディア入
力処理手段の、入力受付可否、処理あるいは認識動作の
開始、終了、中断、再開、処理レベル調整の動作を制御
し、注視対象情報を参照してメディア入力認識手段から
の入力を受付可否を切替える際に、利用者へ、文字情
報、音声情報、静止画像情報、動画像情報、あるいは擬
人化イメージ提示手段を通じて利用者への非言語メッセ
ージによる信号を提示すべく制御し、該注視対象情報を
参照して、少なくとも一つの情報出力手段の、出力の開
始、終了、中断、再開、処理レベル調整の動作を制御
し、情報出力手段から情報を提示する際に、注視対象情
報に応じて、注意喚起手段を通じて、前記利用者の注意
を喚起するための信号を提示するよう制御し、前記利用
者反応情報の内容に応じて、情報出力手段の動作および
注意喚起手段の少なくとも一つを制御する制御手段と、
を具備したことを特徴とするマルチモーダルインタフェ
ース装置。5. A detecting means for detecting a gaze target of a user, a media input means for acquiring at least one or more of voice input information, operation input information, and image input information of the user; An image of an anthropomorphic agent person providing a service in a face-to-face manner, wherein the agent person image is presented to the user as a non-verbal message with an image having a required gesture and facial expression change. Image presenting means, information output means for outputting information to the user by presenting at least one signal of character information, audio information, still image information, and moving image information; and An alerting means for alerting the user by presenting a non-verbal message; Of the input information, by referring to at least one of information to detect the reaction of the user with respect to the signal for the reminder,
Response detection means for outputting as user response information, and at least one media input processing means for accepting input, starting, ending, suspending, resuming, and processing level adjustment of at least one media input processing means according to the gaze target information. When controlling the operation and switching the acceptability of the input from the media input recognition means by referring to the gaze target information, presenting the character information, voice information, still image information, moving image information, or anthropomorphic image to the user Means for controlling the presentation of a non-verbal message to the user through the means, and referring to the watch target information, at least one of the information output means for starting, ending, suspending, resuming, and adjusting the processing level. When presenting information from the information output means, presents a signal for calling the user's attention through the attention calling means in accordance with the gaze target information. Control means for controlling the operation of the information output means and at least one of the alerting means according to the content of the user reaction information,
A multimodal interface device comprising:
の操作情報などのうち、少なくとも一つの情報への処理
について、前記注視対象情報に応じて、入力受付の選
択、処理あるいは認識動作の開始、終了、中断、再開、
処理レベルの調整の動作を制御することを特徴とするマ
ルチモーダルインタフェース方法。6. A gaze target of a user is detected, and processing on at least one of the user's voice, gesture, operation information of the user by operation means, and the like is performed according to the gaze target information. , Selection of input reception, start, end, suspension, restart of processing or recognition operation,
A multimodal interface method, wherein an operation of adjusting a processing level is controlled.
ビスを提供する擬人化されたエージェント人物の画像を
画像情報として利用者へ提示し、 また、注視対象情報を基に、注視対象が前記エージェン
卜人物画像のどの部分かに応じて、前記利用者の音声、
ジェスチャ、操作手段による利用者の操作情報の受付を
選別することを特徴とするマルチモーダルインタフェー
ス方法。7. An image of an anthropomorphic agent person who detects a gaze target of a user, changes in response to a situation, and provides a service facing the user, and presents the image to the user as image information. Further, based on the gaze target information, depending on which part of the agent person image the gaze target is, the voice of the user,
A multimodal interface method, wherein selection of acceptance of operation information of a user by a gesture and operation means is selected.
像情報の少なくとも一つの信号の提示によって、利用者
に情報を提供するにあたり、利用者の注視対象を検出
し、この検出された注視対象情報を参照して、前記提示
の開始、終了、中断、再開、処理レベル調整の動作を制
御することを特徴とするマルチモーダルインタフェース
方法。8. A system for providing a user with information by presenting at least one signal of character information, audio information, still image information, and moving image information, detects a user's gaze target, and detects the detected gaze. A multi-modal interface method comprising controlling the operations of starting, ending, suspending, resuming, and adjusting the processing level with reference to target information.
ース方法において、 情報を提示する際に、注視対象情報に応じて、利用者
へ、文字情報、音声情報、静止画像情報、動画像情報の
少なくとも一つの信号の提示によって、利用者の注意を
喚起することを特徴とするマルチモーダルインタフェー
ス方法。9. The multimodal interface method according to claim 8, wherein when presenting information, at least one of character information, voice information, still image information, and moving image information is provided to the user according to the gaze target information. A multimodal interface method characterized by calling a user's attention by presenting two signals.
ェース方法において、 注意喚起のための信号に対する利用者の反応を検知し、
利用者反応情報として得ると共に、 利用者反応情報内容に応じて、利用者の音声入力情報、
操作入力情報、画像入力情報の取得および注意喚起の少
なくとも一つを制御するマルチモーダルインタフエース
方法。10. The multimodal interface method according to claim 9, wherein a reaction of a user to a signal for alerting is detected,
In addition to obtaining user response information, the user's voice input information,
A multi-modal interface method for controlling at least one of acquisition of operation input information and image input information and alerting.
報として出力し、 前記利用者に対面してサービスを提供する擬人化された
エージェント人物画像であって該エージェント人物画像
は前記利用者に所要のジェスチャ、表情変化を持つ画像
による非言語メッセージとして提示するようにし、 また、文字情報、音声情報、静止画像情報、動画像情報
の少なくとも一つの信号の提示によって、前記利用者に
情報を出力し、 前記利用者の音声入力情報、ジェスチャ入力情報、操作
入力情報のうち、少なくとも一つ以上の情報を受け、処
理を行なう際に、注視対象情報に応じて、入力受付可
否、処理あるいは認識動作の開始、終了、中断、再開、
処理レベル調整の動作を制御することを特徴とするマル
チモーダルインタフェース方法。11. An anthropomorphic agent person image for detecting a user's gaze target and outputting as gaze target information, and providing a service to the user, wherein the agent person image is the user's Required gesture, a non-verbal message by an image having a change in facial expression, and, by presenting at least one signal of character information, audio information, still image information, and moving image information, information is provided to the user. When receiving and processing at least one of the user's voice input information, gesture input information, and operation input information, when performing processing, input acceptability, processing or recognition is performed according to the gaze target information. Start, end, suspend, resume,
A multi-modal interface method, wherein the operation of processing level adjustment is controlled.
フェース方法において、 注視対象情報を参照して、入力の受付可否を切替える際
に、利用者へ、文字情報、音声情報、静止画像情報、動
画像情報あるいは、擬人化イメージ人物画像により所要
の提示をすることを特徴とするマルチモーダルインタフ
ェース方法。12. The multimodal interface method according to claim 11, wherein when switching the acceptability of the input with reference to the gaze target information, the user is provided with character information, voice information, still image information, and moving image information. Alternatively, a multimodal interface method in which required presentation is performed using a personified image person image.
入力情報として得る入力手段と、 該入力手段から得られる該入力情報を処理して、該利用
者からの入力の受け付け状況を、動作状況情報として出
力する入力認識手段と、 警告音、合成音声、文字列、画像、あるいは動画のう
ち、少なくとも一つを反応結果として利用者に提示する
出力手段と、 前記入力認識手段から得られる動作状況情報に応じて、
利用者に提示する反応結果を得るべく前記出力手段を制
御する制御手段とを具備したことを特徴とするマルチモ
ーダルインタフェース装置。13. An input means for receiving various information from a user as needed to obtain input information, and processing the input information obtained from the input means to determine whether or not input from the user has been accepted. An input recognition unit that outputs information, an output unit that presents at least one of a warning sound, a synthesized voice, a character string, an image, and a moving image to a user as a reaction result, and an operation state obtained from the input recognition unit Depending on the information,
A control unit for controlling the output unit so as to obtain a reaction result to be presented to a user.
ロフォン、あるいは利用者の動作や表情などを観察する
カメラ、あるいは利用者の目の動きを検出するアイトラ
ッカ、あるいは頭部の動きを検知するヘッドトラッカ、
あるいは利用者の手や足など体の一部あるいは全体の動
きを検知する動きセンサ、あるいは利用者の接近、離
脱、着席などを検知する対人センサなどのうち少なくと
も一つからなり、利用者からの入力を随時取り込み入力
情報として出力する入力手段と、 該入力手段から得られる入力情報を受け、音声検出処
理、音声認識、形状検出処理、画像認識、ジェスチャ認
識、表情認識、視線検出処理、あるいは動作認識処理の
うち、前記入力情報の種別に対応した必要な処理を施す
ことにより利用者からの入力の受付状況を動作状況情報
として出力する入力認識手段と、 警告音、合成音声、文字列、画像のうち、少なくともい
ずれかにより、利用者に対する反応として利用者に提示
する出力手段と、 前記入力認識手段から得られる動作状況情報に応じて、
利用者に提示する反応結果を得るべく前記出力手段を制
御する制御手段とを具備したことを特徴とするマルチモ
ーダルインタフェース装置。14. A microphone for taking in a voice input from a user, a camera for observing a user's movement or facial expression, an eye tracker for detecting a user's eye movement, or a head tracker for detecting a head movement. ,
Or, it consists of at least one of a motion sensor that detects the movement of part or all of the body such as the user's hands and feet, or an interpersonal sensor that detects the approach, departure, or seating of the user. An input means for taking in an input as needed and outputting it as input information; receiving input information obtained from the input means, and performing voice detection processing, voice recognition, shape detection processing, image recognition, gesture recognition, facial expression recognition, gaze detection processing, or operation An input recognizing unit that performs a necessary process corresponding to the type of the input information in the recognition process to output a reception status of an input from a user as operation status information; a warning sound, a synthesized voice, a character string, and an image Output means for presenting to the user as a response to the user by at least one of the following: operation state information obtained from the input recognition means; And Flip,
A control unit for controlling the output unit so as to obtain a reaction result to be presented to a user.
り込み、画像情報として出力する入力手段と、 該入力手段から得られる画像情報からジェスチャ入力を
抽出し、これら各処理の進行状況を動作状況情報として
随時出力する入力認識手段と、 該入力認識手段から得られる該動作状況情報に応じて、
利用者による入力対応の反応を文字列、画像、あるいは
音信号のいずれかで提示する手段と、を備えることを特
徴とするマルチモーダルインタフェース装置。15. An input means for capturing an image of a user by an image obtaining means and outputting it as image information; extracting a gesture input from the image information obtained from the input means; An input recognizing unit that outputs as needed, and according to the operation status information obtained from the input recognizing unit,
Means for presenting a response to a user's input as a character string, an image, or a sound signal.
ロフォン、あるいは利用者の動作や表情などを観察する
カメラ、あるいは利用者の目の動きを検出するアイトラ
ッカ、あるいは頭部の動きを検知するヘッドトラッカ、
あるいは利用者の手や足など体の一部あるいは全体の動
きを検知する動きセンサ、あるいは利用者の接近、離
脱、着席などを検知する対人センサなどのうち少なくと
も一つからなり、利用者からの入力を随時取り込み入力
情報として出力する入力手段と、 該入力手段から得られる入力情報を受け、音声検出処
理、音声認識、形状検出処理、画像認識、ジェスチャ認
識、表情認識、視線検出処理、あるいは動作認識処理の
うち、前記入力情報の種別に対応した必要な処理を施す
ことにより利用者からの入力の受付状況を動作状況情報
として出力する入力認識手段と、 前記入力手段から得られる入力情報、および前記入力認
識手段から得られる動作状況情報の少なくとも一方の内
容に応じて、利用者へのフィードバックとして提示すべ
き情報を生成するフィードバック情報生成手段と、を具
備したことを特徴とするマルチモーダルインタフェース
装置。16. A microphone for taking in a voice input from a user, a camera for observing a user's movement and facial expression, an eye tracker for detecting a user's eye movement, or a head tracker for detecting a head movement. ,
Or, it consists of at least one of a motion sensor that detects the movement of part or all of the body such as the user's hands and feet, or an interpersonal sensor that detects the approach, departure, or seating of the user. An input means for taking in an input as needed and outputting it as input information; receiving input information obtained from the input means, and performing voice detection processing, voice recognition, shape detection processing, image recognition, gesture recognition, facial expression recognition, gaze detection processing, or operation Among the recognition processing, input recognition means for outputting a reception state of an input from a user as operation state information by performing necessary processing corresponding to the type of the input information, and input information obtained from the input means, and According to at least one of the operation status information obtained from the input recognition means, information to be presented as feedback to the user Multimodal interface device being characterized in that includes a feedback information generating means for forming, the.
人化されたエージェント人物の画像情報を、利用者提示
用の擬人化イメージとして生成するフィードバック情報
生成手段と、 入力認識手段から得られる動作状況情報に応じて、利用
者に提示すべき擬人化イメージの表情あるいは動作の少
なくとも一方を決定し、出力手段を通じて、利用者がジ
ェスチャ表現を実現している部位を注視する表情である
フィードバック情報を生成するフィードバック情報生成
手段と、 前記フィードバック情報生成手段によって生成されたフ
ィードバック情報を、出力手段から利用者へのフィード
バック情報として提示する制御手段と、を具備したこと
を特徴とする請求項16記載のマルチモーダルインタフ
ェース装置。17. An operation obtained from feedback information generating means for generating image information of an anthropomorphized agent person who provides a service facing a user as an anthropomorphic image for user presentation, and operation obtained from input recognition means. According to the situation information, at least one of the facial expression or the motion of the anthropomorphic image to be presented to the user is determined, and through the output means, the feedback information that is the facial expression that the user gazes at the part where the gesture expression is realized is provided. 17. The apparatus according to claim 16, comprising: feedback information generating means for generating; and control means for presenting the feedback information generated by the feedback information generating means as feedback information from an output means to a user. Multimodal interface device.
の空間的位置に関する情報、および利用者の空間的位置
に関する情報の少なくとも一つを配置情報として保持す
る配置情報記憶手段と、 利用者の入力した指し示しジェスチャの参照物、利用
者、利用者の顔や手などの空間位置を表す位置情報を出
力する入力認識手段と、 前記配置情報記憶手段から得られる配置情報と、前記入
力認識手段から得られる位置情報と、動作状況情報との
少なくとも一つを参照して、擬人化エージェントの動
作、あるいは表情あるいは制御タイミングの少なくとも
一つを決定し、フィードバック情報として出力するフィ
ードバック手段と、を具備したことを特徴とする請求項
17のマルチモーダルインタフェース装置。18. An arrangement information storage means for holding at least one of information on a spatial position of an input means, information on a spatial position of an output means, and information on a spatial position of a user as arrangement information; An input recognition unit that outputs position information representing a spatial position such as a reference object of the input pointing gesture, a user, a user's face or a hand, and arrangement information obtained from the arrangement information storage unit, and from the input recognition unit. Feedback means for determining at least one of the operation of the anthropomorphic agent, the facial expression, or the control timing by referring to at least one of the obtained position information and the operation status information, and outputting the information as feedback information. The multimodal interface device according to claim 17, wherein:
作や表情などを示す画像、あるいは利用者の体の一部あ
るいは全体の動き、あるいは利用者の接近、離脱、着席
などの検知情報のうち少なくとも一つからなり、利用者
からの入力情報として出力する入力ステップと、 該入力ステップにより得られる入力情報をもとに、音声
検出処理、音声認識、形状検出処理、画像認識、ジェス
チャ認識、表情認識、視線検出処理、あるいは動作認識
処理のうち、入力情報種別に応じた処理を施すことによ
り、該利用者からの入力の受け付け状況を、動作状況情
報として出力する入力認識ステップと、 利用者からの入力に対する反応の結果を、入力認識ステ
ップによって得られる動作状況情報に基づいて、警告
音、合成音声、文字列、画像のいずれかにより利用者に
提示するステップと、を備えることを特徴とするマルチ
モーダルインタフェース方法。19. An image of a voice from a user, an image showing a user's motion or facial expression, or a detection of information such as movement of a part or whole of the user's body, approaching, leaving, or sitting on the user. An input step consisting of at least one of the above, and outputting as input information from a user; based on the input information obtained by the input step, a voice detection process, a voice recognition, a shape detection process, an image recognition, a gesture recognition, An input recognition step of performing a process corresponding to the type of input information among facial expression recognition, gaze detection processing, or motion recognition processing to output a reception status of an input from the user as motion status information; Based on the operation status information obtained by the input recognition step, the result of the response to the input from the Multimodal interaction method characterized by comprising the steps of: presenting a more user.
人化されたエージェント人物の画像情報を、入力認識ス
テップから得られる動作状況情報に応じて、利用者に提
示すべき擬人化イメージ情報として生成するフィードバ
ック情報生成ステップと、 利用者からの入力がなされた時点でその反応として擬人
化エージェントによる反応の表情を提示する利用者フィ
ードバック提示ステップと、を具備することを特徴とす
る請求項19記載のマルチモーダルインタフエース方
法。20. Anthropomorphic image information of an anthropomorphized agent person who provides a service facing a user as anthropomorphic image information to be presented to a user in accordance with operation status information obtained from an input recognition step. 20. The method according to claim 19, further comprising: a feedback information generating step of generating; and a user feedback presenting step of presenting a facial expression of a response by the anthropomorphic agent as a response when an input from the user is made. Multi-modal interface method.
作や表情などを示す画像、あるいは利用者の体の一部あ
るいは全体の動き、あるいは利用者の接近、離脱、着席
などの検知情報のうち少なくとも一つからなり、利用者
からの入力情報として出力する入力ステップと、 入力ステップにより得られる入力情報に対し、音声検出
処理、音声認識、形状検出処理、画像認識、ジェスチャ
認識、表情認識、視線検出処理、あるいは動作認識処理
のうち、入力情報種別に応じた処理を施すことにより、
該利用者からの入力の受け付け状況を、動作状況情報と
して出力する入力認識ステップと、 利用者の入力した指し示しジェスチャの参照物、利用
者、利用者の特定部位の空間位置に関する情報を出力す
る認識ステップと、 入力部の空間的位置、および出力部の空間的位置に関す
る情報、および利用者の空間的位置に関する情報の少な
くとも一つを配置情報として保持する配置情報記憶ステ
ップと、 利用者からの入力に対する反応の結果を、入力認識ステ
ップによって得られる動作状況情報に基づいて、警告
音、合成音声、文字列、画像のいずれかにより利用者に
提示し、また、位置情報、および配置情報、動作状況情
報の少なくとも一つに応じて、利用者の指し示しジェス
チャに対する反応画像を提示するステップと、からなる
マルチモーダルインタフェース方法。21. Voices from the user, images showing the user's movements and facial expressions, etc., or movements of part or all of the user's body, or detection information of the user's approach, departure, seating, etc. An input step of outputting at least one of the input information from the user, and a voice detection process, a voice recognition, a shape detection process, an image recognition, a gesture recognition, a facial expression recognition, By performing processing according to the input information type in the eye gaze detection processing or the motion recognition processing,
An input recognition step of outputting an input reception status from the user as operation status information; and a recognition step of outputting information relating to a reference object of the pointing gesture input by the user, the user, and a spatial position of a specific part of the user. A step, an arrangement information storage step of storing at least one of information on a spatial position of the input unit, information on a spatial position of the output unit, and information on a spatial position of the user as arrangement information; and an input from the user. The result of the reaction to is presented to the user as a warning sound, a synthesized voice, a character string, or an image based on the operation status information obtained by the input recognition step, and the position information, the arrangement information, and the operation status are displayed. Presenting a reaction image to the user's pointing gesture according to at least one of the information. Le interface method.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP30395397A JP3886074B2 (en) | 1997-02-28 | 1997-11-06 | Multimodal interface device | 
| US09/030,213 US6118888A (en) | 1997-02-28 | 1998-02-25 | Multi-modal interface apparatus and method | 
| US09/593,296 US6345111B1 (en) | 1997-02-28 | 2000-06-13 | Multi-modal interface apparatus and method | 
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP9-46752 | 1997-02-28 | ||
| JP4675297 | 1997-02-28 | ||
| JP30395397A JP3886074B2 (en) | 1997-02-28 | 1997-11-06 | Multimodal interface device | 
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2004000494A Division JP2004192653A (en) | 1997-02-28 | 2004-01-05 | Multimodal interface device and multimodal interface method | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JPH10301675A true JPH10301675A (en) | 1998-11-13 | 
| JP3886074B2 JP3886074B2 (en) | 2007-02-28 | 
Family
ID=26386872
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP30395397A Expired - Fee Related JP3886074B2 (en) | 1997-02-28 | 1997-11-06 | Multimodal interface device | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP3886074B2 (en) | 
Cited By (26)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2000200125A (en) * | 1998-12-30 | 2000-07-18 | Fuji Xerox Co Ltd | Interface | 
| JP2000209378A (en) * | 1999-01-20 | 2000-07-28 | Ricoh Co Ltd | Image forming device | 
| EP1031935A3 (en) * | 1999-02-25 | 2003-01-15 | Kabushiki Kaisha Toshiba | Electronic commerce apparatus and electronic commerce method for improving a sales efficiency, and recording medium for storing electronic commerce programs | 
| JP2003520528A (en) * | 2000-01-20 | 2003-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Multimodal video target acquisition and redirection system and method | 
| JP2004527808A (en) * | 2000-10-30 | 2004-09-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Self-updating user interface / entertainment device that simulates personal interaction | 
| JP2005164944A (en) * | 2003-12-02 | 2005-06-23 | Canon Inc | Operation parameter determination device, electronic device, speech synthesizer, dialogue system, operation parameter determination method, and computer-readable control program | 
| JP2006295251A (en) * | 2005-04-05 | 2006-10-26 | Canon Inc | Imaging device for monitoring and control method thereof | 
| JP2006302009A (en) * | 2005-04-21 | 2006-11-02 | Mitsubishi Electric Corp | User interface device, home appliance / residential equipment, and user interface presentation method | 
| JP2009525529A (en) * | 2006-02-01 | 2009-07-09 | トビー テクノロジー アーベー | Generating graphical feedback in computer systems | 
| WO2010064361A1 (en) * | 2008-12-02 | 2010-06-10 | ブラザー工業株式会社 | Head-mounted display | 
| JP2010134152A (en) * | 2008-12-04 | 2010-06-17 | Brother Ind Ltd | Head-mounted display | 
| KR20100119250A (en) * | 2009-04-30 | 2010-11-09 | 삼성전자주식회사 | Appratus for detecting voice using motion information and method thereof | 
| US7966188B2 (en) | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages | 
| JP2011209787A (en) * | 2010-03-29 | 2011-10-20 | Sony Corp | Information processor, information processing method, and program | 
| WO2012120959A1 (en) * | 2011-03-04 | 2012-09-13 | 株式会社ニコン | Electronic apparatus, processing system, and processing program | 
| JP2012185633A (en) * | 2011-03-04 | 2012-09-27 | Nikon Corp | Electronic apparatus, processing system, and processing program | 
| JP2014048936A (en) * | 2012-08-31 | 2014-03-17 | Omron Corp | Gesture recognition device, control method thereof, display equipment, and control program | 
| US8886458B2 (en) | 2012-05-29 | 2014-11-11 | Fujitsu Limited | Neighborhood creating device, neighborhood creating method, and computer-readable recording medium storing program | 
| WO2016052501A1 (en) * | 2014-09-29 | 2016-04-07 | 株式会社Nttドコモ | User interface device, program, and content notification method | 
| WO2016177256A1 (en) * | 2015-05-06 | 2016-11-10 | 阿里巴巴集团控股有限公司 | Method and apparatus for controlling display device | 
| JP2017204252A (en) * | 2016-05-14 | 2017-11-16 | 株式会社ユピテル | System and program | 
| WO2017221492A1 (en) * | 2016-06-20 | 2017-12-28 | ソニー株式会社 | Information processing device, information processing method, and program | 
| WO2019202804A1 (en) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | Speech processing device and speech processing method | 
| JP2020080116A (en) * | 2018-11-14 | 2020-05-28 | 本田技研工業株式会社 | Control device, agent apparatus, and program | 
| JP2021530814A (en) * | 2018-07-23 | 2021-11-11 | マジック リープ, インコーポレイテッドMagic Leap, Inc. | Methods and systems for resolving hemispherical ambiguities using position vectors | 
| WO2021234839A1 (en) * | 2020-05-20 | 2021-11-25 | 三菱電機株式会社 | Conversation indication detection device and conversation indication detection method | 
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| WO2019087495A1 (en) * | 2017-10-30 | 2019-05-09 | ソニー株式会社 | Information processing device, information processing method, and program | 
| US20200353366A1 (en) * | 2019-05-10 | 2020-11-12 | Golden Poppy, Inc. | System and method for augmented reality game system | 
- 
        1997
        - 1997-11-06 JP JP30395397A patent/JP3886074B2/en not_active Expired - Fee Related
 
Cited By (32)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2000200125A (en) * | 1998-12-30 | 2000-07-18 | Fuji Xerox Co Ltd | Interface | 
| JP2000209378A (en) * | 1999-01-20 | 2000-07-28 | Ricoh Co Ltd | Image forming device | 
| EP1031935A3 (en) * | 1999-02-25 | 2003-01-15 | Kabushiki Kaisha Toshiba | Electronic commerce apparatus and electronic commerce method for improving a sales efficiency, and recording medium for storing electronic commerce programs | 
| JP2003520528A (en) * | 2000-01-20 | 2003-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Multimodal video target acquisition and redirection system and method | 
| JP2004527808A (en) * | 2000-10-30 | 2004-09-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Self-updating user interface / entertainment device that simulates personal interaction | 
| US7966188B2 (en) | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages | 
| JP2005164944A (en) * | 2003-12-02 | 2005-06-23 | Canon Inc | Operation parameter determination device, electronic device, speech synthesizer, dialogue system, operation parameter determination method, and computer-readable control program | 
| JP2006295251A (en) * | 2005-04-05 | 2006-10-26 | Canon Inc | Imaging device for monitoring and control method thereof | 
| JP2006302009A (en) * | 2005-04-21 | 2006-11-02 | Mitsubishi Electric Corp | User interface device, home appliance / residential equipment, and user interface presentation method | 
| US9760170B2 (en) | 2006-02-01 | 2017-09-12 | Tobii Ab | Generation of graphical feedback in a computer system | 
| JP2009525529A (en) * | 2006-02-01 | 2009-07-09 | トビー テクノロジー アーベー | Generating graphical feedback in computer systems | 
| US10452140B2 (en) | 2006-02-01 | 2019-10-22 | Tobii Ab | Generation of graphical feedback in a computer system | 
| US9213404B2 (en) | 2006-02-01 | 2015-12-15 | Tobii Technology Ab | Generation of graphical feedback in a computer system | 
| WO2010064361A1 (en) * | 2008-12-02 | 2010-06-10 | ブラザー工業株式会社 | Head-mounted display | 
| JP2010134057A (en) * | 2008-12-02 | 2010-06-17 | Brother Ind Ltd | Head-mounted display | 
| JP2010134152A (en) * | 2008-12-04 | 2010-06-17 | Brother Ind Ltd | Head-mounted display | 
| KR20100119250A (en) * | 2009-04-30 | 2010-11-09 | 삼성전자주식회사 | Appratus for detecting voice using motion information and method thereof | 
| US9443536B2 (en) | 2009-04-30 | 2016-09-13 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting voice based on motion information | 
| JP2011209787A (en) * | 2010-03-29 | 2011-10-20 | Sony Corp | Information processor, information processing method, and program | 
| WO2012120959A1 (en) * | 2011-03-04 | 2012-09-13 | 株式会社ニコン | Electronic apparatus, processing system, and processing program | 
| JP2012185633A (en) * | 2011-03-04 | 2012-09-27 | Nikon Corp | Electronic apparatus, processing system, and processing program | 
| US8886458B2 (en) | 2012-05-29 | 2014-11-11 | Fujitsu Limited | Neighborhood creating device, neighborhood creating method, and computer-readable recording medium storing program | 
| JP2014048936A (en) * | 2012-08-31 | 2014-03-17 | Omron Corp | Gesture recognition device, control method thereof, display equipment, and control program | 
| WO2016052501A1 (en) * | 2014-09-29 | 2016-04-07 | 株式会社Nttドコモ | User interface device, program, and content notification method | 
| JPWO2016052501A1 (en) * | 2014-09-29 | 2017-04-27 | 株式会社Nttドコモ | User interface device, program, and content notification method | 
| WO2016177256A1 (en) * | 2015-05-06 | 2016-11-10 | 阿里巴巴集团控股有限公司 | Method and apparatus for controlling display device | 
| JP2017204252A (en) * | 2016-05-14 | 2017-11-16 | 株式会社ユピテル | System and program | 
| WO2017221492A1 (en) * | 2016-06-20 | 2017-12-28 | ソニー株式会社 | Information processing device, information processing method, and program | 
| WO2019202804A1 (en) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | Speech processing device and speech processing method | 
| JP2021530814A (en) * | 2018-07-23 | 2021-11-11 | マジック リープ, インコーポレイテッドMagic Leap, Inc. | Methods and systems for resolving hemispherical ambiguities using position vectors | 
| JP2020080116A (en) * | 2018-11-14 | 2020-05-28 | 本田技研工業株式会社 | Control device, agent apparatus, and program | 
| WO2021234839A1 (en) * | 2020-05-20 | 2021-11-25 | 三菱電機株式会社 | Conversation indication detection device and conversation indication detection method | 
Also Published As
| Publication number | Publication date | 
|---|---|
| JP3886074B2 (en) | 2007-02-28 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| JP3886074B2 (en) | Multimodal interface device | |
| US6118888A (en) | Multi-modal interface apparatus and method | |
| US11409497B2 (en) | Hands-free navigation of touch-based operating systems | |
| EP3616050B1 (en) | Apparatus and method for voice command context | |
| WO2021242451A1 (en) | Hand gesture-based emojis | |
| JP2004192653A (en) | Multimodal interface device and multimodal interface method | |
| WO2017104207A1 (en) | Information processing device, information processing method, and program | |
| JP2019197499A (en) | Program, recording medium, augmented reality presentation device, and augmented reality presentation method | |
| US11947752B2 (en) | Customizing user interfaces of binary applications | |
| EP1466238A2 (en) | Method and apparatus for a gesture-based user interface | |
| JP3753882B2 (en) | Multimodal interface device and multimodal interface method | |
| KR20080104099A (en) | Input device and its input method | |
| JPH11249773A (en) | Multimodal interface device and multimodal interface method | |
| US10514755B2 (en) | Glasses-type terminal and control method therefor | |
| US20240231580A9 (en) | System and method for multi modal input and editing on a human machine interface | |
| JP2018077417A (en) | Display system, program, and display control method | |
| JP2019086858A (en) | Customer service system and customer service method | |
| CN108369451B (en) | Information processing apparatus, information processing method, and computer-readable storage medium | |
| JP2020155944A (en) | Speaker detection system, speaker detection method, and program | |
| JP2000187553A (en) | Input device and head mount display for input device | |
| US10558951B2 (en) | Method and arrangement for generating event data | |
| US11935449B2 (en) | Information processing apparatus and information processing method | |
| US11074024B2 (en) | Mobile device for interacting with docking device and method for controlling same | |
| US20230079969A1 (en) | Information processing apparatus, information processing method, and storage medium | |
| JP2002108388A (en) | Interactive device and recording medium storing interactive processing program | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A521 | Request for written amendment filed | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040105 | |
| A02 | Decision of refusal | Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040203 | |
| A521 | Request for written amendment filed | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040405 | |
| RD02 | Notification of acceptance of power of attorney | Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050415 | |
| RD04 | Notification of resignation of power of attorney | Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 | |
| A521 | Request for written amendment filed | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061024 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061120 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20091201 Year of fee payment: 3 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20101201 Year of fee payment: 4 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 5 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20131201 Year of fee payment: 7 | |
| LAPS | Cancellation because of no payment of annual fees |