[go: up one dir, main page]

JP2019175432A - Dialogue control device, dialogue system, dialogue control method, and program - Google Patents

Dialogue control device, dialogue system, dialogue control method, and program Download PDF

Info

Publication number
JP2019175432A
JP2019175432A JP2018247382A JP2018247382A JP2019175432A JP 2019175432 A JP2019175432 A JP 2019175432A JP 2018247382 A JP2018247382 A JP 2018247382A JP 2018247382 A JP2018247382 A JP 2018247382A JP 2019175432 A JP2019175432 A JP 2019175432A
Authority
JP
Japan
Prior art keywords
utterance
robot
reaction
response
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018247382A
Other languages
Japanese (ja)
Inventor
英里奈 市川
Erina Ichikawa
英里奈 市川
高弘 冨田
Takahiro Tomita
高弘 冨田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to US16/352,800 priority Critical patent/US20190295526A1/en
Priority to CN201910207297.1A priority patent/CN110364164B/en
Publication of JP2019175432A publication Critical patent/JP2019175432A/en
Priority to JP2023016582A priority patent/JP7416295B2/en
Priority to JP2023119290A priority patent/JP2023133410A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Abstract

【課題】利用者の好みを精度よく把握し、利用者の好みに合った対話を行う。【解決手段】ロボット100Aは、ロボット100Aによる発話に対する所定の対象の反応を判定した結果と、ロボット100Aとは別個に設けられたロボット100Bによる発話に対する所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段110Aと、反応取得手段110Aにより取得された複数の反応判定結果に基づいて、ロボット100A及びロボット100Bを含む複数の発話装置の少なくとも何れかによる発話を制御する発話制御部115Aと、を備える。【選択図】図3An object of the present invention is to accurately grasp a user's preference and perform a dialogue that matches the user's preference. A robot includes a result of determining a response of a predetermined target to an utterance by the robot and a result of determining a response of a predetermined target to an utterance by a robot provided separately from the robot. Controlling utterance by at least one of a plurality of utterance devices including the robot 100A and the robot 100B based on the plurality of reaction determination units obtained by the reaction obtaining unit 110A that obtains a plurality of reaction determination results and the plurality of reaction determination units obtained by the reaction obtaining unit 110A And an utterance control unit 115A. [Selection diagram] FIG.

Description

本発明は、対話制御装置、対話システム、対話制御方法及びプログラムに関する。    The present invention relates to a dialog control device, a dialog system, a dialog control method, and a program.

人とコミュニケーションをするロボット等の機器の開発が進められており、このようなロボット等の機器の普及には、親しみやすさが重要な点である。例えば、特許文献1は、利用者との対話を通じて利用者の好みを学習し、利用者の好みに合った対話を行う技術を開示している。   The development of devices such as robots that communicate with people is underway, and friendliness is an important point for the spread of such devices such as robots. For example, Patent Literature 1 discloses a technique for learning user preferences through dialogue with the user and performing dialogue that matches the user preference.

特開2006−071936号公報JP 2006-071936 A

特許文献1が開示する技術では、利用者の好みを把握するために利用する情報の組合せが多岐にわたるため、利用者の好みを精度よく把握することが困難である。   In the technology disclosed in Patent Document 1, since there are a wide variety of combinations of information used for grasping user preferences, it is difficult to accurately grasp user preferences.

本発明は、前述のような事情に鑑みてなされたものであり、利用者の好みを精度よく把握し、利用者の好みに合った対話を行うことができる対話制御装置、対話システム、対話制御方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above-described circumstances, and has a dialog control device, a dialog system, and dialog control capable of accurately grasping a user's preference and performing a dialog suitable for the user's preference. An object is to provide a method and a program.

前記目的を達成するため、本発明に係る対話制御装置の一様態は、
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段と、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段と、
を備える、
ことを特徴とする。
In order to achieve the above object, an aspect of the dialogue control apparatus according to the present invention is as follows.
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Reaction acquisition means for acquiring a plurality of reaction determination results;
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Comprising
It is characterized by that.

また、前記目的を達成するため、本発明に係る対話システムの一様態は、
発話可能に構成された第1発話装置及び第2発話装置と、対話制御装置と、を備える対話システムであって、
前記対話制御装置は、
前記第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた前記第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段と、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段と、
を備える、
ことを特徴とする。
In order to achieve the above object, an aspect of the dialog system according to the present invention is as follows.
A dialogue system comprising a first utterance device and a second utterance device configured to be utterable, and a dialogue control device,
The dialogue control device comprises:
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by the second utterance device provided separately from the first utterance device; Reaction acquisition means for acquiring a plurality of reaction determination results including:
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Comprising
It is characterized by that.

また、前記目的を達成するため、本発明に係る対話制御方法の一様態は、
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する処理と、
前記取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する処理と、
を含む、
ことを特徴とする。
In order to achieve the above object, an aspect of the dialogue control method according to the present invention is as follows.
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Processing for obtaining a plurality of reaction determination results;
A process for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on the plurality of obtained reaction determination results;
including,
It is characterized by that.

また、前記目的を達成するため、本発明に係るプログラムの一様態は、
コンピュータを、
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段、
として機能させる、
ことを特徴とする。
In order to achieve the above object, an aspect of the program according to the present invention is as follows:
Computer
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Reaction acquisition means for acquiring a plurality of reaction determination results;
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Function as
It is characterized by that.

本発明によれば、利用者の好みを精度よく把握し、利用者の好みに合った対話を行うことができる対話制御装置、対話システム、対話制御方法及びプログラムを提供することが可能となる。   According to the present invention, it is possible to provide a dialog control device, a dialog system, a dialog control method, and a program capable of accurately grasping a user's preference and performing a dialog suitable for the user's preference.

本発明の第1の実施の形態に係る対話システムの構成を示す図である。It is a figure which shows the structure of the dialogue system which concerns on the 1st Embodiment of this invention. 第1の実施の形態に係るロボットの正面図である。It is a front view of the robot which concerns on 1st Embodiment. 第1の実施の形態に係るロボットの構成を示すブロック図である。It is a block diagram which shows the structure of the robot which concerns on 1st Embodiment. 第1の実施の形態に係る音声反応極性判定テーブルの一例を示す図である。It is a figure which shows an example of the audio | voice reaction polarity determination table which concerns on 1st Embodiment. 第1の実施の形態に係る対話制御処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the dialogue control process which concerns on 1st Embodiment. 第1の実施の形態に係るユーザ特定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the user specific process which concerns on 1st Embodiment. 第1の実施の形態に係る音声判定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the audio | voice determination process which concerns on 1st Embodiment. 第1の実施の形態に係る表情判定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the facial expression determination process which concerns on 1st Embodiment. 第1の実施の形態に係る行動判定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the action determination process which concerns on 1st Embodiment. 第1の実施の形態に係る嗜好判定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the preference determination process which concerns on 1st Embodiment. 第2の実施の形態の対話システムの構成を示すブロック図である。It is a block diagram which shows the structure of the dialogue system of 2nd Embodiment.

以下、本発明の実施の形態について図面を参照しながら詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

(第1の実施の形態)
本発明の第1の実施の形態に係る対話システム1は、複数のロボット100を含んで構成される。複数のロボット100は、所定の対象のオフィスや住宅等の居住スペース内に配置され、複数のロボット100が所定の対象と対話する。以下の説明では、2台のロボット100が所定の対象と対話する例を説明するが、対話システム1は、3台以上のロボット100を含んで構成されてもよい。
(First embodiment)
The dialogue system 1 according to the first embodiment of the present invention includes a plurality of robots 100. The plurality of robots 100 are arranged in a living space such as an office or a house of a predetermined target, and the plurality of robots 100 interact with the predetermined target. In the following description, an example in which two robots 100 interact with a predetermined target will be described. However, the conversation system 1 may be configured to include three or more robots 100.

ここで、所定の対象とは、対話システムを利用するユーザ(利用者)であり、典型的には、対話システムの所有者やこの所有者の家族又は友人等である。また、所定の対象には、人以外に、例えばペットとして飼われている動物やロボット100とは異なる別のロボットも含まれる。   Here, the predetermined target is a user (user) who uses the dialog system, and typically includes the owner of the dialog system, the family or friends of the owner, and the like. In addition to the person, the predetermined target includes, for example, an animal kept as a pet and another robot different from the robot 100.

対話システム1は、図1に示すように、相互に通信可能な2台のロボット100を備え、ユーザUSRと対話を行う。ここで、説明の便宜を図るため、図1の紙面向かって左側のロボット100をロボット100A、図1の紙面向かって右側のロボット100をロボット100Bとする。なお、ロボット100Aとロボット100Bとを区別することなく説明する場合には、いずれかのロボット又はこれらを総称して「ロボット100」と表記することがある。ロボット100Aとロボット100Bは、互いに異なる場所に配置されており、ロボット100A及びロボット100Bの発話の両方を同じ所定の対象が認識できないような場所に、それぞれ設けられている。例えば、ロボット100Aは所定の対象のオフィスに、ロボット100Bはこのオフィスから離れた所定の対象の住宅に、それぞれ配置される。あるいは、ロボット100Aは所定の対象が通う施設に、ロボット100Bはこの施設から離れた、所定の対象が通う他の施設に、それぞれ配置されている。   As shown in FIG. 1, the dialog system 1 includes two robots 100 that can communicate with each other, and performs a dialog with a user USR. Here, for convenience of explanation, the robot 100 on the left side in FIG. 1 is referred to as a robot 100A, and the robot 100 on the right side in FIG. 1 is referred to as a robot 100B. When the robot 100A and the robot 100B are described without being distinguished from each other, any one of the robots or these may be collectively referred to as “robot 100”. The robot 100A and the robot 100B are arranged at different locations, and are provided at locations where the same predetermined target cannot recognize both the robot 100A and the utterance of the robot 100B. For example, the robot 100A is disposed in a predetermined target office, and the robot 100B is disposed in a predetermined target house apart from the office. Alternatively, the robot 100A is disposed at a facility where a predetermined object passes, and the robot 100B is disposed at another facility away from this facility where a predetermined object passes.

ロボット100は、図2に示すように、外観的には人を模した立体的な形状を有するロボットである。また、ロボット100の外装は、合成樹脂を主たる材料として形成されている。ロボット100は、胴体部101と、胴体部101の上部に接続する頭部102と、胴体部101の左右のそれぞれに接続する手部103と、胴体部101から下部に接続する2本の足部104と、を有する。また、頭部102は、左右一対の目部105、口部106、左右一対の耳部107を有する。なお、図2の上側、下側、左側、右側を、各々、ロボット100の上側、下側、右側、左側とする。   As shown in FIG. 2, the robot 100 is a robot having a three-dimensional shape imitating a person in appearance. Further, the exterior of the robot 100 is formed using synthetic resin as a main material. The robot 100 includes a body part 101, a head part 102 connected to the upper part of the body part 101, a hand part 103 connected to each of the left and right sides of the body part 101, and two legs connected to the lower part from the body part 101. 104. The head 102 has a pair of left and right eyes 105, a mouth 106, and a pair of left and right ears 107. Note that the upper side, lower side, left side, and right side in FIG. 2 are the upper side, lower side, right side, and left side of the robot 100, respectively.

次に、図3を参照して、ロボット100の構成について説明する。図3には、ロボット100Aとロボット100Bとの各構成を示すブロック図を示しているが、ロボット100Aとロボット100Bとの構成は同様である。まず、ロボット100Aを取り上げて、その構成について説明する。   Next, the configuration of the robot 100 will be described with reference to FIG. FIG. 3 is a block diagram showing the configurations of the robot 100A and the robot 100B, but the configurations of the robot 100A and the robot 100B are the same. First, the robot 100A will be taken up and its configuration will be described.

ロボット100Aは、図3に示すように、制御部110A、記憶部120A、撮像部130A、音声入力部140A、音声出力部150A、移動部160A、通信部170Aを備える。これらの各部は、バスラインBLを介して相互に電気的に接続されている。   As shown in FIG. 3, the robot 100A includes a control unit 110A, a storage unit 120A, an imaging unit 130A, an audio input unit 140A, an audio output unit 150A, a moving unit 160A, and a communication unit 170A. These units are electrically connected to each other via a bus line BL.

制御部110Aは、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を有するコンピュータにより構成され、ロボット100A全体の動作を制御する。制御部110Aは、CPUがROMに記憶された制御プログラムを読み出してRAM上で実行することにより、ロボット100Aの各部の動作を制御する。   The control unit 110A includes a computer having a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory), and controls the operation of the entire robot 100A. 110 A of control parts control operation | movement of each part of 100 A of robots, when CPU reads the control program memorize | stored in ROM and runs on RAM.

制御部110Aは、制御プログラムを実行することによって、ユーザ検知部111A、ユーザ特定部112A、ユーザ情報取得部113A、音声認識部114A、発話制御部115A、音声合成部116A、反応判定部117A、嗜好判定部118Aとして機能する。   The control unit 110A executes a control program to thereby execute a user detection unit 111A, a user identification unit 112A, a user information acquisition unit 113A, a speech recognition unit 114A, an utterance control unit 115A, a speech synthesis unit 116A, a reaction determination unit 117A, a preference It functions as the determination unit 118A.

ユーザ検知部111Aは、ロボット100Aの周囲(例えば、ロボット100Aから半径2mの範囲内)に存在するユーザUSRを検知する。ユーザ検知部111Aは、例えば、後述する撮像部130Aを制御して、ロボット100Aの周囲を撮像し、物体の動きや頭、顔等の検出に応じて、ロボット100Aの周囲に存在するユーザUSRを検知する。   The user detection unit 111A detects the user USR existing around the robot 100A (for example, within a radius of 2 m from the robot 100A). For example, the user detection unit 111A controls the imaging unit 130A described later to image the surroundings of the robot 100A, and the user USR existing around the robot 100A is detected according to the detection of the movement of the object, the head, the face, and the like. Detect.

ユーザ特定部112Aは、ユーザ検知部111Aが検知したユーザUSRを特定する。ユーザ特定部112Aは、例えば、撮像部130Aによる撮像画像からユーザUSRの顔部分に相当する顔画像を抽出する。そして、ユーザ特定部112Aは、この顔画像から特徴量を検出し、後述する記憶部120Aのユーザ情報データベースに登録された、顔の特徴量を示す顔情報と照合して類似度を算出し、所定の基準を満たすか否かに応じてユーザUSRを特定する。記憶部120Aのユーザ情報データベースには、所定の複数のユーザUSRの各々の顔の特徴量を示す顔情報が記憶されている。ユーザ検知部111Aが検知したユーザUSRが、これらのユーザUSRのうちのいずれのユーザUSRであるのかが、ユーザ特定部112Aによって特定される。特徴量は、ユーザUSRを識別可能な情報であればよく、例えば、目、鼻、口等の顔に含まれる各パーツの形状、大きさ、配置等の外観的特徴を数値で示した情報である。以下の説明では、ユーザ検知部111Aにより検知され、ユーザ特定部112Aにより特定されたユーザUSRを対象ユーザと称する。このように、ユーザ特定部112Aは、本発明の対象特定手段として機能する。   The user specifying unit 112A specifies the user USR detected by the user detecting unit 111A. For example, the user specifying unit 112A extracts a face image corresponding to the face portion of the user USR from the image captured by the image capturing unit 130A. Then, the user specifying unit 112A detects a feature amount from the face image, calculates the similarity by collating it with face information indicating the feature amount of the face registered in a user information database of the storage unit 120A described later, The user USR is specified according to whether or not a predetermined standard is satisfied. In the user information database of the storage unit 120A, face information indicating the feature amount of each face of a predetermined plurality of users USR is stored. The user specifying unit 112A specifies which of the user USRs the user USR detected by the user detecting unit 111A is. The feature amount may be information that can identify the user USR. For example, the feature amount is information that shows numerically the appearance features such as the shape, size, and arrangement of each part included in the face such as the eyes, nose, and mouth. is there. In the following description, the user USR detected by the user detection unit 111A and specified by the user specification unit 112A is referred to as a target user. Thus, the user specifying unit 112A functions as a target specifying unit of the present invention.

ユーザ情報取得部113Aは、対象ユーザの発話、外観、行動等を表すユーザ情報を取得する。本実施の形態において、ユーザ情報取得部113Aは、ユーザ情報として、例えば、撮像部130A、音声入力部140Aを制御して、対象ユーザをとらえた撮像画像の画像データを含む画像情報と対象ユーザが発した音声の音声データを含む音声情報との少なくとも何れかを取得する。このように、ユーザ情報取得部113Aは、撮像部130A、音声入力部140Aと協働して、本発明の取得手段として機能する。   The user information acquisition unit 113A acquires user information representing the speech, appearance, behavior, and the like of the target user. In the present embodiment, the user information acquisition unit 113A controls, for example, the imaging unit 130A and the audio input unit 140A as user information, and includes image information including image data of a captured image capturing the target user and the target user. At least one of voice information including voice data of the emitted voice is acquired. As described above, the user information acquisition unit 113A functions as the acquisition unit of the present invention in cooperation with the imaging unit 130A and the voice input unit 140A.

音声認識部114Aは、ユーザ情報取得部113Aが取得した音声情報に含まれる音声データに対して音声認識処理を施し、対象ユーザの発話内容を示すテキストデータに変換する。音声認識処理には、例えば、記憶部120Aの音声情報DB(Data Base)122Aが記憶する音響モデル、言語モデル、単語辞書が用いられる。音声認識部114Aは、例えば、音声データから背景雑音を消去し、音響モデルを参照して、取得した音声データに含まれる音素を識別し、単語辞書を参照して、音素列を単語に変換した複数の変換候補を生成する。そして、音声認識部114Aは、言語モデルを参照して、複数の変換候補の中から最も妥当性の高いものを選択し、音声データに対応するテキストデータとして出力する。   The voice recognition unit 114A performs voice recognition processing on the voice data included in the voice information acquired by the user information acquisition unit 113A, and converts the voice data into text data indicating the utterance content of the target user. For the speech recognition processing, for example, an acoustic model, a language model, and a word dictionary stored in the speech information DB (Data Base) 122A of the storage unit 120A are used. For example, the speech recognition unit 114A erases background noise from the speech data, refers to the acoustic model, identifies the phonemes included in the acquired speech data, refers to the word dictionary, and converts the phoneme string into words Generate multiple conversion candidates. Then, the speech recognition unit 114A refers to the language model, selects the most appropriate one from a plurality of conversion candidates, and outputs it as text data corresponding to the speech data.

発話制御部115Aは、ロボット100Aの発話を制御する。発話制御部115Aは、例えば、記憶部120Aの発話情報DB123Aが記憶する発話情報を参照し、状況に応じた複数の発話候補を抽出する。そして、発話制御部115Aは、ユーザ情報DB121Aが記憶するユーザ情報に含まれる嗜好情報を参照し、抽出した複数の発話候補から対象ユーザの嗜好に適合する発話候補を選択し、ロボット100Aの発話内容として決定する。このように、発話制御部115Aは、本発明の発話制御手段として機能する。   The utterance control unit 115A controls the utterance of the robot 100A. For example, the utterance control unit 115A refers to the utterance information stored in the utterance information DB 123A of the storage unit 120A, and extracts a plurality of utterance candidates according to the situation. Then, the utterance control unit 115A refers to the preference information included in the user information stored in the user information DB 121A, selects the utterance candidate that matches the preference of the target user from the plurality of extracted utterance candidates, and the utterance content of the robot 100A Determine as. Thus, the utterance control unit 115A functions as the utterance control means of the present invention.

また、発話制御部115Aは、通信部170Aを介してロボット100Bと通信し、ロボット100Bの発話制御部115Bと連携して、以下のように、ロボット100Aの発話内容を調整して決定する。   In addition, the utterance control unit 115A communicates with the robot 100B via the communication unit 170A and adjusts and determines the utterance content of the robot 100A as follows in cooperation with the utterance control unit 115B of the robot 100B.

すなわち、発話制御部115Aは、ロボット100Bの発話制御部115Bと連携して、例えばロボット100Bが発話してからの経過時間を取得し、取得した経過時間が所定経過時間(例えば72時間)以内であるときにロボット100Aが発話する場合には、ロボット100Aが発話する話題が、ロボット100Aの発話開始前の所定経過時間以内にロボット100Bが発話した話題と異なる話題となるように、ロボット100Aの発話の話題を調整して決定する。このような話題の決定は、ロボット100Bの発話制御部115Bにおいても同様にして行われる。以上により、ロボット100A及びロボット100Bが発話する話題は、互いに異なる話題に決定され、決定された話題で両ロボット100A、100Bの発話が制御される。   That is, the utterance control unit 115A cooperates with the utterance control unit 115B of the robot 100B to acquire, for example, an elapsed time since the robot 100B uttered, and the acquired elapsed time is within a predetermined elapsed time (for example, 72 hours). When the robot 100A speaks at some time, the utterance of the robot 100A is such that the topic uttered by the robot 100A is different from the topic uttered by the robot 100B within a predetermined elapsed time before the utterance of the robot 100A starts. Adjust the topic and decide. Such topic determination is similarly performed in the speech control unit 115B of the robot 100B. As described above, the topics uttered by the robot 100A and the robot 100B are determined as different topics, and the utterances of both the robots 100A and 100B are controlled by the determined topics.

ロボット100A及びロボット100Bの各々は、後述するように、自身の発話に対する対象ユーザの反応を判定し、その判定結果に基づいて対象ユーザの嗜好情報を収集(記憶)するが、この場合、ロボット100Aとロボット100Bが発話する話題が重複したり、常に関連したりすると、対象ユーザの新たな嗜好情報や、より広い分野の嗜好情報を収集することができない。また、対象ユーザも重複した話題の発話を聞かされることにより、煩わしさを感じる。ロボット100Aとロボット100Bの発話の話題を互いに異なる話題に決定することにより、より多くの様々な種類の嗜好情報を収集することができる。   As will be described later, each of the robot 100A and the robot 100B determines the response of the target user to his / her utterance, and collects (stores) the target user's preference information based on the determination result. In this case, the robot 100A If the topics spoken by the robot 100B overlap or are always related, new preference information of the target user or preference information in a wider field cannot be collected. In addition, the target user also feels annoyed by hearing the utterances of overlapping topics. By determining the topics of the utterances of the robot 100A and the robot 100B as different topics, it is possible to collect more various types of preference information.

これに対して、ロボット100Bが発話してから所定経過時間以上経過している場合、発話制御部115Aは、発話内容をロボット100Bの発話内容に制限されず、独自に決定する。すなわち、ロボット100A及び100Bが発話する話題(発話内容)は、互いに連携させずに、互いに無関係に(互いに独立して)決定される。   On the other hand, when a predetermined elapsed time has elapsed since the robot 100B uttered, the utterance control unit 115A determines the utterance content independently without being limited to the utterance content of the robot 100B. That is, the topics (speech contents) spoken by the robots 100A and 100B are determined independently of each other (independently) without being linked to each other.

発話制御部115Aは、ロボット100Bと連携して決定した、自身の発話内容を示すテキストデータを生成し出力する。   The utterance control unit 115A generates and outputs text data indicating the content of the utterance determined in cooperation with the robot 100B.

音声合成部116Aは、発話制御部115Aから入力したロボット100Aの発話内容を示すテキストデータに対応する音声データを生成する。音声合成部116Aは、例えば、記憶部120Aの音声情報DB122Aに格納された音響モデル等を用いて、テキストデータが示す文字列を読み上げる音声データを生成する。また、音声合成部116Aは、音声出力部150Aを制御して、生成した音声データを音声出力する。   The speech synthesizer 116A generates speech data corresponding to text data indicating the utterance content of the robot 100A input from the utterance control unit 115A. The speech synthesis unit 116A generates speech data that reads out a character string indicated by the text data, using, for example, an acoustic model stored in the speech information DB 122A of the storage unit 120A. In addition, the voice synthesis unit 116A controls the voice output unit 150A to output the generated voice data as a voice.

反応判定部117Aは、ロボット100Aの発話に対する対象ユーザの反応を判定する。これにより、前記所定の複数のユーザUSRのうちのユーザ特定部112Aで特定された対象ユーザごとに、ロボット100Aの発話に対する反応が判定される。反応判定部117Aは、音声判定部117AA、表情判定部117BA、行動判定部117CAを有する。音声判定部117AA、表情判定部117BA、行動判定部117CAは、それぞれ、対象ロボット100Aの発話に対する反応を、対象ユーザの音声、表情、行動に基づいて、肯定的な反応である「ポジティブ(Positive)」、否定的な反応である「ネガティブ(Negative)」、肯定的でも否定的でもない中立的な反応である「ニュートラル(Neutral)」の3つの極性に分類することにより判定する。   The response determination unit 117A determines the response of the target user to the utterance of the robot 100A. Thereby, the reaction with respect to the utterance of the robot 100A is determined for each target user specified by the user specifying unit 112A among the predetermined plurality of users USR. The reaction determination unit 117A includes a voice determination unit 117AA, a facial expression determination unit 117BA, and an action determination unit 117CA. The voice determination unit 117AA, the facial expression determination unit 117BA, and the behavior determination unit 117CA are positive responses based on the target user's voice, facial expression, and behavior, respectively, in response to the speech of the target robot 100A. "Negative" which is a negative reaction, and "Neutral" which is a neutral reaction which is neither positive nor negative.

音声判定部117AAは、ロボット100Aが発話した後に対象ユーザが発した音声に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する。音声判定部117AAは、ロボット100Aの発話後にユーザ情報取得部113Aが取得した音声に対して音声認識部114Aが音声認識処理を施して生成されたテキストデータに基づいて、対象ユーザの発話内容を音声反応極性「ポジティブ」、「ネガティブ」、「ニュートラル」の3極性に分類することにより、ロボット100Aの発話に対する対象ユーザの反応を判定する。このように、音声判定部117AAは、本発明の音声判定手段として機能する。   The voice determination unit 117AA determines the response of the target user to the utterance of the robot 100A based on the voice uttered by the target user after the robot 100A utters. The voice determination unit 117AA uses the voice recognition unit 114A to perform a voice recognition process on the voice acquired by the user information acquisition unit 113A after the utterance of the robot 100A. By classifying the reaction polarities into three polarities of “positive”, “negative”, and “neutral”, the response of the target user to the utterance of the robot 100A is determined. Thus, the voice determination unit 117AA functions as the voice determination unit of the present invention.

表情判定部117BAは、ロボット100Aが発話した後の対象ユーザの表情に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する。表情判定部117BAは、対象ユーザの表情を評価するための指標として、笑顔の度合いを示す笑顔度を算出する。表情判定部117BAは、ロボット100Aの発話後にユーザ情報取得部113Aが取得した撮像画像から対象ユーザの顔画像を抽出し、対象ユーザの顔の特徴量を検出する。表情判定部117BAは、記憶部120Aの反応判定情報DB124Aに記憶された笑顔度情報を参照し、検出した特徴量に基づいて、対象ユーザの笑顔度を算出する。表情判定部117BAは、算出した笑顔度に応じて、対象ユーザの表情を表情反応極性「ポジティブ」、「ネガティブ」、「ニュートラル」の3極性に分類して、ロボット100Aの発話に対する対象ユーザの反応を判定する。このように、表情判定部117BAは、本発明の表情判定手段として機能する。   The facial expression determination unit 117BA determines the response of the target user to the speech of the robot 100A based on the facial expression of the target user after the robot 100A speaks. The facial expression determination unit 117BA calculates a smile level indicating the smile level as an index for evaluating the facial expression of the target user. The facial expression determination unit 117BA extracts the target user's face image from the captured image acquired by the user information acquisition unit 113A after the utterance of the robot 100A, and detects the feature amount of the target user's face. The facial expression determination unit 117BA refers to the smile level information stored in the reaction determination information DB 124A of the storage unit 120A, and calculates the smile level of the target user based on the detected feature amount. The facial expression determination unit 117BA classifies the target user's facial expression into three facial expression reaction polarities of “positive”, “negative”, and “neutral” according to the calculated smile level, and the target user's response to the utterance of the robot 100A Determine. As described above, the facial expression determination unit 117BA functions as facial expression determination means of the present invention.

行動判定部117CAは、ロボット100Aが発話した後の対象ユーザの行動に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する。行動判定部117CAは、ロボット100Aの発話後にユーザ情報取得部113Aが取得した撮像画像から対象ユーザの行動を検出し、対象ユーザの行動を行動反応極性「ポジティブ」、「ネガティブ」、「ニュートラル」の3極性に分類して、ロボット100Aの発話に対する対象ユーザの反応を判定する。このように、行動判定部117CAは、本発明の行動判定手段として機能する。   The behavior determination unit 117CA determines the response of the target user to the utterance of the robot 100A based on the behavior of the target user after the robot 100A utters. The behavior determination unit 117CA detects the behavior of the target user from the captured image acquired by the user information acquisition unit 113A after the utterance of the robot 100A, and the behavior of the target user with the behavior reaction polarity “positive”, “negative”, “neutral”. By classifying into three polarities, the reaction of the target user to the utterance of the robot 100A is determined. Thus, the behavior determination unit 117CA functions as the behavior determination unit of the present invention.

嗜好判定部118Aは、対象ユーザとロボット100Aとの対話における話題を特定し、反応判定部117Aによる各判定結果に基づいて、特定した話題に対する対象ユーザの嗜好の高さを示す嗜好度を判定する。これにより、前記所定の複数のユーザUSRのうちのユーザ特定部112Aで特定された対象ユーザごとに、その嗜好度が判定される。ここで、嗜好とは、有形と無形とを問わず様々な物事に関する趣味や好みであり、例えば、食品、スポーツ、天気等に関する趣味や好みの他、ロボット100の対応(発話内容)に対する好みを含む。嗜好判定部118Aは、話題に対する対象ユーザの嗜好が高い順に、嗜好度を「嗜好度A」、「嗜好度B」、「嗜好度C」、「嗜好度D」の4段階に分類する。このように、嗜好判定部118Aは、本発明の特定手段及び嗜好判定手段として機能する。   The preference determination unit 118A specifies a topic in the conversation between the target user and the robot 100A, and determines a preference level indicating the level of preference of the target user with respect to the specified topic based on each determination result by the reaction determination unit 117A. . Thereby, the preference degree is determined for each target user specified by the user specifying unit 112A among the predetermined plurality of users USR. Here, the preference is a hobby or preference related to various things regardless of tangible or intangible. For example, in addition to a hobby or preference related to food, sports, weather, etc., a preference for correspondence (utterance content) of the robot 100 Including. The preference determination unit 118A classifies the preference levels into four levels of “preference level A”, “preference level B”, “preference level C”, and “preference level D” in descending order of the preference of the target user with respect to the topic. Thus, the preference determination unit 118A functions as the specifying unit and the preference determination unit of the present invention.

なお、ユーザ検知部111A、ユーザ特定部112A、ユーザ情報取得部113A、音声認識部114A、発話制御部115A、音声合成部116A、反応判定部117A、嗜好判定部118Aは、単一のコンピュータで各機能を実現してもよいし、各々別個のコンピュータによって各機能を実現してもよい。   The user detection unit 111A, user identification unit 112A, user information acquisition unit 113A, speech recognition unit 114A, speech control unit 115A, speech synthesis unit 116A, reaction determination unit 117A, and preference determination unit 118A are each a single computer. The functions may be realized, or each function may be realized by a separate computer.

記憶部120Aは、記憶内容が書き換え可能な不揮発性の半導体メモリ、ハードディスクドライブ等を備え、制御部110Aがロボット100Aの各部を制御するために必要な各種データを記憶する。   The storage unit 120A includes a nonvolatile semiconductor memory, a hard disk drive, and the like in which stored contents can be rewritten, and stores various data necessary for the control unit 110A to control each unit of the robot 100A.

記憶部120Aは、各種データをそれぞれ格納する複数のデータベースを有する。記憶部120Aは、例えば、ユーザ情報DB121A、音声情報DB122A、発話情報DB123A、反応判定情報DB124Aを有する。また記憶部120Aには、ロボット100Aが発話した発話日時及び発話した話題等を含む発話履歴情報が、ユーザUSRごとに記憶される。   The storage unit 120A has a plurality of databases that store various data. The storage unit 120A includes, for example, a user information DB 121A, a voice information DB 122A, an utterance information DB 123A, and a reaction determination information DB 124A. In addition, in the storage unit 120A, utterance history information including the utterance date and time of the utterance of the robot 100A, the topic uttered, and the like is stored for each user USR.

ユーザ情報DB121Aは、登録された複数のユーザUSRの各々に関する各種情報をユーザ情報として蓄積して記憶する。ユーザ情報は、例えば、複数のユーザUSRの各々を識別するために予め割り当てられたユーザ識別情報(例えば、ユーザUSRのID)、ユーザUSRの顔の特徴量を示す顔情報、各話題に対するユーザUSRの嗜好度を示す嗜好情報を含む。このように、複数のユーザUSRの各々の嗜好情報は、ユーザ識別情報を用いて、いずれのユーザUSRのものであるのかを識別可能に記憶される。   The user information DB 121A accumulates and stores various types of information related to each of a plurality of registered users USR as user information. The user information includes, for example, user identification information (for example, ID of the user USR) assigned in advance to identify each of the plurality of users USR, face information indicating the feature amount of the face of the user USR, and the user USR for each topic. The preference information indicating the degree of preference of the user is included. Thus, the preference information of each of the plurality of users USR is stored so as to be able to identify which user USR belongs using the user identification information.

音声情報DB122Aは、音声認識処理又は音声合成処理に用いられるデータとして、例えば、他の語と意味を区別する音の最小単位である音素の各々の特徴(周波数特性)を表わす音響モデル、音素の特徴と単語とを対応付ける単語辞書、単語の並びとその連接確率を表す言語モデルを格納する。   The voice information DB 122A, as data used for the voice recognition process or the voice synthesis process, is, for example, an acoustic model that represents each feature (frequency characteristic) of a phoneme that is a minimum unit of sound that distinguishes meaning from other words, A word dictionary for associating features with words, and a language model representing word sequences and their connection probabilities are stored.

発話情報DB123Aは、ロボット100Aの発話候補を示す発話情報を記憶する。発話情報は、例えば、対象ユーザに話しかける場合の発話候補、対象ユーザの発話に対して応答する場合の発話候補、ロボット100Bと会話する場合の発話候補等、対象ユーザとの対話の状況に応じた各種の発話候補が含まれる。   The utterance information DB 123A stores utterance information indicating utterance candidates of the robot 100A. The utterance information corresponds to the state of dialogue with the target user, such as an utterance candidate when talking to the target user, an utterance candidate when responding to the utterance of the target user, an utterance candidate when talking to the robot 100B, etc. Various utterance candidates are included.

反応判定情報DB124Aは、反応判定部117Aがロボット100Aの発話に対する対象ユーザの反応を判定する際に用いる反応判定情報を記憶する。反応判定情報DB124Aは、反応判定情報として、例えば、反応判定部117Aの音声判定部117AAがロボット100Aの発話に対する対象ユーザの反応を判定する際に用いる音声判定情報を記憶する。音声判定情報は、例えば、図4に示す音声反応極性判定テーブルの形式で記憶される。音声反応極性判定テーブルでは、後述する音声反応極性と特徴キーワードとが対応付けられている。また、反応判定情報DB124Aは、反応判定情報として、例えば、反応判定部117Aの表情判定部117BAが対象ユーザの笑顔度を算出する際に用いる笑顔度情報を記憶する。笑顔度情報は、例えば、目尻や口角の位置、目や口の大きさ等の変化の度合いに応じて笑顔度を0〜100%の範囲で数値化した情報である。   The reaction determination information DB 124A stores reaction determination information used when the reaction determination unit 117A determines a target user's reaction to the utterance of the robot 100A. The reaction determination information DB 124A stores, for example, voice determination information used when the voice determination unit 117AA of the reaction determination unit 117A determines the reaction of the target user with respect to the utterance of the robot 100A as the reaction determination information. The voice determination information is stored, for example, in the form of a voice reaction polarity determination table shown in FIG. In the voice reaction polarity determination table, a voice reaction polarity, which will be described later, and a feature keyword are associated with each other. In addition, the reaction determination information DB 124A stores, for example, smile degree information used when the facial expression determination unit 117BA of the reaction determination unit 117A calculates the smile degree of the target user as the reaction determination information. The smile level information is information obtained by quantifying the smile level in the range of 0 to 100% according to the degree of change in the position of the corners of the eyes, the corners of the mouth, the size of the eyes and the mouth, for example.

撮像部130Aは、レンズ、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等の撮像素子を備えるカメラで構成され、ロボット100Aの周囲を撮像する。撮像部130Aは、例えば頭部102の正面上部に設置され、頭部102の前方を撮像し、デジタル画像データを生成して出力する。カメラは、レンズが向く方向を変えるように動作可能なモータ駆動の架台(ジンバル等)に取り付けられ、ユーザUSRの顔等を追尾することができるように構成される。   The imaging unit 130A is configured by a camera including an imaging element such as a lens, a CCD (Charge Coupled Device) image sensor, or a CMOS (Complementary Metal Oxide Semiconductor) image sensor, and images the surroundings of the robot 100A. The imaging unit 130A is installed, for example, in the upper front portion of the head 102, images the front of the head 102, generates digital image data, and outputs the digital image data. The camera is attached to a motor-driven base (such as a gimbal) that can be operated so as to change the direction in which the lens faces, and is configured to track the face of the user USR.

音声入力部140Aは、マイクロフォン、A/D(Analog to Digital)変換器等で構成され、例えば耳部107に設置されたマイクロフォンで集音した音声を増幅し、A/D変換、符号化等の信号処理を施したデジタル音声データ(音声情報)を制御部110Aに出力する。   The audio input unit 140A includes a microphone, an A / D (Analog to Digital) converter, and the like, for example, amplifies the sound collected by the microphone installed in the ear unit 107, and performs A / D conversion, encoding, and the like. The digital audio data (audio information) subjected to the signal processing is output to the control unit 110A.

音声出力部150Aは、スピーカ、D/A(Digital to Analog)変換器等で構成され、制御部110Aの音声合成部116Aから供給される音声データに復号化、D/A変換、増幅等の信号処理を施し、アナログ音声信号を例えば口部106に設置されたスピーカから出力する。   The audio output unit 150A includes a speaker, a D / A (Digital to Analog) converter, and the like, and decodes, D / A converts, amplifies signals, etc. into audio data supplied from the audio synthesis unit 116A of the control unit 110A. Processing is performed, and an analog audio signal is output from, for example, a speaker installed in the mouth portion 106.

ロボット100Aは、音声入力部140Aのマイクロフォンで対象ユーザの音声を集音し、制御部110Aの制御のもと、対象ユーザの発話内容に対応する音声を音声出力部150Aのスピーカから出力することにより、対象ユーザと対話をしてコミュニケーションをとることができる。このように、ロボット100Aは、本発明の第1発話装置として機能する。   The robot 100A collects the voice of the target user with the microphone of the voice input unit 140A, and outputs the voice corresponding to the utterance content of the target user from the speaker of the voice output unit 150A under the control of the control unit 110A. Communicating by interacting with the target user. Thus, the robot 100A functions as the first utterance device of the present invention.

移動部160Aは、ロボット100Aを移動させるための部位である。移動部160Aは、ロボット100Aの左右の足部104の底部にそれぞれ設けられた車輪と、左右の車輪を回転駆動するモータと、モータを駆動制御する駆動回路と、を有する。制御部110Aから受信した制御信号に従って、駆動回路は、モータに駆動用のパルス信号を供給する。モータは、駆動用のパルス信号に従って、左右の車輪を回転駆動させ、ロボット100Aを移動させる。このように、移動部160Aは、本発明の移動手段として機能する。なお、左右の車輪がそれぞれ独立して回転駆動するように構成され、ロボット100Aが前進、後退、旋回、加減速などの走行が可能であれば、モータの数は任意である。例えば、連結機構や操舵機構を設けるなどして1つのモータで左右の車輪を駆動させてもよい。また、モータの数に合わせて駆動回路の数も適宜変更することができる。   The moving unit 160A is a part for moving the robot 100A. The moving unit 160A includes wheels provided at the bottoms of the left and right feet 104 of the robot 100A, a motor that rotationally drives the left and right wheels, and a drive circuit that drives and controls the motor. In accordance with the control signal received from the control unit 110A, the drive circuit supplies a drive pulse signal to the motor. The motor rotates the left and right wheels according to the driving pulse signal to move the robot 100A. Thus, the moving unit 160A functions as the moving unit of the present invention. Note that the number of motors is arbitrary as long as the left and right wheels are configured to rotate independently of each other and the robot 100A can travel forward, backward, turn, accelerate, and decelerate. For example, the left and right wheels may be driven by one motor by providing a connection mechanism or a steering mechanism. In addition, the number of drive circuits can be changed as appropriate in accordance with the number of motors.

通信部170Aは、無線通信方式を用いて通信するための無線通信モジュール及びアンテナにより構成され、ロボット100Bと無線データ通信を行う。無線通信方式としては、例えば、Bluetooth(登録商標)、BLE(Bluetooth Low Energy)、ZigBee(登録商標)、赤外線通信等の近距離無線通信方式、WiFi(Wireless Fidelity)等の無線LAN通信方式を適宜採用し得る。本実施の形態において、ロボット100Aは、通信部170Aを介してロボット100Bと無線データ通信を行うことにより、ロボット100Aとロボット100Bとが対象ユーザと対話する。   The communication unit 170A includes a wireless communication module and an antenna for performing communication using a wireless communication method, and performs wireless data communication with the robot 100B. As the wireless communication method, for example, Bluetooth (registered trademark), BLE (Bluetooth Low Energy), ZigBee (registered trademark), short-range wireless communication methods such as infrared communication, and wireless LAN communication methods such as WiFi (Wireless Fidelity) are appropriately used. Can be adopted. In the present embodiment, the robot 100A performs wireless data communication with the robot 100B via the communication unit 170A, so that the robot 100A and the robot 100B interact with the target user.

ロボット100Bは、ロボット100Aと同様であるため、その構成について簡単に説明する。ロボット100Bは、ロボット100Aと同様に、制御部110B、記憶部120B、撮像部130B、音声入力部140B、音声出力部150B、移動部160B、通信部170Bを備える。制御部110Bは、ロボット100B全体の動作を制御し、制御プログラムを実行することによって、ユーザ検知部111B、ユーザ特定部112B、ユーザ情報取得部113B、音声認識部114B、発話制御部115B、音声合成部116B、反応判定部117B、嗜好判定部118Bとして機能する。発話制御部115Bは、ユーザ情報DB121Bが記憶するユーザ情報に含まれる嗜好情報を参照し、抽出した複数の発話候補から対象ユーザの嗜好に適合する発話候補を選択し、ロボット100Bの発話内容として決定する。通信部170Bを介してロボット100Aと通信し、ロボット100Aの発話制御部115Aと連携して、例えばロボット100Aが発話してからの経過時間を取得する。取得した経過時間が前記所定経過時間以内であるとき、ロボット100Bが発話する話題が、ロボット100Bの発話開始前の所定経過時間以内にロボット100Aが発話した話題と異なるように、発話制御部115Bは、ロボット100Bの発話内容を調整して決定する。反応判定部117Bは、ロボット100Bの発話に対する対象ユーザの反応を判定する。反応判定部117Bは、音声判定部117AB、表情判定部117BB、行動判定部117CBを有する。音声判定部117AB、表情判定部117BB、行動判定部117CBは、それぞれ、対象ロボット100Bの発話に対する反応を、対象ユーザの音声、表情、行動に基づいて、「ポジティブ」、「ネガティブ」、「ニュートラル」の3つの極性に分類することにより判定する。記憶部120Bは、各種データをそれぞれ格納する複数のデータベースを有する。記憶部120Bは、例えば、ユーザ情報DB121B、音声情報DB122B、発話情報DB123B、反応判定情報DB124Bを有する。また記憶部120Bには、ロボット100Bが発話した発話日時及び発話した話題等を含む発話履歴情報が、ユーザUSRごとに記憶される。ロボット100Bは、音声入力部140Bのマイクロフォンで対象ユーザの音声を集音し、制御部110Bの制御のもと、対象ユーザの発話内容に対応する音声を音声出力部150Bのスピーカから出力することにより、対象ユーザと対話をしてコミュニケーションをとることができる。このように、ロボット100Bは、本発明の第2発話装置として機能する。   Since the robot 100B is similar to the robot 100A, its configuration will be briefly described. Similar to the robot 100A, the robot 100B includes a control unit 110B, a storage unit 120B, an imaging unit 130B, an audio input unit 140B, an audio output unit 150B, a moving unit 160B, and a communication unit 170B. The control unit 110B controls the entire operation of the robot 100B and executes a control program, thereby performing a user detection unit 111B, a user identification unit 112B, a user information acquisition unit 113B, a voice recognition unit 114B, a speech control unit 115B, a voice synthesis. Functions as a unit 116B, a reaction determination unit 117B, and a preference determination unit 118B. The utterance control unit 115B refers to the preference information included in the user information stored in the user information DB 121B, selects an utterance candidate that matches the target user's preference from the extracted utterance candidates, and determines the utterance content of the robot 100B. To do. The robot 100A communicates with the robot 100A via the communication unit 170B, and acquires the elapsed time since the robot 100A spoke, for example, in cooperation with the speech control unit 115A of the robot 100A. When the acquired elapsed time is within the predetermined elapsed time, the speech control unit 115B determines that the topic spoken by the robot 100B is different from the topic spoken by the robot 100A within the predetermined elapsed time before the start of speech of the robot 100B. Then, the content of the utterance of the robot 100B is adjusted and determined. The response determination unit 117B determines the response of the target user to the utterance of the robot 100B. The reaction determination unit 117B includes a voice determination unit 117AB, a facial expression determination unit 117BB, and an action determination unit 117CB. The voice determination unit 117AB, the facial expression determination unit 117BB, and the behavior determination unit 117CB each react to the utterance of the target robot 100B based on the voice, facial expression, and behavior of the target user, “positive”, “negative”, “neutral”. It is determined by classifying into three polarities. The storage unit 120B has a plurality of databases that store various data. The storage unit 120B includes, for example, a user information DB 121B, a voice information DB 122B, an utterance information DB 123B, and a reaction determination information DB 124B. In addition, in the storage unit 120B, utterance history information including the utterance date and time of the utterance of the robot 100B and the uttered topic is stored for each user USR. The robot 100B collects the voice of the target user with the microphone of the voice input unit 140B, and outputs the voice corresponding to the utterance content of the target user from the speaker of the voice output unit 150B under the control of the control unit 110B. Communicating by interacting with the target user. Thus, the robot 100B functions as the second speech device of the present invention.

次に、図5に示すフローチャートを参照しながら、ロボット100が実行する対話制御処理について説明する。対話制御処理は、対象ユーザの嗜好に応じて対話を制御する処理である。ここでは、ロボット100Aの制御部110Aが実行する場合を例にして対話制御処理を説明する。制御部110Aは、ユーザ検知部111Aがロボット100Aの周囲にユーザUSRを検知したことを契機に、対話制御処理を開始する。   Next, the dialogue control process executed by the robot 100 will be described with reference to the flowchart shown in FIG. The dialogue control process is a process for controlling the dialogue according to the preference of the target user. Here, the dialogue control process will be described by taking as an example a case where the control unit 110A of the robot 100A executes. The control unit 110A starts the dialogue control process when the user detection unit 111A detects the user USR around the robot 100A.

制御部110Aは、対話制御処理を開始すると、まず、ユーザ特定処理を実行する(ステップS101)。ここで、図6に示すフローチャートを参照して、ユーザ特定処理について説明する。ユーザ特定処理は、ユーザ検知部111Aが検知したロボット100Aの周囲に存在するユーザを特定する処理である。   110 A of control parts will perform a user specific process first, if a dialog control process is started (step S101). Here, the user specifying process will be described with reference to the flowchart shown in FIG. The user specifying process is a process of specifying a user existing around the robot 100A detected by the user detecting unit 111A.

制御部110Aは、ユーザ特定処理を開始すると、まず、撮像部130Aから取得した撮像画像から対象ユーザの顔画像を抽出する(ステップS201)。制御部110A(ユーザ特定部112A)は、例えば、撮像画像における肌色領域を検出し、肌色領域内に目、鼻、ロ等の顔パーツに相当する部分があるか否かを判定して、顔パーツに相当する部分があると判定すると肌色領域を顔画像とみなして抽出する。   When the user specifying process is started, the control unit 110A first extracts the face image of the target user from the captured image acquired from the imaging unit 130A (step S201). For example, the control unit 110A (the user specifying unit 112A) detects a skin color area in the captured image, determines whether there is a part corresponding to a face part such as an eye, nose, or b in the skin color area. If it is determined that there is a part corresponding to the part, the skin color area is regarded as a face image and extracted.

続いて、制御部110Aは、抽出した顔画像に対応する登録ユーザを検索する(ステップS202)。制御部110A(ユーザ特定部112A)は、例えば、抽出した顔画像から特徴量を検出し、記憶部120Aのユーザ情報DB121Aに記憶された顔情報と照合し、類似度が所定の基準以上である登録ユーザを検索する。   Subsequently, the control unit 110A searches for a registered user corresponding to the extracted face image (step S202). For example, the control unit 110A (user specifying unit 112A) detects a feature amount from the extracted face image, compares it with the face information stored in the user information DB 121A of the storage unit 120A, and the similarity is equal to or higher than a predetermined reference. Search for registered users.

制御部110Aは、ステップS202における検索結果に応じて、ロボット100の周囲に存在するユーザUSRを特定する(ステップS203)。制御部110A(ユーザ特定部112A)は、例えば、ユーザ情報DB121Aに記憶された前記複数のユーザUSRの各々の顔の特徴量うちの、顔画像から検出した特徴量との類似度が最も高い特徴量に対応するユーザUSRを、ロボット100Aの周囲に存在する対象ユーザとして特定する。   110 A of control parts identify the user USR which exists around the robot 100 according to the search result in step S202 (step S203). For example, the control unit 110A (user specifying unit 112A) has the highest similarity to the feature amount detected from the face image among the facial feature amounts of each of the plurality of users USR stored in the user information DB 121A. The user USR corresponding to the amount is specified as a target user existing around the robot 100A.

制御部110Aは、ステップS203の処理を実行した後、ユーザ特定処理を終了し、処理を対話制御処理に戻す。   After executing the process of step S203, the control unit 110A ends the user specifying process and returns the process to the dialog control process.

図5に戻り、ユーザ特定処理(ステップS101)を実行した後、制御部110Aは、ロボット100B(他のロボット)との通信接続を確立する(ステップS102)。ここで、通信接続の確立とは、通信相手を指定して所定の手続きを行い、互いにデータの送受信可能な状態を確立することをいう。制御部110Aは、通信部170Aを制御して、通信方式に基づく所定の手続きを行うことにより、ロボット100Bとの通信接続を確立する。なお、赤外線通信方式を用いてロボット100Aとロボット100Bとがデータ通信を行う場合、事前に通信接続を確立する必要はない。   Returning to FIG. 5, after executing the user specifying process (step S101), the control unit 110A establishes a communication connection with the robot 100B (another robot) (step S102). Here, establishment of communication connection refers to establishing a state in which data can be transmitted and received with each other by specifying a communication partner and performing a predetermined procedure. The control unit 110A controls the communication unit 170A and establishes a communication connection with the robot 100B by performing a predetermined procedure based on the communication method. When the robot 100A and the robot 100B perform data communication using the infrared communication method, it is not necessary to establish a communication connection in advance.

続いて、制御部110Aは、前記所定経過時間よりも短い所定時間内(例えば、20秒以内)に、ステップS101で特定した対象ユーザが発話したか否かを判定する(ステップS103)。制御部110Aは、例えば、CPUに付設されたRTC(Real Time Clock)が計測する現在時刻情報を用いて本処理の実行開始時からの経過時間を計測し、ユーザ情報取得部113Aが取得した音声情報に基づいて、所定時間内に対象ユーザの発話の有無を判定する。   Subsequently, the control unit 110A determines whether or not the target user identified in step S101 has spoken within a predetermined time (for example, within 20 seconds) shorter than the predetermined elapsed time (step S103). For example, the control unit 110A measures the elapsed time from the start of execution of this process using current time information measured by an RTC (Real Time Clock) attached to the CPU, and acquires the voice acquired by the user information acquisition unit 113A. Based on the information, the presence or absence of the target user's utterance is determined within a predetermined time.

所定時間内に対象ユーザが発話したと判定した場合(ステップS103:YES)、制御部110A(発話制御部115A)は、対象ユーザとの対話が実行されていると判断し、対象ユーザの発話に対する応答としての発話の内容を、ロボット100Bと連携して決定する(ステップS104)。制御部110A(発話制御部115A)は、記憶部120Aの発話情報DB123A及びユーザ情報DB121Aを参照し、対象ユーザの発話内容に対応し、且つ、ユーザ情報DB121Aに記憶された対象ユーザの嗜好に適合する話題の候補を決定する。この場合、対象ユーザの嗜好に適合する話題として、後述する嗜好度A及びBに対応する話題を話題の候補として決定する。   When it is determined that the target user has uttered within the predetermined time (step S103: YES), the control unit 110A (speech control unit 115A) determines that a dialogue with the target user is being executed, The content of the utterance as a response is determined in cooperation with the robot 100B (step S104). The control unit 110A (the utterance control unit 115A) refers to the utterance information DB 123A and the user information DB 121A in the storage unit 120A, corresponds to the utterance content of the target user, and conforms to the preference of the target user stored in the user information DB 121A. Determine the topic candidates. In this case, topics corresponding to the preference degrees A and B, which will be described later, are determined as topic candidates as topics that match the preferences of the target user.

このステップS104において、決定された話題の候補が一つであるときには、これを最終的な話題として決定する。一方、複数の話題の候補が決定された場合において、ロボット100Bの記憶部120Bに発話履歴情報が記憶されているときには、制御部110A(発話制御部115A)は、通信部170Aを介して記憶部120Bに記憶された発話履歴情報を読み出し、読み出した発話履歴情報の中に、複数の話題の候補の何れかと同じ又は関連する話題であって、その発話日時から現在(すなわちロボット100Aの発話開始時)までの経過時間が所定経過時間以内のもの(以下「第1比較対象話題」という)が存在するか否かを判定する。   In this step S104, when there is one determined topic candidate, this is determined as the final topic. On the other hand, when a plurality of topic candidates are determined and the utterance history information is stored in the storage unit 120B of the robot 100B, the control unit 110A (the utterance control unit 115A) is stored in the storage unit via the communication unit 170A. The utterance history information stored in 120B is read, and the read utterance history information is a topic that is the same as or related to any of a plurality of topic candidates, and from the utterance date and time (ie, when the robot 100A starts utterance) ) Until the elapsed time is within a predetermined elapsed time (hereinafter referred to as “first comparison target topic”).

そして、制御部110A(発話制御部115A)は、発話履歴情報の中に上記の第1比較対象話題が存在すると判定したときには、複数の話題の候補から、上記の第1比較対象話題と一致又は関連するものを除外し、最終的に話題を決定する。この除外により残った話題の候補が複数存在する場合には、それらのうちからランダムに選択した1つの話題が、最終的な話題として決定される。   When the control unit 110A (the utterance control unit 115A) determines that the first comparison target topic is present in the utterance history information, the control unit 110A matches or matches the first comparison target topic from a plurality of topic candidates. Exclude related ones and finally determine the topic. When there are a plurality of candidate topics remaining due to this exclusion, one topic selected at random is determined as the final topic.

一方、複数の話題の候補が決定された場合において、ロボット100Bの記憶部120Bに発話履歴情報が何も記憶されていないとき、又は、第1比較対象話題が発話履歴情報中に存在しないと判定したときには、決定された複数の話題の候補のうちからランダムに選択した1つの話題が、最終的な話題として決定される。発話制御部115Aは、以上のようにして決定した話題に沿った発話内容を示すテキストデータを出力する。   On the other hand, when a plurality of topic candidates are determined, it is determined that no utterance history information is stored in the storage unit 120B of the robot 100B, or that the first comparison target topic does not exist in the utterance history information. Then, one topic randomly selected from the plurality of determined topic candidates is determined as the final topic. The utterance control unit 115A outputs text data indicating the utterance content along the topic determined as described above.

一方、所定時間内に対象ユーザが発話していないと判定した場合(ステップS103:NO)、制御部110A(発話制御部115A)は、対象ユーザに話しかける発話の話題を決定する(ステップS105)。このとき、制御部110A(発話制御部115A)は、記憶部120Aの発話情報DB123A及びユーザ情報DB121Aを参照し、ユーザ情報DB121Aに記憶された対象ユーザの嗜好に適合する複数の話題の候補を決定する。この場合、対象ユーザの嗜好に適合する話題として、後述する嗜好度A及びBに対応する話題を話題の候補として決定する。   On the other hand, when it is determined that the target user does not speak within a predetermined time (step S103: NO), the control unit 110A (speech control unit 115A) determines the topic of the speech to be spoken to the target user (step S105). At this time, the control unit 110A (the utterance control unit 115A) refers to the utterance information DB 123A and the user information DB 121A in the storage unit 120A, and determines a plurality of topic candidates that match the preferences of the target user stored in the user information DB 121A. To do. In this case, topics corresponding to the preference degrees A and B, which will be described later, are determined as topic candidates as topics that match the preferences of the target user.

このステップS105において、決定された話題の候補が一つであるときには、これを最終的な話題として決定する。一方、複数の話題の候補が決定されたときには、ステップS104の場合と同様にして、これらの複数の話題の候補から最終的な話題を選択する。具体的には、制御部110A(発話制御部115A)は、複数の話題の候補が決定された場合において、ロボット100Bの記憶部120Bに発話履歴情報が記憶されているときには、制御部110A(発話制御部115A)は、通信部170Aを介して記憶部120Bに記憶された発話履歴情報を読み出し、読み出した発話履歴情報の中に、前記の第1比較対象話題が存在するか否かを判定する。   In this step S105, when there is one determined topic candidate, this is determined as the final topic. On the other hand, when a plurality of topic candidates are determined, the final topic is selected from the plurality of topic candidates in the same manner as in step S104. Specifically, control unit 110A (speech control unit 115A) controls control unit 110A (utterance utterance) when utterance history information is stored in storage unit 120B of robot 100B when a plurality of topic candidates are determined. The control unit 115A) reads the utterance history information stored in the storage unit 120B via the communication unit 170A, and determines whether or not the first comparison target topic exists in the read utterance history information. .

そして、制御部110A(発話制御部115A)は、発話履歴情報の中に第1比較対象話題が存在すると判定したときには、複数の話題の候補から、第1比較対象話題と一致又は関連するものを除外し、最終的に話題を決定する。この除外により残った話題の候補が複数存在する場合には、それらのうちからランダムに選択した1つの話題が、最終的な話題として決定される。   Then, when it is determined that the first comparison target topic exists in the utterance history information, the control unit 110A (the utterance control unit 115A) matches or relates to the first comparison target topic from a plurality of topic candidates. Exclude and finally determine the topic. When there are a plurality of candidate topics remaining due to this exclusion, one topic selected at random is determined as the final topic.

一方、複数の話題の候補が決定された場合において、ロボット100Bの記憶部120Bに発話履歴情報が何も記憶されていないとき、又は、第1比較対象話題が発話履歴情報中に存在しないと判定したときには、決定された複数の話題の候補のうちからランダムに選択した1つの話題が、最終的な話題として決定される。   On the other hand, when a plurality of topic candidates are determined, it is determined that no utterance history information is stored in the storage unit 120B of the robot 100B, or that the first comparison target topic does not exist in the utterance history information. Then, one topic randomly selected from the plurality of determined topic candidates is determined as the final topic.

対象ユーザが所定時間内に発話していない場合に対象ユーザに話しかける動作は、対象ユーザとロボット100A及びロボット100Bとの対話のトリガとなるものであり、対象ユーザの対話システム1の利用を促すために実施される。   The action of speaking to the target user when the target user does not speak within a predetermined time is a trigger for a conversation between the target user and the robot 100A and the robot 100B, and encourages the target user to use the interactive system 1. To be implemented.

ステップS104又はステップS105を実行した後、制御部110Aは、決定された話題に沿った発話内容に基づいて発話する(ステップS106)。制御部110A(音声合成部116A)は、発話制御部115Aから入力したロボット100Aの発話内容を示すテキストデータに対応する音声データを生成し、音声出力部150Aを制御して、音声データに基づく音声を出力する。   After executing Step S104 or Step S105, the control unit 110A utters based on the utterance content along the determined topic (Step S106). Control unit 110A (voice synthesis unit 116A) generates voice data corresponding to text data indicating the utterance content of robot 100A input from utterance control unit 115A, controls voice output unit 150A, and controls voice based on the voice data. Is output.

ステップS107〜ステップS109は、ステップS106におけるロボット100Aの発話に対する対象ユーザの反応を判定するための処理である。   Steps S107 to S109 are processes for determining the target user's reaction to the utterance of the robot 100A in step S106.

制御部110A(反応判定部117Aの音声判定部117AA)は、まず、音声判定処理を実行する(ステップS107)。ここで、図7に示すフローチャートを参照して、音声判定処理について説明する。音声判定処理は、ロボット100Aの発話後に対象ユーザから発した音声に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する処理である。   First, the control unit 110A (the voice determination unit 117AA of the reaction determination unit 117A) executes a voice determination process (step S107). Here, the voice determination process will be described with reference to the flowchart shown in FIG. The voice determination process is a process for determining the response of the target user to the utterance of the robot 100A based on the voice uttered from the target user after the utterance of the robot 100A.

音声判定部117AAは、音声判定処理を開始すると、まず、ステップS106におけるロボット100Aの発話後に対象ユーザの発話があったか否かを判定する(ステップS301)。制御部110Aは、ユーザ情報取得部113Aがロボット100Aの発話後に取得した音声情報に基づいて、ロボット100Aの発話に対する対象ユーザの発話の有無を判定する。   When the sound determination unit 117AA starts the sound determination process, it first determines whether or not the target user has spoken after the robot 100A uttered in step S106 (step S301). 110 A of control parts determine the presence or absence of an utterance of the target user with respect to the utterance of the robot 100A based on the audio | voice information which the user information acquisition part 113A acquired after the utterance of the robot 100A.

ロボット100Aの発話後に対象ユーザの発話があったと判定した場合(ステップS301:YES)、音声判定部117AAは、ロボット100Aの発話に対する対象ユーザの発話から特徴キーワードを抽出する(ステップS302)。音声判定部117AAは、音声認識部114による対象ユーザの発話の内容を示すテキストデータに基づいて、例えば、対象ユーザの発話の内容を特徴付ける特徴キーワードとして、感情に関わるキーワードを抽出する。   If it is determined that the target user has spoken after the utterance of the robot 100A (step S301: YES), the voice determination unit 117AA extracts a feature keyword from the utterance of the target user with respect to the utterance of the robot 100A (step S302). The voice determination unit 117AA extracts, for example, a keyword related to emotion as a feature keyword that characterizes the content of the target user's utterance based on the text data indicating the content of the target user's utterance by the voice recognition unit 114.

続いて、音声判定部117AAは、特徴キーワードに基づいて音声反応極性を判定する(ステップS303)。音声判定部117AAは、例えば、記憶部120Aの反応判定情報DB124Aに反応判定情報として記憶された図4に示す音声反応極性判定テーブルを参照し、抽出した特徴キーワードに対応付けられた音声反応極性に応じて判定する。音声判定部117AAは、例えば、特徴キーワードが「好き」、「楽しい」等の場合には音声反応極性を「ポジティブ」と判定する。   Subsequently, the voice determination unit 117AA determines the voice reaction polarity based on the feature keyword (step S303). For example, the voice determination unit 117AA refers to the voice reaction polarity determination table shown in FIG. 4 stored as the response determination information in the reaction determination information DB 124A of the storage unit 120A, and sets the voice response polarity associated with the extracted feature keyword. Judgment accordingly. For example, when the feature keyword is “like”, “fun” or the like, the voice determination unit 117AA determines the voice reaction polarity as “positive”.

一方、ロボット100Aの発話後に対象ユーザの発話がないと判定した場合(ステップS301:NO)、音声判定部117AAは、ロボット100Aの発話に対する反応が判然としないため、音声反応極性を「ニュートラル」と判定する(ステップS304)。   On the other hand, when it is determined that there is no utterance of the target user after the utterance of the robot 100A (step S301: NO), the voice determination unit 117AA does not clearly know the reaction to the utterance of the robot 100A, so the voice reaction polarity is set to “neutral”. Determination is made (step S304).

制御部110は、ステップS303又はS304を実行した後、音声判定処理を終了し、処理を対話制御処理に戻す。   After executing Step S303 or S304, the control unit 110 ends the voice determination process and returns the process to the dialog control process.

図5に戻り、音声判定処理(ステップS107)を実行した後、制御部110A(反応判定部117の表情判定部117BA)は、表情判定処理を実行する(ステップS108)。ここで、図8に示すフローチャートを参照して、表情判定処理について説明する。表情判定処理は、対象ユーザの表情に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する処理である。   Returning to FIG. 5, after executing the voice determination process (step S107), the control unit 110A (the facial expression determination unit 117BA of the reaction determination unit 117) executes the facial expression determination process (step S108). Here, the facial expression determination process will be described with reference to the flowchart shown in FIG. The facial expression determination process is a process for determining the response of the target user to the utterance of the robot 100A based on the facial expression of the target user.

制御部110A(反応判定部117Aの表情判定部117BA)は、表情判定処理を開始すると、まず、ステップS106におけるロボット100Aの発話後にユーザ情報取得部113Aが取得した撮像画像から対象ユーザの顔画像を抽出する(ステップS401)。   When the control unit 110A (the facial expression determination unit 117BA of the reaction determination unit 117A) starts the facial expression determination process, first, the facial image of the target user is obtained from the captured image acquired by the user information acquisition unit 113A after the utterance of the robot 100A in step S106. Extract (step S401).

続いて、表情判定部117BAは、ステップS401において抽出した顔画像に基づいて、対象ユーザの笑顔度を算出する(ステップS402)。制御部110は、例えば、反応判定情報DB124Aに記憶された笑顔度情報を参照し、顔画像における目尻の位置の変化や口の大きさの変化等に基づいて、対象ユーザの笑顔度を0〜100%の範囲で算出する。   Subsequently, the facial expression determination unit 117BA calculates the smile level of the target user based on the face image extracted in step S401 (step S402). For example, the control unit 110 refers to the smile level information stored in the reaction determination information DB 124A, and determines the smile level of the target user from 0 to 0 based on a change in the position of the outer corner of the face image, a change in the size of the mouth, and the like. Calculated in the range of 100%.

次に、表情判定部117BAは、ステップS402において算出した対象ユーザの笑顔度が70%以上であるか否かを判定する(ステップS403)。対象ユーザの笑顔度が70%以上である場合(ステップS403:YES)、制御部110は、表情反応極性を「ポジティブ」と判定する(ステップS405)。   Next, the facial expression determination unit 117BA determines whether or not the smile level of the target user calculated in step S402 is 70% or more (step S403). When the smile level of the target user is 70% or more (step S403: YES), the control unit 110 determines that the facial expression reaction polarity is “positive” (step S405).

対象ユーザの笑顔度が70%以上ではない場合(ステップS403:NO)、制御部110Aは、対象ユーザの笑顔度が40%以上70%未満であるか否かを判定する(ステップS404)。対象ユーザの笑顔度が40%以上70%未満である場合(ステップS404:YES)、制御部110は、表情反応極性を「ニュートラル」と判定する(ステップS406)。   When the smile level of the target user is not 70% or more (step S403: NO), the control unit 110A determines whether the smile level of the target user is 40% or more and less than 70% (step S404). When the smile level of the target user is 40% or more and less than 70% (step S404: YES), the control unit 110 determines that the facial expression reaction polarity is “neutral” (step S406).

対象ユーザの笑顔度が40%以上70%未満ではない場合(ステップS404:NO)、すなわち、対象ユーザの笑顔度が40%未満である場合、制御部110は、表情反応極性を「ネガティブ」と判定する(ステップS407)。   When the smile level of the target user is not 40% or more and less than 70% (step S404: NO), that is, when the smile level of the target user is less than 40%, the control unit 110 sets the facial expression reaction polarity to “negative”. Determination is made (step S407).

制御部110Aは、ステップS405〜S407のいずれかにおいて対象ユーザの表情反応極性を判定した後、表情判定処理を終了し、処理を対話制御処理に戻す。   After determining the facial expression reaction polarity of the target user in any of steps S405 to S407, control unit 110A ends the facial expression determination process and returns the process to the dialog control process.

図5に戻り、表情判定処理(ステップS108)を実行した後、制御部110Aは、行動判定処理を実行する(ステップS109)。ここで、図9に示すフローチャートを参照して、行動判定処理について説明する。行動判定処理は、対象ユーザの行動に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する処理である。   Returning to FIG. 5, after executing the facial expression determination process (step S108), the control unit 110A executes the behavior determination process (step S109). Here, the action determination process will be described with reference to the flowchart shown in FIG. The action determination process is a process of determining a response of the target user to the utterance of the robot 100A based on the action of the target user.

制御部110A(反応判定部117Aの行動判定部117CA)は、行動判定処理を開始すると、まず、対象ユーザが活発に動いているか否かを判定する(ステップS501)。行動判定部117CAは、ステップS106におけるロボット100Aの発話後にユーザ情報取得部113Aが取得した撮像画像における対象ユーザの動きに基づいて判定する。対象ユーザが活発に動いていると判定した場合(ステップS501:YES)、行動判定部117CAは、対象ユーザの視線がロボット100Aに向いているか否かを判定する(ステップS502)。行動判定部117CAは、例えば、ユーザ情報取得部113Aが取得した撮像画像における目の領域内の瞳の位置と顔の向き等とから対象ユーザの視線の向きを特定することにより判定する。   When the control unit 110A (behavior determination unit 117CA of the reaction determination unit 117A) starts the behavior determination process, it first determines whether or not the target user is actively moving (step S501). The behavior determination unit 117CA determines based on the movement of the target user in the captured image acquired by the user information acquisition unit 113A after the utterance of the robot 100A in step S106. If it is determined that the target user is actively moving (step S501: YES), the behavior determination unit 117CA determines whether the target user's line of sight is facing the robot 100A (step S502). The behavior determination unit 117CA determines, for example, by specifying the direction of the line of sight of the target user from the position of the pupil in the eye region and the direction of the face in the captured image acquired by the user information acquisition unit 113A.

対象ユーザの視線がロボット100Aに向いていると判定した場合(ステップS502:YES)、行動判定部117CAは、行動反応極性を「ポジティブ」と判定する(ステップS508)。一方、対象ユーザの視線がロボット100Aに向いていないと判定した場合(ステップS502:NO)、行動判定部117CAは、行動反応極性を「ネガティブ」と判定する(ステップS509)。   When it is determined that the line of sight of the target user is facing the robot 100A (step S502: YES), the behavior determination unit 117CA determines that the behavior reaction polarity is “positive” (step S508). On the other hand, when it is determined that the line of sight of the target user is not facing the robot 100A (step S502: NO), the behavior determination unit 117CA determines that the behavior reaction polarity is “negative” (step S509).

ステップS501において、対象ユーザが活発に動いていないと判定した場合(ステップS501:NO)、行動判定部117CAは、対象ユーザがロボット100Aに近づいたか否かを判定する(ステップS503)。行動判定部117CAは、例えば、ユーザ情報取得部113Aが取得した撮像画像における顔画像の大きさの変化に応じて判定する。   If it is determined in step S501 that the target user is not actively moving (step S501: NO), the behavior determination unit 117CA determines whether the target user has approached the robot 100A (step S503). The behavior determination unit 117CA determines, for example, according to a change in the size of the face image in the captured image acquired by the user information acquisition unit 113A.

対象ユーザがロボット100Aに近づいたと判定した場合(ステップS503:YES)、行動判定部117CAは、対象ユーザの視線がロボット100Aに向いているか否かを判定する(ステップS504)。対象ユーザの視線が、ロボット100Aに向いていると判定した場合(ステップS504:YES)、行動判定部117CAは、行動反応極性を「ポジティブ」と判定する(ステップS508)。一方、対象ユーザの視線がロボット100Aに向いていないと判定した場合(ステップS504:NO)、行動判定部117CAは、行動反応極性を「ネガティブ」と判定する(ステップS509)。   When it is determined that the target user has approached the robot 100A (step S503: YES), the behavior determination unit 117CA determines whether the target user's line of sight is facing the robot 100A (step S504). When it is determined that the line of sight of the target user is facing the robot 100A (step S504: YES), the behavior determination unit 117CA determines that the behavior response polarity is “positive” (step S508). On the other hand, when it is determined that the line of sight of the target user is not facing the robot 100A (step S504: NO), the behavior determination unit 117CA determines that the behavior reaction polarity is “negative” (step S509).

ステップS503において、対象ユーザがロボット100Aに近づいていないと判定した場合(ステップS503:NO)、行動判定部117CAは、対象ユーザがロボット100Aから遠ざかったか否かを判定する(ステップS505)。対象ユーザがロボット100Aから遠ざかったと判定した場合(ステップS505:YES)、行動判定部117CAは、行動反応極性を「ネガティブ」と判定する(ステップS509)。   If it is determined in step S503 that the target user has not approached the robot 100A (step S503: NO), the behavior determination unit 117CA determines whether the target user has moved away from the robot 100A (step S505). When it is determined that the target user has moved away from the robot 100A (step S505: YES), the behavior determination unit 117CA determines that the behavior reaction polarity is “negative” (step S509).

一方、対象ユーザがロボット100Aから遠ざかっていないと判定した場合(ステップS505:NO)、行動判定部117Cは、対象ユーザの顔を見失ったか否かを判定する(ステップS506)。対象ユーザが顔の向きを反転させる等して撮像画像から対象ユーザの顔画像を抽出できなくなった場合には、行動判定部117CAは、対象ユーザの顔部分を見失ったと判定する。対象ユーザの顔部分を見失ったと判定した場合(ステップS506:YES)、行動判定部117CAは、行動反応極性を「ニュートラル」と判定する(ステップS510)。   On the other hand, when it is determined that the target user has not moved away from the robot 100A (step S505: NO), the behavior determination unit 117C determines whether or not the target user's face has been lost (step S506). When the target user cannot extract the target user's face image from the captured image, for example, by inverting the face direction, the behavior determination unit 117CA determines that the target user's face has been lost. If it is determined that the face portion of the target user has been lost (step S506: YES), the behavior determination unit 117CA determines that the behavior response polarity is “neutral” (step S510).

対象ユーザの顔部分を見失っていないと判定した場合(ステップS506:NO)、行動判定部117CAは、対象ユーザの視線がロボット100Aに向いているか否かを判定する(ステップS507)。対象ユーザの視線がロボット100Aに対して向いていると判定した場合(ステップS507:YES)、行動判定部117CAは、行動反応極性を「ポジティブ」と判定する(ステップS508)。一方、対象ユーザの視線がロボット100Aに対して向いていないと判定した場合(ステップS507:NO)、行動判定部117CAは、行動反応極性を「ネガティブ」と判定する(ステップS509)。   When it is determined that the face portion of the target user has not been lost (step S506: NO), the behavior determination unit 117CA determines whether or not the target user's line of sight faces the robot 100A (step S507). If it is determined that the line of sight of the target user is facing the robot 100A (step S507: YES), the behavior determination unit 117CA determines that the behavior reaction polarity is “positive” (step S508). On the other hand, when it is determined that the line of sight of the target user is not facing the robot 100A (step S507: NO), the behavior determination unit 117CA determines that the behavior reaction polarity is “negative” (step S509).

制御部110は、ステップS508〜ステップS510の何れかにおいて対象ユーザの行動反応極性を判定した後、行動判定処理を終了し、処理を対話制御処理に戻す。   After determining the behavior response polarity of the target user in any one of steps S508 to S510, control unit 110 ends the behavior determination process and returns the process to the dialogue control process.

図5に戻り、行動判定処理(ステップS109)を実行した後、制御部110A(嗜好判定部118A)は、嗜好判定処理を実行する(ステップS110)。ここで、図10に示すフローチャートを参照して、嗜好判定処理について説明する。嗜好判定処理は、音声判定処理、表情判定処理、行動判定処理による各判定結果を用いて、対象ユーザとロボット100Aとの対話における話題に対する対象ユーザの嗜好度を総合的に判定する処理である。   Returning to FIG. 5, after performing the action determination process (step S109), the control unit 110A (preference determination unit 118A) executes the preference determination process (step S110). Here, the preference determination process will be described with reference to the flowchart shown in FIG. The preference determination process is a process of comprehensively determining the degree of preference of the target user with respect to the topic in the conversation between the target user and the robot 100 </ b> A using the determination results of the voice determination process, the expression determination process, and the action determination process.

嗜好判定部118Aは、嗜好判定処理を開始すると、まず、対象ユーザとロボット100Aとの対話における話題を特定する(ステップS601)。嗜好判定部118Aは、対話制御処理のステップS105において、対象ユーザが所定時間発話していない場合に対象ユーザに話しかける際に、話題が予め設定されている場合には、RAM等に記憶された話題キーワードを参照して、対象ユーザとロボット100Aとの対話における話題を特定する。一方、予め話題が設定されていない場合には、音声認識部114Aによる対象ユーザの発話の内容を示すテキストデータに基づいて、対象ユーザの発話から話題キーワードを抽出することにより、対象ユーザとロボット100Aとの対話における話題を特定する。例えば、「野球が好き」という対象ユーザの発話から、「野球」という話題が特定される。   When the preference determination unit 118A starts the preference determination process, first, the preference determination unit 118A specifies a topic in the conversation between the target user and the robot 100A (step S601). In step S105 of the dialogue control process, the preference determination unit 118A, when talking to the target user when the target user has not spoken for a predetermined time, if the topic is set in advance, the topic stored in the RAM or the like With reference to the keyword, the topic in the dialogue between the target user and the robot 100A is specified. On the other hand, when a topic is not set in advance, the target user and the robot 100A are extracted by extracting a topic keyword from the speech of the target user based on text data indicating the content of the speech of the target user by the voice recognition unit 114A. Identify topics in the dialogue with. For example, the topic “baseball” is identified from the utterance of the target user “I like baseball”.

次に、嗜好判定部118Aは、図7の音声判定処理で判定された音声反応極性が「ポジティブ」であるか否かを判定し(ステップS602)、音声反応極性が「ポジティブ」である場合(ステップS602:YES)、嗜好度を「嗜好度A」と判定する(ステップS609)。   Next, the preference determination unit 118A determines whether or not the voice response polarity determined in the voice determination process of FIG. 7 is “positive” (step S602), and when the voice response polarity is “positive” (step S602). Step S602: YES), the preference level is determined as “preference level A” (step S609).

音声反応極性が「ポジティブ」ではない場合(ステップS602:NO)、嗜好判定部118Aは、音声反応極性が「ネガティブ」であるか否かを判定する(ステップS603)。音声反応極性が「ネガティブ」である場合(ステップS603:YES)、嗜好判定部118Aは、図8の表情判定処理で判定された表情反応極性が「ポジティブ」であるか否かを判定する(ステップS604)。表情反応極性が「ポジティブ」である場合(ステップS604:YES)、嗜好判定部118Aは、嗜好度を「嗜好度B」と判定する(ステップS610)。一方、表情反応極性が「ポジティブ」ではない場合(ステップS604:NO)、嗜好判定部118Aは、嗜好度を「嗜好度D」と判定する(ステップS612)。   When the voice reaction polarity is not “positive” (step S602: NO), the preference determination unit 118A determines whether or not the voice reaction polarity is “negative” (step S603). When the voice reaction polarity is “negative” (step S603: YES), the preference determination unit 118A determines whether or not the facial expression reaction polarity determined in the facial expression determination process of FIG. S604). When the facial expression reaction polarity is “positive” (step S604: YES), the preference determination unit 118A determines the preference level as “preference level B” (step S610). On the other hand, when the facial expression reaction polarity is not “positive” (step S604: NO), the preference determination unit 118A determines the preference level as “preference level D” (step S612).

ステップS603において、音声反応極性が「ネガティブ」ではない場合(ステップS603:NO)、嗜好判定部118Aは、図9の行動判定処理で判定された行動反応極性が「ポジティブ」であるか否かを判定する(ステップS605)。行動反応極性が「ポジティブ」である場合(ステップS605:YES)、嗜好判定部118Aは、表情反応極性が「ポジティブ」又は「ニュートラル」の何れかであるか否かを判定する(ステップS606)。表情反応極性が「ポジティブ」又は「ニュートラル」の何れかである場合(ステップS606:YES)、嗜好判定部118Aは、嗜好度を「嗜好度A」と判定する(ステップS609)。一方、表情反応極性が「ポジティブ」と「ニュートラル」の何れでもない場合(ステップS606:NO)、すなわち、表情反応極性が「ネガティブ」である場合、嗜好判定部118Aは、嗜好度を「嗜好度C」と判定する(ステップS611)。   In step S603, when the voice response polarity is not “negative” (step S603: NO), the preference determination unit 118A determines whether or not the behavior response polarity determined in the behavior determination process of FIG. 9 is “positive”. Determination is made (step S605). When the behavior reaction polarity is “positive” (step S605: YES), the preference determination unit 118A determines whether the facial expression reaction polarity is “positive” or “neutral” (step S606). When the facial expression reaction polarity is either “positive” or “neutral” (step S606: YES), the preference determination unit 118A determines the preference level as “preference level A” (step S609). On the other hand, when the facial expression reaction polarity is neither “positive” nor “neutral” (step S606: NO), that is, when the facial expression reaction polarity is “negative”, the preference determination unit 118A sets the preference level to “preference level”. C ”(step S611).

ステップS605において、行動反応極性が「ポジティブ」ではない場合(ステップS605:NO)、嗜好判定部118Aは、行動反応極性が「ニュートラル」であるか否かを判定し(ステップS607)、行動反応極性が「ニュートラル」ではない場合(ステップS607:NO)、嗜好判定部118Aは、嗜好度を「嗜好度C」と判定する(ステップS611)。   If the behavior response polarity is not “positive” in step S605 (step S605: NO), the preference determination unit 118A determines whether the behavior response polarity is “neutral” (step S607), and the behavior response polarity. Is not “neutral” (step S607: NO), the preference determination unit 118A determines the preference level to be “preference level C” (step S611).

一方、行動反応極性が「ニュートラル」である場合(ステップS607:YES)、嗜好判定部118Aは、表情反応極性が「ポジティブ」であるか否かを判定する(ステップS608)。嗜好判定部118Aは、表情反応極性が「ポジティブ」である場合(ステップS608:YES)、嗜好度を「嗜好度B」と判定し(ステップS610)、表情反応極性が「ポジティブ」ではない場合(ステップS608:NO)、嗜好度を「嗜好度D」と判定する(ステップS612)。   On the other hand, when the action response polarity is “neutral” (step S607: YES), the preference determination unit 118A determines whether the facial expression reaction polarity is “positive” (step S608). When the facial expression reaction polarity is “positive” (step S608: YES), the preference determination unit 118A determines the preference level as “preference level B” (step S610), and the facial expression reaction polarity is not “positive” (step S610). Step S608: NO), the preference level is determined as “preference level D” (Step S612).

ステップS609〜ステップS612のいずれかにおいて、対象ユーザの嗜好度を判定した後、嗜好判定部118Aは、嗜好判定処理を終了し、処理を対話制御処理に戻す。   In any of step S609 to step S612, after determining the preference level of the target user, the preference determination unit 118A ends the preference determination process and returns the process to the dialogue control process.

図5に戻り、嗜好判定処理(ステップS110)を実行した後、制御部110Aは、嗜好判定結果を嗜好度情報に反映する(ステップS111)。制御部110Aは、嗜好判定処理における嗜好判定結果として、対象ユーザとロボット100Aとの対話における話題と嗜好度とが対応付けられた情報を、ユーザ情報DB121Aに記憶されたユーザ情報の嗜好度情報に追加して、嗜好度情報を更新する。これにより、嗜好度情報は、ユーザUSRごとに更新される。対象ユーザとロボット100Aとの対話における話題は、RAM等に記憶された話題キーワードが示す話題である。また、制御部110Aは、通信部170Aを制御して、対象ユーザとロボット100Aとの対話における話題と嗜好度とが対応付けられた情報を、ロボット100Bに送信する。この情報を受け取ったロボット100Bは、同様に、ユーザ情報DB121Bに記憶されたユーザ情報の嗜好度情報に追加して、嗜好度情報を更新する。これにより、ロボット100Aとロボット100Bは、各々の嗜好判定結果を共有することができる。なお、複数の話題の各々に対応付けて記憶される嗜好度情報に含まれる嗜好度の初期値は、嗜好度Aに設定されている。このように、反応判定部117A(117B)、嗜好判定部118A(118B)を含む制御部110A(110B)及び通信部170A(170B)は本発明の反応取得手段として機能する。   Returning to FIG. 5, after performing the preference determination process (step S110), the control unit 110A reflects the preference determination result in the preference level information (step S111). The control unit 110A uses, as the preference determination result in the preference determination process, information in which the topic and the preference level in the conversation between the target user and the robot 100A are associated with each other in the preference information of the user information stored in the user information DB 121A. Add and update preference information. Thereby, the preference level information is updated for each user USR. The topic in the dialogue between the target user and the robot 100A is the topic indicated by the topic keyword stored in the RAM or the like. In addition, the control unit 110A controls the communication unit 170A to transmit information in which the topic and the preference level in the dialogue between the target user and the robot 100A are associated with the robot 100B. Similarly, the robot 100B that has received this information adds the preference information of the user information stored in the user information DB 121B and updates the preference information. Thereby, the robot 100A and the robot 100B can share the respective preference determination results. Note that the preference level initial value included in the preference level information stored in association with each of a plurality of topics is set to the preference level A. Thus, the control unit 110A (110B) and the communication unit 170A (170B) including the reaction determination unit 117A (117B), the preference determination unit 118A (118B) function as the reaction acquisition unit of the present invention.

ステップS111の処理を実行した後、制御部110Aは、ロボット100Aの周囲に対象ユーザが存在するか否かを判定する(ステップS112)。ロボット100Aの周囲に対象ユーザが存在すると判定した場合(ステップS112:YES)、制御部110Aは、対象ユーザとの対話が継続可能であると判断し、処理をステップS103に戻す。このステップS112がYESの場合におけるステップS103では、ステップS106の発話が完了してからの経過時間が所定時間以内であるか否かが判定される。   After executing the process of step S111, the control unit 110A determines whether or not the target user exists around the robot 100A (step S112). If it is determined that there is a target user around the robot 100A (step S112: YES), the control unit 110A determines that the conversation with the target user can be continued, and returns the process to step S103. In step S103 in the case where this step S112 is YES, it is determined whether or not the elapsed time from the completion of the utterance in step S106 is within a predetermined time.

一方、ロボット100Aの周囲に対象ユーザが存在しないと判定した場合(ステップS112:NO)、制御部110Aは、対象ユーザとの対話が継続不可能であると判断し、ロボット100B(他のロボット)との通信接続を解除する(ステップS113)。制御部110Aは、通信部170Aを制御して、通信方式に基づく所定の手続きを行うことにより、ロボット100Bとの通信接続を解除する。その後、制御部110Aは、対話制御処理を終了する。   On the other hand, when it is determined that the target user does not exist around the robot 100A (step S112: NO), the control unit 110A determines that the conversation with the target user cannot be continued, and the robot 100B (another robot). The communication connection with is canceled (step S113). The control unit 110A controls the communication unit 170A to release a communication connection with the robot 100B by performing a predetermined procedure based on the communication method. Thereafter, the control unit 110A ends the dialogue control process.

以上がロボット100Aの制御部110Aが実行する対話制御処理であるが、ロボット100Bの制御部110Bが実行する対話制御処理も同様である。制御部110Bは、図5に示すように、対話制御処理を開始する。ユーザ特定処理は、図6に示すように実行される。   The above is the dialogue control process executed by the control unit 110A of the robot 100A, but the dialogue control process executed by the control unit 110B of the robot 100B is the same. As shown in FIG. 5, the control unit 110B starts the dialogue control process. The user specifying process is executed as shown in FIG.

図5のステップS103において、所定時間内に対象ユーザが発話したと判定した場合(ステップS103:YES)、制御部110B(発話制御部115B)は、対象ユーザとの対話が実行されていると判断し、対象ユーザの発話に対する応答としての発話の内容を決定する(ステップS104)。制御部110B(発話制御部115B)は、記憶部120Bの発話情報DB123B及びユーザ情報DB121Bを参照し、対象ユーザの発話内容に対応し、且つ、対象ユーザの嗜好に適合する話題の候補を決定する。   If it is determined in step S103 in FIG. 5 that the target user has spoken within a predetermined time (step S103: YES), the control unit 110B (speech control unit 115B) determines that an interaction with the target user is being performed. Then, the content of the utterance as a response to the utterance of the target user is determined (step S104). The control unit 110B (the utterance control unit 115B) refers to the utterance information DB 123B and the user information DB 121B of the storage unit 120B, and determines a topic candidate corresponding to the utterance content of the target user and suitable for the target user's preference. .

このステップS104において、決定された話題の候補が一つであるときには、これを最終的な話題として決定する。一方、複数の話題の候補が決定された場合において、ロボット100Aの記憶部120Aに発話履歴情報が記憶されているときには、制御部110B(発話制御部115B)は、通信部170Bを介して記憶部120Aに記憶された発話履歴情報を読み出す。そして制御部110B(発話制御部115B)は、読み出した発話履歴情報の中に、複数の話題の候補の何れかと同じ又は関連する話題であって、その発話日時から現在(すなわちロボット100Bの発話開始時)までの経過時間が所定経過時間以内のもの(以下「第2比較対象話題」という)が存在するか否かを判定する。   In this step S104, when there is one determined topic candidate, this is determined as the final topic. On the other hand, when a plurality of topic candidates are determined and the utterance history information is stored in the storage unit 120A of the robot 100A, the control unit 110B (the utterance control unit 115B) is stored in the storage unit via the communication unit 170B. The utterance history information stored in 120A is read. Then, the control unit 110B (the utterance control unit 115B) has a topic that is the same as or related to any of a plurality of topic candidates in the read utterance history information, and the present (that is, the utterance start of the robot 100B) from the utterance date and time. It is determined whether or not there is a subject whose elapsed time is within a predetermined elapsed time (hereinafter referred to as “second comparison target topic”).

制御部110B(発話制御部115B)は、第2比較対象話題が存在すると判定したときには、複数の話題の候補から、上記の第2比較対象話題と一致又は関連するものを除外し、最終的に話題を決定する。   When it is determined that the second comparison target topic exists, the control unit 110B (the utterance control unit 115B) excludes a plurality of topic candidates that match or relate to the second comparison target topic, and finally Determine the topic.

一方、複数の話題の候補が決定された場合において、ロボット100Aの記憶部120Aに発話履歴情報が何も記憶されていないとき、又は、第2比較対象話題が発話履歴情報中に存在しないと判定したときには、決定された複数の話題の候補のうちからランダムに選択した1つの話題が、最終的な話題として決定される。発話制御部115Bは、以上のようにして決定した話題に沿った発話内容を示すテキストデータを出力する。   On the other hand, when a plurality of topic candidates are determined, it is determined that no utterance history information is stored in the storage unit 120A of the robot 100A or that the second comparison target topic does not exist in the utterance history information. Then, one topic randomly selected from the plurality of determined topic candidates is determined as the final topic. The utterance control unit 115B outputs text data indicating the utterance content along the topic determined as described above.

一方、所定時間内に対象ユーザが発話していないと判定した場合(ステップS103:NO)、制御部110B(発話制御部115B)は、対象ユーザに話しかける発話の内容を決定する(ステップS105)。このとき、制御部110B(発話制御部115B)は、記憶部120Bの発話情報DB123B及びユーザ情報DB121Bを参照し、ユーザ情報DB121Bに記憶された対象ユーザの嗜好に適合する複数の話題の候補を決定する。この場合、対象ユーザの嗜好に適合する話題として、嗜好度A及びBに対応する話題を話題の候補として決定する。   On the other hand, when it is determined that the target user does not speak within the predetermined time (step S103: NO), the control unit 110B (speech control unit 115B) determines the content of the utterance to be spoken to the target user (step S105). At this time, the control unit 110B (the utterance control unit 115B) refers to the utterance information DB 123B and the user information DB 121B in the storage unit 120B, and determines a plurality of topic candidates that match the preferences of the target user stored in the user information DB 121B. To do. In this case, topics corresponding to the preference degrees A and B are determined as topic candidates as topics that match the preferences of the target user.

このステップS105において、決定された話題の候補が一つであるときには、これを最終的な話題として決定する。一方、複数の話題の候補が決定されたときには、ステップS104の場合と同様にして、これらの複数の話題の候補から最終的な話題を選択する。具体的には、制御部110B(発話制御部115B)は、複数の話題の候補が決定された場合において、ロボット100Aの記憶部120Aに発話履歴情報が記憶されているときには、制御部110B(発話制御部115B)は、通信部170Bを介して記憶部120Aに記憶された発話履歴情報を読み出す。そして制御部110B(発話制御部115B)は、読み出した発話履歴情報の中に、前記の第2比較対象話題が存在するか否かを判定する。   In this step S105, when there is one determined topic candidate, this is determined as the final topic. On the other hand, when a plurality of topic candidates are determined, the final topic is selected from the plurality of topic candidates in the same manner as in step S104. Specifically, the control unit 110B (speech control unit 115B) determines that the control unit 110B (speech utterance) is stored when utterance history information is stored in the storage unit 120A of the robot 100A when a plurality of topic candidates are determined. The control unit 115B) reads the utterance history information stored in the storage unit 120A via the communication unit 170B. Then, the control unit 110B (the utterance control unit 115B) determines whether or not the second comparison target topic exists in the read utterance history information.

制御部110B(発話制御部115B)は、第2比較対象話題が存在すると判定したときには、複数の話題の候補から、第2比較対象話題と一致又は関連するものを除外し、最終的に話題を決定する。   When it is determined that the second comparison target topic exists, the control unit 110B (the utterance control unit 115B) excludes a plurality of topic candidates that match or relate to the second comparison target topic, and finally selects the topic. decide.

一方、複数の話題の候補が決定された場合において、ロボット100Aの記憶部120Aに発話履歴情報が何も記憶されていないとき、又は、第2比較対象話題が発話履歴情報中に存在しないと判定したときには、決定された複数の話題の候補のうちからランダムに選択した1つの話題が、最終的な話題として決定される。   On the other hand, when a plurality of topic candidates are determined, it is determined that no utterance history information is stored in the storage unit 120A of the robot 100A or that the second comparison target topic does not exist in the utterance history information. Then, one topic randomly selected from the plurality of determined topic candidates is determined as the final topic.

制御部110Bが、決定された話題に沿った発話内容に基づいて発話し(ステップS106)、音声が出力されると、対象ユーザの反応を判定する図7に示す音声判定処理、図8に示す表情判定処理、図9に示す行動判定処理が実行される。行動判定処理が終了すると、図10に示す嗜好判定処理が実行される。制御部110Bは、嗜好判定処理における嗜好判定結果を、ユーザ情報DB121Bに記憶されたユーザ情報の嗜好度情報に追加して、嗜好度情報を更新する。また、制御部110Bは、通信部170Bを制御して、対象ユーザとロボット100Bとの対話における話題と嗜好度とが対応付けられた情報を、ロボット100Aに送信する。この情報を受け取ったロボット100Aは、同様に、ユーザ情報DB121Aに記憶されたユーザ情報の嗜好度情報に追加して、嗜好度情報を更新する。これにより、ロボット100Aとロボット100Bは、各々の嗜好判定結果を共有する。   The control unit 110B utters based on the utterance content along the determined topic (step S106), and when the sound is output, the sound determination process shown in FIG. 7 for determining the reaction of the target user, shown in FIG. The facial expression determination process and the action determination process shown in FIG. 9 are executed. When the action determination process ends, the preference determination process shown in FIG. 10 is executed. The control unit 110B adds the preference determination result in the preference determination process to the preference information of the user information stored in the user information DB 121B, and updates the preference information. In addition, the control unit 110B controls the communication unit 170B to transmit information in which the topic and the preference level in the conversation between the target user and the robot 100B are associated with the robot 100A. Similarly, the robot 100A that has received this information adds the preference information of the user information stored in the user information DB 121A and updates the preference information. Thereby, the robot 100A and the robot 100B share each preference determination result.

なお、上述した第1の実施形態では、ロボット100A及び100Bの一方のロボットが発話してから前記所定経過時間以内に他方のロボットが発話する場合、他方のロボットが発話する話題を、他方のロボットの発話前の所定経過時間以内に一方のロボットが発話した話題と異なる話題に決定する。それ以外の場合、ロボット100A及び100Bが発話する話題を、互いに連携させずに、互いに無関係に(互いに独立して)決定している。この決定手法に代えて、ユーザ情報DB121A(DB121B)に記憶された対象ユーザの嗜好情報の数が所定のしきい値よりも小さい場合に、ロボット100A及び100Bが発話する話題を互いに異なる話題に決定し、所定のしきい値以上の場合に、ロボット100A及び100Bが発話する話題を、互いに無関係に決定してもよい。すなわち、所定の条件が成立しているときに、ロボット100A及び100Bが発話する話題を互いに異なる話題に決定し、所定の条件が成立していないときに、ロボット100A及び100Bが発話する話題を互いに無関係に決定してもよい。あるいは、所定の条件に拘わらずに、ロボット100A及び100Bが発話する話題(発話内容)を常に、互いに連携させずに互いに無関係に決定してもよい。   In the above-described first embodiment, when one of the robots 100A and 100B speaks and the other robot speaks within the predetermined elapsed time, the topic of the other robot speaks as the other robot. The topic is determined to be different from the topic spoken by one of the robots within a predetermined elapsed time before the utterance. In other cases, topics uttered by the robots 100A and 100B are determined independently of each other (independently from each other) without being linked to each other. Instead of this determination method, when the number of preference information of the target user stored in the user information DB 121A (DB 121B) is smaller than a predetermined threshold, the topics that the robots 100A and 100B speak are determined as different topics. However, the topics spoken by the robots 100A and 100B may be determined independently of each other when the predetermined threshold value is exceeded. That is, when the predetermined condition is satisfied, the topics uttered by the robots 100A and 100B are determined as different topics, and when the predetermined condition is not satisfied, the topics uttered by the robots 100A and 100B are mutually determined. It may be determined independently. Alternatively, the topics (speech contents) spoken by the robots 100A and 100B may be determined independently of each other without being linked to each other regardless of predetermined conditions.

(第2の実施の形態)
前記の実施の形態では、ロボット100Aとロボット100Bがそれぞれ反応判定、発話制御の機能を有していたが、これらの機能がロボット100Aとロボット100Bとは別個に存在してもよい。本実施の形態では、ロボット100A及びロボット100Bと通信可能な外部のサーバを設け、サーバがロボット100Aとロボット100Bの反応判定、発話制御の処理を行う。
(Second Embodiment)
In the embodiment described above, the robot 100A and the robot 100B have the functions of reaction determination and speech control, respectively, but these functions may exist separately from the robot 100A and the robot 100B. In this embodiment, an external server capable of communicating with the robot 100A and the robot 100B is provided, and the server performs processing for reaction determination and speech control between the robot 100A and the robot 100B.

本実施の形態における対話システム1は、図11に示すように、ロボット100A、ロボット100B、サーバ200を備える。   The dialogue system 1 according to the present embodiment includes a robot 100A, a robot 100B, and a server 200 as shown in FIG.

ロボット100Aは、第1の実施の形態と同様に、制御部110A、記憶部120A、撮像部130A、音声入力部140A、音声出力部150A、移動部160A、通信部170Aを備える。ただし、制御部110Aは、第1の実施の形態の場合と異なり、発話制御部115A、反応判定部117A、嗜好判定部118Aを備えていない。また、記憶部120Aは、第1の実施の形態の場合と異なり、ユーザ情報DB121A、音声情報DB122A、発話情報DB123A、反応判定情報DB124Aを備えていない。ロボット100Bの構成もロボット100Aと同様であり、制御部110B、記憶部120B、撮像部130B、音声入力部140B、音声出力部150B、移動部160B、通信部170Bを備える。制御部110Bは、発話制御部115B、反応判定部117B、嗜好判定部118Bを備えていない。また、記憶部120Bは、ユーザ情報DB121B、音声情報DB122B、発話情報DB123B、反応判定情報DB124Bを備えていない。   Similar to the first embodiment, the robot 100A includes a control unit 110A, a storage unit 120A, an imaging unit 130A, an audio input unit 140A, an audio output unit 150A, a moving unit 160A, and a communication unit 170A. However, unlike the case of the first embodiment, the control unit 110A does not include the speech control unit 115A, the reaction determination unit 117A, and the preference determination unit 118A. Further, unlike the case of the first embodiment, the storage unit 120A does not include the user information DB 121A, the voice information DB 122A, the speech information DB 123A, and the reaction determination information DB 124A. The configuration of the robot 100B is the same as that of the robot 100A, and includes a control unit 110B, a storage unit 120B, an imaging unit 130B, a voice input unit 140B, a voice output unit 150B, a moving unit 160B, and a communication unit 170B. Control unit 110B does not include speech control unit 115B, reaction determination unit 117B, and preference determination unit 118B. The storage unit 120B does not include the user information DB 121B, the voice information DB 122B, the utterance information DB 123B, and the reaction determination information DB 124B.

サーバ200は、制御部210、記憶部220、通信部270を備える。制御部210は、発話制御部215、反応判定部217、嗜好判定部218を備える。すなわち、ロボット100A及びロボット100Bに代わって、サーバ200は、ロボット100A及びロボット100Bの各々の発話の制御や、ユーザの反応の判定、ユーザの嗜好の判定等を行うための各種の処理を行う。記憶部220は、ユーザ情報DB221、音声情報DB222、発話情報DB223、反応判定情報DB224を備える。すなわち、ロボット100Aとロボット100Bが備えた上記データベースをサーバ200に集約している。また、記憶部220は、ロボット100Aとロボット100Bが発話した発話日時及び発話した話題等を含む発話履歴情報を、ユーザUSRごとに記憶する。サーバ200は、通信部270とロボット100Aの通信部170A及びロボット100Bの通信部170Bを介してロボット100A及びロボット100Bと無線データ通信を行う。これによって、サーバ200は、ロボット100Aとロボット100Bとが対象ユーザと対話することを制御する。このように通信部270は、本発明の第1の通信手段として機能する。また、通信部170A、170Bは、本発明の第2の通信手段として機能する。   The server 200 includes a control unit 210, a storage unit 220, and a communication unit 270. The control unit 210 includes an utterance control unit 215, a reaction determination unit 217, and a preference determination unit 218. That is, instead of the robot 100A and the robot 100B, the server 200 performs various processes for controlling the utterances of the robot 100A and the robot 100B, determining the user's reaction, determining the user's preference, and the like. The storage unit 220 includes a user information DB 221, a voice information DB 222, an utterance information DB 223, and a reaction determination information DB 224. In other words, the database included in the robot 100A and the robot 100B is collected in the server 200. In addition, the storage unit 220 stores, for each user USR, utterance history information including the utterance date and time of the utterances of the robot 100A and the robot 100B and the uttered topics. The server 200 performs wireless data communication with the robot 100A and the robot 100B via the communication unit 270, the communication unit 170A of the robot 100A, and the communication unit 170B of the robot 100B. Thereby, the server 200 controls the robot 100A and the robot 100B to interact with the target user. Thus, the communication unit 270 functions as the first communication unit of the present invention. The communication units 170A and 170B function as the second communication unit of the present invention.

次に、本実施の形態における対話制御処理について説明する。ここでは、ロボット100Aの対話制御処理を例にして説明する。ロボット100Aの制御部110Aは、ユーザ検知部111Aがロボット100Aの周囲にユーザUSRを検知したことを契機に、対話制御処理を開始する。   Next, the dialogue control process in this embodiment will be described. Here, the dialogue control process of the robot 100A will be described as an example. The control unit 110A of the robot 100A starts the dialogue control process when the user detection unit 111A detects the user USR around the robot 100A.

制御部110Aは、対話制御処理(図5参照)を開始すると、まず、ユーザ特定処理を実行する。制御部110Aは、撮像部130Aから取得した撮像画像から抽出した顔画像に対応する登録ユーザを検索する。制御部110A(ユーザ特定部112A)は、サーバ200の記憶部220のユーザ情報DB221にアクセスして、撮像画像から抽出した顔画像を、ユーザ情報DB221に記憶された複数のユーザの各々の顔画像と照合し、ユーザUSRを対象ユーザとして特定する。ここで、制御部210は本発明の対象特定手段として機能する。   110 A of control parts will perform a user specific process first, if a dialog control process (refer FIG. 5) is started. The control unit 110A searches for a registered user corresponding to the face image extracted from the captured image acquired from the imaging unit 130A. The control unit 110A (user specifying unit 112A) accesses the user information DB 221 of the storage unit 220 of the server 200, and extracts the face image extracted from the captured image as the face image of each of a plurality of users stored in the user information DB 221. And the user USR is specified as the target user. Here, the control unit 210 functions as an object specifying unit of the present invention.

ユーザUSRの情報を受信したサーバ200の制御部210は、所定時間内に対象ユーザが発話したと判定した場合、制御部210(発話制御部215)は、対象ユーザとの対話が実行されていると判断し、対象ユーザの発話に対する応答としての発話の内容を決定する。制御部210(発話制御部215)は、記憶部220の発話情報DB223及びユーザ情報DB221を参照し、対象ユーザの発話内容に対応し、且つ、対象ユーザの嗜好に適合する話題の候補を決定する。   When the control unit 210 of the server 200 that has received the information of the user USR determines that the target user has uttered within a predetermined time, the control unit 210 (the utterance control unit 215) is executing a dialog with the target user. The content of the utterance as a response to the utterance of the target user is determined. The control unit 210 (the utterance control unit 215) refers to the utterance information DB 223 and the user information DB 221 in the storage unit 220, and determines topic candidates that correspond to the utterance content of the target user and that match the preference of the target user. .

決定された話題の候補が一つであるときには、これを最終的な話題として決定する。一方、複数の話題の候補が決定された場合において、記憶部220にロボット100Bの発話履歴情報が記憶されているときには、制御部210(発話制御部215)は、記憶部220に記憶された発話履歴情報を読み出し、読み出した発話履歴情報の中に、第1比較対象話題が存在するか否かを判定する。   When there is one determined topic candidate, this is determined as the final topic. On the other hand, when a plurality of topic candidates are determined and the utterance history information of the robot 100B is stored in the storage unit 220, the control unit 210 (the utterance control unit 215) stores the utterance stored in the storage unit 220. The history information is read, and it is determined whether or not the first comparison target topic exists in the read utterance history information.

制御部210(発話制御部215)は、第1比較対象話題が存在すると判定したときには、複数の話題の候補から、上記の第1比較対象話題と一致又は関連するものを除外し、最終的に話題を決定する。   When the control unit 210 (the utterance control unit 215) determines that the first comparison target topic exists, the control unit 210 (utterance control unit 215) excludes from the plurality of topic candidates those that match or relate to the first comparison target topic, and finally Determine the topic.

一方、複数の話題の候補が決定された場合において、ロボット100Bの発話履歴情報が何も記憶されていないとき、又は、第1比較対象話題が発話履歴情報中に存在しないと判定したときには、決定された複数の話題の候補のうちからランダムに選択した1つの話題が、最終的な話題として決定される。発話制御部215は、以上のようにして決定した話題に沿った発話内容を示すテキストデータを出力する。   On the other hand, when a plurality of topic candidates are determined, the determination is made when no utterance history information of the robot 100B is stored, or when it is determined that the first comparison target topic does not exist in the utterance history information. One topic randomly selected from the plurality of topic candidates is determined as the final topic. The utterance control unit 215 outputs text data indicating the utterance content along the topic determined as described above.

一方、所定時間内に対象ユーザが発話していないと判定した場合、制御部210(発話制御部215)は、対象ユーザに話しかける発話の内容を決定する。このとき、発話制御部215は、記憶部220の発話情報DB223及びユーザ情報DB221を参照し、ユーザ情報DB221に記憶された対象ユーザの嗜好に適合する複数の話題の候補を決定する。   On the other hand, when it is determined that the target user does not speak within a predetermined time, the control unit 210 (speech control unit 215) determines the content of the utterance to be spoken to the target user. At this time, the utterance control unit 215 refers to the utterance information DB 223 and the user information DB 221 in the storage unit 220 and determines a plurality of topic candidates that match the preference of the target user stored in the user information DB 221.

決定された話題の候補が一つであるときには、これを最終的な話題として決定する。一方、複数の話題の候補が決定されたときには、これらの複数の話題の候補から最終的な話題を選択する。複数の話題の候補が決定された場合において、ロボット100Bの発話履歴情報が記憶されているときには、制御部210(発話制御部215)は、発話履歴情報を読み出し、第1比較対象話題が存在するか否かを判定する。   When there is one determined topic candidate, this is determined as the final topic. On the other hand, when a plurality of topic candidates are determined, a final topic is selected from the plurality of topic candidates. When a plurality of topic candidates are determined and the utterance history information of the robot 100B is stored, the control unit 210 (the utterance control unit 215) reads out the utterance history information and there is a first comparison target topic. It is determined whether or not.

制御部210(発話制御部215)は、第1比較対象話題が存在すると判定したときには、複数の話題の候補から、第1比較対象話題と一致又は関連するものを除外し、最終的に話題を決定する。   When the control unit 210 (the utterance control unit 215) determines that the first comparison target topic exists, the control unit 210 (utterance control unit 215) excludes a plurality of topic candidates that match or relate to the first comparison target topic, and finally selects the topic. decide.

一方、複数の話題の候補が決定された場合において、ロボット100Bの発話履歴情報が何も記憶されていないとき、又は、第1比較対象話題が発話履歴情報中に存在しないと判定したときには、決定された複数の話題の候補のうちからランダムに選択した1つの話題が、最終的な話題として決定される。   On the other hand, when a plurality of topic candidates are determined, the determination is made when no utterance history information of the robot 100B is stored, or when it is determined that the first comparison target topic does not exist in the utterance history information. One topic randomly selected from the plurality of topic candidates is determined as the final topic.

ロボット100Aは、通信部170Aを介してテキストデータを受信し、音声合成部116Aに送る。音声合成部116Aは、サーバ200の記憶部220の音声情報DB222にアクセスして、音声情報DB222に格納された音響モデル等を用いてテキストデータから音声データを生成する。音声合成部116Aは、音声出力部150Aを制御して、生成した音声データを音声出力する。   The robot 100A receives the text data via the communication unit 170A and sends it to the speech synthesis unit 116A. The speech synthesis unit 116A accesses the speech information DB 222 of the storage unit 220 of the server 200, and generates speech data from the text data using an acoustic model or the like stored in the speech information DB 222. The voice synthesizer 116A controls the voice output unit 150A to output the generated voice data as a voice.

続いて、ロボット100Aの発話に対して対象ユーザの反応を判定する反応判定処理(図7から図9参照)を実行する。   Subsequently, a reaction determination process (see FIGS. 7 to 9) for determining the reaction of the target user with respect to the utterance of the robot 100A is executed.

制御部210(反応判定部217の音声判定部217A)は、音声判定処理(図7参照)を実行する。音声判定部217Aは、ロボット100Aが発話した後に対象ユーザが発した音声に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する。対象ユーザが発話すると、ロボット100Aの音声認識部114Aは、サーバ200の記憶部220の音声情報DB222にアクセスして、音声情報DB222に格納された音響モデル等を用いて音声データからテキストデータを生成する。テキストデータは、サーバ200に送信される。音声判定部217Aは、通信部270を通じて受信されたテキストデータに基づいて、ロボット100A及びロボット100Bの発話に対する対象ユーザの反応を判定する。   Control unit 210 (voice determination unit 217A of reaction determination unit 217) executes a voice determination process (see FIG. 7). The voice determination unit 217A determines the response of the target user to the utterance of the robot 100A based on the voice uttered by the target user after the robot 100A utters. When the target user speaks, the speech recognition unit 114A of the robot 100A accesses the speech information DB 222 of the storage unit 220 of the server 200 and generates text data from the speech data using an acoustic model or the like stored in the speech information DB 222. To do. The text data is transmitted to the server 200. Based on the text data received through the communication unit 270, the voice determination unit 217A determines the response of the target user to the utterances of the robot 100A and the robot 100B.

音声判定処理を実行した後、制御部210(反応判定部217の表情判定部217B)は、表情判定処理(図8参照)を実行する。表情判定部217Bは、ロボット100Aが発話した後の対象ユーザの表情に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する。ロボット100Aのユーザ情報取得部113Aがユーザの撮像画像を取得すると、通信部170Aを介して撮像画像をサーバ200に送信する。表情判定部217Bは、通信部270を介して取得された撮像画像から検出された対象ユーザの顔の特徴量を、記憶部220の反応判定情報DB224に記憶された笑顔度情報を参照し、検出した特徴量に基づいて、対象ユーザの笑顔度を算出する。表情判定部217Bは、算出した笑顔度に応じて、ロボット100Aの発話に対する対象ユーザの反応を判定する。   After executing the voice determination process, the control unit 210 (the facial expression determination unit 217B of the reaction determination unit 217) executes the facial expression determination process (see FIG. 8). The facial expression determination unit 217B determines the response of the target user to the speech of the robot 100A based on the facial expression of the target user after the robot 100A speaks. When the user information acquisition unit 113A of the robot 100A acquires the user's captured image, the captured image is transmitted to the server 200 via the communication unit 170A. The facial expression determination unit 217B detects the feature amount of the target user's face detected from the captured image acquired via the communication unit 270 with reference to the smile degree information stored in the reaction determination information DB 224 of the storage unit 220. The smile level of the target user is calculated based on the feature amount. The facial expression determination unit 217B determines the response of the target user to the utterance of the robot 100A according to the calculated smile level.

表情判定処理を実行した後、制御部210は、行動判定処理(図9参照)を実行する。行動判定部217Cは、ロボット100Aが発話した後の対象ユーザの行動に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する。行動判定部217Cは、通信部270を介して撮像画像から検出された対象ユーザの行動に基づいて、ロボット100Aの発話に対する対象ユーザの反応を判定する。   After executing the facial expression determination process, the control unit 210 executes an action determination process (see FIG. 9). The behavior determination unit 217C determines the response of the target user to the speech of the robot 100A based on the behavior of the target user after the robot 100A speaks. The behavior determination unit 217C determines the response of the target user to the utterance of the robot 100A based on the behavior of the target user detected from the captured image via the communication unit 270.

行動判定処理を実行した後、制御部210(嗜好判定部218A)は、嗜好判定処理(図10参照)を実行する。嗜好判定部218は、対象ユーザとロボット100Aとの対話における話題を特定し、反応判定部217による各判定結果に基づいて、話題に対する対象ユーザの嗜好の高さを示す嗜好度を判定する。   After executing the behavior determination process, the control unit 210 (preference determination unit 218A) executes the preference determination process (see FIG. 10). The preference determination unit 218 identifies a topic in the conversation between the target user and the robot 100A, and determines a preference level indicating the level of preference of the target user with respect to the topic based on each determination result by the reaction determination unit 217.

嗜好判定処理を実行した後、制御部210は、嗜好判定結果を嗜好度情報に反映する。制御部210は、嗜好判定処理における嗜好判定結果として、対象ユーザとロボット100Aとの対話における話題と嗜好度とが対応付けられた情報を、ユーザ情報DB221に記憶されたユーザ情報の嗜好度情報に追加して、嗜好度情報を更新する。これにより、嗜好情報はユーザUSRごとに更新される。   After executing the preference determination process, the control unit 210 reflects the preference determination result in the preference degree information. As the preference determination result in the preference determination process, the control unit 210 uses information in which the topic and the preference level in the conversation between the target user and the robot 100A are associated with each other as the preference level information of the user information stored in the user information DB 221. Add and update preference information. Thereby, preference information is updated for every user USR.

ロボット100Bに対しても同様の制御処理がなされる。第1の実施の形態では、ロボット100Aが、対象ユーザとロボット100Aとの対話における嗜好度情報を更新するとともに、ロボット100Bに送信して、この情報を受け取ったロボット100Bは、同様に、ユーザ情報DB121Bに記憶された嗜好度情報を更新する。これにより、ロボット100Aとロボット100Bは、各々の嗜好判定結果を共有することができる。これに対して、本実施の形態では、サーバ200のユーザ情報DB221にロボット100A及びロボット100Bの嗜好度情報がユーザUSRごとに記憶されることから、互いの嗜好度情報を更新する必要がない。   A similar control process is performed for the robot 100B. In the first embodiment, the robot 100A updates the preference level information in the dialogue between the target user and the robot 100A, and transmits the preference information to the robot 100B. The preference level information stored in the DB 121B is updated. Thereby, the robot 100A and the robot 100B can share the respective preference determination results. On the other hand, in the present embodiment, the preference information of the robot 100A and the robot 100B is stored in the user information DB 221 of the server 200 for each user USR, so that it is not necessary to update the preference information of each other.

上記の実施の形態において、サーバ200は、ロボット100A及びロボット100Bの各々の発話の制御や、ユーザの反応の判定、ユーザの嗜好の判定等の各種の処理を実行した。しかし、これに限らず、サーバ200は、ロボット100A及びロボット100Bの任意の処理を選択して実行することができる。例えば、サーバ200の制御部210は、発話制御部215のみを有し、ロボット100A及びロボット100Bの発話制御の処理のみ実行し、他の処理はロボット100A及びロボット100Bが実行してもよい。また、ロボット100A及びロボット100Bのユーザ検知、ユーザ特定、ユーザ情報取得、音声認識、音声合成、発話制御、反応判定、嗜好判定の処理すべてをサーバが実行してもよい。また、本実施の形態において、サーバ200の記憶部220は、ユーザ情報DB221、音声情報DB222、発話情報DB223、反応判定情報DB224を備える。しかし、これに限らず、サーバ200は、任意のデータベースを備えることができる。例えば、本実施の形態において、音声情報DB222をサーバ200が備えるのでなく、ロボット100A及びロボット100Bのそれぞれが備えてもよい。また、ユーザ情報DB221のユーザを特定する顔情報についてサーバ200だけでなく、ロボット100A及びロボット100Bのそれぞれが備えてもよい。これによって、音声認識、音声合成、ユーザ特定の際に、ロボット100A及びロボット100Bはサーバ200にアクセスする必要がない。   In the above-described embodiment, the server 200 executes various processes such as control of the utterances of the robot 100A and the robot 100B, determination of user reaction, determination of user preference, and the like. However, the present invention is not limited to this, and the server 200 can select and execute an arbitrary process of the robot 100A and the robot 100B. For example, the control unit 210 of the server 200 may include only the utterance control unit 215, execute only the utterance control processing of the robot 100A and the robot 100B, and perform other processing by the robot 100A and the robot 100B. Further, the server may execute all the processes of user detection, user identification, user information acquisition, voice recognition, voice synthesis, speech control, reaction determination, and preference determination for the robot 100A and the robot 100B. In the present embodiment, the storage unit 220 of the server 200 includes a user information DB 221, a voice information DB 222, an utterance information DB 223, and a reaction determination information DB 224. However, the present invention is not limited to this, and the server 200 can include an arbitrary database. For example, in this embodiment, each of the robot 100A and the robot 100B may include the voice information DB 222 instead of the server 200. Further, not only the server 200 but also each of the robot 100A and the robot 100B may have face information that identifies a user in the user information DB 221. Thus, the robot 100A and the robot 100B do not need to access the server 200 when performing speech recognition, speech synthesis, or user identification.

以上に説明したように、本実施の形態によれば、対話システム1は、ロボット100A、ロボット100Bを備え、あるいはこれらに加えてサーバ200を備え、ロボット100A(あるいはロボット100B、あるいはサーバ200)は、ロボット100Aによる発話に対する対象ユーザの反応を判定した結果(すなわち対象ユーザの嗜好情報)とロボット100Bによる発話に対する対象ユーザの反応を判定した結果(すなわち対象ユーザの嗜好情報)とに基づいて、ロボット100A及びロボット100Bの少なくとも何れかによる発話を制御する。これにより、対象ユーザの好みを精度よく把握し、対象ユーザの好みに合った対話を行うことができる。   As described above, according to the present embodiment, the dialogue system 1 includes the robot 100A and the robot 100B, or includes the server 200 in addition to the robot 100A and the robot 100A (or the robot 100B or the server 200). Based on the result of determining the response of the target user to the utterance by the robot 100A (ie, the preference information of the target user) and the result of determining the response of the target user to the utterance by the robot 100B (ie, the preference information of the target user) The utterance by at least one of 100A and robot 100B is controlled. As a result, it is possible to accurately grasp the preferences of the target user and perform a dialogue that matches the preferences of the target user.

また、ロボット100Aの制御部110A(あるいはロボット100Bの制御部110B、あるいはサーバ200)は、ロボット100Aによる発話に対する対象ユーザの反応を判定した結果とロボット100Bによる発話に対する対象ユーザの反応を判定した結果に基づいて、ロボット100A及びロボット100Bの少なくとも何れかによる発話を制御する。そのため、対象ユーザの好みを効率的に把握し、対象ユーザの好みを以降の発話に精度よく反映させることができる。   In addition, the control unit 110A of the robot 100A (or the control unit 110B of the robot 100B or the server 200) determines the response of the target user to the utterance by the robot 100A and the determination result of the response of the target user to the utterance by the robot 100B. Based on the above, the utterance by at least one of the robot 100A and the robot 100B is controlled. Therefore, it is possible to efficiently grasp the preferences of the target user and accurately reflect the preferences of the target user in subsequent utterances.

なお、本発明は、前記の実施の形態に限定されず、種々の変形及び応用が可能である。前記の実施の形態は、次のように変形されてもよい。   In addition, this invention is not limited to the said embodiment, A various deformation | transformation and application are possible. The embodiment described above may be modified as follows.

前記の実施の形態において、ロボット100Aとロボット100Bは、互いの発話が対象ユーザに認識されない場所に設けられた。これに対して、ロボット100Aとロボット100Bが、互いの発話が対象ユーザに認識される場所に設けられた場合の変形例について説明する。この場合、ロボット100Aとロボット100Bは、同時に対象ユーザと対話することができる。ただし、ロボット100Aとロボット100Bの発話時刻が重複又は連続すると、対象ユーザがどちらの発話に反応したのか適切に判断できないおそれがある。そうすると、対象ユーザの嗜好情報を適切に取得することができず、また、適切な応答ができない。そこで、発話制御部115Aは、ロボット100A及びロボット100Bによる発話時刻が互いに重複したり、互いに連続したりすることを防止するために、ロボット100Aの発話開始時期を、ロボット100Bの発話制御部115Bと連携して決定する。発話制御部115Aは、ロボット100A及びロボット100Bの互いの発話間隔が例えば対象ユーザの反応を判断するのに十分な時間等の所定時間以上となるように、ロボット100Aの発話開始時期を決定する。また、ロボット100Bの発話制御部115Bは、ロボット100Aの発話中及び発話終了直後連続してロボット100Bが発話しないように、開始ロボット100Bの発話開始時期を決定する。ロボット100Aとロボット100Bの発話開始時期は、発話制御部115A、115Bがそれぞれ決定する以外に、どちらか一方が決定してもよい。サーバ200がロボット100A及びロボット100Bの発話を制御する場合は、発話制御部215が両者の発話開始時期を決定する。これにより、ロボット100A及びロボット100Bによる発話は、互いに連続して行われずに、互いに所定時間以上異なるタイミングで行われる。これにより、対象ユーザの嗜好を精度良く把握し、対象ユーザの嗜好にあった対話を行うことができる。   In the above-described embodiment, the robot 100A and the robot 100B are provided in a place where mutual speech is not recognized by the target user. On the other hand, a modified example in which the robot 100A and the robot 100B are provided in a place where the mutual utterance is recognized by the target user will be described. In this case, the robot 100A and the robot 100B can interact with the target user at the same time. However, if the utterance times of the robot 100A and the robot 100B overlap or continue, it may not be possible to appropriately determine which utterance the target user has reacted to. Then, the target user's preference information cannot be appropriately acquired, and an appropriate response cannot be made. Therefore, the utterance control unit 115A sets the utterance start time of the robot 100A to the utterance control unit 115B of the robot 100B in order to prevent the utterance times of the robot 100A and the robot 100B from overlapping each other or from being continuous with each other. Decide in cooperation. The utterance control unit 115 </ b> A determines the utterance start time of the robot 100 </ b> A so that the utterance interval between the robot 100 </ b> A and the robot 100 </ b> B is equal to or longer than a predetermined time such as a time sufficient for determining the reaction of the target user. Further, the utterance control unit 115B of the robot 100B determines the utterance start time of the start robot 100B so that the robot 100B does not utter continuously during the utterance of the robot 100A and immediately after the end of the utterance. The utterance start timing of the robot 100A and the robot 100B may be determined by either one of the utterance control units 115A and 115B. When the server 200 controls the utterances of the robot 100A and the robot 100B, the utterance control unit 215 determines both utterance start times. Thereby, the utterances by the robot 100A and the robot 100B are not performed continuously, but are performed at timings different from each other by a predetermined time or more. Accordingly, it is possible to accurately grasp the target user's preference and perform a conversation that matches the target user's preference.

さらに、上記の変形例において、発話制御部115Aは、ロボット100Bの発話制御部115Bと連携して、ロボット100A及びロボット100Bが発話する話題を互いに異なる話題に決定してもよい。この場合に、第1の実施形態の場合と同様に、ロボット100A及び100Bの一方のロボットが発話してから前記所定経過時間以内に他方のロボットが発話する場合に、他方のロボットが発話する話題を、他方のロボットの発話前の所定経過時間以内に一方のロボットが発話した話題と異なる話題に決定し、それ以外の場合に、ロボット100A及び100Bが発話する話題を、互いに連携させずに、互いに無関係に(互いに独立して)決定してもよい。あるいは、この場合に、ユーザ情報DB121A(DB121B)に記憶された対象ユーザの嗜好情報の数が所定のしきい値よりも小さい場合に、ロボット100A及び100Bが発話する話題を互いに異なる話題に決定し、所定のしきい値以上の場合に、ロボット100A及び100Bが発話する話題を、互いに無関係に決定してもよい。あるいは、上記のような所定の条件に拘わらずに、ロボット100A及び100Bが発話する話題(発話内容)を常に、互いに連携させずに互いに無関係に決定してもよい。   Furthermore, in the above-described modification, the utterance control unit 115A may determine the topics uttered by the robot 100A and the robot 100B as different topics in cooperation with the utterance control unit 115B of the robot 100B. In this case, as in the first embodiment, when one of the robots 100A and 100B speaks and the other robot speaks within the predetermined elapsed time, the topic spoken by the other robot Is determined to be a topic different from the topic spoken by one robot within a predetermined elapsed time before the other robot speaks, otherwise the topics spoken by the robots 100A and 100B are not linked to each other, It may be determined independently of each other (independently of each other). Alternatively, in this case, when the number of target user's preference information stored in the user information DB 121A (DB 121B) is smaller than a predetermined threshold, the topics spoken by the robots 100A and 100B are determined as different topics. The topics spoken by the robots 100A and 100B when they are equal to or greater than a predetermined threshold may be determined independently of each other. Alternatively, regardless of the predetermined condition as described above, the topics (speech contents) spoken by the robots 100A and 100B may always be determined independently of each other without being linked to each other.

また、例えば、発話制御部115Aの発話の制御に応じて、移動部160Aを制御する移動制御手段を備えていてもよい。移動制御手段は、例えば、ロボット100Aの発話開始に合わせてロボット100Aを対象ユーザに近づくように移動部160Aを制してもよい。   Further, for example, a movement control unit that controls the moving unit 160A according to the utterance control of the utterance control unit 115A may be provided. For example, the movement control unit may control the moving unit 160A so that the robot 100A approaches the target user when the robot 100A starts speaking.

例えば、対話システム1を構成する複数のロボット100にマスタ/スレーブ方式を採用し、例えば、マスタとして機能するロボット100が、スレーブとして機能するロボット100の発話内容を含めて一括して決定し、スレーブとして機能するロボット100に対して決定した発話内容に基づいて発話することを指示するようにしてもよい。この場合、マスタとして機能するロボット100と、スレーブとして機能するロボット100の決定方法は任意であり、例えば、最先に周囲のユーザUSRを検知および特定したロボットがマスタとして機能し、その他のロボット100がスレーブとして機能するようにしてもよい。また、例えば、ユーザUSRにより最先に電源が投入されたロボット100をマスタ、続いて電源が投入されたロボット100をスレーブとして機能するようにしてもよいし、ユーザUSRが物理的なスイッチ等を用いてマスタとして機能するロボット100とスレーブとして機能するロボット100を設定できるように構成してもよい。   For example, a master / slave method is adopted for a plurality of robots 100 constituting the dialogue system 1. For example, the robot 100 functioning as a master determines collectively the utterance content of the robot 100 functioning as a slave, May be instructed to speak based on the determined utterance content. In this case, the determination method of the robot 100 functioning as the master and the robot 100 functioning as the slave is arbitrary. For example, the robot that first detects and identifies the surrounding user USR functions as the master, and the other robot 100 May function as a slave. Further, for example, the robot 100 that is first turned on by the user USR may function as a master, and then the robot 100 that is turned on as a slave may function as a slave, or the user USR may perform a physical switch or the like. The robot 100 that functions as a master and the robot 100 that functions as a slave may be set.

また、マスタとして機能するロボット100とスレーブとして機能するロボット100とを固定させてもよい。この場合、スレーブとして機能するロボット100が実行可能な機能を一部省略してもよい。例えば、マスタとして機能するロボット100の指示に従って発話する場合、スレーブとして機能するロボット100は、発話制御部115A等に相当する機能を備えていなくてもよい。   Further, the robot 100 functioning as a master and the robot 100 functioning as a slave may be fixed. In this case, some functions that can be executed by the robot 100 functioning as a slave may be omitted. For example, when speaking in accordance with an instruction from the robot 100 functioning as a master, the robot 100 functioning as a slave may not have a function corresponding to the speech control unit 115A or the like.

また、前述の実施の形態では、ロボット100Aとロボット100Bとが対象ユーザと対話する例を説明したが、1台のロボット100によって対象ユーザとの対話を実施するように構成してもよい。この場合、例えば、1台のロボット100が、前述したマスタとして機能する場合と同様に自身の発話内容と他のロボットの発話内容を一括して決定し、決定した発話内容を声色等を替えて順次音声出力することにより、あたかも1台のロボット100が他のロボットの発話を代弁しているかのように演出すればよい。   In the above-described embodiment, an example in which the robot 100A and the robot 100B interact with the target user has been described. However, the robot 100A and the target user may be configured to interact with the target user. In this case, for example, as in the case where one robot 100 functions as the master described above, the content of the utterance of itself and the content of speech of other robots are determined in a lump, and the determined utterance content is changed by changing the voice color or the like. By sequentially outputting voices, it may be produced as if one robot 100 is speaking for another robot.

前記の実施の形態では、対話システム1が複数のロボット100を備えるロボットシステムである場合を例に説明したが、対話システム1は、ロボット100が備える構成の全部または1部を備える複数の対話装置によって構成されてもよい。   In the above embodiment, the case where the dialog system 1 is a robot system including a plurality of robots 100 has been described as an example. However, the dialog system 1 includes a plurality of dialog devices including all or a part of the configuration included in the robot 100. It may be constituted by.

前記の実施の形態において、制御部110A、110BのCPUが実行する制御プログラムは、予めROM等に記憶されていた。しかしながら、本発明は、これに限定されず、前記の各種処理を実行させるための制御プログラムを、既存の汎用コンピュータや、フレームワーク、ワークステーション等の電子機器に実装することにより、前記の実施の形態に係るロボット100A、100Bに相当する装置として機能させてもよい。例えば、ロボット100A、100Bに相当する発話装置として、音声アシスタント機能を有する携帯端末、デジタルサイネージ等が含まれる。デジタルサイネージとは、ディスプレイ等の電子表示機器に映像や情報を表示するシステムである。なお発話はスピーカにより音声出力することに限らず、表示機器に文字として表示することも含む。したがって、発話を文字で表示する携帯端末、デジタルサイネージ等もロボット100A、100Bに相当する発話装置として含まれる。   In the above-described embodiment, the control program executed by the CPUs of the control units 110A and 110B is stored in advance in a ROM or the like. However, the present invention is not limited to this, and by implementing a control program for executing the above-described various processes in an electronic device such as an existing general-purpose computer, a framework, or a workstation, You may make it function as an apparatus equivalent to robot 100A, 100B concerning a form. For example, speech devices corresponding to the robots 100A and 100B include portable terminals having a voice assistant function, digital signage, and the like. Digital signage is a system that displays video and information on an electronic display device such as a display. Note that the utterance is not limited to outputting the sound through the speaker, but includes displaying the character on a display device. Therefore, portable terminals, digital signage, and the like that display utterances as characters are also included as utterance devices corresponding to the robots 100A and 100B.

このようなプログラムの提供方法は任意であり、例えば、コンピュータが読取可能な記録媒体(フレキシブルディスク、CD(Compact Disc)−ROM、DVD(Digital Versatile Disc)−ROM)等に格納して配布してもよいし、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより提供してもよい。   The method of providing such a program is arbitrary. For example, the program is stored and distributed on a computer-readable recording medium (flexible disc, CD (Compact Disc) -ROM, DVD (Digital Versatile Disc) -ROM) or the like. Alternatively, the program may be stored in a storage on a network such as the Internet and provided by downloading it.

また、前記の処理をOS(Operating System)とアプリケーションプログラムとの分担、又は、OSとアプリケーションプログラムとの協働によって実行する場合には、アプリケーションプログラムのみを記録媒体やストレージに格納してもよい。また、搬送波にプログラムを重畳し、ネットワークを介して配信することも可能である。例えば、ネットワーク上の掲示板(Bulletin Board System:BBS)に前記プログラムを掲示し、ネットワークを介してプログラムを配信してもよい。そして、配信されたプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。   Further, when the above processing is executed by sharing an OS (Operating System) and an application program, or by cooperation between the OS and the application program, only the application program may be stored in a recording medium or storage. It is also possible to superimpose a program on a carrier wave and distribute it via a network. For example, the program may be posted on a bulletin board (BBS) on a network and distributed through the network. Then, the distributed processing may be executed by starting the distributed program and executing it in the same manner as other application programs under the control of the OS.

本発明は、本発明の広義の精神と範囲とを逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、前述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及び特許請求の範囲と同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。   The present invention is capable of various embodiments and modifications without departing from the broad spirit and scope of the present invention. The above-described embodiments are for explaining the present invention and do not limit the scope of the present invention. In other words, the scope of the present invention is shown not by the embodiments but by the claims. Various modifications made within the scope of the claims and within the scope of the meaning of the invention equivalent to the claims are considered to be within the scope of the present invention.

以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。   The invention described in the scope of the claims of the present application will be appended below.

(付記)
(付記1)
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段と、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段と、
を備える、
ことを特徴とする対話制御装置。
(Appendix)
(Appendix 1)
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Reaction acquisition means for acquiring a plurality of reaction determination results;
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Comprising
An interactive control device characterized by the above.

(付記2)
前記反応取得手段は、前記第1発話装置により前記発話が前記所定の対象に対して行われる場所と、前記第2発話装置により前記発話が前記所定の対象に対して行われる場所とが、前記第1及び第2発話装置による前記発話の両方を前記所定の対象が認識できないような場所である場合における、前記第1及び第2発話装置による発話の各々に対する前記所定の対象の反応を判定した結果を含む前記複数の反応判定結果を取得する、
ことを特徴とする付記1に記載の対話制御装置。
(Appendix 2)
The reaction acquisition means includes a place where the utterance is performed on the predetermined object by the first utterance device and a place where the utterance is performed on the predetermined object by the second utterance device. The response of the predetermined object to each of the utterances by the first and second utterance devices is determined when the predetermined object cannot recognize both of the utterances by the first and second utterance devices. Obtaining the plurality of reaction determination results including the results;
The dialogue control apparatus according to supplementary note 1, wherein:

(付記3)
前記発話制御手段は、前記第1及び第2発話装置による前記発話を、互いに連続して行わずに、互いに所定時間以上異なるタイミングで行うように、制御する、
ことを特徴とする付記1に記載の対話制御装置。
(Appendix 3)
The utterance control means controls the utterances by the first and second utterance devices to be performed at timings different from each other at a predetermined time or more, without being performed continuously with each other;
The dialogue control apparatus according to supplementary note 1, wherein:

(付記4)
前記発話制御手段は、前記第1及び第2発話装置による前記発話の話題を互いに異なる話題に決定する、
ことを特徴とする付記1又は2に記載の対話制御装置。
(Appendix 4)
The speech control means determines the topic of the speech by the first and second speech devices as different topics.
The dialog control apparatus according to appendix 1 or 2, characterized in that:

(付記5)
前記発話制御手段は、前記第1及び第2発話装置による前記発話の内容を互いに無関係に決定する、
ことを特徴とする付記1又は2に記載の対話制御装置。
(Appendix 5)
The utterance control means determines the content of the utterance by the first and second utterance devices independently of each other;
The dialog control apparatus according to appendix 1 or 2, characterized in that:

(付記6)
前記複数の反応判定結果は、所定の対象が発した音声と前記所定の対象の撮像画像との少なくとも何れかに基づいて前記第1及び第2発話装置による発話に対する前記所定の対象の反応を判定した結果である、
ことを特徴とする付記1乃至5の何れか1つに記載の対話制御装置。
(Appendix 6)
The plurality of response determination results determine the response of the predetermined target to the utterances by the first and second utterance devices based on at least one of a voice uttered by the predetermined target and a captured image of the predetermined target. Is the result of
6. The dialogue control device according to any one of appendices 1 to 5, characterized in that:

(付記7)
前記所定の対象が発した音声と、前記所定の対象の撮像画像の少なくとも何れかを取得する取得手段を更に備え、
前記反応取得手段は、
前記取得手段により取得された前記音声と前記撮像画像の前記少なくとも何れかに基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の反応を判定することにより、前記複数の反応判定結果を取得する、
ことを特徴とする付記1乃至6の何れか1つに記載の対話制御装置。
(Appendix 7)
An acquisition means for acquiring at least one of a sound uttered by the predetermined target and a captured image of the predetermined target;
The reaction acquisition means includes
Determining the reaction of the predetermined target with respect to the utterance by each of the first and second utterance devices based on at least one of the voice and the captured image acquired by the acquisition means; Get the response judgment result of
The dialogue control device according to any one of supplementary notes 1 to 6, characterized in that:

(付記8)
前記反応取得手段は、
前記取得手段により取得された前記音声に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の前記音声の内容を判定する音声判定手段と、
前記取得手段により取得された前記撮像画像に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の表情を判定する表情判定手段と、
前記取得手段により取得された前記撮像画像に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の行動を判定する行動判定手段と、
の少なくとも何れかを有し、
前記音声判定手段、前記表情判定手段及び前記行動判定手段の前記少なくとも何れかの判定結果に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の反応を判定することにより、前記複数の反応判定結果を取得する、
ことを特徴とする付記7に記載の対話制御装置。
(Appendix 8)
The reaction acquisition means includes
Based on the voice acquired by the acquisition means, voice determination means for determining the content of the voice of the predetermined target for the utterance by each of the first and second utterance devices;
Facial expression determination means for determining the facial expression of the predetermined target for the utterance by each of the first and second utterance devices based on the captured image acquired by the acquisition means;
Action determining means for determining the action of the predetermined target for the utterance by each of the first and second utterance devices based on the captured image acquired by the acquiring means;
Having at least one of
Determining a response of the predetermined target to the utterance by each of the first and second utterance devices based on the determination result of at least one of the voice determination unit, the facial expression determination unit, and the action determination unit; To obtain the plurality of reaction determination results,
The dialog control device according to appendix 7, characterized by:

(付記9)
前記反応取得手段は、前記所定の対象の前記音声、前記表情及び前記行動の少なくとも何れかに基づいて、前記所定の対象の前記反応を肯定的な反応、否定的な反応、肯定的でも否定的でもない中立的な反応に分類することにより、前記所定の対象の前記反応を判定する、
ことを特徴とする付記8に記載の対話制御装置。
(Appendix 9)
The response acquisition means is a positive response, a negative response, a positive or negative response to the response of the predetermined target based on at least one of the voice, the facial expression, and the action of the predetermined target. Determining the response of the given subject by classifying it into a neutral response that is not
9. The dialogue control device according to appendix 8, wherein

(付記10)
前記所定の対象が発した前記音声と、前記第1発話装置による前記発話と、前記第2発話装置による前記発話との少なくとも何れかに基づいて、前記所定の対象との対話における話題を特定する特定手段と、
前記取得した複数の反応判定結果に基づいて、前記特定手段により特定された前記話題に対する前記所定の対象の嗜好の度合いを示す嗜好度を判定する嗜好判定手段と、
を更に備え、
前記発話制御手段は、前記嗜好判定手段により判定された嗜好度に基づいて、前記複数の発話装置の前記少なくとも何れかによる前記発話を制御する、
ことを特徴とする付記7乃至9の何れか1つに記載の対話制御装置。
(Appendix 10)
A topic in a dialogue with the predetermined target is specified based on at least one of the voice uttered by the predetermined target, the utterance by the first utterance device, and the utterance by the second utterance device. Specific means,
A preference determination unit that determines a preference level indicating a degree of preference of the predetermined target with respect to the topic identified by the identification unit based on the plurality of obtained reaction determination results;
Further comprising
The utterance control means controls the utterance by the at least one of the plurality of utterance devices based on the preference degree determined by the preference determination means;
The dialogue control device according to any one of appendices 7 to 9, characterized in that:

(付記11)
前記嗜好は、有形と無形とを問わず物事に関する趣味や好みであり、食品、スポーツ、天気に関する趣味や好みの他、前記第1発話装置と前記第2発話装置の少なくとも何れかの発話内容に対する好みを含む、
ことを特徴とする付記10に記載の対話制御装置。
(Appendix 11)
The preference is a hobby or preference related to things regardless of tangible or intangible, and in addition to a hobby or preference related to food, sports, or the weather, to the utterance content of at least one of the first utterance device and the second utterance device. Including preferences,
Item 11. The dialog control device according to appendix 10, wherein

(付記12)
前記嗜好判定手段は、前記話題に対する前記所定の対象の前記嗜好が高い順に、前記嗜好度を複数の段階に判定し、
前記発話制御手段は、前記嗜好判定手段により判定された前記嗜好度を示す前記複数の段階の情報に基づいて、前記複数の発話装置の前記少なくとも何れかによる前記発話を制御する、
ことを特徴とする付記10又は11に記載の対話制御装置。
(Appendix 12)
The preference determination means determines the preference level in a plurality of stages in descending order of the preference of the predetermined target with respect to the topic,
The utterance control unit controls the utterance by the at least one of the plurality of utterance devices based on the information of the plurality of stages indicating the preference degree determined by the preference determination unit;
12. The dialogue control apparatus according to appendix 10 or 11, characterized by the above.

(付記13)
前記所定の対象は人又は動物又はロボットを含む、
ことを特徴とする付記1乃至12の何れか1つに記載の対話制御装置。
(Appendix 13)
The predetermined object includes a person or an animal or a robot,
13. The dialogue control device according to any one of appendices 1 to 12, characterized in that:

(付記14)
互いに異なる複数の対象から前記所定の対象を特定する対象特定手段を更に備え、
前記反応取得手段は、前記第1発話装置による発話に対する、前記特定された前記所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する、前記特定された前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する、
ことを特徴とする、付記1乃至13の何れか1つに記載の対話制御装置。
(Appendix 14)
A target specifying means for specifying the predetermined target from a plurality of different targets;
The reaction acquisition unit is configured to determine the response of the specified predetermined target with respect to the utterance by the first utterance device and the utterance by the second utterance device provided separately from the first utterance device. Obtaining a plurality of response determination results including a result of determining the response of the specified predetermined target,
The dialog control device according to any one of appendices 1 to 13, characterized in that:

(付記15)
前記対話制御装置は、前記第1及び第2発話装置の少なくとも何れかに設けられていることを特徴とする、付記1乃至14の何れか1つに記載の対話制御装置。
(Appendix 15)
The dialogue control device according to any one of appendices 1 to 14, wherein the dialogue control device is provided in at least one of the first and second utterance devices.

(付記16)
前記対話制御装置は、前記第1及び第2発話装置とは別個に設けられていることを特徴とする、付記1乃至14の何れか1つに記載の対話制御装置。
(Appendix 16)
The dialogue control device according to any one of appendices 1 to 14, wherein the dialogue control device is provided separately from the first and second utterance devices.

(付記17)
発話可能に構成された第1発話装置及び第2発話装置と、対話制御装置と、を備える対話システムであって、
前記対話制御装置は、
前記第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた前記第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段と、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段と、
を備える、
ことを特徴とする対話システム。
(Appendix 17)
A dialogue system comprising a first utterance device and a second utterance device configured to be utterable, and a dialogue control device,
The dialogue control device comprises:
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by the second utterance device provided separately from the first utterance device; Reaction acquisition means for acquiring a plurality of reaction determination results including:
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Comprising
An interactive system characterized by that.

(付記18)
前記第1及び第2発話装置の各々は、
前記所定の対象が発した音声と、前記所定の対象の撮像画像の少なくとも何れかを取得する取得手段と、
第1通信手段と、を備え、
前記対話制御装置は、前記第1及び第2発話装置と前記第1通信手段を介して通信するための第2通信手段を更に備え、
前記対話制御装置の前記反応取得手段は、
前記第1発話装置の前記取得手段により取得された前記音声と前記撮像画像との前記少なくとも何れかである第1データを、前記第1及び第2通信手段を介して取得し、前記取得した前記第1データに基づいて、前記第1発話装置による前記発話に対する前記所定の対象の反応を判定することにより、前記第1発話装置による前記発話に対する前記所定の対象の反応の判定結果である第1反応判定結果を取得し、
前記第2発話装置の前記取得手段により取得された前記音声と前記撮像画像との前記少なくとも何れかである第2データを、前記第1及び第2通信手段を介して取得し、前記取得した前記第2データに基づいて、前記第2発話装置による前記発話に対する前記所定の対象の反応を判定することにより、前記第2発話装置による前記発話に対する前記所定の対象の反応の判定結果である第2反応判定結果を取得し、
前記対話制御装置の前記発話制御手段は、前記反応取得手段により取得された前記第1及び第2反応判定結果を含む前記複数の反応判定結果に基づき、前記第2及び第1通信手段を介して、前記第1及び第2発話装置による前記発話を制御する、
ことを特徴とする付記17に記載の対話システム。
(Appendix 18)
Each of the first and second utterance devices includes:
Acquisition means for acquiring at least one of a sound uttered by the predetermined target and a captured image of the predetermined target;
First communication means,
The dialogue control device further includes second communication means for communicating with the first and second utterance devices via the first communication means,
The reaction acquisition means of the dialog control device comprises:
The first data which is at least one of the voice and the captured image acquired by the acquisition unit of the first utterance device is acquired via the first and second communication units, and the acquired The determination result of the response of the predetermined object to the utterance by the first utterance device by determining the reaction of the predetermined object to the utterance by the first utterance device based on the first data. Get the response judgment result,
The second data that is at least one of the voice and the captured image acquired by the acquisition unit of the second utterance device is acquired via the first and second communication units, and the acquired The determination result of the response of the predetermined object to the utterance by the second utterance device by determining the response of the predetermined object to the utterance by the second utterance device based on the second data. Get the response judgment result,
The utterance control means of the dialog control device is configured to pass through the second and first communication means based on the plurality of reaction determination results including the first and second reaction determination results acquired by the reaction acquisition means. Controlling the utterance by the first and second utterance devices;
18. The dialogue system according to appendix 17, characterized by that.

(付記19)
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する処理と、
前記取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する処理と、
を含む、
ことを特徴とする対話制御方法。
(Appendix 19)
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Processing for obtaining a plurality of reaction determination results;
A process for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on the plurality of obtained reaction determination results;
including,
A dialog control method characterized by the above.

(付記20)
コンピュータを、
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段、
として機能させる、
ことを特徴とするプログラム。
(Appendix 20)
Computer
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Reaction acquisition means for acquiring a plurality of reaction determination results;
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Function as
A program characterized by that.

1…対話システム、100,100A,100B…ロボット、101…胴体部、102…頭部、103…手部、104…足部、105…目部、106…口部、107…耳部、110A,110B,210…制御部、111A,111B…ユーザ検知部、112A,112B…ユーザ特定部、113A,113B…ユーザ情報取得部、114A,114B…音声認識部、115A,115B,215…発話制御部、116A,116B…音声合成部、117A,117B,217…反応判定部、117AA,117AB,217A…音声判定部、117BA,117BB,217B…表情判定部、117CA,117CB,217C…行動判定部、118A,118B,218…嗜好判定部、120A,120B,220…記憶部、121A,121B,221…ユーザ情報DB、122A,122B,222…音声情報DB、123A,123B,223…発話情報DB、124A,124B,224…反応判定情報DB、130A,130B…撮像部、140A,140B…音声入力部、150A,150B…音声出力部、160A,160B…移動部、170A,170B,270…通信部、200…サーバ、BL…バスライン、USR…ユーザ DESCRIPTION OF SYMBOLS 1 ... Dialog system, 100, 100A, 100B ... Robot, 101 ... Torso part, 102 ... Head part, 103 ... Hand part, 104 ... Foot part, 105 ... Eye part, 106 ... Mouth part, 107 ... Ear part, 110A, 110B, 210 ... control unit, 111A, 111B ... user detection unit, 112A, 112B ... user identification unit, 113A, 113B ... user information acquisition unit, 114A, 114B ... voice recognition unit, 115A, 115B, 215 ... utterance control unit, 116A, 116B: Speech synthesis unit, 117A, 117B, 217 ... Reaction determination unit, 117AA, 117AB, 217A ... Speech determination unit, 117BA, 117BB, 217B ... Facial expression determination unit, 117CA, 117CB, 217C ... Behavior determination unit, 118A, 118B, 218 ... Preference determination unit, 120A, 120B, 220 ... Storage unit, 121A, 21B, 221 ... user information DB, 122A, 122B, 222 ... voice information DB, 123A, 123B, 223 ... utterance information DB, 124A, 124B, 224 ... reaction determination information DB, 130A, 130B ... imaging unit, 140A, 140B ... Voice input unit, 150A, 150B ... voice output unit, 160A, 160B ... moving unit, 170A, 170B, 270 ... communication unit, 200 ... server, BL ... bus line, USR ... user

Claims (20)

第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段と、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段と、
を備える、
ことを特徴とする対話制御装置。
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Reaction acquisition means for acquiring a plurality of reaction determination results;
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Comprising
An interactive control device characterized by the above.
前記反応取得手段は、前記第1発話装置により前記発話が前記所定の対象に対して行われる場所と、前記第2発話装置により前記発話が前記所定の対象に対して行われる場所とが、前記第1及び第2発話装置による前記発話の両方を前記所定の対象が認識できないような場所である場合における、前記第1及び第2発話装置による発話の各々に対する前記所定の対象の反応を判定した結果を含む前記複数の反応判定結果を取得する、
ことを特徴とする請求項1に記載の対話制御装置。
The reaction acquisition means includes a place where the utterance is performed on the predetermined object by the first utterance device and a place where the utterance is performed on the predetermined object by the second utterance device. The response of the predetermined object to each of the utterances by the first and second utterance devices is determined when the predetermined object cannot recognize both of the utterances by the first and second utterance devices. Obtaining the plurality of reaction determination results including the results;
The dialogue control apparatus according to claim 1, wherein
前記発話制御手段は、前記第1及び第2発話装置による前記発話を、互いに連続して行わずに、互いに所定時間以上異なるタイミングで行うように、制御する、
ことを特徴とする請求項1に記載の対話制御装置。
The utterance control means controls the utterances by the first and second utterance devices to be performed at timings different from each other at a predetermined time or more, without being performed continuously with each other;
The dialogue control apparatus according to claim 1, wherein
前記発話制御手段は、前記第1及び第2発話装置による前記発話の話題を互いに異なる話題に決定する、
ことを特徴とする請求項1又は2に記載の対話制御装置。
The speech control means determines the topic of the speech by the first and second speech devices as different topics.
The dialogue control apparatus according to claim 1 or 2, wherein
前記発話制御手段は、前記第1及び第2発話装置による前記発話の内容を互いに無関係に決定する、
ことを特徴とする請求項1又は2に記載の対話制御装置。
The utterance control means determines the content of the utterance by the first and second utterance devices independently of each other;
The dialogue control apparatus according to claim 1 or 2, wherein
前記複数の反応判定結果は、所定の対象が発した音声と前記所定の対象の撮像画像との少なくとも何れかに基づいて前記第1及び第2発話装置による発話に対する前記所定の対象の反応を判定した結果である、
ことを特徴とする請求項1乃至5の何れか1項に記載の対話制御装置。
The plurality of response determination results determine the response of the predetermined target to the utterances by the first and second utterance devices based on at least one of a voice uttered by the predetermined target and a captured image of the predetermined target. Is the result of
6. The dialogue control apparatus according to claim 1, wherein
前記所定の対象が発した音声と、前記所定の対象の撮像画像の少なくとも何れかを取得する取得手段を更に備え、
前記反応取得手段は、
前記取得手段により取得された前記音声と前記撮像画像の前記少なくとも何れかに基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の反応を判定することにより、前記複数の反応判定結果を取得する、
ことを特徴とする請求項1乃至6の何れか1項に記載の対話制御装置。
An acquisition means for acquiring at least one of a sound uttered by the predetermined target and a captured image of the predetermined target;
The reaction acquisition means includes
Determining the reaction of the predetermined target with respect to the utterance by each of the first and second utterance devices based on at least one of the voice and the captured image acquired by the acquisition means; Get the response judgment result of
The dialogue control device according to claim 1, wherein
前記反応取得手段は、
前記取得手段により取得された前記音声に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の前記音声の内容を判定する音声判定手段と、
前記取得手段により取得された前記撮像画像に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の表情を判定する表情判定手段と、
前記取得手段により取得された前記撮像画像に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の行動を判定する行動判定手段と、
の少なくとも何れかを有し、
前記音声判定手段、前記表情判定手段及び前記行動判定手段の前記少なくとも何れかの判定結果に基づいて、前記第1及び第2発話装置の各々による前記発話に対する前記所定の対象の反応を判定することにより、前記複数の反応判定結果を取得する、
ことを特徴とする請求項7に記載の対話制御装置。
The reaction acquisition means includes
Based on the voice acquired by the acquisition means, voice determination means for determining the content of the voice of the predetermined target for the utterance by each of the first and second utterance devices;
Facial expression determination means for determining the facial expression of the predetermined target for the utterance by each of the first and second utterance devices based on the captured image acquired by the acquisition means;
Action determining means for determining the action of the predetermined target for the utterance by each of the first and second utterance devices based on the captured image acquired by the acquiring means;
Having at least one of
Determining a response of the predetermined target to the utterance by each of the first and second utterance devices based on the determination result of at least one of the voice determination unit, the facial expression determination unit, and the action determination unit; To obtain the plurality of reaction determination results,
The dialogue control apparatus according to claim 7.
前記反応取得手段は、前記所定の対象の前記音声、前記表情及び前記行動の少なくとも何れかに基づいて、前記所定の対象の前記反応を肯定的な反応、否定的な反応、肯定的でも否定的でもない中立的な反応に分類することにより、前記所定の対象の前記反応を判定する、
ことを特徴とする請求項8に記載の対話制御装置。
The response acquisition means is a positive response, a negative response, a positive or negative response to the response of the predetermined target based on at least one of the voice, the facial expression, and the action of the predetermined target. Determining the response of the given subject by classifying it into a neutral response that is not
The dialogue control apparatus according to claim 8, wherein:
前記所定の対象が発した前記音声と、前記第1発話装置による前記発話と、前記第2発話装置による前記発話との少なくとも何れかに基づいて、前記所定の対象との対話における話題を特定する特定手段と、
前記取得した複数の反応判定結果に基づいて、前記特定手段により特定された前記話題に対する前記所定の対象の嗜好の度合いを示す嗜好度を判定する嗜好判定手段と、
を更に備え、
前記発話制御手段は、前記嗜好判定手段により判定された嗜好度に基づいて、前記複数の発話装置の前記少なくとも何れかによる前記発話を制御する、
ことを特徴とする請求項7乃至9の何れか1項に記載の対話制御装置。
The topic in the dialogue with the predetermined target is specified based on at least one of the voice uttered by the predetermined target, the utterance by the first utterance device, and the utterance by the second utterance device. Specific means,
A preference determination unit that determines a preference level indicating a degree of preference of the predetermined target with respect to the topic identified by the identification unit based on the plurality of obtained reaction determination results;
Further comprising
The utterance control means controls the utterance by the at least one of the plurality of utterance devices based on the preference degree determined by the preference determination means;
10. The dialogue control apparatus according to claim 7, wherein the dialogue control apparatus is any one of claims 7 to 9.
前記嗜好は、有形と無形とを問わず物事に関する趣味や好みであり、食品、スポーツ、天気に関する趣味や好みの他、前記第1発話装置と前記第2発話装置の少なくとも何れかの発話内容に対する好みを含む、
ことを特徴とする請求項10に記載の対話制御装置。
The preference is a hobby or preference regarding things regardless of tangible or intangible. In addition to a hobby or preference regarding food, sports, or weather, the preference is for at least one of the utterance contents of the first utterance device and the second utterance device. Including preferences,
The dialogue control apparatus according to claim 10.
前記嗜好判定手段は、前記話題に対する前記所定の対象の前記嗜好が高い順に、前記嗜好度を複数の段階に判定し、
前記発話制御手段は、前記嗜好判定手段により判定された前記嗜好度を示す前記複数の段階の情報に基づいて、前記複数の発話装置の前記少なくとも何れかによる前記発話を制御する、
ことを特徴とする請求項10又は11に記載の対話制御装置。
The preference determination means determines the preference level in a plurality of stages in descending order of the preference of the predetermined target with respect to the topic,
The utterance control unit controls the utterance by the at least one of the plurality of utterance devices based on the information of the plurality of stages indicating the preference degree determined by the preference determination unit;
12. The dialogue control apparatus according to claim 10 or 11, wherein:
前記所定の対象は人又は動物又はロボットを含む、
ことを特徴とする請求項1乃至12の何れか1項に記載の対話制御装置。
The predetermined object includes a person or an animal or a robot,
The dialogue control apparatus according to any one of claims 1 to 12, wherein
互いに異なる複数の対象から前記所定の対象を特定する対象特定手段を更に備え、
前記反応取得手段は、前記第1発話装置による発話に対する、前記特定された前記所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する、前記特定された前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する、
ことを特徴とする、請求項1乃至13の何れか1項に記載の対話制御装置。
A target specifying means for specifying the predetermined target from a plurality of different targets;
The reaction acquisition unit is configured to determine the response of the specified predetermined target with respect to the utterance by the first utterance device and the utterance by the second utterance device provided separately from the first utterance device. Obtaining a plurality of response determination results including a result of determining the response of the specified predetermined target,
The dialogue control device according to claim 1, wherein the dialogue control device is characterized in that:
前記対話制御装置は、前記第1及び第2発話装置の少なくとも何れかに設けられていることを特徴とする、請求項1乃至14の何れか1項に記載の対話制御装置。   15. The dialogue control device according to claim 1, wherein the dialogue control device is provided in at least one of the first and second utterance devices. 前記対話制御装置は、前記第1及び第2発話装置とは別個に設けられていることを特徴とする、請求項1乃至14の何れか1項に記載の対話制御装置。   15. The dialogue control device according to claim 1, wherein the dialogue control device is provided separately from the first and second utterance devices. 発話可能に構成された第1発話装置及び第2発話装置と、対話制御装置と、を備える対話システムであって、
前記対話制御装置は、
前記第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた前記第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段と、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段と、
を備える、
ことを特徴とする対話システム。
A dialogue system comprising a first utterance device and a second utterance device configured to be utterable, and a dialogue control device,
The dialogue control device comprises:
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by the second utterance device provided separately from the first utterance device; Reaction acquisition means for acquiring a plurality of reaction determination results including:
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Comprising
An interactive system characterized by that.
前記第1及び第2発話装置の各々は、
前記所定の対象が発した音声と、前記所定の対象の撮像画像の少なくとも何れかを取得する取得手段と、
第1通信手段と、を備え、
前記対話制御装置は、前記第1及び第2発話装置と前記第1通信手段を介して通信するための第2通信手段を更に備え、
前記対話制御装置の前記反応取得手段は、
前記第1発話装置の前記取得手段により取得された前記音声と前記撮像画像との前記少なくとも何れかである第1データを、前記第1及び第2通信手段を介して取得し、前記取得した前記第1データに基づいて、前記第1発話装置による前記発話に対する前記所定の対象の反応を判定することにより、前記第1発話装置による前記発話に対する前記所定の対象の反応の判定結果である第1反応判定結果を取得し、
前記第2発話装置の前記取得手段により取得された前記音声と前記撮像画像との前記少なくとも何れかである第2データを、前記第1及び第2通信手段を介して取得し、前記取得した前記第2データに基づいて、前記第2発話装置による前記発話に対する前記所定の対象の反応を判定することにより、前記第2発話装置による前記発話に対する前記所定の対象の反応の判定結果である第2反応判定結果を取得し、
前記対話制御装置の前記発話制御手段は、前記反応取得手段により取得された前記第1及び第2反応判定結果を含む前記複数の反応判定結果に基づき、前記第2及び第1通信手段を介して、前記第1及び第2発話装置による前記発話を制御する、
ことを特徴とする請求項17に記載の対話システム。
Each of the first and second utterance devices includes:
An acquisition means for acquiring at least one of a sound uttered by the predetermined target and a captured image of the predetermined target;
First communication means,
The dialogue control device further includes second communication means for communicating with the first and second utterance devices via the first communication means,
The reaction acquisition means of the dialog control device comprises:
The first data which is at least one of the voice and the captured image acquired by the acquisition unit of the first utterance device is acquired via the first and second communication units, and the acquired The determination result of the response of the predetermined object to the utterance by the first utterance device by determining the reaction of the predetermined object to the utterance by the first utterance device based on the first data. Get the response judgment result,
The second data that is at least one of the voice and the captured image acquired by the acquisition unit of the second utterance device is acquired via the first and second communication units, and the acquired The determination result of the response of the predetermined object to the utterance by the second utterance device by determining the response of the predetermined object to the utterance by the second utterance device based on the second data. Get the response judgment result,
The utterance control means of the dialog control device is configured to pass through the second and first communication means based on the plurality of reaction determination results including the first and second reaction determination results acquired by the reaction acquisition means. Controlling the utterance by the first and second utterance devices;
The interactive system according to claim 17, wherein:
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する処理と、
前記取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する処理と、
を含む、
ことを特徴とする対話制御方法。
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Processing for obtaining a plurality of reaction determination results;
A process for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on the plurality of obtained reaction determination results;
including,
A dialog control method characterized by the above.
コンピュータを、
第1発話装置による発話に対する所定の対象の反応を判定した結果と、前記第1発話装置とは別個に設けられた第2発話装置による発話に対する前記所定の対象の反応を判定した結果とを含む複数の反応判定結果を取得する反応取得手段、
前記反応取得手段により取得された複数の反応判定結果に基づいて、前記第1及び第2発話装置を含む複数の発話装置の少なくとも何れかによる前記発話を制御する発話制御手段、
として機能させる、
ことを特徴とするプログラム。
Computer
A result of determining a response of a predetermined object to an utterance by the first utterance device, and a result of determining a response of the predetermined object to an utterance by a second utterance device provided separately from the first utterance device Reaction acquisition means for acquiring a plurality of reaction determination results;
Utterance control means for controlling the utterance by at least one of a plurality of utterance devices including the first and second utterance devices based on a plurality of reaction determination results acquired by the reaction acquisition means;
Function as
A program characterized by that.
JP2018247382A 2018-03-26 2018-12-28 Dialogue control device, dialogue system, dialogue control method, and program Pending JP2019175432A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/352,800 US20190295526A1 (en) 2018-03-26 2019-03-13 Dialogue control device, dialogue system, dialogue control method, and recording medium
CN201910207297.1A CN110364164B (en) 2018-03-26 2019-03-19 Dialogue control device, dialogue system, dialogue control method, and storage medium
JP2023016582A JP7416295B2 (en) 2018-03-26 2023-02-07 Robots, dialogue systems, information processing methods and programs
JP2023119290A JP2023133410A (en) 2018-03-26 2023-07-21 Dialogue control device, dialogue system, dialogue control method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018058200 2018-03-26
JP2018058200 2018-03-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023016582A Division JP7416295B2 (en) 2018-03-26 2023-02-07 Robots, dialogue systems, information processing methods and programs

Publications (1)

Publication Number Publication Date
JP2019175432A true JP2019175432A (en) 2019-10-10

Family

ID=68167044

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2018247382A Pending JP2019175432A (en) 2018-03-26 2018-12-28 Dialogue control device, dialogue system, dialogue control method, and program
JP2023016582A Active JP7416295B2 (en) 2018-03-26 2023-02-07 Robots, dialogue systems, information processing methods and programs
JP2023119290A Pending JP2023133410A (en) 2018-03-26 2023-07-21 Dialogue control device, dialogue system, dialogue control method, and program

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2023016582A Active JP7416295B2 (en) 2018-03-26 2023-02-07 Robots, dialogue systems, information processing methods and programs
JP2023119290A Pending JP2023133410A (en) 2018-03-26 2023-07-21 Dialogue control device, dialogue system, dialogue control method, and program

Country Status (2)

Country Link
JP (3) JP2019175432A (en)
CN (1) CN110364164B (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071569A (en) * 2019-10-30 2021-05-06 日本放送協会 Keyword evaluation device, keyword evaluation method and keyword evaluation program
WO2021131737A1 (en) * 2019-12-27 2021-07-01 ソニーグループ株式会社 Information processing device, information processing method, and information processing program
JP2021144086A (en) * 2020-03-10 2021-09-24 株式会社東海理化電機製作所 Agent system and computer program
JP2022180232A (en) * 2021-05-24 2022-12-06 東京瓦斯株式会社 Robots and robotic systems
WO2024247625A1 (en) * 2023-05-30 2024-12-05 株式会社Screenホールディングス Work assistance method and work assistance system
JP7600471B1 (en) 2023-06-14 2024-12-16 三菱電機株式会社 Information processing device, robot, service providing system, information processing method and program

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062063A (en) * 2002-07-31 2004-02-26 Matsushita Electric Ind Co Ltd Interactive device
JP2005099934A (en) * 2003-09-22 2005-04-14 Konica Minolta Photo Imaging Inc Robot service system
JP2006178063A (en) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc Dialogue processing device
JP2015184563A (en) * 2014-03-25 2015-10-22 シャープ株式会社 Interactive home appliance system, server device, interactive home appliance, method for home appliance system to perform dialogue, and program for realizing the method on a computer
WO2015174172A1 (en) * 2014-05-13 2015-11-19 シャープ株式会社 Control device and message output control system
WO2017094212A1 (en) * 2015-11-30 2017-06-08 ソニー株式会社 Information processing device, information processing method, and program
JP2017151517A (en) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 Robot control system
JP2017194910A (en) * 2016-04-22 2017-10-26 Cocoro Sb株式会社 Response data collection system, customer response system, and program
WO2017200072A1 (en) * 2016-05-20 2017-11-23 日本電信電話株式会社 Dialog method, dialog system, dialog device, and program
JP2017226047A (en) * 2016-06-23 2017-12-28 カシオ計算機株式会社 Robot, robot control system, robot control method, and program
JP2018036397A (en) * 2016-08-30 2018-03-08 シャープ株式会社 Response system and apparatus
JP2018033379A (en) * 2016-08-31 2018-03-08 Jsw株式会社 Communication device for aquarium fish, communication system for aquarium fish, server, and method for communication with aquarium fish

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200103A (en) * 1998-08-06 2000-07-18 Yamaha Motor Co Ltd Control method for object to be controlled using pseudo feeling and pseudo character, autonomous device operated by being adapted to user and method for adapting action of device to feature of user
EP1450351A4 (en) * 2001-09-27 2006-05-17 Matsushita Electric Industrial Co Ltd DIALOGUE DEVICE, FATHER DIALOGUE DEVICE, DIALOGUE THREAD DEVICE, DIALOGUE CONTROL METHOD, AND DIALOGUE CONTROL PROGRAM
JP2004021509A (en) * 2002-06-14 2004-01-22 Mitsubishi Heavy Ind Ltd Information sharing robot
JP2007011674A (en) * 2005-06-30 2007-01-18 National Institute Of Information & Communication Technology Reason explanation service processing method and apparatus using dialog robot, and program thereof
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
JP2008158697A (en) * 2006-12-21 2008-07-10 Nec Corp Robot control device
JP2009061547A (en) * 2007-09-06 2009-03-26 Olympus Corp Robot control system, robot, program, and information storage medium
JP2010231580A (en) * 2009-03-27 2010-10-14 Kyoto Sangyo Univ Education support system and education support method
EP2933070A1 (en) * 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems of handling a dialog with a robot
JP2015219583A (en) * 2014-05-14 2015-12-07 日本電信電話株式会社 Topic determination device, utterance device, method, and program
JP2016020963A (en) * 2014-07-14 2016-02-04 シャープ株式会社 Interaction evaluation device, interaction evaluation system, interaction evaluation method, and interaction evaluation program
JP6452420B2 (en) * 2014-12-08 2019-01-16 シャープ株式会社 Electronic device, speech control method, and program
JP6601069B2 (en) * 2015-09-01 2019-11-06 カシオ計算機株式会社 Dialog control apparatus, dialog control method, and program
JP2017049471A (en) * 2015-09-03 2017-03-09 カシオ計算機株式会社 Dialogue control apparatus, dialogue control method, and program
JP6693111B2 (en) * 2015-12-14 2020-05-13 カシオ計算機株式会社 Interactive device, robot, interactive method and program
JP6555113B2 (en) * 2015-12-14 2019-08-07 株式会社デンソー Dialogue device
WO2017200077A1 (en) * 2016-05-20 2017-11-23 日本電信電話株式会社 Dialog method, dialog system, dialog device, and program

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062063A (en) * 2002-07-31 2004-02-26 Matsushita Electric Ind Co Ltd Interactive device
JP2005099934A (en) * 2003-09-22 2005-04-14 Konica Minolta Photo Imaging Inc Robot service system
JP2006178063A (en) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc Dialogue processing device
JP2015184563A (en) * 2014-03-25 2015-10-22 シャープ株式会社 Interactive home appliance system, server device, interactive home appliance, method for home appliance system to perform dialogue, and program for realizing the method on a computer
WO2015174172A1 (en) * 2014-05-13 2015-11-19 シャープ株式会社 Control device and message output control system
WO2017094212A1 (en) * 2015-11-30 2017-06-08 ソニー株式会社 Information processing device, information processing method, and program
JP2017151517A (en) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 Robot control system
JP2017194910A (en) * 2016-04-22 2017-10-26 Cocoro Sb株式会社 Response data collection system, customer response system, and program
US20190057699A1 (en) * 2016-04-22 2019-02-21 Cocoro Sb Corp. Serving data collecting system, customer serving system and computer-readable medium
WO2017200072A1 (en) * 2016-05-20 2017-11-23 日本電信電話株式会社 Dialog method, dialog system, dialog device, and program
JP2017226047A (en) * 2016-06-23 2017-12-28 カシオ計算機株式会社 Robot, robot control system, robot control method, and program
JP2018036397A (en) * 2016-08-30 2018-03-08 シャープ株式会社 Response system and apparatus
JP2018033379A (en) * 2016-08-31 2018-03-08 Jsw株式会社 Communication device for aquarium fish, communication system for aquarium fish, server, and method for communication with aquarium fish

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071569A (en) * 2019-10-30 2021-05-06 日本放送協会 Keyword evaluation device, keyword evaluation method and keyword evaluation program
JP7407560B2 (en) 2019-10-30 2024-01-04 日本放送協会 Keyword evaluation device, keyword evaluation method, and keyword evaluation program
WO2021131737A1 (en) * 2019-12-27 2021-07-01 ソニーグループ株式会社 Information processing device, information processing method, and information processing program
JP2021144086A (en) * 2020-03-10 2021-09-24 株式会社東海理化電機製作所 Agent system and computer program
JP2022180232A (en) * 2021-05-24 2022-12-06 東京瓦斯株式会社 Robots and robotic systems
WO2024247625A1 (en) * 2023-05-30 2024-12-05 株式会社Screenホールディングス Work assistance method and work assistance system
JP7600471B1 (en) 2023-06-14 2024-12-16 三菱電機株式会社 Information processing device, robot, service providing system, information processing method and program

Also Published As

Publication number Publication date
JP2023055910A (en) 2023-04-18
JP2023133410A (en) 2023-09-22
CN110364164B (en) 2023-12-05
CN110364164A (en) 2019-10-22
JP7416295B2 (en) 2024-01-17

Similar Documents

Publication Publication Date Title
JP7416295B2 (en) Robots, dialogue systems, information processing methods and programs
US11241789B2 (en) Data processing method for care-giving robot and apparatus
US11545174B2 (en) Emotion detection using speaker baseline
CN110313152B (en) User Registration for Assistant Computers
US10242666B2 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US10702991B2 (en) Apparatus, robot, method and recording medium having program recorded thereon
JP7205148B2 (en) ROBOT, CONTROL METHOD AND PROGRAM
JP7476941B2 (en) ROBOT, ROBOT CONTROL METHOD AND PROGRAM
US20190295526A1 (en) Dialogue control device, dialogue system, dialogue control method, and recording medium
JP7205533B2 (en) Information processing device, information processing method, and robot device
WO2020004213A1 (en) Information processing device, information processing method, and program
US20190193261A1 (en) Information processing device, information processing method, and non-transitory computer-readable recording medium for acquiring information of target
JP6798258B2 (en) Generation program, generation device, control program, control method, robot device and call system
JP2019168623A (en) Dialogue device, robot, dialogue control method and program
JP7425681B2 (en) Social ability generation device, social ability generation method, and communication robot

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230620