JP2007088803A - Information processing device - Google Patents
Information processing device Download PDFInfo
- Publication number
- JP2007088803A JP2007088803A JP2005274885A JP2005274885A JP2007088803A JP 2007088803 A JP2007088803 A JP 2007088803A JP 2005274885 A JP2005274885 A JP 2005274885A JP 2005274885 A JP2005274885 A JP 2005274885A JP 2007088803 A JP2007088803 A JP 2007088803A
- Authority
- JP
- Japan
- Prior art keywords
- user
- unit
- voice
- sound
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
【課題】
地上波放送や衛星放送などのテレビ番組のシーンの中からユーザーが興味を持ったシーンを特定する場合、視線、瞳孔、瞬目等の表情に関わる感性情報だけでは、ユーザーが興味を持ったシーンを抽出するには不十分であるという課題がある。
【解決手段】
本発明のメディア処理装置では、画像取得部で取得した画像情報をもとに、ユーザー検出を行い、ユーザーの顔位置を推定する。またマイクロホンアレイで収録した音データより、音声区間の検出を行う。検出した音声区間の音源方向と顔位置とが一致した場合に、発話対象物がメディア処理装置であるとみなす。そしてその音声区間の発話をユーザーがメディア処理装置に表示される映像に対し、興味を持ったために発した発話であると判断し、音声区間と同じ時間の映像区間をユーザーが興味を持った映像区間であると判断する。
【選択図】 図2【Task】
When identifying a scene that the user is interested in from TV program scenes such as terrestrial broadcasts and satellite broadcasts, the scene that the user is interested in is based only on sensitivity information related to facial expressions such as eyes, pupils, and blinks. There is a problem that it is insufficient to extract.
[Solution]
In the media processing device of the present invention, user detection is performed based on the image information acquired by the image acquisition unit, and the face position of the user is estimated. The voice section is detected from the sound data recorded by the microphone array. When the sound source direction and the face position in the detected voice section coincide with each other, the utterance target is regarded as a media processing device. Then, it is determined that the utterance of the voice section is uttered because the user is interested in the video displayed on the media processing device, and the video is interested in the video section at the same time as the voice section. Judged as a section.
[Selection] Figure 2
Description
本発明は、テレビ番組等の映像情報からユーザーが特に興味を持ったシーンを特定するメディア処理技術の分野に属する。 The present invention belongs to the field of media processing technology for identifying a scene in which a user is particularly interested from video information such as a television program.
従来、人間の感性情報を取得するための技術として、被験者の映像から視線、瞳孔、瞬目等の表情に関わる感性情報抽出するものがある(例えば、特許文献1参照)。本技術においては、提示した映像への興味を感性情報から把握して、興味ありと判定された映像を基にユーザが興味ありと思われる映像を検索して提示する。
また入力音声の音源方向を検出する方向検出部と、入力された画像から人間を抽出する人間検出部とを持ち、音源に人間が抽出された場合に発言者による発言と判断する技術が存在する(例えば 特許文献2)。
2. Description of the Related Art Conventionally, as a technique for acquiring human sensitivity information, there is a technique for extracting sensitivity information related to facial expressions such as a line of sight, pupils, and blinks from a subject's video (for example, see Patent Document 1). In the present technology, the interest in the presented video is grasped from the sensibility information, and the video that the user is interested in is retrieved and presented based on the video determined to be interested.
In addition, there is a technology that includes a direction detection unit that detects a sound source direction of an input sound and a human detection unit that extracts a person from an input image, and determines that a speech is made by a speaker when a person is extracted from the sound source. (For example, Patent Document 2).
ユーザが興味を持つであろうテレビ番組をテレビ番組の中から検索したり、特定の人間がどのような種類のテレビ番組に興味を持つのかを推論し、その人間が興味を持つテレビ番組を自動選択するシステムの実現において、上記従来技術では、視線などを用いてユーザの興味を判定する。が、視線等の情報だけではユーザの真意把握に不十分な場合がありうる。 Search for TV programs that the user may be interested in, infer what type of TV programs a particular person is interested in, and automatically select the TV programs that the person is interested in In realizing the system to be selected, in the above-described conventional technology, the user's interest is determined using a line of sight or the like. However, there are cases where information such as the line of sight alone is insufficient for grasping the true intention of the user.
この点、人間は、テレビ番組を観てその内容に興味を覚えた場合、感嘆して、又、笑うなど声を出すことが多いと考えられる。が、上記従来の技術では、こうした人間の特性を考慮した判断がなされていない。そこで、本願では、ユーザが声を出して笑うほど面白いテレビ番組や、人間が声を出して驚くほど引き込まれるような興味あるテレビ番組等をシステムが判別することのできる番組提示装置を開示することを目的とする。 In this regard, it is considered that humans often scream and laugh when they are interested in the contents of TV programs. However, in the above-described conventional technology, a determination in consideration of such human characteristics is not made. Therefore, in the present application, a program presentation device is disclosed in which the system can discriminate a TV program that is interesting enough for a user to laugh out loud, a TV program that is interesting that a human will speak out and be drawn surprisingly, etc. With the goal.
本発明のメディア処理装置では、画像取得部で取得した画像情報をもとに、ユーザー検出を行い、ユーザーの顔位置を推定する。またマイクロホンアレイで収録した音データより、音声区間の検出を行う。検出した音声区間の音源方向と顔位置とが一致した場合に、発話対象物がメディア処理装置であるとみなす。そしてその音声区間の発話をユーザーがメディア処理装置に表示される映像に対し、興味を持ったために発した発話であると判断し、音声区間と同じ時間の映像区間をユーザーが興味を持った映像区間であると判断する。 In the media processing device of the present invention, user detection is performed based on the image information acquired by the image acquisition unit, and the face position of the user is estimated. The voice section is detected from the sound data recorded by the microphone array. When the sound source direction and the face position in the detected voice section coincide with each other, the utterance target is regarded as a media processing device. Then, it is determined that the utterance of the voice section is uttered because the user is interested in the video displayed on the media processing device, and the video in which the user is interested in the video section of the same time as the voice section Judged as a section.
本発明の構成によれば、ユーザーがテレビなどのメディア処理装置のほうを向き、かつ、声を出したり、笑ったりしているシーンを、つまりユーザーが興味を持っているシーンを特定することができる。 According to the configuration of the present invention, it is possible to identify a scene in which the user faces a media processing device such as a television and is speaking out or laughing, that is, a scene in which the user is interested. it can.
以下、本願発明の代表的な実施形態を図面を参照しつつ説明する。 Hereinafter, typical embodiments of the present invention will be described with reference to the drawings.
図1は本発明の基本構成図である。メディア処理装置1は、筐体にカメラ2及びマイクロホンアレイ10を保持する。メディア処理装置1は、テレビ番組などのコンテンツをユーザに提示する表示装置を有している。
FIG. 1 is a basic configuration diagram of the present invention. The
本実施例ではマイクロホンアレイを用いるが、音声を取得する音声取得装置であればマイク等であっても良い。マイクロホンアレイは、単一のマイクロホンでは得られない音の到来方向という情報を得ることができ、本発明の発話対象判定部7の性能を上げることが可能となる。
In this embodiment, a microphone array is used, but a microphone or the like may be used as long as it is a sound acquisition device that acquires sound. The microphone array can obtain information on the direction of arrival of sound that cannot be obtained with a single microphone, and can improve the performance of the speech
図2は、本願実施例のブロック図である。尚、図1において、これらの処理部は表示部と一体であるが、処理部と表示部とは別体であって、別途有線・無線で接続されていることも可能である。カメラ2で取り込んだ画像は、画像取得部4に送られ、デジタルの画像データに変換される。画像取得部4でデジタルの画像データに変換された、画像データは、ユーザー検出部5に送られる。ユーザー検出部5では、送られた画像データから顔画像認識技術、または視線認識技術を使って、ユーザーの正面を向いている顔を検出する。用いる顔画像認識技術及び視線認識技術は、公知の技術を採用することが可能である。ユーザ検出部5に接続される顔位置推定部11では、ユーザー検出部5の顔画像認識結果より、実空間上のユーザーの顔の位置推定する。マイクロホンアレイ10では、複数チャンネルの音声信号を取り込む。マイクロホンアレイ10で取り込んだ複数チャンネルの音声信号は、音声取得部6に送られ、複数チャンネルのデジタルデータに変換される。
FIG. 2 is a block diagram of this embodiment. In FIG. 1, these processing units are integrated with the display unit, but the processing unit and the display unit are separate from each other, and may be separately connected by wire or wirelessly. The image captured by the
次にデジタルデータは、音声検出部12に送られる。音声検出部12では、音声のパワーに基づく音声区間検出処理を、複数チャンネルのデジタルデータの時系列データのうち、一つの時系列データに対して施し、音声区間を検出する。マイクロホンに入る信号には、音声の他に、人間の足音など雑音が混入する。音声は、数sの音が連続するという性質があるのに対し、雑音は比較的短時間で途切れるものが多い。音声区間検出を行うことで、そのような短時間で途切れる雑音を除去し、数sの音が連続する音声のみを抽出することが可能となる。音声区間検出処理としては、音声のフレームパワーが予め定めるしきい値以上に変化するフレーム(音声始端)から音声のフレームパワーが予め定めるしきい値以下の値に変化するフレーム(音声終端)までを音声区間として切り出す単一しきい値音声区間検出処理や単一しきい値音声区間検出の音声始端検出に用いるしきい値と音声終端検出に用いるしきい値とで、異なるしきい値を用いる2段しきい値音声区間検出処理を用いる。音声は、音声区間の始端より終端のほうがパワーが大きいため、始端より終端のパワーのしきい値を小さくすることで、検出する音声区間から、始端が欠落することを防ぐことが可能となる。また単一しきい値音声区間検出処理や2段しきい値音声区間検出処理において、音声区間内に、予め定める長さ以下のポーズが入ることを許容するポーズ付き音声区間検出処理も適用可能である。音声は、一つの音声区間で、常にある一定以上のパワーとなるわけではなく、間に数百msのポーズが入ることがあるが、ポーズ付き音声区間検出処理を行うことで、そのような場合であっても、音声区間を適切に検出することが可能となる。
Next, the digital data is sent to the
音源位置検出部13では、音声検出部12で検出された音声区間内で、最も優勢な音源の音源方向を推定する。音源方向の推定方法には、公知の技術を用いることができる。発話対象判定部7では、音源位置検出部13が出力する音源方向と顔位置推定部11が出力するユーザーの顔の位置が一致するかどうか判定する。この際、ユーザーの顔の位置と音源方向とは必ずしも厳密に一致している必要はなく、予め許容誤差を定めその範囲以内であれば、音源方向と顔の位置が一致していると判定することとする。こうすることで、顔位置もしくは、音源位置の推定に若干誤差があったとしても、発話対象物を正しく推定することができる。そして、音源方向と顔位置とが一致した場合、その音声区間の発話対象物がメディア処理装置1であると判定する。音源方向と顔位置が一致しない場合は、発話対象物はメディア処理装置1ではなく、映像に興味を持ったために、発話したのではない可能性が高い。例えば、複数人でお互いの顔を見ながら、話をしている場合などである。従って、音源方向と顔位置が一致する場合のみ、発話対象物をメディア処理装置1であるとし、映像に興味を持ったために、発話したと判定することで、ユーザーが映像に対して興味を持った区間を高精度に抽出することが可能となる。表示内容同定部14では、音声検出部12が検出した音声区間の発話が生成された時刻に放映していた番組名及びチャンネルを検出する。さらに、発話が成された時刻を含む、映像区間を切り出す。映像区間の切り出しは、番組単位で切り出しても良いし、予め定める時間長だけ、発話が成された時間の映像区間に前後の映像区間を付与して切り出しても良いし、CM検出を行い、音声区間の発話が成された時刻を含み、前後がCMで挟まれた映像区間を切り出しても良い。ユーザーが映像に対してもつ印象は、短時間で、頻繁に変化するものではなく、比較的ゆっくりと変化するものだと思われる。それに対して、ユーザーが映像に興味を持ち、声を出す時間は、比較的短時間であると思われる。つまりユーザーが興味を持ち、声を出すのは、その声を出した瞬間の映像だけに興味を持ったのではなく、その前の映像も含めて、興味を持ったと思われる。またユーザーの興味が比較的ゆっくりと変化することから、声を出した後の、映像に対してもユーザーが興味を持っている可能性が高いと考えられる。つまり、ユーザーが声を出した時の映像だけでなく、その前後の映像を含めた映像区間を切り出すことで、ユーザーが興味を持った映像区間をより正確に反映した映像区間の切り出しが可能となる。
The sound source position detection unit 13 estimates the sound source direction of the most prevalent sound source in the voice section detected by the
ラベリング部8では、音声区間の発話対象物がメディア処理装置1である場合と、該音声区間の発話対象物がメディア処理装置1でない場合とで区別がつくようなラベルを、表示内容同定部14が出力する映像区間毎にラベリングする。その上で、映像区間の開始時刻と終了時刻及び番組名及びチャンネルの情報及びラベル情報を記憶部9に記憶する。人間はテレビ番組を観て、面白いと思った場合、声を出して笑う。またテレビ番組に集中し引き込まれる時には、無意識に声を出して驚くことがある。このように人は興味を持ってテレビを見ている場合、声を出すことが多い。一方で、テレビを複数人でみながらテレビ番組とは関係ない話をしていることも想定される。この実施例の構成を用いることで、ユーザが表示画面をみてかつ声を出している場面を特定することができるので、表示されている番組にユーザが興味を持った映像区間と、そうではない映像区間とを分けることが可能となる。
In the labeling unit 8, a label that distinguishes between the case where the speech object in the speech section is the
図3は、記憶部9に記憶されるユーザーが興味を持った映像区間についてのデータ構造の一例である。該データ構造は、ユーザー名またはID及び興味を持った番組のチャンネル、及び興味を持った映像区間の開始時刻及び終了時刻から構成される。表示内容同定部14で、ユーザーが興味を持った映像区間を番組単位で切り出した場合は該データ構造の項目に番組名など番組を特定する情報を加えても良い。複数のユーザが利用している場合にはユーザ図3のようにユーザ識別子と対応づけて記録することが望ましい。ユーザー識別については、マウスやキーボードやタッチパネルなど、ユーザーインターフェースを本発明に付随させ、初期設定時にテレビを使うユーザー名を全て登録しておき、テレビを見る時に、メディア処理装置1の画面に表示されるユーザー名を選択することができるようにしておいたり、顔画像認証技術や音声認証技術などを使い、自動でユーザー認証を行う装置と組み合わせても良い。顔画像認証技術をユーザー認証に用いる実施例については、本発明の2番目の実施例として後述する。
FIG. 3 is an example of a data structure for a video section in which the user is interested and stored in the storage unit 9. The data structure includes a user name or ID, a channel of an interested program, and a start time and an end time of an interested video section. When the display
尚、音声検出部12において、音声認識技術のワードスポット技術を用いて、ユーザの興味をあらわしていると考えられる特定の単語のみに(例えば、「面白い」など)反応するようにしても良い。ある特定の単語のみに反応するようにすることで、咳払いなどに反応しにくくなる効果がある。また音声認識辞書に「面白い」、「興味深い」などユーザーが映像区間に対し好印象を持ったことを表す単語と、「つまらない」、「面白くない」などの悪印象を持ったことを表す単語を登録しておく。その上で、図3の各映像区間ごとのデータに、ユーザー印象に関する項目を追加し、「好印象」「悪印象」等、ユーザが肯定的か否定的であるかが区別できるラベルを記載しても良い。このような構成にすることで、ユーザーが好印象を持った映像区間を検索するだけでなく、ユーザーが悪印象を持った映像区間を検索することも可能となる。また「好印象」「悪印象」の2値だけでなく、「しみじみとした」「かなしい」「楽しい」のようなラベルを該映像区間に関するデータに追加しても良い。この場合、予め「しみじみとした」などの各ラベルに対応する単語を音声認識辞書に登録しておき、音声認識辞書では各単語がどのラベルに対応するかを分かるように、各単語の読み方などの情報とともに、ラベル情報も保持する。このような構成にすることで、各映像区間を、ユーザーの印象に合わせて、より細かく分類することが可能となる。
図4は、本発明の2番目の実施例のブロック図である。本実施例は、図4に示した実施例にユーザ認証部15を設けた点が異なる。前述の構成と同じものについては説明を省く。ユーザー認証部15は、予め登録しておいたユーザーの顔情報とユーザー検出部5が出力する顔画像とを照らし合わせ、該顔画像が誰であるかを判定する。本実施例では、ユーザー認証を組み合わせているため、自動でユーザーを認証することができ、興味を持った映像区間を、ユーザー毎に分類することが可能となる。
Note that the
FIG. 4 is a block diagram of a second embodiment of the present invention. This embodiment is different from the embodiment shown in FIG. 4 in that a
図5は、本発明の3番目の実施例の構成図である。本実施例においては、第2の処理装置であるロボット16がメディア処理装置1の制御を担う。マイクロホンアレイ10及びカメラ2−1はロボット16の筐体に取り付けられている。上述したようにマイクロホンアレイ10は単一マイクでも良い。カメラ2−2はメディア処理装置1に取り付けられている。計算機17は、ロボット16やメディア処理装置1の制御及びカメラ2−1、カメラ2−2、マイクアレイ10の入力信号を使い、信号処理を行うことができる。
FIG. 5 is a block diagram of the third embodiment of the present invention. In the present embodiment, the robot 16 that is the second processing device controls the
図6は、本発明の3番目の実施例のブロック図である。本実施例では、ラベリング部8、記憶部9、表示内容同定部14、画像取得部4、ユーザー検出部5、音声取得部6、発話対象判定部7、音声検出部12、音源位置推定部13、ユーザー認証部15、顔位置推定部11、音声分析部18をメディア処理装置1が担う。ここで、一部をロボット16の処理部が担うことも可能である。尚、以下の説明において上述の実施例と同じものについての説明は省略する。
FIG. 6 is a block diagram of a third embodiment of the present invention. In the present embodiment, the labeling unit 8, the storage unit 9, the display
カメラ2−1及びカメラ2−2で取り込んだ画像データはそれぞれ画像取得部4に送られ、以降それぞれについて処理が行われる。発話対象判定部7では、音源位置検出部13が出力する音源方向と顔位置推定部11が出力するユーザーの顔の位置が一致するかどうかを、マイク2−1及びマイク2−2で取り込んだ画像データ中の顔毎に判定する。音源方向と顔位置とがあら予め定めた範囲した場合、カメラ2−1に映っている顔については、「発話対象物はロボット16である」という結果を返えす。又、カメラ2−2に映っている顔であれば、「発話対象物はメディア処理装置1である」という判定結果を返す。音源方向と顔位置が所定範囲内にない場合、何も返さない。ラベリング部8では、発話対象部の判定に基いて表示内容に、音声区間の発話対象物がメディア処理装置1である場合と、該音声区間の発話対象物がメディア処理装置1でない場合とで、区別がつくようにラベリングを行う。そして発話対象物がメディア処理装置1であるとラベリングされた映像区間にユーザーが興味を持ったと判定し、この映像区間を記憶部9のユーザー毎の映像区間データベースに保存する。
The image data captured by the camera 2-1 and the camera 2-2 is sent to the
またラベリング部8では、発話対象判定部7が返す発話対象物がロボット16の時は、その音声区間データを音声分析部18に渡す。音声分析部18では、公知の音声認識技術を用いて、入力された音声区間データを分析し、発話内容を示す文字列に変換する。発話対象物がロボット16の場合は、その発話は、ロボット16に対するコマンドであると考えられるため、その発話を音声認識し、コマンドが何であるかを認識し、そのコマンドに対応する必要がある。尚、前述したように、音声検出部12において、音声認識技術のワードスポット技術を用いて、発声内容を分析することがある。この場合は、音声検出部12と音声分析部18で用いる音声認識の辞書を異なるものとする。音声検出部12では、「面白い」などのユーザーの番組に対する印象・評価を表す単語を列挙した辞書を用いるのに対し、音声分析部18では予め定めるロボットへのコマンドを既述した辞書を用いる。ロボット16やメディア処理装置1は発話内容に応じて動作を切り替える。例えば、発話が「テレビを変えて」であれば、メディア処理装置1に付随の表示装置に表示する番組を切り替えたり、発話が「こっちを向いて」であれば、ロボット16の首をユーザー方向に向けたりする。発話内容に応じて、メディア処理装置1及びロボット16がどのように動作を切り替えるかは、予め音声認識辞書の各単語に紐付け定義しておく。
Further, in the labeling unit 8, when the utterance target returned by the utterance
図7は、本発明の3番目の実施例の使用例である。ユーザー19-1の顔はロボット16のほうを向いているが、声は出していない。ユーザー19−2の顔は、メディア処理装置1の方を向いており、声を出して笑っている。カメラ2−1には、ユーザー19−1の正面顔が映っており、カメラ2−2には、ユーザー19−2の正面顔が映っている。声を出しているのはユーザー19−2であるため、発話対象判定部7は、ユーザーの発話対象物はメディア処理装置であると判定する。ラベリング部8は、メディア処理装置に対して顔が正面を向けられている映像区間にユーザーが興味を持ったと判定し、興味を持った映像区間だけを記憶部9のユーザー19−2の映像区間データベースに保存する。本実施例では、ユーザー発話が、ロボットへの音声コマンドであるか、映像を観て、興味を持ったために、発した声であるかを、発話対象物毎に判別する。つまり映像を観て、興味を持ったために、発した声であると判別された発話に対しては、ロボットの音声コマンドとして、音声認識を行うことはしない。そのため、映像を観て、興味を持ったために、発した声を、ロボットが音声コマンドとして音声認識を行い、誤反応することが起き難い。同様にロボットへの音声コマンドとして発話したユーザー発話を、映像を観て、興味を持ったために、発した声であると思い、映像区間に誤ったラベルを付与することが起き難いという効果がある。
FIG. 7 is a usage example of the third embodiment of the present invention. The face of the user 19-1 faces the robot 16 but does not speak. The face of the user 19-2 faces the
図8は、記憶部9に記憶される本願のデータ構造を用いたユーザーが興味を持った映像区間の検索システムのフローチャートである。ユーザーは、該検索システムのGUI等用いた指示入力部を介してユーザー名や日付を入力する。該検索システムは入力されたユーザー名及び日付と一致する映像区間を記憶部9から検索する。そして、GUIに検索結果をリストで表示する。ユーザーは表示されたリスト内の映像区間を選択することで、その映像区間を観ることができる。本検索システムでは、日付を指定し、検索するシステムの構成を示したが、指定するのは、日付だけでなく、テレビチャンネル名や、番組名などでも良い。放映中の番組だけでなく、過去に見た面白かった番組の面白かった映像シーンを見直したい場合が、頻繁に生じるが、本映像区間の検索システムを用いることで、簡単に、過去のユーザーが興味を持ったシーンを抽出し、見直すことができる。 FIG. 8 is a flowchart of a video section search system in which the user is interested using the data structure of the present application stored in the storage unit 9. The user inputs a user name and date via an instruction input unit using the GUI of the search system. The search system searches the storage unit 9 for a video section that matches the input user name and date. Then, the search results are displayed in a list on the GUI. The user can watch the video section by selecting the video section in the displayed list. In this search system, the date is specified and the configuration of the search system is shown. However, not only the date but also a TV channel name or a program name may be specified. If you want to review not only the programs that are being broadcast but also the interesting video scenes of the programs that you have seen in the past, it often happens, but by using this video section search system, past users can easily get interested. You can extract and review scenes with
尚、本願で開示した実施例は、コンピュータに本願発明を実行させるプログラムを読み込むことで実行される。その他、一部ハードウェアとの協調によって実行されることも可能である。 The embodiment disclosed in the present application is executed by reading a program that causes a computer to execute the present invention. In addition, it can be executed by cooperation with some hardware.
1・・・メディア処理装置、2・・・カメラ、3・・・マイク、4・・・画像取得部、5・・・ユーザー検出部、6・・・音声取得部、7・・・発話対象判定部、8・・・ラベリング部、9・・・記憶部、10・・・マイクロホンアレイ、11・・・顔位置推定部、12・・・音声検出部、13・・・音源位置推定部、14・・・表示内容同定部、15・・・ユーザー認証部、16・・・ロボット、17・・・計算機、18・・・音声分析部、19・・・ユーザー
DESCRIPTION OF
Claims (7)
マイクを介して音を取得する音声取得部と、
上記画像からユーザの正面顔を検出する顔位置推定部と、
該正面顔の位置を推定する顔位置推定部と、
上記取得された音からユーザの発声を検出する音声検出部と、
上記検出された音の音源方向を推定する音声位置推定部と、
上記推定された顔位置と上記音源方向とが所定範囲であるかを判定し、その顔又は音検出の時刻に表示部に表示されていたコンテンツに該所定範囲内である旨の判定結果をラベリングするラベリングと、
上記ラベリング結果を記録する記録部とを有することを特徴とする情報処理装置。 An image acquisition unit for acquiring images via a camera;
An audio acquisition unit for acquiring sound via a microphone;
A face position estimation unit for detecting the front face of the user from the image;
A face position estimation unit for estimating the position of the front face;
A voice detection unit for detecting a user's utterance from the acquired sound;
A voice position estimation unit for estimating a sound source direction of the detected sound;
It is determined whether the estimated face position and the sound source direction are within a predetermined range, and the determination result that the content displayed on the display unit at the time of the face or sound detection is within the predetermined range is labeled Labeling and
An information processing apparatus comprising: a recording unit that records the labeling result.
上記ラベリングは上記ユーザ識別部によって識別されたユーザの識別情報とともに上記ラベリングを行うことを特徴とする請求項1又は2に記載のデータ処理装置。 Furthermore, it has a user identification part,
The data processing apparatus according to claim 1, wherein the labeling is performed together with identification information of a user identified by the user identification unit.
上記ラベリング部は上記判断の結果もラベリングすることを特徴とする請求項1乃至4の何れかに記載の情報処理装置。 The voice detection unit performs voice recognition of the detected voice, determines whether the voice is positive or negative with respect to the content from a result of the voice recognition,
5. The information processing apparatus according to claim 1, wherein the labeling unit also labels the result of the determination.
上記各カメラを介して映像を取得する画像取得部と、
上記各マイクを介して音を取得する音声取得部と、
上記画像からユーザの正面顔を検出する顔位置推定部と、
該正面顔の位置を推定する顔位置推定部と、
上記取得された音からユーザの発声を検出する音声検出部と、
上記検出された音の音源方向を推定する音声位置推定部と、
上記推定された顔位置と上記音源方向とが所定範囲であるかを判定し、
上記表示部から取得された情報について、その顔又は音検出の時刻に表示部に表示されていたコンテンツ に該判定結果をラベリングするラベリングと、
上記ラベリング結果を記録する記録部と、
上記所定範囲内であると判定された上記端末から取得された音については音声認識を行い、認識結果に基づくコマンド指示を上記端末に与える音声分析部とを有することを特徴とする情報処理装置 Each having a camera and a microphone, connected to a display unit for displaying content and a terminal for controlling content display on the display unit;
An image acquisition unit for acquiring video via each of the cameras;
An audio acquisition unit for acquiring sound via each of the microphones;
A face position estimation unit for detecting the front face of the user from the image;
A face position estimation unit for estimating the position of the front face;
A voice detection unit for detecting a user's utterance from the acquired sound;
A voice position estimation unit for estimating a sound source direction of the detected sound;
Determining whether the estimated face position and the sound source direction are within a predetermined range;
For the information acquired from the display unit, labeling the determination result to the content displayed on the display unit at the time of the face or sound detection;
A recording unit for recording the labeling result;
An information processing apparatus comprising: a voice analysis unit that performs voice recognition on the sound acquired from the terminal determined to be within the predetermined range and gives a command instruction to the terminal based on a recognition result
上記指示入力部を介してユーザ、時刻、番組チャンネル名又は番組名の指定を受け、
該指定されたユーザ、時刻、番組チャンネル名又は番組名に対応付けられており、かつ、上記ラベリングがなされている区間の映像を上記表示部に表示させることを特徴とする請求項1乃至6の何れかに記載の情報処理装置。
In addition, an instruction input unit is provided,
Receive designation of user, time, program channel name or program name via the instruction input unit,
The video of a section that is associated with the designated user, time, program channel name, or program name and is labeled is displayed on the display unit. An information processing apparatus according to any one of the above.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005274885A JP2007088803A (en) | 2005-09-22 | 2005-09-22 | Information processing device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005274885A JP2007088803A (en) | 2005-09-22 | 2005-09-22 | Information processing device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007088803A true JP2007088803A (en) | 2007-04-05 |
Family
ID=37975346
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005274885A Pending JP2007088803A (en) | 2005-09-22 | 2005-09-22 | Information processing device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007088803A (en) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007235581A (en) * | 2006-03-01 | 2007-09-13 | Funai Electric Co Ltd | Television receiver |
| WO2008001549A1 (en) * | 2006-06-26 | 2008-01-03 | Murata Kikai Kabushiki Kaisha | Audio interaction device, audio interaction method and its program |
| JP2010113693A (en) * | 2008-11-10 | 2010-05-20 | Nec Software Kyushu Ltd | Face image extraction device, method, electronic advertisement device and program |
| JP2010154197A (en) * | 2008-12-25 | 2010-07-08 | Fujitsu Ltd | Device and program for extraction of video range, and video storage device |
| JP2014092627A (en) * | 2012-11-01 | 2014-05-19 | Nec Corp | Voice recognition device, voice recognition method and program for the same |
| JP2016517548A (en) * | 2013-03-14 | 2016-06-16 | インテル コーポレイション | Provision of services based on voice and face recognition |
| JP2017009867A (en) * | 2015-06-24 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Control apparatus, control method thereof, and program |
| JP2018194810A (en) * | 2017-05-15 | 2018-12-06 | ネイバー コーポレーションNAVER Corporation | Device controlling method and electronic apparatus |
| JP2019532543A (en) * | 2016-08-11 | 2019-11-07 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Control system and control processing method and apparatus |
| JP2020064376A (en) * | 2018-10-15 | 2020-04-23 | 東京瓦斯株式会社 | Information processing system and program |
| JP2020091267A (en) * | 2018-12-07 | 2020-06-11 | ヤフー株式会社 | Correction device, correction method, and correction program |
| JP2020119364A (en) * | 2019-01-25 | 2020-08-06 | Necパーソナルコンピュータ株式会社 | Interactive robot and controller of the same |
| CN114062758A (en) * | 2021-10-23 | 2022-02-18 | 广州金升阳科技有限公司 | Electric signal detection method, circuit and switching power supply |
-
2005
- 2005-09-22 JP JP2005274885A patent/JP2007088803A/en active Pending
Cited By (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007235581A (en) * | 2006-03-01 | 2007-09-13 | Funai Electric Co Ltd | Television receiver |
| WO2008001549A1 (en) * | 2006-06-26 | 2008-01-03 | Murata Kikai Kabushiki Kaisha | Audio interaction device, audio interaction method and its program |
| JPWO2008001549A1 (en) * | 2006-06-26 | 2009-11-26 | 村田機械株式会社 | Voice dialogue apparatus, voice dialogue method and program thereof |
| JP4505862B2 (en) * | 2006-06-26 | 2010-07-21 | 村田機械株式会社 | Voice dialogue apparatus, voice dialogue method and program thereof |
| JP2010113693A (en) * | 2008-11-10 | 2010-05-20 | Nec Software Kyushu Ltd | Face image extraction device, method, electronic advertisement device and program |
| CN101739562A (en) * | 2008-11-10 | 2010-06-16 | Nec九州软件株式会社 | Face image pick-up equipment and method, electronic advertising equipment and computer readable recording medium |
| JP2010154197A (en) * | 2008-12-25 | 2010-07-08 | Fujitsu Ltd | Device and program for extraction of video range, and video storage device |
| JP2014092627A (en) * | 2012-11-01 | 2014-05-19 | Nec Corp | Voice recognition device, voice recognition method and program for the same |
| JP2016517548A (en) * | 2013-03-14 | 2016-06-16 | インテル コーポレイション | Provision of services based on voice and face recognition |
| JP2017009867A (en) * | 2015-06-24 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Control apparatus, control method thereof, and program |
| JP2019532543A (en) * | 2016-08-11 | 2019-11-07 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Control system and control processing method and apparatus |
| JP2018194810A (en) * | 2017-05-15 | 2018-12-06 | ネイバー コーポレーションNAVER Corporation | Device controlling method and electronic apparatus |
| JP2020064376A (en) * | 2018-10-15 | 2020-04-23 | 東京瓦斯株式会社 | Information processing system and program |
| JP7182990B2 (en) | 2018-10-15 | 2022-12-05 | 東京瓦斯株式会社 | Information processing system and program |
| JP2020091267A (en) * | 2018-12-07 | 2020-06-11 | ヤフー株式会社 | Correction device, correction method, and correction program |
| JP7068152B2 (en) | 2018-12-07 | 2022-05-16 | ヤフー株式会社 | Correction device, correction method, and correction program |
| JP2020119364A (en) * | 2019-01-25 | 2020-08-06 | Necパーソナルコンピュータ株式会社 | Interactive robot and controller of the same |
| JP7051728B2 (en) | 2019-01-25 | 2022-04-11 | Necパーソナルコンピュータ株式会社 | Interactive robot and its control device |
| CN114062758A (en) * | 2021-10-23 | 2022-02-18 | 广州金升阳科技有限公司 | Electric signal detection method, circuit and switching power supply |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
| CN110517689B (en) | Voice data processing method, device and storage medium | |
| US9798934B2 (en) | Method and apparatus for providing combined-summary in imaging apparatus | |
| US7889073B2 (en) | Laugh detector and system and method for tracking an emotional response to a media presentation | |
| US7920761B2 (en) | Multimodal identification and tracking of speakers in video | |
| US9477304B2 (en) | Information processing apparatus, information processing method, and program | |
| CN108847214B (en) | Voice processing method, client, device, terminal, server and storage medium | |
| JP5135024B2 (en) | Apparatus, method, and program for notifying content scene appearance | |
| US20050182627A1 (en) | Audio signal processing apparatus and audio signal processing method | |
| US10942563B2 (en) | Prediction of the attention of an audience during a presentation | |
| CN106710593B (en) | A method, terminal and server for adding account | |
| JP2007519987A (en) | Integrated analysis system and method for internal and external audiovisual data | |
| US10089980B2 (en) | Sound reproduction method, speech dialogue device, and recording medium | |
| JP2007088803A (en) | Information processing device | |
| JP2004229283A (en) | Method for identifying transition of news presenter in news video | |
| US20120063738A1 (en) | Digital video recorder system and operating method thereof | |
| CN112153397B (en) | Video processing method, device, server and storage medium | |
| US20220335246A1 (en) | System And Method For Video Processing | |
| CN113779234A (en) | Method, device, device and medium for generating speech minutes of conference speakers | |
| TWI769520B (en) | Multi-language speech recognition and translation method and system | |
| JP2010055409A (en) | Keyword extractor, keyword extraction method,and program | |
| CN116612766B (en) | Conference system with voiceprint registration function and voiceprint registration method | |
| CN115914742B (en) | Character recognition method, device and equipment for video captions and storage medium | |
| Hung et al. | Towards audio-visual on-line diarization of participants in group meetings | |
| JP2006279111A (en) | Information processor, information processing method and program |