[go: up one dir, main page]

JP5774889B2 - Information processing apparatus, information processing system, and information processing method - Google Patents

Information processing apparatus, information processing system, and information processing method Download PDF

Info

Publication number
JP5774889B2
JP5774889B2 JP2011079990A JP2011079990A JP5774889B2 JP 5774889 B2 JP5774889 B2 JP 5774889B2 JP 2011079990 A JP2011079990 A JP 2011079990A JP 2011079990 A JP2011079990 A JP 2011079990A JP 5774889 B2 JP5774889 B2 JP 5774889B2
Authority
JP
Japan
Prior art keywords
image
resolution
unit
region
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011079990A
Other languages
Japanese (ja)
Other versions
JP2012216006A (en
Inventor
大場 章男
章男 大場
博之 勢川
博之 勢川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Priority to JP2011079990A priority Critical patent/JP5774889B2/en
Priority to EP12764920.0A priority patent/EP2693394B1/en
Priority to US14/004,989 priority patent/US9710923B2/en
Priority to PCT/JP2012/000209 priority patent/WO2012132167A1/en
Priority to CN201280014505.2A priority patent/CN103430210B/en
Priority to TW101107942A priority patent/TWI462052B/en
Publication of JP2012216006A publication Critical patent/JP2012216006A/en
Application granted granted Critical
Publication of JP5774889B2 publication Critical patent/JP5774889B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Description

本発明は、動画撮影している対象物の動きに合わせた処理を行う情報処理システム、当該システムに含まれる情報処理装置、撮像装置、および当該システムで用いる情報処理方法に関する。   The present invention relates to an information processing system that performs processing in accordance with the motion of an object that is shooting a moving image, an information processing device included in the system, an imaging device, and an information processing method used in the system.

近年、パーソナルコンピュータやゲーム機などにカメラを搭載し、ユーザの姿を撮像して様々な形で利用することが一般的に行われるようになってきた。例えばテレビ電話、ビデオチャットなど、ユーザの画像を、ネットワークを介してそのまま相手に伝送するものや、画像解析によってユーザの動きを認識してゲームや情報処理の入力情報とするものなどが実用化されている(例えば特許文献1参照)。   In recent years, it has become common to mount a camera on a personal computer, a game machine, or the like to capture a user's appearance and use it in various forms. For example, videophones, video chats, etc. that transmit user images directly to the other party via a network, and those that recognize user movements by image analysis and use them as input information for games and information processing have been put into practical use. (For example, refer to Patent Document 1).

WO 2007/050885 A2公報WO 2007/050885 A2 publication

撮影画像を利用して様々な処理を応答性よく高精度に実現するためには、その処理内容に応じた画質が求められる。しかしながら製造コスト、画像の伝送帯域、撮影から出力までの応答性などの点から、単にカメラの性能や画質を上げることのみによって情報処理装置の機能を充実化させるのは困難な状況にある。たとえばカメラの撮像素子を高性能化するほど、カメラとホスト間の画像データ伝送の帯域を圧迫するうえ、画像解析に要する時間が増大する。   In order to realize various processes with high responsiveness and high accuracy using a captured image, an image quality corresponding to the processing content is required. However, it is difficult to enhance the functions of the information processing apparatus simply by improving the performance and image quality of the camera from the viewpoints of manufacturing cost, image transmission bandwidth, responsiveness from shooting to output, and the like. For example, as the performance of an image pickup device of a camera increases, the bandwidth required for image data transmission between the camera and the host is reduced, and the time required for image analysis increases.

本発明はこのような課題に鑑みてなされたものであり、その目的は、撮影画像を利用した情報処理を応答性よく実現することのできる技術を提供することにある。   The present invention has been made in view of such problems, and an object thereof is to provide a technique capable of realizing information processing using a captured image with high responsiveness.

本発明のある態様は情報処理装置に関する。この情報処理装置は、対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置であって、ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する解像度決定部と、ステレオ動画像に含まれる画像フレーム対の対象領域を適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、を備えたことを特徴とする。   One embodiment of the present invention relates to an information processing apparatus. This information processing apparatus is an information processing apparatus that outputs position information of an object at a predetermined rate by performing stereo matching using a stereo moving image obtained by simultaneously video-taking the object from different viewpoints, A motion region specifying unit that acquires image data representing a pair of image frames included in a stereo moving image at a predetermined resolution and determining a motion difference by obtaining a motion difference; and a stereo matching processing target based on the motion region A target region determining unit that determines a target region to be determined, a resolution determining unit that determines an appropriate resolution for performing stereo matching according to the size of the target region, and a target region of an image frame pair included in the stereo moving image Is obtained with appropriate resolution, and stereo matching is performed using the image data, and the position information of the object is obtained. A position information acquisition unit which acquires and outputs, and further comprising a.

本発明の別の態様は撮像装置に関する。この撮像装置は、対象物を異なる視点から同時にビデオ撮影する一対のカメラを備えた撮像装置であって、各カメラは、撮像素子を用いて撮像された未加工画像を取得する画像取得部と、未加工画像にデモザイク処理を行うデモザイク処理部と、デモザイク後の画像を段階的に縮小し解像度の異なる複数の画像に変換するフィルタ部と、接続した情報処理装置から、解像度と領域を指定した画像データの転送要求を受け付け、解像度の異なる複数の画像から、当該転送要求に合致する解像度および領域の画像のデータを抽出して前記情報処理装置へ転送する画像送出部と、を備えたことを特徴とする。   Another embodiment of the present invention relates to an imaging apparatus. This imaging apparatus is an imaging apparatus that includes a pair of cameras that simultaneously shoots an object from different viewpoints, and each camera acquires an image acquisition unit that acquires a raw image captured using an imaging element; An image that specifies resolution and area from a demosaic processing unit that performs demosaic processing on an unprocessed image, a filter unit that reduces the demosaiced image in stages and converts it into multiple images with different resolutions, and a connected information processing device An image sending unit that accepts a data transfer request, extracts image data of a resolution and a region that match the transfer request from a plurality of images having different resolutions, and transfers the extracted data to the information processing apparatus. And

本発明の別の態様は情報処理システムに関する。この情報処理システムは、対象物を異なる視点から同時にビデオ撮影する一対のカメラを備えた撮像装置と、撮像装置が撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置と、を備え、撮像装置の各カメラは、撮像素子を用いて撮像された未加工画像を取得する画像取得部と、未加工画像にデモザイク処理を行うデモザイク処理部と、デモザイク後の画像を段階的に縮小し解像度の異なる複数の画像に変換するフィルタ部と、情報処理装置から、解像度と領域を指定した画像データの転送要求を受け付け、解像度の異なる複数の画像から、当該転送要求に合致する解像度および領域の画像のデータを抽出して情報処理装置へ転送する画像送出部と、を備え、情報処理装置は、ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを撮像装置から取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定する解像度決定部と、ステレオ動画像に含まれる画像フレーム対の対象領域を適正解像度で表した画像データを撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、を備えたことを特徴とする。   Another aspect of the present invention relates to an information processing system. This information processing system is configured to perform stereo matching using an imaging device including a pair of cameras that shoot a video of an object simultaneously from different viewpoints, and a stereo moving image obtained by the imaging device. An information processing device that outputs information at a predetermined rate, and each camera of the imaging device performs an demosaic process on the raw image and an image acquisition unit that acquires a raw image captured using the imaging device The demosaic processing unit, the filter unit that reduces the demosaiced image in stages and converts it into a plurality of images with different resolutions, and receives the transfer request of the image data designating the resolution and area from the information processing device, and the resolutions are different. An image sending unit that extracts image data of a resolution and a region that match the transfer request from a plurality of images and transfers the extracted image data to the information processing apparatus. The information processing apparatus acquires, from the imaging apparatus, image data representing an image frame pair included in a stereo moving image at a predetermined resolution, and obtains a motion difference to identify a motion area, and the motion area A target region determination unit that determines a target region to be processed based on the stereo matching, a resolution determination unit that determines an appropriate resolution for performing stereo matching according to the size of the target region, and a stereo moving image A position information acquisition unit that acquires image data representing a target region of an included image frame pair at an appropriate resolution from the imaging device, performs stereo matching using the image data, acquires position information of the target object, and outputs the position information; It is provided with.

本発明のさらに別の態様は情報処理方法に関する。この情報処理方法は、対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモりに格納する情報処理方法であって、ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを撮像装置から取得し、動き差分を求めることにより動き領域を特定するステップと、当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定するステップと、当該対象領域の大きさに応じてステレオマッチングを行うための適正解像度を決定するステップと、ステレオ動画像に含まれる画像フレーム対の対象領域を適正解像度で表した画像データを撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力するステップと、を含むことを特徴とする。   Yet another embodiment of the present invention relates to an information processing method. This information processing method outputs the position information of an object at a predetermined rate and stores it in a memory by performing stereo matching using a stereo moving image obtained by simultaneously capturing images of the object from different viewpoints. An information processing method comprising: acquiring image data representing an image frame pair included in a stereo moving image at a predetermined resolution from an imaging device; and determining a motion region by obtaining a motion difference; and A step of determining a target region to be processed based on stereo matching, a step of determining an appropriate resolution for performing stereo matching according to the size of the target region, and a pair of image frames included in the stereo moving image Acquire image data representing the target area at the appropriate resolution from the imaging device, and use the image data to perform stereo matching Acquires the location information of the object performs a grayed, characterized in that it comprises a step of outputting to the memory, the.

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。   Note that any combination of the above-described components, and the expression of the present invention converted between a method, an apparatus, a system, a computer program, a recording medium on which the computer program is recorded, and the like are also effective as an aspect of the present invention. .

本発明によると、撮影画像を入力情報として利用する情報処理を応答性よく実現することができる。   According to the present invention, it is possible to realize information processing using a captured image as input information with high responsiveness.

本実施の形態を適用できる情報処理システムの構成例を示す図である。It is a figure which shows the structural example of the information processing system which can apply this Embodiment. 本実施の形態における撮像装置と情報処理装置の構成を示す図である。It is a figure which shows the structure of the imaging device and information processing apparatus in this Embodiment. 本実施の形態における第1カメラの構成を詳細に示す図である。It is a figure which shows the structure of the 1st camera in this Embodiment in detail. 本実施の形態における画像送出部の構成を示す図である。It is a figure which shows the structure of the image transmission part in this Embodiment. 本実施の形態における情報処理装置の位置情報生成部の構成を詳細に示す図である。It is a figure which shows the structure of the position information generation part of the information processing apparatus in this Embodiment in detail. 本実施の形態における撮像装置、位置情報取得部、および対象領域決定部が行う処理の時間的関係を模式的に示す図である。It is a figure which shows typically the temporal relationship of the process which the imaging device, position information acquisition part, and object area | region determination part in this Embodiment perform. 本実施の形態における情報処理装置の動き領域検出部、領域予測部、領域統合部が行う処理の様子を模式的に示す図である。It is a figure which shows typically the mode of the process which the motion area | region detection part of the information processing apparatus in this Embodiment, an area | region prediction part, and an area | region integration part perform. 本実施の形態における階層決定部が、対象領域の大きさに基づきステレオマッチングに用いる階層を選択する様子を模式的に示す図である。It is a figure which shows typically a mode that the hierarchy determination part in this Embodiment selects the hierarchy used for a stereo matching based on the magnitude | size of an object area | region. 本実施の形態における撮像装置が生成する撮影画像の階層と、位置情報取得部のデータ生成部が生成する奥行き画像の階層の対応を示す図である。It is a figure which shows a response | compatibility with the hierarchy of the picked-up image which the imaging device in this Embodiment produces | generates, and the hierarchy of the depth image which the data generation part of a positional information acquisition part produces | generates. 本実施の形態の変形例における第1カメラの構成を詳細に示す図である。It is a figure which shows the structure of the 1st camera in the modification of this Embodiment in detail.

図1は本実施の形態を適用できる情報処理システムの構成例を示す。情報処理システム10は、ユーザ1などの対象物を撮影する2つのカメラを搭載した撮像装置12、撮影した画像に基づき、ユーザの要求に応じた情報処理を行う情報処理装置14、情報処理装置14が処理した結果得られた画像データを出力する表示装置16を含む。また情報処理装置14はインターネットなどのネットワーク18と接続可能とする。   FIG. 1 shows a configuration example of an information processing system to which this embodiment can be applied. The information processing system 10 includes an imaging device 12 equipped with two cameras that capture an object such as the user 1, an information processing device 14 that performs information processing according to a user's request based on the captured image, and the information processing device 14. Includes a display device 16 for outputting image data obtained as a result of processing. The information processing apparatus 14 can be connected to a network 18 such as the Internet.

情報処理装置14と、撮像装置12、表示装置16、ネットワーク18とは、有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。撮像装置12、情報処理装置14、表示装置16のうちいずれか2つ、または全てが組み合わされて一体的に装備されていてもよい。また、撮像装置12は必ずしも表示装置16の上に設置されていなくてもよい。さらにユーザ1は人でなくてもよく、その数も限定されない。   The information processing device 14, the imaging device 12, the display device 16, and the network 18 may be connected by a wired cable, or may be wirelessly connected by a wireless local area network (LAN) or the like. Any two or all of the imaging device 12, the information processing device 14, and the display device 16 may be combined and integrally provided. Further, the imaging device 12 is not necessarily installed on the display device 16. Furthermore, the user 1 may not be a person, and the number is not limited.

撮像装置12は、それぞれがCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を備えた2つのデジタルビデオカメラを既知の間隔で左右に配置した構成を有する。2つのデジタルビデオカメラはそれぞれ、同一空間に存在する対象物を左右の位置から所定のフレームレートで撮影する。以後、このように撮影されたフレームの対を「ステレオ画像」とも呼ぶ。撮像装置12はさらに、撮影した結果得られた一対のRAW画像から、異なる解像度の複数の画像データをそれぞれ生成する。   The imaging device 12 has a configuration in which two digital video cameras each provided with an imaging element such as a charge coupled device (CCD) or a complementary metal oxide semiconductor (CMOS) are arranged on the left and right sides at a known interval. Each of the two digital video cameras captures an object existing in the same space at a predetermined frame rate from the left and right positions. Hereinafter, a pair of frames shot in this way is also referred to as a “stereo image”. The imaging device 12 further generates a plurality of image data with different resolutions from a pair of RAW images obtained as a result of shooting.

情報処理装置14は、カメラの視野に対する縦、横、奥行き、の3次元空間における対象物の位置座標を所定のレートで特定する。このとき、撮像装置12から取得したステレオ画像のデータに基づきステレオマッチングを行う。このようにして得られた位置座標の時間変化は、対象物の動きを入力情報として用いる後段の処理に利用される。例えば、対象物であるユーザ1の動作を反映させたキャラクタが登場するゲームや、ユーザ1の動きをコマンド入力に変換する情報処理などに用いることができるが、その内容は限定されない。   The information processing apparatus 14 specifies the position coordinates of the object in a three-dimensional space of vertical, horizontal, and depth with respect to the field of view of the camera at a predetermined rate. At this time, stereo matching is performed based on stereo image data acquired from the imaging device 12. The time change of the position coordinates obtained in this way is used for subsequent processing using the movement of the object as input information. For example, it can be used for a game in which a character reflecting the action of the user 1 as an object appears, information processing for converting the movement of the user 1 into a command input, etc., but the content is not limited.

表示装置16は、情報処理装置14が行った処理の結果を、必要に応じて画像として表示する。表示装置16は、画像を出力するディスプレイおよび音声を出力するスピーカを有するテレビであってよく、例えば液晶テレビ、プラズマテレビ、PCディスプレイ等である。上述のとおり情報処理装置14が最終的に実行する処理内容や表示すべき画像はその使用目的によって特に限定されるものではないため、以後は情報処理装置14が行う、対象物の位置の特定処理に主眼を置き説明する。   The display device 16 displays the result of the processing performed by the information processing device 14 as an image as necessary. The display device 16 may be a television having a display for outputting an image and a speaker for outputting sound, such as a liquid crystal television, a plasma television, a PC display, or the like. As described above, the processing content finally executed by the information processing device 14 and the image to be displayed are not particularly limited depending on the purpose of use. Henceforth, the processing for specifying the position of the object performed by the information processing device 14 is performed. The main point is explained below.

図2は撮像装置12と情報処理装置14の構成を示している。図2〜図5に示す各機能ブロックは、ハードウェア的には、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、描画回路などの構成で実現でき、ソフトウェア的にはデータ入力機能、データ保持機能、画像解析機能、描画機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。   FIG. 2 shows the configuration of the imaging device 12 and the information processing device 14. Each of the functional blocks shown in FIG. 2 to FIG. 5 can be realized by a hardware configuration such as a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and a drawing circuit. Is realized by a program that exhibits various functions such as a data input function, a data holding function, an image analysis function, and a drawing function. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.

撮像装置12は第1カメラ22、第2カメラ24を含む。各カメラはそれぞれ、既知の幅を隔てた左右の位置から同じタイミング、同じフレームレートで対象物を撮影する。そして撮影した各フレーム画像を所定の複数の解像度の画像データに変換する。同図ではこのようにして生成した画像を模式的に示しており、第2カメラにおいて、画像2、画像4、画像6、画像8の順に、段階的に解像度が増加している。同図では4段階の解像度としているがその数は限定されない。第1カメラ22が生成する画像も同様である。   The imaging device 12 includes a first camera 22 and a second camera 24. Each camera captures an object at the same timing and the same frame rate from left and right positions separated by a known width. Then, each captured frame image is converted into image data having a plurality of predetermined resolutions. In the figure, the image generated in this way is schematically shown, and in the second camera, the resolution increases stepwise in the order of image 2, image 4, image 6, and image 8. In the figure, four levels of resolution are used, but the number is not limited. The same applies to the image generated by the first camera 22.

各画像は撮影タイミングごとに生成されるため、結果として時間軸に対する画像列が各解像度で生成される。同図では当該時間軸を奥行き方向に模式的に示している。同一時刻に生成される画像は、各解像度に対応する階層を有する階層構造を構成すると捉えることができる。以後の説明ではこれらの画像を、最低解像度の画像から解像度順に第0階層の画像、第1階層の画像、第2階層の画像、・・・と呼ぶ。図2の例では画像2が第0階層、画像4が第1階層、画像6が第2階層、画像8が第3階層の画像となる。   Since each image is generated at each photographing timing, as a result, an image sequence with respect to the time axis is generated at each resolution. In the figure, the time axis is schematically shown in the depth direction. Images generated at the same time can be regarded as constituting a hierarchical structure having a hierarchy corresponding to each resolution. In the following description, these images will be referred to as the 0th layer image, the 1st layer image, the 2nd layer image,... In the example of FIG. 2, image 2 is the 0th layer, image 4 is the 1st layer, image 6 is the 2nd layer, and image 8 is the 3rd layer.

情報処理装置14は、ユーザからの指示入力を取得する入力情報取得部26、撮影画像に基づきユーザ1などの対象物の位置情報を生成する位置情報生成部28、対象物の位置に基づき必要な処理を行い出力情報を生成する出力情報生成部32、および撮像装置12に対する画像データの要求および取得を行うインターフェースである通信部30を含む。   The information processing device 14 is necessary based on an input information acquisition unit 26 that acquires an instruction input from a user, a position information generation unit 28 that generates position information of an object such as the user 1 based on a captured image, and a position of the object. An output information generation unit 32 that performs processing and generates output information, and a communication unit 30 that is an interface for requesting and acquiring image data from the imaging device 12 are included.

入力情報取得部26は、ユーザからの指示入力を受け付け、それに応じた処理要求信号をその他の機能ブロックに送信する。入力情報取得部26は、ボタン、キーボード、マウス、トラックボール、タッチパネルなど一般的な入力装置と、当該入力装置になされた操作内容を解釈して処理要求信号を生成するCPUなどの協働により実現する。   The input information acquisition unit 26 receives an instruction input from the user and transmits a processing request signal corresponding to the input to the other functional blocks. The input information acquisition unit 26 is realized by the cooperation of a general input device such as a button, a keyboard, a mouse, a trackball, and a touch panel, and a CPU that interprets the operation performed on the input device and generates a processing request signal. To do.

位置情報生成部28は、第1カメラ22および第2カメラ24が生成したステレオ画像のデータを利用してステレオマッチングを行い、対象物の3次元の位置を特定する。このとき、処理対象となる画像データを時間的、空間的に取捨選択し必要最低限とすることにより、精度への影響を少なく、処理の負荷を軽減する。   The position information generation unit 28 performs stereo matching using the stereo image data generated by the first camera 22 and the second camera 24, and specifies the three-dimensional position of the object. At this time, the image data to be processed is selected temporally and spatially to the minimum necessary, thereby reducing the influence on accuracy and reducing the processing load.

具体的には、低解像度、広範囲の画像で対象物の領域または動きのある領域を対象領域としておよそ見積もり、当該領域のみ高解像度の画像でステレオマッチングを行う。ステレオマッチングでは一般的に、2つの画像の対応点を抽出するための探索を行うが、この探索範囲を狭くすることでステレオマッチングの効率を向上させる。なお本実施の形態は動画像を入力情報として利用した情報処理を実現するため、主に対象物の「動き」のある部分の位置情報を得る手法について説明する。   Specifically, an area of an object or a moving area is roughly estimated as a target area in a low-resolution, wide-range image, and stereo matching is performed on a high-resolution image only in that area. In stereo matching, a search for extracting corresponding points of two images is generally performed, but the efficiency of stereo matching is improved by narrowing the search range. Note that this embodiment will mainly describe a method of obtaining position information of a portion where there is “movement” of an object in order to realize information processing using a moving image as input information.

このとき、対象物の動きのある領域を所定時間後まで予測することにより、当該領域を見積もる処理をステレオマッチングを行うタイミングと切り離して行う。例えば情報処理装置14をマルチスレッド対応のコンピュータで実現する場合、これらの2つを別のスレッドとして独立に実行する。このようにすることで、精度の必要なステレオマッチング処理により多くの時間をかけることができる。例えばステレオマッチング処理は撮影画像の全フレームを処理対象とするのに対し、領域を見積もる処理は所定の数フレームおきに行い、次に領域を見積もる処理がなされるまでの各フレームについて予測を行う。   At this time, by predicting a region in which the object is moving until a predetermined time later, the process of estimating the region is performed separately from the timing of performing stereo matching. For example, when the information processing apparatus 14 is realized by a multi-thread compatible computer, these two are executed independently as separate threads. By doing so, it is possible to spend more time for stereo matching processing that requires accuracy. For example, while stereo matching processing is performed on all frames of a captured image, processing for estimating a region is performed every predetermined number of frames, and prediction is performed for each frame until processing for estimating a region is performed next.

また領域を見積もる処理には、ステレオマッチングを行うための適正な階層の選択も含まれる。対象物が手前にあるほど視差が大きいため、比較的解像度の小さい画像であっても左右の画像のずれ幅が大きく、ステレオマッチングの精度を維持しやすい。逆に対象物が奧にあるほど視差が小さくなるため、解像度の小さい画像では左右のずれが誤差範囲にとどまりステレオマッチングの精度を保ちにくい。   Further, the process of estimating the area includes selection of an appropriate hierarchy for performing stereo matching. Since the parallax is larger as the object is closer to the front, even if the image has a relatively small resolution, the shift width between the left and right images is large, and the accuracy of stereo matching is easily maintained. On the contrary, since the parallax becomes smaller as the object is closer to the eyelid, the left-right shift stays in the error range in an image with a small resolution, and it is difficult to maintain the accuracy of stereo matching.

そこで本実施の形態では、動きのある領域の大きさによってステレオマッチングに用いる画像の階層を選択する。解像度の大きい画像を用いても、対応点を得るために探索すべき領域は上述のとおり局所的であるため、結果として、対象物の奥行き方向の位置に関わらず処理対象の画像サイズは同等となり計算量は大きく変化しない。そのため計算時間の見積もりも容易である。   Therefore, in the present embodiment, an image hierarchy used for stereo matching is selected according to the size of a region in motion. Even if a high-resolution image is used, the region to be searched for obtaining corresponding points is local as described above. As a result, the image size of the processing target is the same regardless of the position of the target in the depth direction. The calculation amount does not change greatly. Therefore, it is easy to estimate the calculation time.

位置情報生成部28はさらに、ステレオマッチングにより得られた対象物の奥行き方向の位置座標を、縦方向、横方向からなる画像平面上の画素値とした奥行き画像を生成する。この奥行き画像は、カメラが生成する撮影画像の階層構造と同じ複数の解像度で表した階層構造とする。上述のとおり対象物の動きは、奥行き方向の位置によって、それを動きと認めるのに必要な空間解像度が存在する。すなわち後段に出力情報生成部32が行う処理に求められる空間解像度によってはそのような動きを無視した方が却って精度が上がる場合がある。そこで奥行き画像を階層構造として、後段の処理が求める解像度によって参照する階層を切り替えることにより当該処理の効率および精度を向上させる。   The position information generation unit 28 further generates a depth image in which the position coordinates in the depth direction of the object obtained by stereo matching are pixel values on the image plane composed of the vertical direction and the horizontal direction. The depth image has a hierarchical structure represented by a plurality of resolutions that are the same as the hierarchical structure of the captured image generated by the camera. As described above, the motion of an object has a spatial resolution necessary to recognize it as a motion depending on the position in the depth direction. In other words, depending on the spatial resolution required for the processing performed by the output information generation unit 32 in the subsequent stage, the accuracy may be improved by ignoring such movement. Therefore, the depth image is formed into a hierarchical structure, and the efficiency and accuracy of the processing are improved by switching the layer to be referenced according to the resolution required by the subsequent processing.

出力情報生成部32は、位置情報生成部28が生成した位置情報を取得し、その使用目的に応じた処理を適宜行う。上述のとおりここで行う処理は特に限定されないが、入力情報取得部26が受け付けたユーザからの指示に応じて適宜切り替えてよい。このとき上述のとおり、あらかじめ定められた解像度に対応する階層の奥行き画像を参照し、行う処理にとって意味のある動きのみを取得する。処理の結果得られたデータは、表示装置16に表示させたりネットワーク18を介して別の装置へ送信したりする。   The output information generation unit 32 acquires the position information generated by the position information generation unit 28, and appropriately performs processing according to the purpose of use. Although the process performed here is not specifically limited as above-mentioned, you may switch suitably according to the instruction | indication from the user which the input information acquisition part 26 received. At this time, as described above, the depth image of the hierarchy corresponding to the predetermined resolution is referred to, and only the motion that is meaningful for the processing to be performed is acquired. Data obtained as a result of the processing is displayed on the display device 16 or transmitted to another device via the network 18.

使用目的によっては出力情報生成部32は、撮像装置12のいずれかのカメラが撮影した画像に、位置情報生成部28が生成した位置情報に基づく加工を施して表示装置16に表示させてもよい。例えば撮影されたユーザ1の手や把持するコントローラなどの動きを位置情報生成部28から取得して、撮影画像の該当位置に剣の画像を重ね合わせる加工を全フレーム対し行うことにより、ユーザが剣を持って振り回す様子を表現できる。   Depending on the purpose of use, the output information generation unit 32 may perform processing based on the position information generated by the position information generation unit 28 on the image captured by any camera of the imaging device 12 and cause the display device 16 to display the processed image. . For example, the movement of the photographed user 1's hand or the controller to be gripped is acquired from the position information generation unit 28, and the process of superimposing the sword image on the corresponding position of the photographed image is performed on all frames, so that the user can You can express how you swing around with

この場合、位置情報生成部28がステレオマッチングに用いるステレオ画像のうち片方のフレームを同時に取得してそれぞれに加工を施し表示装置16に出力してもよいし、ステレオマッチングとは独立に片方のカメラが撮影した各フレームの画像データを取得し加工してもよい。ステレオマッチングを行うレート、対象領域の見積もり処理を行うレート、出力画像の生成に用いるフレームレートはそれぞれ独立に決定してよい。   In this case, one frame of the stereo image used for the stereo matching by the position information generation unit 28 may be simultaneously acquired, processed respectively, and output to the display device 16, or one camera may be independent of the stereo matching. The image data of each frame taken by may be acquired and processed. The rate at which stereo matching is performed, the rate at which target area estimation processing is performed, and the frame rate used to generate an output image may be determined independently.

各処理のレートが増加するほど時間解像度の観点で詳細な処理が可能になるが、通信帯域や処理の負荷が増加する。そのため情報処理システム10の本来の性能や、並行して行っている処理の有無などに応じて選択するようにしてもよい。使用可能な通信帯域や処理リソースと、それらのレートとを対応づけたテーブルを用意しておき、実際の処理環境に応じて当該テーブルを参照することにより決定してもよい。   As the processing rate increases, detailed processing becomes possible in terms of time resolution, but the communication bandwidth and processing load increase. Therefore, the selection may be made according to the original performance of the information processing system 10 or the presence / absence of processing performed in parallel. It may be determined by preparing a table in which usable communication bandwidths and processing resources are associated with those rates, and referring to the table according to the actual processing environment.

通信部30は、第1カメラ22、第2カメラ24が生成した階層構造の画像のうち、情報処理装置14における処理に必要な階層および領域の情報を入力情報取得部26、位置情報生成部28から取得して撮像装置12へ要求する。それに応じて撮像装置12から送信された画像データを、位置情報生成部28、出力情報生成部32へ適宜供給する。   The communication unit 30 includes, as input information acquisition unit 26 and position information generation unit 28, information on layers and areas necessary for processing in the information processing apparatus 14 among the hierarchical images generated by the first camera 22 and the second camera 24. And request to the imaging device 12. In response to this, the image data transmitted from the imaging device 12 is appropriately supplied to the position information generation unit 28 and the output information generation unit 32.

図3は第1カメラ22の構成を詳細に示している。なお第2カメラ24も同じ構成を有する。第1カメラ22は、画像取得部102、デモザイク部104、画像送出部150、ピラミッドフィルタ部170および通信部108を備える。画像取得部102は、CCDまたはCMOS等の撮像素子で露光された画像を所定のタイミング(例えば、60回/秒)で読み出す。以下の説明では、この画像は横方向に画素h個分の幅を有するものとする。この画像はいわゆるRAW画像である。画像取得部102は、RAW画像の横一列分の露光が完了する毎に、これをデモザイク部104および画像送出部150に送る。   FIG. 3 shows the configuration of the first camera 22 in detail. The second camera 24 has the same configuration. The first camera 22 includes an image acquisition unit 102, a demosaic unit 104, an image transmission unit 150, a pyramid filter unit 170, and a communication unit 108. The image acquisition unit 102 reads an image exposed by an image sensor such as a CCD or CMOS at a predetermined timing (for example, 60 times / second). In the following description, this image is assumed to have a width of h pixels in the horizontal direction. This image is a so-called RAW image. The image acquisition unit 102 sends this to the demosaic unit 104 and the image sending unit 150 every time exposure of one horizontal row of the RAW image is completed.

デモザイク部104は、画素h個分の容量を有するFIFO(First In First Out)バッファ105と簡易デモザイク処理部106とを有する。FIFOバッファ105には、RAW画像の横一列分の画素情報が入力され、次の横一列分の画素がデモザイク部104に入力されるまでそれを保持する。簡易デモザイク処理部106は、横二列分の画素を受け取ると、それらを用いて、各画素に対してその周辺画素に基づき色情報を補完してフルカラー画像を作り出すデモザイク(de-mosaic)処理を実行する。   The demosaic unit 104 includes a FIFO (First In First Out) buffer 105 having a capacity for h pixels and a simple demosaic processing unit 106. The FIFO buffer 105 receives pixel information for one horizontal row of the RAW image, and holds it until the next horizontal row of pixels is input to the demosaic unit 104. When the simple demosaic processing unit 106 receives pixels for two horizontal rows, the simple demosaic processing unit 106 performs a demosaic (de-mosaic) process for generating a full-color image by complementing color information based on the peripheral pixels for each pixel. Run.

当業者には周知のように、このデモザイク処理には多数の手法が存在するが、ここでは横二列分の画素のみを利用する簡易なデモザイク処理で十分である。一例として、対応するYCbCr値を算出すべき画素がG値のみを有している場合は、R値は左右に隣接するR値を平均、G値は当該G値をそのまま使用、B値は上または下に位置するB値を使用してRGB値とし、これを所定の変換式に代入してYCbCr値を算出するなどである。このようなデモザイク処理は周知であるからこれ以上詳細な説明は省略する。   As is well known to those skilled in the art, there are many methods for this demosaic process, but here, a simple demosaic process using only two horizontal rows of pixels is sufficient. As an example, when the pixel for which the corresponding YCbCr value is to be calculated has only the G value, the R value averages the R values adjacent to the left and right, the G value uses the G value as it is, and the B value is the upper value. Alternatively, the B value located below is used as an RGB value, and this is substituted into a predetermined conversion formula to calculate the YCbCr value. Since such demosaic processing is well known, further detailed description is omitted.

簡易なデモザイク処理の変形例として、RGBの4画素から一画素のYCbCr値を構成する手法を用いてもよい。この場合は、RAW画像の1/4サイズのデモザイク後画像が得られるので、後述する第1フィルタ110は不要になる。簡易デモザイク処理部106は、例えば図示のように、横2×縦2のRGBの4画素をYCbCrカラー信号に変換する。そして、この4画素からなるブロックは、画像送出部150に1/1デモザイク画像として渡されるとともに、ピラミッドフィルタ部170に送られる。   As a modification of the simple demosaic process, a method of constructing a YCbCr value of one pixel from four RGB pixels may be used. In this case, since a demosaiced image having a quarter size of the RAW image is obtained, the first filter 110 described later is unnecessary. The simple demosaic processing unit 106 converts, for example, four horizontal and horizontal two RGB pixels into a YCbCr color signal as illustrated. The block composed of four pixels is sent to the image sending unit 150 as a 1/1 demosaic image and also sent to the pyramid filter unit 170.

ピラミッドフィルタ部170は、ある画像を複数の解像度に階層化して出力する機能を有する。ピラミッドフィルタは、一般に必要とする解像度のレベルに応じた数の1/4縮小フィルタを備えるが、本実施形態では第1フィルタ110〜第4フィルタ140の4階層のフィルタを有している。各フィルタは、相互に隣接する4個の画素をバイリニア補間して4画素の平均画素値を演算する処理を実行する。したがって、処理後の画像サイズは処理前の画像の1/4になる。   The pyramid filter unit 170 has a function of layering and outputting a certain image into a plurality of resolutions. The pyramid filter generally includes a number of ¼ reduction filters corresponding to the required level of resolution. In this embodiment, the pyramid filter has four layers of filters of the first filter 110 to the fourth filter 140. Each filter performs a process of calculating an average pixel value of four pixels by bilinear interpolation of four pixels adjacent to each other. Therefore, the image size after processing is ¼ of the image before processing.

第1フィルタ110の前段には、Y、Cb、Crのそれぞれの信号に対応して、画素h個分のFIFOバッファ112が一つずつ配置される。これらのFIFOバッファ112は、横一列分のYCbCr画素を、次の横一列分の画素が簡易デモザイク処理部106から出力されるまで保持する役割を有する。画素の保持時間は、撮像素子のラインスキャンの速度に応じて決まる。   In front of the first filter 110, one FIFO buffer 112 for h pixels is arranged corresponding to each of the Y, Cb, and Cr signals. These FIFO buffers 112 have a role of holding YCbCr pixels for one horizontal row until the pixels for the next horizontal row are output from the simple demosaic processing unit 106. The pixel holding time is determined according to the line scan speed of the image sensor.

横二列分の画素が入力されると、第1フィルタ110は、横2×縦2の4画素分のY、Cb、Crの画素値を平均する。この処理を繰り返すことによって、1/1デモザイク後画像は縦横それぞれ1/2の長さとなり、全体として1/4のサイズに変換される。変換された1/4デモザイク後画像は、画像送出部150に送られるとともに、次段の第2フィルタ120に渡される。   When pixels for two horizontal rows are input, the first filter 110 averages the pixel values of Y, Cb, and Cr for four pixels of 2 × 2 horizontal. By repeating this process, the 1/1 demosaiced image becomes 1/2 in length and width, and is converted into a 1/4 size as a whole. The converted 1/4 demosaiced image is sent to the image sending unit 150 and also passed to the second filter 120 at the next stage.

第2フィルタ120の前段階には、Y、Cb,Crのそれぞれの信号に対応して、画素2/h個分のFIFOバッファ122が一つずつ配置される。これらのFIFOバッファ114も、横一列分のYCbCr画素を、次の横一列分の画素が第1フィルタ110から出力されるまで保持する役割を有する。   In the previous stage of the second filter 120, one FIFO buffer 122 corresponding to 2 / h pixels is arranged for each of the Y, Cb, and Cr signals. These FIFO buffers 114 also have a role of holding YCbCr pixels for one horizontal row until the pixels for the next horizontal row are output from the first filter 110.

横二列分の画素が入力されると、第2フィルタ120は、横2×縦2の4画素分のY、Cb、Crの画素値を平均する。この処理を繰り返すことによって、1/4デモザイク後画像は縦横それぞれ1/2の長さとなり、全体として1/16のサイズに変換される。変換された1/16デモザイク後画像は、画像送出部150に送られるとともに、次段の第3フィルタ130に渡される。   When pixels for two horizontal rows are input, the second filter 120 averages the pixel values of Y, Cb, and Cr for four pixels of 2 × 2 horizontal. By repeating this process, the 1/4 demosaiced image becomes 1/2 in length and width, and is converted into a size of 1/16 as a whole. The converted 1/16 demosaiced image is sent to the image sending unit 150 and also passed to the third filter 130 at the next stage.

第3フィルタ130および第4フィルタ140についても、それぞれの前段にh/4個分のFIFOバッファ132またはh/8個分のFIFOバッファ142が配置される以外は、上記と同様の処理を繰り返す。そして、画像送出部150に、1/64および1/256サイズのデモザイク後画像を出力する。なお、上記のようなピラミッドフィルタは、欧州特許出願公開第0999518号明細書などに記載されているように周知であるから、本明細書ではこれ以上の詳細な説明を省略する。   For the third filter 130 and the fourth filter 140, the same processing as described above is repeated except that h / 4 FIFO buffers 132 or h / 8 FIFO buffers 142 are arranged in the preceding stage. Then, 1/64 and 1 / 256-sized demosaiced images are output to the image sending unit 150. The pyramid filter as described above is well known as described in European Patent Application Publication No. 0999518 and the like, and therefore, detailed description thereof is omitted in this specification.

このように、ピラミッドフィルタ部170の各フィルタからは、1/4ずつ縮小された画像出力が画像送出部150に入力される。これから分かるように、ピラミッドフィルタ部170内のフィルタを通過するほど、各フィルタの前段に必要となるFIFOバッファの大きさは小さくて済むようになる。   As described above, the image output reduced by ¼ is input to the image transmission unit 150 from each filter of the pyramid filter unit 170. As can be seen from this, the size of the FIFO buffer required in the preceding stage of each filter becomes smaller as it passes through the filter in the pyramid filter unit 170.

画像送出部150は、画像取得部102から受け取ったRAW画像、デモザイク部104から受け取った1/1デモザイク後画像、およびピラミッドフィルタ部170から受け取った1/4〜1/256デモザイク後画像からなる階層画像のうち、情報処理装置14の通信部30から通信部108を介して受けた指示に応じて必要な階層および領域を選び出す。そして、これら画像でパケットを構成して通信部108に送る。   The image sending unit 150 includes a RAW image received from the image acquisition unit 102, a 1/1 demosaiced image received from the demosaic unit 104, and a 1/4 to 1/256 demosaiced image received from the pyramid filter unit 170. Among the images, necessary hierarchies and regions are selected according to an instruction received from the communication unit 30 of the information processing apparatus 14 via the communication unit 108. Then, a packet is composed of these images and sent to the communication unit 108.

通信部108は、例えばUSB1.0/2.0等の所定のプロトコルにしたがって、パケットを情報処理装置14に送出する。情報処理装置14との通信は有線に限らず、例えばIEEE802.11a/b/gなどの無線LAN通信、IrDAなどの赤外線通信であってもよい。   The communication unit 108 sends the packet to the information processing apparatus 14 according to a predetermined protocol such as USB 1.0 / 2.0. Communication with the information processing apparatus 14 is not limited to wired communication, and may be, for example, wireless LAN communication such as IEEE802.11a / b / g or infrared communication such as IrDA.

図4は、画像送出部150の構成を示している。画像送出部150は、ブロック書込部152、バッファ154、ブロック読出部156、符号化部158、パケット化部160、パケットバッファ162および制御部164を有する。制御部164は、情報処理装置14からの指示に基づき、ブロック書込部152およびブロック読出部156に各種画像データのうちいずれをパケットとして送出するかを指示する。   FIG. 4 shows the configuration of the image sending unit 150. The image sending unit 150 includes a block writing unit 152, a buffer 154, a block reading unit 156, an encoding unit 158, a packetizing unit 160, a packet buffer 162, and a control unit 164. Based on an instruction from the information processing apparatus 14, the control unit 164 instructs the block writing unit 152 and the block reading unit 156 as to which of various image data is to be transmitted as a packet.

ブロック書込部152には、デモザイク部104およびピラミッドフィルタ部170を経由して1/1〜1/256サイズのデモザイク後画像が入力される。また、情報処理装置14の出力情報生成部32が実行する処理内容によっては、画像取得部102からRAW画像が入力される。ブロック書込部152の階層選択部152Aは、制御部164からの指示に基づき、デモザイク後画像のいずれかの階層を選択する。   The block writing unit 152 receives the demosaiced image having a size of 1/1 to 1/256 via the demosaic unit 104 and the pyramid filter unit 170. Further, depending on the processing content executed by the output information generation unit 32 of the information processing apparatus 14, a RAW image is input from the image acquisition unit 102. Based on an instruction from the control unit 164, the hierarchy selection unit 152A of the block writing unit 152 selects any one of the demosaiced images.

切り出しブロック選択部152Bは、情報処理装置14から送られる、処理に必要な領域の位置情報を受け取り、その領域から所定の画素数だけ広い領域を内包するブロックを特定ブロックとして選択する。なお、一ブロックの大きさは、後段のJPEG符号化に合わせて8×8画素のブロックであることが好ましい。ブロック選択部152Bは選択されたデモザイク後画像の一部のブロックのみを切り出したうえ、バッファ154に書き込む。   The cut-out block selection unit 152B receives position information of an area necessary for processing sent from the information processing apparatus 14, and selects a block including an area wide by a predetermined number of pixels from the area as a specific block. The size of one block is preferably an 8 × 8 pixel block in accordance with the subsequent JPEG encoding. The block selection unit 152B cuts out only some blocks of the selected demosaiced image and writes them into the buffer 154.

このとき、2×2の画素毎に画像を受け取り、順次バッファ154に書き込む。ブロック読出部156は、バッファ154上に一ブロック分の画素が準備できた順に、各画像ブロックを読み出して符号化部158に送る。ブロック書込部152およびブロック読出部156は、制御部164によって同期動作するように調整されている。つまり、ブロック書込部152による読み書きは、画像取得部102、デモザイク部104およびピラミッドフィルタ部170から画素が出力される毎に行われるのに対し、ブロック読出部156による読み出しは、バッファ154に一ブロック分の画素が蓄積される毎に行われる。この同期タイミングはカメラの露光速度に応じて決まる。   At this time, an image is received for each 2 × 2 pixel and is sequentially written in the buffer 154. The block reading unit 156 reads each image block and sends it to the encoding unit 158 in the order in which pixels for one block are prepared on the buffer 154. The block writing unit 152 and the block reading unit 156 are adjusted by the control unit 164 to operate synchronously. That is, reading / writing by the block writing unit 152 is performed every time a pixel is output from the image acquisition unit 102, demosaic unit 104, and pyramid filter unit 170, while reading by the block reading unit 156 is performed in the buffer 154. This is performed every time the pixels for the block are accumulated. This synchronization timing is determined according to the exposure speed of the camera.

本実施形態では、RAW画像の全体や縮小画像の全体分の画素が揃ってから情報処理装置14に送るのではなく、ブロック単位で送出するので、バッファ154は最大でもRAW画像および縮小画像の全ての画像ブロックを蓄積できる大きさで十分である。画像の使用目的によっては、2〜3個の画像ブロックを蓄積できればよい。このように、バッファされるデータを少なくし、ブロックができる毎に順次パケット化して転送するので、撮像装置12内の処理に伴うレイテンシが削減される。   In the present embodiment, since the entire RAW image or all the pixels of the reduced image are arranged and sent to the information processing device 14 instead of being sent in units of blocks, the buffer 154 has at most all of the RAW image and the reduced image. It is sufficient that the image block can be stored. Depending on the intended use of the image, it is only necessary to store two to three image blocks. As described above, the buffered data is reduced, and packets are sequentially packetized and transferred every time a block is created, so that the latency associated with the processing in the imaging device 12 is reduced.

また、画像取得部102からの画素の出力およびピラミッドフィルタ部170からは、撮像素子の露光が終わるたびに順次ブロック書込部152に画素が出力されてくるため、異なるフレームのブロックがバッファ154に書き込まれたり、ブロックが異なる順序でパケット化して送られるようなことは、構造上起こりえない。   Further, the pixel output from the image acquisition unit 102 and the pyramid filter unit 170 sequentially output pixels to the block writing unit 152 every time the exposure of the image sensor is completed, so that blocks of different frames are stored in the buffer 154. It is not possible to write or block blocks to be sent in different orders.

符号化部158は、RAW画像以外の画像の画像ブロックに対して、JPEG等の周知の圧縮符号化を実行し、パケット化部160に送る。パケット化部160は、符号化後の画像の画像ブロックを、パケット化部160に到来した順にパケット化してパケットバッファ162に書き込む。通信部108は、パケットバッファ162内のパケットを、所定の通信プロトコルにしたがって情報処理装置14に転送する。なおRAW画像以外の画像についても、符号化部158による圧縮符号化を行わず、パケット化部160がブロック読出部156から取得したブロックを直接パケット化してもよい。   The encoding unit 158 performs well-known compression encoding such as JPEG on an image block of an image other than the RAW image, and sends the image block to the packetizing unit 160. The packetizing unit 160 packetizes the image blocks of the encoded image in the order in which they arrived at the packetizing unit 160 and writes them into the packet buffer 162. The communication unit 108 transfers the packet in the packet buffer 162 to the information processing apparatus 14 according to a predetermined communication protocol. Note that the blocks acquired by the packetizing unit 160 from the block reading unit 156 may be directly packetized without performing compression coding by the coding unit 158 for images other than RAW images.

なお、LLVC、AVC等の他の周知の符号化も使用することができるが、ブロック単位で符号化できるものが好ましい。また、ブロック読出部156で読み出されるブロックの大きさも符号化に合わせて変更することができ、例えば256×256単位のブロックで読み出しと符号化が行われてもよい。   Note that other well-known encoding such as LLVC and AVC can also be used, but those that can be encoded in units of blocks are preferable. Further, the size of the block read by the block reading unit 156 can be changed in accordance with the encoding. For example, reading and encoding may be performed in blocks of 256 × 256 units.

図5は情報処理装置14の位置情報生成部28の構成を詳細に示している。位置情報生成部28は、ステレオマッチングに用いる対象領域および階層を決定する対象領域決定部40、および、ステレオマッチングを行い対象物の位置情報を取得する位置情報取得部42を含む。対象領域決定部40は全体画像取得部44、動き領域検出部46、領域予測部48、領域統合部50、および階層決定部52を含む。   FIG. 5 shows the configuration of the position information generation unit 28 of the information processing apparatus 14 in detail. The position information generation unit 28 includes a target region determination unit 40 that determines a target region and a hierarchy used for stereo matching, and a position information acquisition unit 42 that performs stereo matching and acquires position information of the target. The target region determination unit 40 includes an entire image acquisition unit 44, a motion region detection unit 46, a region prediction unit 48, a region integration unit 50, and a hierarchy determination unit 52.

全体画像取得部44は、撮像装置12の第1カメラ22および第2カメラ24がそれぞれ生成したステレオ画像の階層データのうち、最も解像度の低い第0階層の全領域の画像を所定のレートで取得する。ここで取得する画像はY画像のみとしてもよい。ただし処理能力や通信速度などに応じて用いる階層、画像の種類は適宜選択してよい。   The entire image acquisition unit 44 acquires, at a predetermined rate, images of the entire area of the 0th hierarchy having the lowest resolution among the hierarchical data of the stereo images generated by the first camera 22 and the second camera 24 of the imaging device 12, respectively. To do. The image acquired here may be only the Y image. However, the hierarchies and image types used according to the processing capability and communication speed may be selected as appropriate.

動き領域検出部46は、全体画像取得部44が取得したステレオ画像のそれぞれについて動き領域を検出する。例えば対象物を人とした場合、まず顔検出を行い、人の像があると考えられる領域を見積もる。そして見積もった領域について1つ前の時間ステップで用いた画像との差分画像を取得し、所定のしきい値以上の差分を有する領域、またはそれに外接する領域などを動き領域として検出する。   The motion region detection unit 46 detects a motion region for each of the stereo images acquired by the entire image acquisition unit 44. For example, when the target is a person, face detection is first performed, and an area where a human image is considered is estimated. Then, a difference image between the estimated region and the image used in the previous time step is acquired, and a region having a difference equal to or greater than a predetermined threshold or a region circumscribing the region is detected as a motion region.

領域予測部48は、ステレオ画像のそれぞれについて、動き領域検出部46が検出した動き領域に基づき、将来のステレオマッチング処理で探索すべき対象領域を予測する。領域統合部50は、領域予測部48が予測した、ステレオ画像における対象領域を統一座標系で統合し、各時刻に対し1つの対象領域を決定する。階層決定部52は、当該対象領域の大きさに基づき、ステレオマッチングを精度よく行え、かつ無駄に解像度が高くない階層を選択する。   The region prediction unit 48 predicts a target region to be searched for in the future stereo matching processing based on the motion region detected by the motion region detection unit 46 for each stereo image. The region integration unit 50 integrates the target regions in the stereo image predicted by the region prediction unit 48 using a unified coordinate system, and determines one target region for each time. Based on the size of the target area, the hierarchy determining unit 52 selects a hierarchy that can perform stereo matching with high accuracy and does not use a high resolution unnecessarily.

位置情報取得部42は、対象領域画像取得部53、位置特定部54、無効データ検出部56、データ生成部58を含む。対象領域画像取得部53は、対象領域決定部40が決定した対象領域および階層を指定して撮像装置12からステレオ画像データを取得する。位置特定部54は対象領域画像取得部53が取得したステレオ画像に対しステレオマッチングを行い、奥行き方向の位置を含む3次元の位置情報を特定する。   The position information acquisition unit 42 includes a target area image acquisition unit 53, a position specification unit 54, an invalid data detection unit 56, and a data generation unit 58. The target area image acquisition unit 53 specifies the target area and hierarchy determined by the target area determination unit 40 and acquires stereo image data from the imaging device 12. The position specifying unit 54 performs stereo matching on the stereo image acquired by the target region image acquiring unit 53, and specifies three-dimensional position information including the position in the depth direction.

ここで実施するステレオマッチング処理は、これまでに提案されている様々な手法のいずれを用いてもよい。例えば左右の画像の一方に相関窓を設定し、他方の画像の探索窓を動かしながら相関窓の画像との相互相関係数を算出することにより対応点を取得したうえ、これらの対応点の視差に基づき三角測量の原理を用いて3次元の位置情報を求める面積相関法などを用いることができる。   The stereo matching processing performed here may use any of various methods proposed so far. For example, a correlation window is set for one of the left and right images, and the corresponding points are obtained by calculating the cross-correlation coefficient with the correlation window image while moving the search window of the other image, and the parallax of these corresponding points The area correlation method for obtaining three-dimensional position information using the principle of triangulation based on the above can be used.

無効データ検出部56は、位置特定部54が特定した位置情報のうち、無効とすべきデータを特定する。上述のとおり対象物が奧にあるほどその視差は小さくなるため、解像度の小さい画像では奥行き方向の位置が算出されたとしてもその誤差は大きい。すなわちステレオマッチングに用いる画像の解像度によって、適正に算出できる奥行き方向の範囲が異なり、解像度が低いほどその限界が手前に位置することになる。   The invalid data detection unit 56 identifies data to be invalidated from the position information identified by the position identification unit 54. As described above, the parallax becomes smaller as the target object is closer to the eyelid. Therefore, even if the position in the depth direction is calculated in an image with a small resolution, the error is large. That is, the range in the depth direction that can be calculated appropriately differs depending on the resolution of the image used for stereo matching, and the lower the resolution, the closer the limit is.

そこで各階層に対して、データを有効としてよい限界を深度限界として奥行き方向に対して設定しておき、位置特定部54が特定した奥行き方向の位置と比較することにより無効なデータを特定する。このようにすることで、撮像装置12自体が揺れたり、本来動きを追うべき対象物以外の大きな動きが背後で発生したときにそれをデータとして後段の処理に用いてしまう不具合の発生を防止する。   Therefore, for each layer, a limit in which the data may be valid is set as a depth limit in the depth direction, and invalid data is specified by comparing with the position in the depth direction specified by the position specifying unit 54. In this way, it is possible to prevent the occurrence of a problem that the imaging apparatus 12 itself shakes or a large movement other than the object that should originally follow the movement is used as data for subsequent processing. .

データ生成部58は、無効データ検出部56が特定した無効なデータを除外した結果残った位置情報に基づき奥行き画像を作成する。奥行き画像は上述のとおり、撮像装置12で生成する複数の解像度に対応する解像度を有する階層構造とする。奥行き画像の階層データは、あらかじめすべての画素値に0など初期値を与え、奥行き画像データ記憶部60に格納しておく。   The data generation unit 58 creates a depth image based on position information remaining as a result of excluding invalid data specified by the invalid data detection unit 56. As described above, the depth image has a hierarchical structure having resolutions corresponding to a plurality of resolutions generated by the imaging device 12. In the hierarchical data of the depth image, initial values such as 0 are given to all the pixel values in advance and stored in the depth image data storage unit 60.

そして位置特定部54が対象物の位置を特定するたびに、ステレオマッチングに用いた撮影画像の階層に対応する階層の、対応する位置の画素を奥行き方向の座標値とすることで奥行き画像を更新する。結果として奥行き画像データは、ステレオマッチングの処理レートと同じレートで更新される。情報処理装置14の出力情報生成部32は、自らが行う処理に必要な空間解像度に応じて、奥行き画像データのうち階層を選択して位置情報を読み出し、適宜処理に利用する。   Each time the position specifying unit 54 specifies the position of the object, the depth image is updated by using the pixel at the corresponding position in the hierarchy corresponding to the hierarchy of the captured image used for stereo matching as the coordinate value in the depth direction. To do. As a result, the depth image data is updated at the same rate as the stereo matching processing rate. The output information generation unit 32 of the information processing apparatus 14 reads out the position information by selecting a hierarchy from the depth image data according to the spatial resolution necessary for the process performed by the information processing apparatus 14 and appropriately uses it for the process.

図6は撮像装置12、位置情報取得部42、および対象領域決定部40が行う処理の時間的関係を模式的に示しており同図横方向が時間軸を表す。時刻0にすべての処理を開始すると、撮像装置12は時刻t1、t2、t3、・・・、t18、・・・に所定のフレームレートで対象物を撮影し、複数の解像度の画像データを生成して必要なデータを情報処理装置14に送出する。図6では撮像装置12が行う画像データ生成処理を全期間における連続した矩形で表しているが、実際には各撮影時刻に撮影された画像のデータ生成、データ送出が終了したら次の撮影時刻まで待機してよい。位置情報取得部42が行う処理も同様である。   FIG. 6 schematically shows a temporal relationship of processing performed by the imaging device 12, the position information acquisition unit 42, and the target region determination unit 40, and the horizontal direction in the figure represents the time axis. When all processing is started at time 0, the imaging device 12 captures an object at a predetermined frame rate at times t1, t2, t3,..., T18, and generates image data with a plurality of resolutions. Then, necessary data is sent to the information processing apparatus 14. In FIG. 6, the image data generation processing performed by the imaging device 12 is represented by a continuous rectangle over the entire period, but actually, when the data generation and data transmission of the image captured at each imaging time are completed, the next imaging time is reached. You may wait. The process performed by the position information acquisition unit 42 is the same.

初回の時刻t1の撮影画像のうち低解像度の全体画像は、情報処理装置14の対象領域決定部40に供給される(S1)。このとき位置情報取得部42にも所定の階層の全体画像を供給する(S2)。このときの階層は、対象物が標準的な位置にいるときを想定してステレオマッチングの精度が十分得られる範囲で解像度の低い階層をあらかじめ設定しておく。解像度の低い画像ほどサイズが小さいため、対応点の探索が効率的に行える。   Of the captured image at the first time t1, the entire low-resolution image is supplied to the target area determination unit 40 of the information processing apparatus 14 (S1). At this time, the entire image of a predetermined hierarchy is also supplied to the position information acquisition unit 42 (S2). As for the hierarchy at this time, assuming that the object is at a standard position, a hierarchy having a low resolution is set in advance within a range where sufficient accuracy of stereo matching is obtained. Since an image with a lower resolution is smaller in size, a corresponding point can be searched efficiently.

位置情報取得部42では、S2で供給されたステレオ画像を用いてステレオマッチング、無効データの除外、奥行き画像更新の処理を順に行う。これにより時刻t1に対応する対象物の位置情報が、階層構造を有する奥行き画像の形式で出力される。一方、対象領域決定部40では、S1で供給されたステレオ画像を用いて動き領域検出、領域予測、領域統合、階層決定の処理を順に行う。そして決定した対象領域と階層の情報を位置情報取得部42に通知する(S3)。   In the position information acquisition unit 42, stereo matching, exclusion of invalid data, and depth image update processing are sequentially performed using the stereo image supplied in S2. Thereby, the position information of the object corresponding to the time t1 is output in the form of a depth image having a hierarchical structure. On the other hand, the target region determination unit 40 sequentially performs motion region detection, region prediction, region integration, and hierarchy determination processing using the stereo image supplied in S1. Then, the position information acquisition unit 42 is notified of the determined target area and hierarchy information (S3).

このとき決定する対象領域と階層の情報は、時刻t2、t3、t4、t5、t6、t7に撮影される画像に対するものである。そのため対象領域決定部40の領域予測部48は各時刻までの時間を考慮し、現在の動き領域からの対象物の可動範囲を推定し、当該範囲を含むように各時刻に対して対象領域を予測する。位置情報取得部42は、S3で通知された情報に基づき、時刻t2、t3、t4、t5、t6、t7における撮影画像のデータが生成される都度、各時刻に対応して決定された対象領域および階層のステレオ画像データを取得する(S4、S5、S6、S7、S8、S9)。   The target area and hierarchy information determined at this time are for images taken at times t2, t3, t4, t5, t6, and t7. Therefore, the region prediction unit 48 of the target region determination unit 40 considers the time until each time, estimates the movable range of the target object from the current motion region, and sets the target region for each time so as to include the range. Predict. The position information acquisition unit 42 is based on the information notified in S3, and each time the captured image data at time t2, t3, t4, t5, t6, t7 is generated, the target area determined corresponding to each time And the stereo image data of a hierarchy are acquired (S4, S5, S6, S7, S8, S9).

S9と同じタイミングで、時刻t7の撮影画像のうち最低解像度の全体画像が対象領域決定部40に供給される(S10)。対象領域決定部40は再び、動き領域検出、領域予測、領域統合、階層決定の処理を順に行い、その結果決定した対象領域と階層の情報を位置情報取得部42に通知する(S11)。このとき決定する対象領域と階層の情報は、時刻t8、t9、t10、t11、t12、t13に撮影される画像に対するものである。   At the same timing as S9, the entire image with the lowest resolution among the captured images at time t7 is supplied to the target area determination unit 40 (S10). The target region determination unit 40 again performs the motion region detection, region prediction, region integration, and hierarchy determination processes in order, and notifies the position information acquisition unit 42 of the information on the target region and hierarchy determined as a result (S11). The target area and hierarchy information determined at this time are for images taken at times t8, t9, t10, t11, t12, and t13.

以下、同様の処理を繰り返すことにより、各時刻に撮影された画像における対象物の位置情報が奥行き画像として出力される。なお同図では、撮像装置12が撮影したすべてのフレームに対し位置情報を取得したが、上述のとおり、出力情報生成部32が行う後段の処理において位置情報に求められる時間解像度や、情報処理システム10の処理能力に応じて、処理の時間間隔を広げてもよい。例えば対象領域決定部40における処理と同じレートで処理を行ってもよい。   Thereafter, by repeating the same processing, the position information of the object in the image taken at each time is output as a depth image. In the figure, the position information is acquired for all the frames captured by the imaging device 12, but as described above, the time resolution required for the position information in the subsequent processing performed by the output information generation unit 32, and the information processing system Depending on the processing capacity of 10, the processing time interval may be expanded. For example, the processing may be performed at the same rate as the processing in the target area determination unit 40.

図7は情報処理装置14の動き領域検出部46、領域予測部48、領域統合部50が行う処理の様子を模式的に示している。画像61は第1カメラ22が撮影した画像、画像62は第2カメラ24が撮影した画像である。各カメラは時刻tに対して所定のレートで撮影しているため同図に示すように時間tに対して画像列が生成される。この例において、ある時刻の画像61と画像62には、同図の実線で示すように人が写っている。   FIG. 7 schematically illustrates a process performed by the motion region detection unit 46, the region prediction unit 48, and the region integration unit 50 of the information processing apparatus 14. An image 61 is an image taken by the first camera 22, and an image 62 is an image taken by the second camera 24. Since each camera is shooting at a predetermined rate with respect to time t, an image sequence is generated for time t as shown in FIG. In this example, a person is shown in the image 61 and the image 62 at a certain time as shown by the solid line in FIG.

第1カメラ22と第2カメラ24は左右に並んだ別の視点から人を撮影しているため、画像61および画像62における人の像は左右に視差が生じている。対象領域決定部40は、このように左右の視点から撮影されたステレオ画像を利用して対象領域を求める。まず動き領域検出部46は、画像61および画像62に対し独立に動き領域の決定を行う。   Since the first camera 22 and the second camera 24 photograph a person from different viewpoints arranged side by side, parallax occurs between the images 61 and 62 in the left and right directions. The target area determination unit 40 obtains the target area using the stereo images shot from the left and right viewpoints. First, the motion region detection unit 46 determines a motion region independently for the images 61 and 62.

具体的には、まず対象物が人であれば顔検出処理を行うことで、画像61に対して顔領域64a、画像62に対し顔領域64bを検出する。顔検出処理はパターンマッチングなど一般的に行われている様々な手法のいずれを適用してもよい。対象物が人でなくても、形状が既知でありテンプレート画像が準備できれば同様の処理が行える。例えば手、被写体たるユーザが把持するマーカなどでも、その形状を表すテンプレート画像をあらかじめメモリなどに準備しておくことにより同様に処理が可能である。   Specifically, first, if the object is a person, a face detection process is performed to detect a face area 64 a for the image 61 and a face area 64 b for the image 62. For the face detection process, any of various commonly used methods such as pattern matching may be applied. Even if the object is not a person, the same processing can be performed if the shape is known and the template image can be prepared. For example, even a marker held by a user as a hand or a subject can be processed in the same manner by preparing a template image representing the shape in a memory or the like in advance.

次に、顔領域64a、64bの大きさおよび位置に基づき、各画像61、62に対し、動き領域である可能性の高い領域を動き検出対象領域66a、66bとしてそれぞれ決定する。動き領域である可能性の高い領域とはつまり人の体が及ぶ範囲であり、顔の位置が既知であれば予測は容易である。例えば、基準の顔の輪郭線とその顔に対し設定すべき動き検出対象領域の範囲を矩形で示した基準画像を準備しておき、顔検出処理でえられた顔領域64a、64b内の顔の輪郭に、基準の顔の輪郭線がおよそ重なるように基準画像を拡大または縮小する。そのときの基準画像の矩形が動き検出対象領域66a、66bとなる。   Next, based on the size and position of the face regions 64a and 64b, regions that are likely to be motion regions are determined as the motion detection target regions 66a and 66b for the images 61 and 62, respectively. The region that is highly likely to be a motion region is a range covered by a human body, and prediction is easy if the position of the face is known. For example, a reference image in which a reference face outline and a range of a motion detection target area to be set for the face are indicated by a rectangle is prepared, and faces in the face areas 64a and 64b obtained by the face detection process are prepared. The reference image is enlarged or reduced so that the outline of the reference face substantially overlaps the outline of the reference face. The rectangle of the reference image at that time becomes the motion detection target areas 66a and 66b.

次に動き検出対象領域66a、66bについて、前回の対象領域決定処理時に取得した全体画像における対応する領域との差分画像を、左の画像間、右の画像間でそれぞれ取得したうえ、差分が所定のしきい値より大きい箇所を抽出する。同図では、前回に取得した全体画像において写っていた左手を、画像61、62上に点線で示している。その他の部分に変化がなかったとすると、左手部分にのみ差分が大きく表れる。このように差分がしきい値以上の箇所を抽出し、それに外接する矩形を動き領域68a、68bとして決定する。   Next, with respect to the motion detection target areas 66a and 66b, difference images with corresponding areas in the entire image acquired during the previous target area determination process are acquired between the left image and the right image, respectively, and the difference is predetermined. Extract points that are larger than the threshold value. In the figure, the left hand that was captured in the previous whole image is indicated by dotted lines on the images 61 and 62. If there is no change in other parts, a large difference appears only in the left hand part. In this way, a portion where the difference is greater than or equal to the threshold value is extracted, and the rectangle circumscribing it is determined as the motion regions 68a and 68b.

次に領域予測部48は、画像61および画像62のそれぞれに対し決定した動き領域68a、68bに基づき、ステレオマッチングの対象となる画像の撮影時刻を想定した領域予測を行う。この処理は、単に時間経過に比例する量で、動き領域68a、68bを縦方向、横方向に同じ比率で拡大していってもよいし、前回以前の対象領域決定処理時に取得した複数の画像から自己回帰モデルなどに基づき対象物の移動方向を予測したうえ、動き領域68a、68bを当該方向にのみ拡大していってもよい。あるいはそれらを組み合わせてもよい。   Next, the region prediction unit 48 performs region prediction assuming the shooting time of the image to be stereo-matched based on the motion regions 68a and 68b determined for the image 61 and the image 62, respectively. In this process, the motion areas 68a and 68b may be enlarged at the same ratio in the vertical and horizontal directions by an amount that is simply proportional to the passage of time, or a plurality of images acquired during the previous target area determination process. The movement direction of the object may be predicted based on the autoregressive model or the like, and the motion regions 68a and 68b may be expanded only in the direction. Or they may be combined.

このようにして、画像61、画像62のそれぞれに対し、予測領域70a、70bが決定される。なお同図では予測領域が各画像につき1つのみ示されているが、上述のとおり、ステレオマッチングの対象画像が撮影される各時刻に対して予測領域を決定する。次に領域統合部50は、左右の画像それぞれに対して決定した予測領域70a、70bを、画像平面を構成する正規化座標系で重ね合わせてその和となる領域(少なくともいずれかの領域に含まれる領域)を求めることにより統合する。   In this way, the prediction regions 70a and 70b are determined for the images 61 and 62, respectively. Although only one prediction region is shown for each image in the figure, as described above, a prediction region is determined for each time when a target image for stereo matching is captured. Next, the region integration unit 50 superimposes the prediction regions 70a and 70b determined for the left and right images on the normalized coordinate system that forms the image plane, and is a region that is the sum (included in at least one of the regions). Integration).

左右の異なる視点から撮影した画像は横方向に視差が生じるため、予測領域70a、70bは同図に示すように画像平面を構成する座標系でx方向(横方向)にずれる。このように2つの画像から対象領域を決定するのは次の理由による。すなわち対象物が手前にいるほどその像は見かけ上大きくなるため、その動きが及ぶ範囲が広くなり、上記のように決定した予測領域を超えてしまう可能性が上がる。   Since the images taken from the left and right viewpoints have parallax in the horizontal direction, the prediction regions 70a and 70b are shifted in the x direction (lateral direction) in the coordinate system constituting the image plane as shown in FIG. The target area is determined from the two images as described above for the following reason. That is, as the object is closer to the object, the image is apparently larger, so the range covered by the movement is widened, and the possibility of exceeding the prediction region determined as described above increases.

そこで対象物の奥行き方向の位置に依存したみかけ上の動きの大きさの変化に応じて、対象領域の広さを調整するために視差を利用する。視差が大きければ予測領域70a、70bのずれが大きくなるため、その和となる領域が広くなり、視差が小さければそのずれが小さくなるためその和となる領域はあまり広くならない。このようにして対象物の奥行き方向の位置を考慮して領域の広さを調整することにより、対象物が対象領域からはずれるのを防止しながらも余分な領域は含まれないようにする。   Therefore, the parallax is used to adjust the size of the target area in accordance with the change in the magnitude of the apparent movement depending on the position of the target in the depth direction. If the parallax is large, the shift between the prediction areas 70a and 70b becomes large, so the area that is the sum is widened. If the parallax is small, the shift is small, and the area that is the sum is not so wide. In this way, by adjusting the width of the area in consideration of the position of the object in the depth direction, the extra area is not included while preventing the object from being detached from the object area.

なお領域統合部50はさらに、和となる領域を所定の拡大率で縦横双方向に拡大した領域を最終的な対象領域72として決定する。このようにすることで、対象物が対象領域からはずれる可能性をさらに低くできる。   Note that the region integration unit 50 further determines a region obtained by enlarging the summed region in the vertical and horizontal directions at a predetermined enlargement ratio as the final target region 72. By doing in this way, possibility that an object will deviate from an object field can be made still lower.

図8は階層決定部52が、対象領域の大きさに基づきステレオマッチングに用いる階層を選択する様子を模式的に示している。同図において矩形80a、80b、80c、80dは、撮影画像の階層のうち第3階層、第2階層、第1階層、第0階層の画像サイズを表している。図7において画像の正規化座標系で決定した対象領域72は、各画像サイズに対して矩形72a、72b、72c、72dのような大きさとなる。   FIG. 8 schematically shows how the hierarchy determining unit 52 selects a hierarchy to be used for stereo matching based on the size of the target area. In the figure, rectangles 80a, 80b, 80c, and 80d represent the image sizes of the third layer, the second layer, the first layer, and the zeroth layer among the layers of the captured image. In FIG. 7, the target area 72 determined in the image normalization coordinate system has a size such as rectangles 72 a, 72 b, 72 c, and 72 d for each image size.

このように対象領域72を各階層の画像サイズに対応させて得た矩形72a、72b、72c、72dを、基準サイズ矩形82と比較し、対象領域のサイズが基準サイズ矩形82のサイズに近くなる階層を選択する。基準サイズ矩形82は、ステレオマッチング時に好適な精度を得るために必要な、対象物の見かけ上の大きさを規定したものであり、実験などによりあらかじめ設定しておく。   The rectangles 72a, 72b, 72c, 72d obtained by matching the target area 72 with the image size of each layer in this way are compared with the reference size rectangle 82, and the size of the target area is close to the size of the reference size rectangle 82. Select a hierarchy. The reference size rectangle 82 defines an apparent size of an object necessary for obtaining a suitable accuracy at the time of stereo matching, and is set in advance by an experiment or the like.

サイズの大小は、2つの矩形が内包関係を有するときの内包される矩形を「小さい」と見なしてもよいし、面積で比較してもよい。あるいは縦、横、どちらか一方の辺の長さのみで比較してもよい。また階層の選択にあたっては、各階層に対応する矩形72a、72b、72c、72dのうち、サイズの順列で基準サイズ矩形82と前後する2つの矩形のいずれを選択してもよく、必ずしも最もサイズの近い矩形でなくてもよい。   As for the size, the rectangle included when the two rectangles have an inclusion relationship may be regarded as “small” or may be compared by area. Alternatively, the comparison may be made only with the length of either one of the vertical and horizontal sides. In selecting a hierarchy, any of the rectangles 72a, 72b, 72c, and 72d corresponding to each hierarchy may be selected from the reference size rectangle 82 and the two rectangles that precede and follow the size permutation. It does not have to be a close rectangle.

例えば図8の場合、基準サイズ矩形82は、矩形72a、72b、72c、72dのうち矩形72bと矩形72cの間のサイズを有するため、矩形72bに対応する第2階層、または矩形72cに対応する第1階層を選択する。例えば最大サイズである第3階層の矩形72aからサイズの大きい順に比較していき(S20、S22、S24、S26の順)、初めて基準サイズ矩形82に内包された矩形に対応する階層を選択してもよい。同図の例では、矩形72cに対応する第1階層を選択する。   For example, in the case of FIG. 8, the reference size rectangle 82 has a size between the rectangle 72b and the rectangle 72c among the rectangles 72a, 72b, 72c, and 72d, and therefore corresponds to the second layer corresponding to the rectangle 72b or the rectangle 72c. Select the first hierarchy. For example, the rectangles 72a of the third layer, which is the maximum size, are compared in the order of size (S20, S22, S24, S26), and the layer corresponding to the rectangle contained in the reference size rectangle 82 is selected for the first time. Also good. In the example shown in the figure, the first hierarchy corresponding to the rectangle 72c is selected.

このような手順とすると、基準サイズ矩形に近い矩形が得られる階層のうち、解像度の低い方の階層を選択でき、計算量をより抑えることができる。いずれにしろ、基準サイズ矩形82に近いサイズの対象領域が得られる階層をこのように選択することにより、上述のとおり、対象物の見かけ上の大きさに合わせて、ステレオマッチングに用いる画像の解像度を調整することができる。結果として、必要以上に詳細な画像データを探索する無駄の発生を防止しつつ、その精度を保つことができる。   With such a procedure, it is possible to select a layer having a lower resolution from among layers in which a rectangle close to the reference size rectangle is obtained, thereby further reducing the amount of calculation. In any case, the resolution of the image used for stereo matching is selected according to the apparent size of the object as described above by selecting the hierarchy from which the target area close to the reference size rectangle 82 is obtained in this way. Can be adjusted. As a result, it is possible to maintain the accuracy while preventing unnecessary generation of image data more than necessary.

図9は、撮像装置12が生成する撮影画像の階層と、位置情報取得部42のデータ生成部58が生成する奥行き画像の階層の対応を示している。同図において上側の4組の画像82a、82b、82c、82dが、ある時刻に撮影されたステレオ画像、下側の4つの画像84a、84b、84c、84dが、当該ステレオ画像に対し生成された奥行き画像であり、それぞれ左から順に第0階層、第1階層、第2階層、第3階層の画像である。   FIG. 9 shows the correspondence between the hierarchy of the captured image generated by the imaging device 12 and the hierarchy of the depth image generated by the data generation unit 58 of the position information acquisition unit 42. In the figure, the upper four sets of images 82a, 82b, 82c, and 82d are stereo images taken at a certain time, and the lower four images 84a, 84b, 84c, and 84d are generated for the stereo images. Depth images, which are images of the 0th layer, the 1st layer, the 2nd layer, and the 3rd layer in order from the left.

例えば人が棒状の物を顔の前で振っている様子を撮影すると、ある時刻において画像82a、82b、82c、82dのような撮影画像が2つの視点に対して1枚ずつ生成される。このような撮影画像に対し対象領域決定部40が決定した階層が第2階層、対象領域が領域86であったとすると、位置情報取得部42は当該階層、当該領域の左右の画像データを取得してステレオマッチングを行う。   For example, if a person is photographed as if a person is waving a stick-like object in front of his / her face, photographed images such as images 82a, 82b, 82c, and 82d are generated for each of two viewpoints at a certain time. Assuming that the hierarchy determined by the target area determination unit 40 for such a captured image is the second hierarchy and the target area is the area 86, the position information acquisition unit 42 acquires the left and right image data of the hierarchy and the area. Stereo matching.

そしてその領域における対象物の位置情報が得られたら、奥行き画像の階層データのうち、対応する階層における対応する領域、すなわち領域88の画素値を更新する。このとき領域86に対して得られた奥行き方向の位置座標のうち最も小さい値(手前の位置)が、第2階層に設定された深度限界より奥にあるときは更新処理を行わない。これは上述のとおり、本来当該解像度では対象物の位置としては正確に得られるはずのない奥行き方向の位置における大きな動きが何らかの要因で発生した場合をエラーとして除外するためである。階層と深度限界とはあらかじめ対応づけてテーブルとしてメモリなどに格納しておく。   When the position information of the object in the area is obtained, the pixel value of the corresponding area in the corresponding hierarchy, that is, the pixel value of the area 88 is updated among the hierarchical data of the depth image. At this time, when the smallest value (front position) of the position coordinates in the depth direction obtained for the area 86 is behind the depth limit set in the second hierarchy, the update process is not performed. This is because, as described above, a case where a large movement at a position in the depth direction, which should not be accurately obtained as the position of the target object at the resolution, is generated as an error is excluded as an error. The hierarchy and the depth limit are associated with each other in advance and stored in a memory or the like as a table.

このように、奥行き画像を階層構造とし、ステレオマッチングに用いた撮影画像の階層に対応する階層のデータを各時刻において更新していく。画像の解像度は、当該画像から精度よく得られる対象物の奥行き方向の位置の範囲に対応する。そのため、ステレオマッチングに用いた画像の解像度ごとに奥行き画像を階層化し、得られた位置情報を対応する階層にのみ反映させることにより、対象物の位置を、奥行き方向の位置の範囲で区分していることにもなる。   In this way, the depth image has a hierarchical structure, and the data of the hierarchy corresponding to the hierarchy of the captured image used for stereo matching is updated at each time. The resolution of the image corresponds to the range of the position in the depth direction of the object obtained from the image with high accuracy. Therefore, by layering the depth image for each resolution of the image used for stereo matching and reflecting the obtained position information only in the corresponding layer, the position of the object is divided by the range of the position in the depth direction. It will also be.

この奥行き画像を用いて処理を行う出力情報生成部32は、行う処理の内容や求める精度などによって奥行き画像の階層を適宜選択して参照することにより、必要な情報は確実に取得しつつ、余分なデータを処理に組み込んで処理精度が低下したり処理速度が落ちたりすることを防止できる。   The output information generating unit 32 that performs processing using the depth image appropriately selects and refers to the hierarchy of the depth image according to the content of the processing to be performed, the accuracy to be obtained, etc. It is possible to prevent a reduction in processing accuracy or a reduction in processing speed by incorporating simple data into the processing.

例えばカメラから遠い対象物の動きを無視したいときは第0階層、第1階層など低解像度の画像のみを参照する。逆に奥の対象物の動きのみに注目する場合は、第2階層、第3階層など高解像度の画像のみを参照する。手前から奥の方まで広い範囲における動きを全て取得したい場合は、第0階層から第3階層までを順に参照していってもよい。参照すべき奥行き画像の階層は、実際に処理を行って検証することにより、処理内容、想定される対象物の位置、大きさなどに対して設定しておいてもよい。   For example, when it is desired to ignore the movement of an object far from the camera, only low-resolution images such as the 0th and 1st layers are referred to. Conversely, when focusing only on the movement of the object behind, only high-resolution images such as the second and third layers are referred to. When it is desired to acquire all the movements in a wide range from the front side to the back side, the 0th layer to the 3rd layer may be referred to in order. The depth image hierarchy to be referred to may be set for the processing content, the position and size of the assumed object, etc. by actually performing the processing and verifying.

以上述べた本実施の形態によれば、撮像装置にカメラを2つ設け、異なる視点から対象物の動画を同時に撮影する。撮影した画像はピラミッドフィルタにより解像度の異なる複数の階層画像へ変換する。そして、低い解像度の全体画像を用いて動き領域を検出し、その大きさに見合った階層を選択したうえ、対象物の動きがあると予測される対象領域のみを取得してステレオマッチングを行う。   According to the present embodiment described above, two cameras are provided in the imaging apparatus, and a moving image of an object is simultaneously shot from different viewpoints. The captured image is converted into a plurality of hierarchical images having different resolutions by a pyramid filter. Then, a motion region is detected using an entire image with a low resolution, and a hierarchy corresponding to the size is selected, and only a target region predicted to have a motion of the target is acquired and stereo matching is performed.

これにより、対象物が奥行き方向のどの位置にいても、ステレオマッチングの精度が維持できる範囲で無駄なデータ処理を省くことができ、精度と処理効率を両立させることができる。また対象物の位置が変化しても対象領域の画像サイズは大きく変化しないため、計算量が対象物の位置によらず、安定した位置情報出力が可能となる。   As a result, it is possible to omit useless data processing within a range in which the accuracy of stereo matching can be maintained regardless of the position of the object in the depth direction, and to achieve both accuracy and processing efficiency. In addition, even if the position of the target object changes, the image size of the target area does not change greatly. Therefore, it is possible to output stable position information regardless of the calculation amount regardless of the position of the target object.

また対象物の動きなどに基づき将来の対象領域を予測することにより、対象領域を決定する処理とステレオマッチングとを独立したタイミングで行う。これにより処理リソースや処理能力、求められる応答性、精度などに鑑み、これら2つの処理をどのような頻度で行うかを自由に決定することができる。   Further, by predicting a future target area based on the movement of the target object, the process of determining the target area and stereo matching are performed at independent timings. Thus, in view of processing resources, processing capability, required responsiveness, accuracy, and the like, it is possible to freely determine how often these two processes are performed.

また対象領域の決定には、2つのカメラによって撮影されたステレオ画像を2つとも用い、双方において得られた動き領域の和となる領域に基づき対象領域を決定する。これにより、動きの及ぶ範囲が大きい、手前の対象物については対象領域をより広げることができ、対象領域から対象物がはみ出る可能性が低くなる。一方ではみ出る可能性がもともと低い、奥の対象物は、対象領域の広がりが抑えられ、無駄な領域を対象領域に含めることが少なくなる。   The target area is determined by using both stereo images taken by the two cameras, and determining the target area based on the area that is the sum of the motion areas obtained in both. Thereby, it is possible to further widen the target area for the front object that has a large range of movement, and the possibility that the target object protrudes from the target area is reduced. On the other hand, an object in the back, which has a low possibility of protruding on the other hand, can suppress the spread of the target area, and includes less useless areas in the target area.

さらに、得られた位置情報は、奥行き方向の位置を画素値とする奥行き画像を複数の解像度で表した階層構造とする。そしてステレオマッチングで用いた画像に対応する階層の領域の画素値を各時刻で更新する。これにより、位置情報を用いて行う後段の処理に求められる精度、解像度、対象物の奥行き方向の位置の想定範囲、などによって参照する階層を切り替えることができ、参照処理、および参照した情報を用いた各種処理を効率化できる。   Further, the obtained position information has a hierarchical structure in which a depth image having pixel values at positions in the depth direction is represented by a plurality of resolutions. And the pixel value of the area | region of the hierarchy corresponding to the image used by stereo matching is updated at each time. As a result, the hierarchy to be referenced can be switched depending on the accuracy, resolution, assumed range of position in the depth direction of the object, etc. required for the subsequent processing performed using the position information, and the reference process and the referenced information can be used. Various processes can be made more efficient.

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described based on the embodiments. Those skilled in the art will understand that the above-described embodiment is an exemplification, and that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.

例えば本実施の形態では、対象領域決定部40が決定した対象領域に対しステレオマッチングを行うことにより、対象物の3次元の位置情報を取得したが、対象領域を決定する技術は、ステレオマッチング以外の処理にも適用することができる。例えば顔の表情認識処理など奥行き方向の詳細な位置情報を必要としない処理でもよい。この場合もステレオ画像を用いて、顔の奥行き方向の位置によって対象領域の広さを調整し、最適な解像度の画像を選択することができるため、その後の処理の精度および効率を両立させることができる。   For example, in this embodiment, the three-dimensional position information of the target object is acquired by performing stereo matching on the target area determined by the target area determination unit 40. However, the technique for determining the target area is other than stereo matching. It can also be applied to the processing. For example, processing that does not require detailed position information in the depth direction, such as facial expression recognition processing, may be used. In this case as well, the stereo image can be used to adjust the size of the target area according to the position in the depth direction of the face, and an image with the optimum resolution can be selected, so that the accuracy and efficiency of the subsequent processing can be made compatible. it can.

また本実施の形態では、動きのある領域、すなわち対象領域を特定するための初期処理として、情報処理装置14の動き領域検出部46が顔検出処理を行った。一方、この顔検出処理の機能を撮像装置12の各カメラに設けるようにしてもよい。図10はそのような場合の第1カメラ22の構成を示している。ここで第1カメラ22が備える画像取得部102、デモザイク部104、画像送出部150、ピラミッドフィルタ部170および通信部108は図3における各機能ブロックと同一であり、この変形例ではさらに対象物検出部180を備える。第2カメラ24も同じ構成を有する。   In the present embodiment, the motion region detection unit 46 of the information processing apparatus 14 performs the face detection process as an initial process for specifying a region with motion, that is, a target region. On the other hand, this face detection function may be provided in each camera of the imaging device 12. FIG. 10 shows the configuration of the first camera 22 in such a case. Here, the image acquisition unit 102, the demosaic unit 104, the image transmission unit 150, the pyramid filter unit 170, and the communication unit 108 included in the first camera 22 are the same as the functional blocks in FIG. 3, and in this modified example, further object detection is performed. Part 180. The second camera 24 has the same configuration.

対象物検出部180は、情報処理装置14において対象領域決定部40が処理対象とする画像、例えば最も解像度の低い第0階層の全領域の画像を画像送出部150のブロック読み出し部156から取得し、それに対して顔検出処理を行うことにより顔領域を特定する。そしてその領域の位置および大きさに係る情報を、画像送出部150のパケット化部160に通知し、検出対象の画像データ本体とともにパケット化して情報処理装置14へ送信する。あるいは検出対象の画像の識別情報などに対応づけて通信部108から情報処理装置14へ送信する。   The object detection unit 180 acquires an image to be processed by the target region determination unit 40 in the information processing apparatus 14, for example, an image of the entire region of the 0th layer having the lowest resolution from the block reading unit 156 of the image transmission unit 150. Then, a face area is specified by performing face detection processing on it. Then, the information related to the position and size of the area is notified to the packetization unit 160 of the image transmission unit 150, packetized together with the image data body to be detected, and transmitted to the information processing apparatus 14. Alternatively, the information is transmitted from the communication unit 108 to the information processing apparatus 14 in association with the identification information of the detection target image.

この場合、情報処理装置14の動き領域検出部46は、各時刻の画像における顔領域に係る情報を、画像データとともに撮像装置12から取得することで、図7に示した顔領域64a、64bを検出する処理を行わずにすむ。このとき動き領域検出部46は、動き検出対象領域66a、66bを決定する処理から開始する。このように撮像装置12の処理能力によって処理の分担を変化させることにより、効率のよい対象領域特定が行え、結果的に応答性および精度のよい位置情報生成が可能となる。   In this case, the motion region detection unit 46 of the information processing device 14 obtains information on the face region in the image at each time from the imaging device 12 together with the image data, thereby obtaining the face regions 64a and 64b illustrated in FIG. It is not necessary to perform the detection process. At this time, the motion region detection unit 46 starts from the process of determining the motion detection target regions 66a and 66b. In this way, by changing the processing share depending on the processing capability of the imaging device 12, the target area can be efficiently identified, and as a result, position information can be generated with high responsiveness and accuracy.

ここで対象物検出部180が行う検出処理は、上述のとおり既存のテンプレートマッチング技術を導入して適当なテンプレート画像を準備することにより、その対象は人の顔にとどまらず、手、マーカ、所定の物などのいずれでもよい。例えば情報処理装置14において、ユーザが開始を指定したゲーム名や情報処理の種類などに応じて、入力情報取得部26が、それに対応する対象物を特定し、撮像装置12に識別情報を通知する。   Here, the detection process performed by the object detection unit 180 prepares an appropriate template image by introducing an existing template matching technique as described above, so that the object is not limited to a human face, but a hand, a marker, a predetermined Any of these may be used. For example, in the information processing apparatus 14, the input information acquisition unit 26 identifies a target object corresponding to the game name specified by the user or the type of information processing, and notifies the imaging apparatus 12 of the identification information. .

撮像装置12の各カメラは、図示しないメモリに準備した複数のテンプレート画像から、通知された対象物に対応するテンプレート画像を読み出し、テンプレートマッチングを行うことにより対象物を検出する。あるいは情報処理装置14がテンプレート画像のデータそのものを撮像装置12に送信するようにしてもよい。このようにすることで、ユーザの指示入力などに従って対象物を様々に変化させることができる。   Each camera of the imaging device 12 reads a template image corresponding to the notified object from a plurality of template images prepared in a memory (not shown), and detects the object by performing template matching. Alternatively, the information processing device 14 may transmit the template image data itself to the imaging device 12. By doing in this way, a target object can be changed variously according to a user's instruction input.

10 情報処理システム、 12 撮像装置、 14 情報処理装置、 16 表示装置、 22 第1カメラ、 24 第2カメラ、 26 入力情報取得部、 28 位置情報生成部、 30 通信部、 32 出力情報生成部、 40 対象領域決定部、 42 位置情報取得部、 44 全体画像取得部、 46 動き領域検出部、 48 領域予測部、 50 領域統合部、 52 階層決定部、 53 対象領域画像取得部、 54 位置特定部、 56 無効データ検出部、 58 データ生成部、 60 奥行き画像データ記憶部、 102 画像取得部、 104 デモザイク部、 108 通信部、 150 画像送出部、 151 ブロック選択部、 164 制御部、 170 ピラミッドフィルタ部、 180 対象物検出部。   DESCRIPTION OF SYMBOLS 10 Information processing system, 12 Imaging apparatus, 14 Information processing apparatus, 16 Display apparatus, 22 1st camera, 24 2nd camera, 26 Input information acquisition part, 28 Position information generation part, 30 Communication part, 32 Output information generation part, 40 target region determination unit, 42 position information acquisition unit, 44 whole image acquisition unit, 46 motion region detection unit, 48 region prediction unit, 50 region integration unit, 52 hierarchy determination unit, 53 target region image acquisition unit, 54 position specification unit , 56 invalid data detection unit, 58 data generation unit, 60 depth image data storage unit, 102 image acquisition unit, 104 demosaic unit, 108 communication unit, 150 image transmission unit, 151 block selection unit, 164 control unit, 170 pyramid filter unit 180 Object detection unit.

Claims (10)

対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置であって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、
当該対象領域を解像度を変化させて表したときの画像の大きさに基づき、ステレオマッチングを行うための適正解像度を決定する解像度決定部と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、
を備えたことを特徴とする情報処理装置。
An information processing apparatus that outputs position information of an object at a predetermined rate by performing stereo matching using stereo moving images obtained by simultaneously capturing video images of the object from different viewpoints,
A motion region specifying unit that acquires image data representing an image frame pair included in the stereo moving image at a predetermined resolution and specifies a motion region by obtaining a motion difference;
A target area determination unit that determines a target area to be a processing target of stereo matching based on the motion area;
A resolution determining unit that determines an appropriate resolution for performing stereo matching based on the size of the image when the target area is represented by changing the resolution;
Position information for acquiring image data representing the target area of the image frame pair included in the stereo moving image at the appropriate resolution, performing stereo matching using the image data, and acquiring and outputting the position information of the target object An acquisition unit;
An information processing apparatus comprising:
前記動き領域特定部は、前記位置情報取得部が画像データを取得するレートより小さいレートで画像データを取得し、前記位置情報取得部がステレオマッチングを行うフレームにおける対象物の動き領域を、各撮影時刻に対応して予測することを特徴とする請求項1に記載の情報処理装置。   The moving region specifying unit acquires image data at a rate smaller than a rate at which the position information acquiring unit acquires image data, and each moving region of a target object in a frame in which the position information acquiring unit performs stereo matching is captured. The information processing apparatus according to claim 1, wherein prediction is performed according to time. 前記対象領域決定部は、前記動き領域特定部が前記画像フレーム対のそれぞれの画像フレームに対し特定した動き領域を統一座標系において重ね合わせ、その和となる領域に基づき前記対象領域を決定することを特徴とする請求項1または2に記載の情報処理装置。   The target region determination unit superimposes the motion regions specified by the motion region specification unit for each image frame of the image frame pair in a unified coordinate system, and determines the target region based on a summed region. The information processing apparatus according to claim 1, wherein: 前記解像度決定部は、前記対象領域決定部が決定した対象領域を所定の複数の解像度で表したときの画像の大きさを表す複数の矩形と、あらかじめ定めた基準の大きさを有する矩形とからなる大きさの順列において、前記基準の大きさを有する矩形の次に小さい矩形に対応する解像度を、前記適正解像度とすることを特徴とする請求項1から3のいずれかに記載の情報処理装置。   The resolution determination unit includes a plurality of rectangles representing the size of an image when the target region determined by the target region determination unit is represented by a plurality of predetermined resolutions, and a rectangle having a predetermined reference size. 4. The information processing apparatus according to claim 1, wherein a resolution corresponding to a rectangle next to a rectangle having the reference size is set as the appropriate resolution in a permutation of a certain size. 5. . 前記動き領域特定部は、対象物の存在する領域に基づき、あらかじめ定めた当該領域との位置関係により決定される動き検出対象領域内で動き差分を求めることにより、動き領域を特定することを特徴とする請求項1から4のいずれかに記載の情報処理装置。   The motion region specifying unit specifies a motion region by obtaining a motion difference within a motion detection target region determined based on a predetermined positional relationship with the region based on a region where an object exists. An information processing apparatus according to any one of claims 1 to 4. 前記解像度決定部は、あらかじめ設定した複数の解像度のいずれかを適正解像度として選択し、
前記位置情報取得部は、メモリに格納した、画像平面において対象物の奥行き方向の位置を画素値として表した奥行き画像を前記複数の解像度で表した奥行き画像データのうち、ステレオマッチングに用いた画像の解像度の奥行き画像を更新することにより、対象物の位置情報を出力することを特徴とする請求項1から5のいずれかに記載の情報処理装置。
The resolution determination unit selects one of a plurality of preset resolutions as an appropriate resolution,
The position information acquisition unit is an image used for stereo matching among the depth image data representing the depth image representing the position in the depth direction of the object on the image plane as a pixel value stored in the memory at the plurality of resolutions. The information processing apparatus according to claim 1, wherein position information of the object is output by updating a depth image having a resolution of 5.
対象物を異なる視点から同時にビデオ撮影する一対のカメラを備えた撮像装置と、前記撮像装置が撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより対象物の位置情報を所定のレートで出力する情報処理装置と、を備え、
前記撮像装置の各カメラは、
撮像素子を用いて撮像された未加工画像を取得する画像取得部と、
前記未加工画像にデモザイク処理を行うデモザイク処理部と、
デモザイク後の画像を段階的に縮小し解像度の異なる複数の画像に変換するフィルタ部と、
前記情報処理装置から、解像度と領域を指定した画像データの転送要求を受け付け、前記解像度の異なる複数の画像から、当該転送要求に合致する解像度および領域の画像のデータを抽出して前記情報処理装置へ転送する画像送出部と、
を備え、
前記情報処理装置は、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを前記撮像装置から取得し、動き差分を求めることにより動き領域を特定する動き領域特定部と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する対象領域決定部と、
当該対象領域を解像度を変化させて表したときの画像の大きさに基づき、ステレオマッチングを行うための適正解像度を決定する解像度決定部と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを前記撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得して出力する位置情報取得部と、
を備えたことを特徴とする情報処理システム。
An image pickup apparatus including a pair of cameras that simultaneously shoots an object from different viewpoints and stereo matching using a stereo moving image obtained by the image pickup apparatus to obtain position information of the object at a predetermined rate And an information processing device that outputs
Each camera of the imaging device is
An image acquisition unit for acquiring a raw image captured using an image sensor;
A demosaic processing unit that performs demosaic processing on the raw image;
A filter unit for reducing the demosaiced image in stages and converting it into a plurality of images with different resolutions;
An image data transfer request designating a resolution and a region is received from the information processing device, and image data of resolution and region matching the transfer request is extracted from the plurality of images having different resolutions, and the information processing device An image sending unit to be transferred to,
With
The information processing apparatus includes:
A motion region specifying unit that acquires image data representing an image frame pair included in the stereo moving image at a predetermined resolution from the imaging device, and specifies a motion region by obtaining a motion difference;
A target area determination unit that determines a target area to be a processing target of stereo matching based on the motion area;
A resolution determining unit that determines an appropriate resolution for performing stereo matching based on the size of the image when the target area is represented by changing the resolution;
Obtain image data representing the target area of the image frame pair included in the stereo moving image at the appropriate resolution from the imaging device, and perform stereo matching using the image data to obtain position information of the target object. A position information acquisition unit to output;
An information processing system comprising:
対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモリに格納する情報処理方法であって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを撮像装置から取得し、動き差分を求めることにより動き領域を特定するステップと、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定するステップと、
当該対象領域を解像度を変化させて表したときの画像の大きさに基づき、ステレオマッチングを行うための適正解像度を決定するステップと、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを撮像装置から取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力するステップと、
を含むことを特徴とする情報処理方法。
An information processing method for outputting position information of an object at a predetermined rate and storing it in a memory by performing stereo matching using a stereo moving image obtained by simultaneously capturing video images of the object from different viewpoints,
Acquiring image data representing an image frame pair included in the stereo moving image at a predetermined resolution from the imaging device, and determining a motion region by obtaining a motion difference;
Determining a target region to be processed for stereo matching based on the motion region;
Determining an appropriate resolution for performing stereo matching based on the size of the image when the target area is represented by changing the resolution; and
The image data representing the target area of the image frame pair included in the stereo moving image at the appropriate resolution is acquired from the imaging device, and stereo matching is performed using the image data to acquire the position information of the target, and the memory A step to output to
An information processing method comprising:
対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモリに格納する機能をコンピュータに実現させるコンピュータプログラムであって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する機能と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する機能と、
当該対象領域を解像度を変化させて表したときの画像の大きさに基づき、ステレオマッチングを行うための適正解像度を決定する機能と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力する機能と、
をコンピュータに実現させるコンピュータプログラム。
A computer that realizes a function of outputting the position information of an object at a predetermined rate and storing it in a memory by performing stereo matching using a stereo moving image obtained by simultaneously capturing videos of the object from different viewpoints. A program,
A function of acquiring image data representing a pair of image frames included in the stereo moving image at a predetermined resolution, and determining a motion region by obtaining a motion difference;
A function for determining a target region to be processed for stereo matching based on the motion region;
A function for determining an appropriate resolution for performing stereo matching based on the size of the image when the target area is represented by changing the resolution;
Acquire image data representing the target area of the image frame pair included in the stereo moving image at the appropriate resolution, perform stereo matching using the image data, acquire position information of the object, and output to the memory Function and
A computer program that causes a computer to realize
対象物を異なる視点から同時にビデオ撮影して得られるステレオ動画像を用いてステレオマッチングを行うことにより、対象物の位置情報を所定のレートで出力してメモリに格納する機能をコンピュータに実現させるコンピュータプログラムを記録した記録媒体であって、
前記ステレオ動画像に含まれる画像フレーム対を所定の解像度で表した画像データを取得し、動き差分を求めることにより動き領域を特定する機能と、
当該動き領域に基づきステレオマッチングの処理対象とすべき対象領域を決定する機能と、
当該対象領域を解像度を変化させて表したときの画像の大きさに基づき、ステレオマッチングを行うための適正解像度を決定する機能と、
前記ステレオ動画像に含まれる画像フレーム対の前記対象領域を前記適正解像度で表した画像データを取得し、当該画像データを用いてステレオマッチングを行い対象物の位置情報を取得してメモリに出力する機能と、
をコンピュータに実現させるコンピュータプログラムを記録した記録媒体。
A computer that realizes a function of outputting the position information of an object at a predetermined rate and storing it in a memory by performing stereo matching using a stereo moving image obtained by simultaneously capturing videos of the object from different viewpoints. A recording medium on which a program is recorded,
A function of acquiring image data representing a pair of image frames included in the stereo moving image at a predetermined resolution, and determining a motion region by obtaining a motion difference;
A function for determining a target region to be processed for stereo matching based on the motion region;
A function for determining an appropriate resolution for performing stereo matching based on the size of the image when the target area is represented by changing the resolution;
Acquire image data representing the target area of the image frame pair included in the stereo moving image at the appropriate resolution, perform stereo matching using the image data, acquire position information of the object, and output to the memory Function and
A recording medium on which a computer program that causes a computer to be realized is recorded.
JP2011079990A 2011-03-31 2011-03-31 Information processing apparatus, information processing system, and information processing method Active JP5774889B2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2011079990A JP5774889B2 (en) 2011-03-31 2011-03-31 Information processing apparatus, information processing system, and information processing method
EP12764920.0A EP2693394B1 (en) 2011-03-31 2012-01-16 Information processor, information processing method, computer program and storage medium
US14/004,989 US9710923B2 (en) 2011-03-31 2012-01-16 Information processing system, information processing device, imaging device, and information processing method
PCT/JP2012/000209 WO2012132167A1 (en) 2011-03-31 2012-01-16 Information processing system, information processing device, imaging device, and information processing method
CN201280014505.2A CN103430210B (en) 2011-03-31 2012-01-16 Information processing system, information processor, filming apparatus and information processing method
TW101107942A TWI462052B (en) 2011-03-31 2012-03-08 Information processing system, information processing device, image capturing device and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011079990A JP5774889B2 (en) 2011-03-31 2011-03-31 Information processing apparatus, information processing system, and information processing method

Publications (2)

Publication Number Publication Date
JP2012216006A JP2012216006A (en) 2012-11-08
JP5774889B2 true JP5774889B2 (en) 2015-09-09

Family

ID=46929964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011079990A Active JP5774889B2 (en) 2011-03-31 2011-03-31 Information processing apparatus, information processing system, and information processing method

Country Status (6)

Country Link
US (1) US9710923B2 (en)
EP (1) EP2693394B1 (en)
JP (1) JP5774889B2 (en)
CN (1) CN103430210B (en)
TW (1) TWI462052B (en)
WO (1) WO2012132167A1 (en)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9977987B2 (en) * 2011-10-03 2018-05-22 Hewlett-Packard Development Company, L.P. Region selection for counterfeit determinations
US9042943B2 (en) * 2013-02-12 2015-05-26 Nec Casio Mobile Communications Ltd. TV phone apparatus and control method therefor
JP6121776B2 (en) 2013-03-29 2017-04-26 ソニー株式会社 Image processing apparatus and image processing method
JP6447516B2 (en) * 2013-12-27 2019-01-09 ソニー株式会社 Image processing apparatus and image processing method
GB201408258D0 (en) * 2014-05-09 2014-06-25 British Sky Broadcasting Ltd Television display and remote control
KR101882931B1 (en) * 2014-07-10 2018-07-30 삼성전자주식회사 Multi view image display apparatus and disparity estimation method of thereof
KR102380979B1 (en) * 2015-01-05 2022-04-01 삼성전자 주식회사 Image metadata managing method and apparatus
US9846919B2 (en) 2015-02-16 2017-12-19 Samsung Electronics Co., Ltd. Data processing device for processing multiple sensor data and system including the same
JP2019114821A (en) * 2016-03-23 2019-07-11 日本電気株式会社 Monitoring system, device, method, and program
JP6632443B2 (en) * 2016-03-23 2020-01-22 株式会社ソニー・インタラクティブエンタテインメント Information processing apparatus, information processing system, and information processing method
CN113079390B (en) * 2016-07-01 2024-04-05 斯纳普公司 Method for processing video source, server computer and computer readable medium
JP6867132B2 (en) * 2016-09-30 2021-04-28 株式会社小松製作所 Work machine detection processing device and work machine detection processing method
KR102651126B1 (en) * 2016-11-28 2024-03-26 삼성전자주식회사 Graphic processing apparatus and method for processing texture in graphics pipeline
JP6684475B2 (en) * 2017-03-13 2020-04-22 オムロン株式会社 Image processing apparatus, image processing method and program
JP6664078B2 (en) * 2017-10-23 2020-03-13 パナソニックIpマネジメント株式会社 Three-dimensional intrusion detection system and three-dimensional intrusion detection method
CN108200465A (en) * 2018-01-30 2018-06-22 深圳市茁壮网络股份有限公司 A kind of video broadcasting method and device
CN108520536B (en) * 2018-03-27 2022-01-11 海信集团有限公司 Disparity map generation method and device and terminal
KR102179549B1 (en) * 2018-06-22 2020-11-17 재단법인 실감교류인체감응솔루션연구단 Stereo camera synchronization device, stereo camera and stereo camera synchronization method
CN110163904B (en) * 2018-09-11 2022-04-22 腾讯大地通途(北京)科技有限公司 Object labeling method, movement control method, device, equipment and storage medium
WO2020100664A1 (en) * 2018-11-13 2020-05-22 ソニー株式会社 Image processing device, image processing method, and program
CN114208148B (en) * 2019-08-20 2025-02-07 索尼互动娱乐股份有限公司 Image processing device and image processing method
WO2021166912A1 (en) * 2020-02-18 2021-08-26 株式会社デンソー Object detection device
KR102242027B1 (en) * 2020-08-28 2021-04-23 머지리티 주식회사 Method and system of image integration
CN112461152B (en) * 2020-11-25 2022-06-28 中国人民解放军火箭军工程大学 Large-scale industrial structure deformation monitoring and analyzing method
CN112837350B (en) * 2021-02-26 2025-04-22 广州方硅信息技术有限公司 Target moving object recognition method, device, electronic device and storage medium
CN114298912B (en) * 2022-03-08 2022-10-14 北京万里红科技有限公司 Image acquisition method and device, electronic equipment and storage medium

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0999518A4 (en) 1998-05-19 2005-07-27 Sony Computer Entertainment Inc Image processing apparatus and method, and providing medium
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
WO2003071410A2 (en) * 2002-02-15 2003-08-28 Canesta, Inc. Gesture recognition system using depth perceptive sensors
JP2006331266A (en) * 2005-05-30 2006-12-07 Konica Minolta Holdings Inc Method and apparatus for detecting object
EP2296079A3 (en) 2005-10-26 2011-04-13 Sony Computer Entertainment Inc. System and method for interfacing with a computer program
EP1806697B1 (en) * 2006-01-10 2016-08-10 Microsoft Technology Licensing, LLC Segmenting image elements
JP4479756B2 (en) * 2007-07-05 2010-06-09 ソニー株式会社 Image processing apparatus, image processing method, and computer program
JP5062531B2 (en) * 2008-06-03 2012-10-31 コニカミノルタホールディングス株式会社 Image processing apparatus and image processing method
TWI382762B (en) * 2008-11-17 2013-01-11 Ind Tech Res Inst Method for tracking moving object
CN101629806B (en) 2009-06-22 2011-01-05 哈尔滨工程大学 Nonlinear CCD 3D locating device combined with laser transmitter and locating method thereof

Also Published As

Publication number Publication date
US20140002616A1 (en) 2014-01-02
EP2693394B1 (en) 2018-06-27
EP2693394A4 (en) 2015-04-01
EP2693394A1 (en) 2014-02-05
TW201250626A (en) 2012-12-16
TWI462052B (en) 2014-11-21
WO2012132167A1 (en) 2012-10-04
US9710923B2 (en) 2017-07-18
CN103430210B (en) 2016-08-10
CN103430210A (en) 2013-12-04
JP2012216006A (en) 2012-11-08

Similar Documents

Publication Publication Date Title
JP5774889B2 (en) Information processing apparatus, information processing system, and information processing method
JP5781353B2 (en) Information processing apparatus, information processing method, and data structure of position information
JP5629642B2 (en) Moving image photographing apparatus, information processing system, information processing apparatus, and image data processing method
JP5701707B2 (en) Moving image photographing apparatus, information processing system, information processing apparatus, and image data processing method
KR101295441B1 (en) Recording medium, video processing device and method, imaging device, host terminal, and imaging system
JP6121787B2 (en) Imaging apparatus, information processing system, and image data processing method
JP6218787B2 (en) Imaging apparatus, information processing apparatus, display apparatus, information processing system, image data transmission method, and image display method
JP2019114842A (en) Image processing device, content processing device, content processing system, and image processing method
JP2018061124A (en) Imaging apparatus, information processing system, information processor, and polarization image processing method
JP2011176557A (en) Image processor, and method and program thereof
JP2013201688A (en) Image processing apparatus, image processing method, and image processing program
JP5987899B2 (en) Generating device, generating program, and generating method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150702

R150 Certificate of patent or registration of utility model

Ref document number: 5774889

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250