[go: up one dir, main page]

JP2007087089A - Gesture recognition device, gesture recognition program, and gesture recognition method - Google Patents

Gesture recognition device, gesture recognition program, and gesture recognition method Download PDF

Info

Publication number
JP2007087089A
JP2007087089A JP2005274718A JP2005274718A JP2007087089A JP 2007087089 A JP2007087089 A JP 2007087089A JP 2005274718 A JP2005274718 A JP 2005274718A JP 2005274718 A JP2005274718 A JP 2005274718A JP 2007087089 A JP2007087089 A JP 2007087089A
Authority
JP
Japan
Prior art keywords
hand
gesture
gesture recognition
likelihood value
hand position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005274718A
Other languages
Japanese (ja)
Inventor
Akira Chin
彬 陳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005274718A priority Critical patent/JP2007087089A/en
Publication of JP2007087089A publication Critical patent/JP2007087089A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 本発明は、周期性の手のジェスチャ認識に関し、より詳細には隠れマルコフモデル(HMM)を利用してジェスチャの始点と終点を提示しなくてもジェスチャを認識できるジェスチャ認識装置、ジェスチャ認識プログラムおよびジェスチャ認識方法に関する。
【解決手段】 本発明は、入力された画像から人間の手の動きの方向を観測信号と捉え、固定長の観測信号列をジェスチャの種類に対応したHMMに入力して尤度値を算出し、尤度値が閾値を越えたものについて対応するHMMからジェスチャの種類を認識するよう構成する。
【選択図】 図1
PROBLEM TO BE SOLVED: To identify a gesture of a hand with periodicity, and more specifically, a gesture recognition device and a gesture capable of recognizing a gesture without using a hidden Markov model (HMM) without presenting the start point and end point of the gesture The present invention relates to a recognition program and a gesture recognition method.
The present invention regards the direction of movement of a human hand as an observation signal from an input image, inputs a fixed-length observation signal sequence to an HMM corresponding to the type of gesture, and calculates a likelihood value. The gesture type is recognized from the corresponding HMM for the likelihood value exceeding the threshold value.
[Selection] Figure 1

Description

本発明は、周期性の手のジェスチャ認識に関し、より詳細には隠れマルコフモデルを利用してジェスチャの始点と終点を提示しなくてもジェスチャを認識できるジェスチャ認識装置、ジェスチャ認識プログラムおよびジェスチャ認識方法に関する。   The present invention relates to periodic hand gesture recognition, and more specifically, a gesture recognition apparatus, a gesture recognition program, and a gesture recognition method capable of recognizing a gesture by using a hidden Markov model without presenting a start point and an end point of the gesture. About.

産業用ロボットは、人間が行ってきた危険な作業や単純作業などを代替するものとして製造現場の中で使用され、安全性や生産効率の向上に貢献してきた。これらは主に自動車産業や電機産業を中心に普及し、企業の競争力強化の原動力の一つになっている。   Industrial robots have been used in manufacturing sites as substitutes for dangerous and simple tasks that humans have performed, and have contributed to improvements in safety and production efficiency. These have spread mainly in the automobile and electrical industries, and are one of the driving forces for strengthening the competitiveness of companies.

しかし最近では、ロボット技術の高度化が進み、製造現場に止まらず家庭やオフイス、公共施設などの分野に進出しつつある。身近なところで例えば、寝たきり老人に対する介護ロボットや個人の癒しや娯楽に対するペットロボット、不審者の進入を感知し通報する警備ロボットなどである。これらのロボットは人間と生活する空間を共有し、人間とのコミュニケーションを図りながらサービスを行うものとして次世代ロボットと位置付けられている。   Recently, however, the sophistication of robot technology has progressed, and the company has entered the fields of homes, offices, public facilities, etc. without stopping at the manufacturing site. For example, there are nursing robots for bedridden elderly people, pet robots for personal healing and entertainment, and security robots that detect and report the entry of suspicious individuals. These robots are positioned as next-generation robots that share a living space with humans and provide services while communicating with humans.

次世代ロボットは、制御機構(移動機構や把持機構など)、センシングと認識(視覚、聴覚、触覚などの検知と検知による認識)、問題解決能力(障害物回避、言語解釈など)の技術を持った知能ロボットであり、多くの要素技術から成り立っている。その中の技術の一つとして視覚情報による人間との柔軟なコミュニケーションを行うジェスチャ認識技術は重要な要素技術である。ジェスチャの認識方法としてビューベースト(View-based)による方法と軌跡ベースト(Trajectory-based)による方法が一般的であるが、移動ロボットに搭載するには高速の処理を必要とすることから軌跡ベーストが用いられることが多い。また、ジェスチャ認識には隠れマルコフモデル(以下、HMM(Hidden Markov Model)と言う)の利用が研究されている(例えば、非特許文献1)。   Next-generation robots have technologies for control mechanisms (moving mechanisms, gripping mechanisms, etc.), sensing and recognition (detection based on detection and detection of vision, hearing, touch, etc.), and problem-solving capabilities (obstacle avoidance, language interpretation, etc.) It is an intelligent robot and consists of many elemental technologies. Gesture recognition technology for flexible communication with humans using visual information is an important elemental technology. As a gesture recognition method, a view-based method and a trajectory-based method are generally used. However, since a high-speed process is required for mounting on a mobile robot, a trajectory-based method is used. Often used. In addition, the use of a hidden Markov model (hereinafter referred to as HMM (Hidden Markov Model)) has been studied for gesture recognition (for example, Non-Patent Document 1).

玩具ロボットに搭載することを意図したジェスチャ認識の提案がなされている。この方法は、人間のジェスチャを撮像した画像からジェスチャの特徴を画像分析により取得し、その特徴と予め種類が判っている複数のジェスチャの特徴と比較してジェスチャの種類を認識するものである(例えば、特許文献1)。
Tie Yang and Yangsheng Xu, "Hidden Markov Model for Gesture Recognition", Carnegie Mellon University, Technique Report, CMLT-RI-TR-94 1 0, 1994. 特開2003−334389号公報
There have been proposals for gesture recognition intended to be mounted on toy robots. In this method, a feature of a gesture is acquired from an image obtained by capturing a human gesture by image analysis, and the type of the gesture is recognized by comparing the feature with a plurality of gesture features whose types are known in advance ( For example, Patent Document 1).
Tie Yang and Yangsheng Xu, "Hidden Markov Model for Gesture Recognition", Carnegie Mellon University, Technique Report, CMLT-RI-TR-94 1 0, 1994. JP 2003-334389 A

時系列の画像から人間の手の移動軌跡を検出し、HMMを利用したジェスチャの認識においては以下の課題はある。
(1)ノイズとなる手の動きを除去するために、ジェスチャの始点と終点とを認識システムに提示する必要がある。このために、例えば手を画面上に決められた領域からジェスチャを開始し、画面上に決められた領域で終了する、といった拘束が求められる。
(2)従来のジェスチャ認識では、各々のジェスチャに対応した認識モデルを予め記憶しておき、カメラで観測した手の移動軌跡をこれらの認識モデルと比較してジェスチャを特定することが行われている。しかし、認識モデルにないジェスチャやジェスチャ以外の手の動きのノイズを除くことなく単に移動軌跡を求めて認識モデルとの比較を行うと誤認識の確率が高い、という問題があった。。
(3)連続ジェスチャを認識する場合、個々のジェスチャの始終点を検出し、ジェスチャ単位に分ける必要があった。この処理は大量のデータを扱うためCPU負荷が重くなり、リアルタイム性を要求している低コストの移動ロボットへの実装は難しい、という問題があった。
There are the following problems in the recognition of a gesture using a HMM by detecting the movement locus of a human hand from a time-series image.
(1) It is necessary to present the start point and the end point of the gesture to the recognition system in order to remove the hand movement that becomes noise. For this purpose, for example, a constraint is required in which a gesture starts from an area determined on the screen and ends in an area determined on the screen.
(2) In the conventional gesture recognition, a recognition model corresponding to each gesture is stored in advance, and the movement trajectory of the hand observed by the camera is compared with these recognition models to identify the gesture. Yes. However, there is a problem that the probability of misrecognition is high if a movement trajectory is simply obtained and compared with a recognition model without removing gestures that are not in the recognition model and hand movement noise other than gestures. .
(3) When recognizing continuous gestures, it is necessary to detect the start and end points of each gesture and divide them into gesture units. Since this processing handles a large amount of data, the CPU load is heavy, and there is a problem that it is difficult to mount on a low-cost mobile robot that requires real-time performance.

前述した特許文献1の発明においても、上記の(2)の問題に対して触れられていない。   The invention of Patent Document 1 mentioned above does not touch on the problem (2).

本発明は、周期性のジェスチャに対して、手の移動軌跡からHMMを利用して連続したジェスチャを何らの拘束を行うことなく認識し、リアルタイム性および低コストを要求するロボットへの実装を可能とするジェスチャ認識装置とそのプログラム、方法を提供する。   The present invention recognizes continuous gestures from the movement trajectory of the hand using the HMM without any restriction, and can be mounted on a robot that requires real-time performance and low cost. A gesture recognition apparatus, a program, and a method thereof are provided.

本発明のジェスチャ認識装置、ジェスチャ認識プログラムおよびジェスチャ認識方法は以下のように構成される。
(1)第1の発明
第1の発明はフレーム間の手の動きを観測信号に置き換え、取得した観測信号列を個々のジェスチャの種類に対応した複数のHMMに入力して尤度値を算出し、算出した尤度値によりジェスチャの種類を認識するものである。
The gesture recognition device, the gesture recognition program, and the gesture recognition method of the present invention are configured as follows.
(1) 1st invention 1st invention replaces the motion of the hand between frames with an observation signal, inputs the acquired observation signal sequence into a plurality of HMMs corresponding to each type of gesture, calculates a likelihood value, The type of gesture is recognized based on the calculated likelihood value.

その原理を図1を用いて説明する。第1の発明のジェスチャ認識装置は、図1に示すようにHMMデータベース10、手位置検出手段20、観測信号生成手段30、尤度値算出手段40およびジェスチャ認識手段50とで構成する。   The principle will be described with reference to FIG. As shown in FIG. 1, the gesture recognition apparatus according to the first aspect of the invention comprises an HMM database 10, a hand position detection means 20, an observation signal generation means 30, a likelihood value calculation means 40, and a gesture recognition means 50.

HMMデータベース10は、手のジェスチャの種類に対応したHMMを記憶したデータベースである。記憶されたHMMは手のジェスチャの種類分の複数個ある。   The HMM database 10 is a database that stores HMMs corresponding to the types of hand gestures. There are a plurality of stored HMMs for each type of hand gesture.

手位置検出手段20は、入力されたフレームの画像から手の位置を検出する。   The hand position detection means 20 detects the position of the hand from the input frame image.

観測信号生成手段30は、時系列に入力されるフレームの画像に従って手位置検出手段で求めた手の位置からフレーム間の手の移動方向を求め、この移動方向に対応した観測信号を順次作成する。そして所定個数の観測信号で構成する固定長観測信号列を生成する。   The observation signal generation means 30 obtains the movement direction of the hand between frames from the hand position obtained by the hand position detection means according to the frame images input in time series, and sequentially creates observation signals corresponding to the movement direction. Then, a fixed-length observation signal sequence composed of a predetermined number of observation signals is generated.

尤度値算出手段40は、観測信号生成手段30で生成された固定長観測信号列をHMMデータベースに記憶している複数のHMMに入力する。そして、各HMMにおいて尤度値を算出する。   The likelihood value calculating means 40 inputs the fixed-length observation signal sequence generated by the observation signal generating means 30 to a plurality of HMMs stored in the HMM database. Then, a likelihood value is calculated in each HMM.

ジェスチャ認識手段50は、尤度値算出手段40で算出された尤度値において所定の閾値以上の値を示すものがあったとき、この尤度値を示したHMMに対応するジェスチャの種類を認識結果とする。例えば、Aという種類のジェスチャに対応するHMMで算出された尤度値が閾値以上であったとき、ジェスチャ認識装置は「Aと言う種類のジェスチャ」を認識したことになる。   The gesture recognizing unit 50 recognizes the type of gesture corresponding to the HMM that indicates the likelihood value when the likelihood value calculated by the likelihood value calculating unit 40 indicates a value equal to or greater than a predetermined threshold value. As a result. For example, when the likelihood value calculated by the HMM corresponding to the gesture of type A is greater than or equal to the threshold value, the gesture recognition device has recognized “a gesture of the type A”.

なお、周期性ジェスチャとは、同一のジェスチャが2回以上繰り返されるジェスチャをいう。
(2)第2の発明
第2の発明は、第1の発明の手位置検出手段において、二通りの手の位置を求める発明であり、第1手位置検出手段と第2手位置検出手段から構成する。
Note that the periodic gesture refers to a gesture in which the same gesture is repeated twice or more.
(2) Second invention The second invention is an invention for obtaining the positions of two kinds of hands in the hand position detecting means of the first invention. From the first hand position detecting means and the second hand position detecting means, Constitute.

第1手位置検出手段は、入力され画像から予め用意した肌色モデルに基づいて肌色尤度マップを作成し、この肌色尤度マップのランダムの位置に所定サイズの手の領域の候補領域を複数設定する。そしてその領域内の肌色尤度値の平均が所定値以上ある候補領域を手の領域と識別する。その手の領域から手の位置を求める。さらに、その手の領域の色ヒストグラムを作成し、この色ヒストグラムを基準色ヒストグラムとする。基準色ヒストグラムは、初期フレーム以降に入力された画像において、手の領域を識別する基準となるものである。   The first hand position detecting means creates a skin color likelihood map from the input image based on a skin color model prepared in advance, and sets a plurality of candidate regions of a hand region of a predetermined size at random positions of the skin color likelihood map. To do. A candidate area having an average of skin color likelihood values in the area equal to or greater than a predetermined value is identified as a hand area. The position of the hand is obtained from the hand area. Further, a color histogram of the hand region is created, and this color histogram is set as a reference color histogram. The reference color histogram serves as a reference for identifying the hand region in images input after the initial frame.

第2手位置検出手段は、初期フレーム以降の画像に対して、前フレームでの追跡結果によりランダムの位置に所定サイズの手の領域の候補領域を複数設定してそれぞれの候補領域の色ヒストグラムを作成する。そしてその色ヒストグラムと基準色ヒストグラムとから求めた類似度が所定の値以上となる候補領域を手の領域と識別し、この領域から手の位置を求める。手の領域に識別された候補領域は1つ以上ある。また、第2手位置検出手段は、最初に手の位置が検出された以降に入力された画像に対して適用されることから、まず第1手位置検出手段で手の位置を検出し、それ以降の手の位置の検出を第2手位置検出手段で行うことになる。
(3)第3の発明
第3の発明は、第2の発明の手位置検出手段における別の発明であり、第1位置検出手段、第2手位置検出手段および基準色ヒストグラム更新手段から構成する。この内、第1位置検出手段は第2の発明と同一である。
The second hand position detection means sets a plurality of candidate areas for a hand area of a predetermined size at random positions based on the tracking results in the previous frame for the image after the initial frame, and obtains a color histogram for each candidate area. create. Then, a candidate area in which the similarity obtained from the color histogram and the reference color histogram is a predetermined value or more is identified as a hand area, and the position of the hand is obtained from this area. There are one or more candidate regions identified in the hand region. Further, since the second hand position detecting means is applied to an image input after the first hand position is detected, the first hand position detecting means first detects the hand position, The subsequent hand position is detected by the second hand position detecting means.
(3) Third invention The third invention is another invention in the hand position detecting means of the second invention, and comprises a first position detecting means, a second hand position detecting means and a reference color histogram updating means. . Among these, the first position detecting means is the same as in the second invention.

第2手位置検出手段は、第2の発明と同様に手の位置を求めた後、手の領域から色ヒストグラムを作成する。手の領域は、1つ以上の手の領域として識別された候補領域からなるのでこれらの領域から色ヒストグラムを作成する。   The second hand position detection means creates the color histogram from the hand region after obtaining the hand position as in the second invention. Since the hand region includes candidate regions identified as one or more hand regions, a color histogram is created from these regions.

色ヒストグラム更新手段は、第2手位置検出手段で作成した色ヒストグラムと基準色ヒストグラムとに所定の重みを付けて両者を加えた色ヒストグラムを基準色ヒストグラムと置き換えることを行う。即ち、基準色ヒストグラムを更新する。従って、順次入力されるフレーム画像で手の領域を求めるとき、基準色ヒストグラムもフレーム画像の入力の度に更新され、更新された基準色ヒストグラムで手の領域が識別される。
(4)第4の発明
第4の発明は、第1の発明のジェスチャ認識プログラムである。
(5)第5の発明
第5の発明は、第1の発明のジェスチャ認識方法である。
The color histogram update unit replaces the color histogram obtained by adding a predetermined weight to the color histogram and the reference color histogram created by the second hand position detecting unit and replacing the reference color histogram. That is, the reference color histogram is updated. Therefore, when the hand region is obtained from the sequentially input frame images, the reference color histogram is also updated every time the frame image is input, and the hand region is identified by the updated reference color histogram.
(4) Fourth Invention The fourth invention is the gesture recognition program of the first invention.
(5) Fifth Invention The fifth invention is the gesture recognition method of the first invention.

第1の発明により、周期性のある手のジェスチャは始点と終点を提示しなくても手のジェスチャの認識が可能なジェスチャ認識装置の提供ができる。。   According to the first invention, it is possible to provide a gesture recognition device capable of recognizing a hand gesture without presenting a start point and an end point of a periodic hand gesture. .

第2の発明により、手の領域の追跡が簡単に行え、処理の負荷が軽いので低コストでリアルタイムでジェスチャの認識が可能なジェスチャ認識装置の提供ができる。   According to the second aspect of the present invention, it is possible to provide a gesture recognition device that can easily track a hand region and can recognize a gesture in real time at low cost because the processing load is light.

第3の発明により、フレーム毎に手の領域を追跡する基準色ヒストグラムを更新するので、ジェスチャによって肌に当たる光が変化した場合、および手の形状が変化した場合でも手の領域の追跡が精度よく行え、認識率の高いジェスチャ認識装置の提供ができる。   According to the third aspect of the invention, the reference color histogram for tracking the hand region is updated for each frame, so that the hand region can be accurately tracked even when the light hitting the skin is changed by the gesture and the shape of the hand is changed. It is possible to provide a gesture recognition device that can perform a high recognition rate.

第4の発明および第5の発明により、始終点を提示することを必要としないジェスチャ認識プログラムとジェスチャ認識方法の提供ができる。   According to the fourth and fifth inventions, it is possible to provide a gesture recognition program and a gesture recognition method that do not require presentation of the start and end points.

本発明の実施例について図2から図11を用いて説明する。   An embodiment of the present invention will be described with reference to FIGS.

図2はジェスチャ認識装置100の構成例を示すもので、プログラムやデータ、入出力機器を制御するCPU110、時系列のカラー画像の入力を行うCCDカメラ121、CCDカメラ121を制御する入出力制御部120、肌色モデルを格納した肌色モデルデータベース130、手のジェスチャの種類に対応したHMMをジェスチャIDと共に格納したHMMデータベース140、手の移動方向に対応付けた観測信号を格納した信号作成辞書150およびジェスチャ認識プログラム160から構成する。   FIG. 2 shows a configuration example of the gesture recognition apparatus 100. The CPU 110 controls programs, data, and input / output devices, the CCD camera 121 inputs time-series color images, and the input / output control unit controls the CCD camera 121. 120, a skin color model database 130 storing a skin color model, an HMM database 140 storing an HMM corresponding to a hand gesture type together with a gesture ID, a signal creation dictionary 150 storing an observation signal associated with the moving direction of the hand, and a gesture It consists of a recognition program 160.

ジェスチャ認識プログラム160は、手位置検出部161、観測信号生成部162、尤度値算出部163およびジェスチャ認識部164からなる。   The gesture recognition program 160 includes a hand position detection unit 161, an observation signal generation unit 162, a likelihood value calculation unit 163, and a gesture recognition unit 164.

手位置検出部161は、入力されたカラー画像から手の領域を検出し、手の位置を求める処理を行う。初めに入力された画像に対しては、予め肌色モデルデータベース130に記憶してある肌色モデルを用いて肌色尤度マップを作成し、この肌色尤度マップのランダムの位置に所定サイズの手の領域の候補領域を複数設定する。その領域内の肌色尤度値の平均が所定値以上ある候補領域を手の領域と識別し、手の領域内の画素の肌色尤度値の重み付き平均手の領域から手の位置を求める。さらに、手の領域の画素の色ヒストグラムを作成し基準色ヒストグラムとして記憶しておく。最初に手の位置を求めたフレーム画像以降に入力されたフレーム画像に対しては、入力された画像にランダムに所定サイズの手の候補領域を設定し、候補領域毎に求めた色ヒストグラムと基準色ヒストグラムとの類似度を調べ、類似度の高い候補領域を手の領域として手の位置を求める処理を行う。   The hand position detection unit 161 detects a hand region from the input color image, and performs processing for obtaining the hand position. For the first input image, a skin color likelihood map is created using a skin color model stored in advance in the skin color model database 130, and a hand region of a predetermined size is placed at a random position in the skin color likelihood map. A plurality of candidate areas are set. A candidate area having an average skin color likelihood value in the area equal to or greater than a predetermined value is identified as a hand area, and the hand position is obtained from the weighted average hand area of the skin color likelihood values of pixels in the hand area. Further, a color histogram of the pixels in the hand region is created and stored as a reference color histogram. For frame images that are input after the frame image for which the hand position is first obtained, a hand candidate area of a predetermined size is randomly set in the input image, and the color histogram and reference obtained for each candidate area The degree of similarity with the color histogram is examined, and a process for obtaining the position of the hand using a candidate area having a high degree of similarity as a hand area is performed.

観測信号生成部162は、時系列で順次入力されたカラー画像に対して手位置検出部161によって求められたフレーム間の手の位置から移動方向を求める。そして、求めた移動方向を信号作成辞書150を参照して観測信号に置き換え、図示しない固定長の信号記憶領域に順次格納する。信号記憶領域に格納された観測信号は固定長観測信号列である。   The observation signal generator 162 obtains the moving direction from the position of the hand between frames obtained by the hand position detector 161 for the color images sequentially input in time series. Then, the obtained moving direction is replaced with an observation signal with reference to the signal creation dictionary 150, and sequentially stored in a fixed-length signal storage area (not shown). The observation signal stored in the signal storage area is a fixed-length observation signal string.

尤度値算出部163は、信号記憶領域に格納された固定長観測信号列をHMMデータベース140に記憶しているHMMに入力し、各HMMにおいて尤度値を算出する。   The likelihood value calculation unit 163 inputs the fixed-length observation signal sequence stored in the signal storage area to the HMM stored in the HMM database 140, and calculates the likelihood value in each HMM.

ジェスチャ認識部164は、尤度値算出部163で取得した尤度値を予め定めた閾値と比較し、閾値以上を示したHMMのジェスチャIDからジェスチャの種類を認識する。   The gesture recognition unit 164 compares the likelihood value acquired by the likelihood value calculation unit 163 with a predetermined threshold value, and recognizes the gesture type from the gesture ID of the HMM that indicates the threshold value or more.

次に、ジェスチャ認識の処理フローについて説明する。図3は、全体の処理フローを示すもので、先ずCCDカメラ121からカラー画像を取得する。この画像をもとに第1手位置検出ルーチン(詳細は後述する)で最初の手の位置を求める(S100、S110)。   Next, a processing flow for gesture recognition will be described. FIG. 3 shows the overall processing flow. First, a color image is acquired from the CCD camera 121. Based on this image, the first hand position detection routine (details will be described later) determines the position of the first hand (S100, S110).

続いて、次のカラー画像を取り込み、第2手位置検出ルーチン(詳細は後述する)でこのフレームの画像に対する手の位置を求める。それぞれの手の位置から移動した方向を算出し、この移動方向を信号作成辞書を参照して観測信号を作成する。作成した観測信号は図示しない固定長の信号記憶領域(例えば12個の観測信号を記憶)に格納する。この時点で信号記憶領域には1個目の観測信号が格納されたことになる。信号記憶領域が満たされるまで(12個の観測信号が格納されまるで)次のフレームのカラー画像を取り込み同じ処理を繰り返す。信号記憶領域に観測信号が満たされれば、次のステップに進む(S120−S160)。   Subsequently, the next color image is captured, and the position of the hand with respect to the image of this frame is obtained in a second hand position detection routine (details will be described later). The direction of movement from the position of each hand is calculated, and an observation signal is created by referring to this movement direction with reference to the signal creation dictionary. The created observation signal is stored in a fixed-length signal storage area (for example, storing 12 observation signals) (not shown). At this time, the first observation signal is stored in the signal storage area. Until the signal storage area is filled (12 observation signals are stored), the color image of the next frame is captured and the same processing is repeated. If the observation signal is filled in the signal storage area, the process proceeds to the next step (S120-S160).

次に信号記憶領域の観測信号列(固定長観測信号列)をHMMデータベース140に記憶しているHMMに入力する。HMMは複数個を記憶しているので、その複数のHMMに対してこの観測信号列を入力する。観測信号列の入力に伴い、各HMMではそれぞれのジェスチャの種類のモデルに対する尤度値を計算して出力する。出力された尤度値の中に予め設定した閾値以上の値を示すものが有るかどうかを調べ、もし有るようであれば、その尤度値を出力したHMMのジェスチャの種類が認識されたジェスチャの種類である。HMMデータベース140には、HMMとそのジェスチャIDが格納さているのでHMMが分かればジェスチャIDによりジェスチャの種類が分かる。   Next, the observation signal string (fixed length observation signal string) in the signal storage area is input to the HMM stored in the HMM database 140. Since a plurality of HMMs are stored, this observation signal string is input to the plurality of HMMs. As the observation signal sequence is input, each HMM calculates and outputs a likelihood value for each model of the gesture type. A check is made to see if any of the output likelihood values indicates a value greater than or equal to a preset threshold value. If so, a gesture in which the type of gesture of the HMM that output the likelihood value is recognized is recognized. Of the kind. Since the HMM and its gesture ID are stored in the HMM database 140, if the HMM is known, the type of gesture can be known from the gesture ID.

もし、HMMから出力された尤度値がどれも閾値未満であれば次のフレームの画像を取り込んで同様の計算をすることになる。このとき、信号記憶領域に格納される観測信号は、最も古い観測信号が1つ押し出され、新しい観測信号が1つ格納された12個の固定長観測信号列となる。   If the likelihood value output from the HMM is less than the threshold value, the next frame image is taken in and the same calculation is performed. At this time, the observation signals stored in the signal storage area are twelve fixed-length observation signal strings in which one oldest observation signal is pushed out and one new observation signal is stored.

ジェスチャを認識した後、取り込んだフレームの画像が最後の画像でなければ次のフレーム画像の取り込みを行う。最後のフレーム画像であれば、処理の終了となる(S170−S200)。   After the gesture is recognized, if the captured frame image is not the last image, the next frame image is captured. If it is the last frame image, the process ends (S170-S200).

次に、第1手位置検出ルーチンの処理フローについて図4を用いて説明する。先ず入力されたカラー画像に対して、肌色モデルデータベース130に記憶してある肌色モデルを参照して肌色尤度マップを作成する。即ち、画像の各画素の色相と彩度に対する肌色モデルとの尤度値を求め、各画素の位置に求めた尤度値を設定することで肌色尤度マップを作成することができる(S300)。   Next, the processing flow of the first hand position detection routine will be described with reference to FIG. First, for the input color image, a skin color likelihood map is created by referring to the skin color model stored in the skin color model database 130. That is, the skin color likelihood map can be created by obtaining the likelihood value of the skin color model with respect to the hue and saturation of each pixel of the image and setting the obtained likelihood value at the position of each pixel (S300). .

続いて、肌色尤度マップ上のランダムの位置に所定サイズの手の領域の候補となる候補領域を設定する。そして、候補領域内の画素に対して、尤度値が予め定められた閾値以上ある画素が候補領域全体の画素に対する比率(即ち、占有率)を計算する。占有率が所定値以上あれば優良候補領域として残し、所定値未満であればその候補領域を棄却する。全ての候補領域についてこの処理を実施する(S310、S320)。   Subsequently, a candidate area that is a candidate for a hand area of a predetermined size is set at a random position on the skin color likelihood map. Then, with respect to the pixels in the candidate area, a ratio (that is, an occupancy ratio) of pixels having a likelihood value equal to or greater than a predetermined threshold to the pixels in the entire candidate area is calculated. If the occupation ratio is equal to or greater than a predetermined value, it is left as a good candidate area, and if it is less than the predetermined value, the candidate area is rejected. This process is performed for all candidate regions (S310, S320).

肌色尤度マップ上の候補領域に対して、候補領域を残存させるか棄却するかの選別を行った後に、肌色尤度マップ上に優良候補領域が有るかどうかを調べる。もし無ければ、手の領域がその画像にはなかった、ということで次のフレームのカラー画像を取り込む。肌色尤度マップ上に優良候補領域があれば、尤度値の重み平均で中心となる画素の位置を求める。その求めた位置を手の位置とし、この値を記憶しておく。ここで求めた手の位置が最初に求めた手の位置である(S330−S350)。   After selecting whether the candidate area remains or rejects the candidate area on the skin color likelihood map, it is checked whether or not there is a good candidate area on the skin color likelihood map. If not, the color image of the next frame is captured because the hand area was not in the image. If there is a good candidate region on the skin color likelihood map, the position of the center pixel is obtained by the weighted average of likelihood values. The obtained position is set as the hand position, and this value is stored. The hand position obtained here is the hand position obtained first (S330-S350).

次に、優良候補領域から色ヒストグラムを作成し、作成した色ヒストグラムを基準色ヒストグラムとして記憶しておく。優良候補領域は1つ以上あるので、それらの全てから色ヒストグラムは作成される(S360)。   Next, a color histogram is created from the excellent candidate area, and the created color histogram is stored as a reference color histogram. Since there are one or more excellent candidate regions, a color histogram is created from all of them (S360).

次に、第2手位置検出ルーチンの処理フローについて図5を用いて説明する。まず、入力されたカラー画像のランダムの位置に所定サイズの手の領域の候補領域を設定する(S500)。   Next, the processing flow of the second hand position detection routine will be described with reference to FIG. First, a candidate region of a hand region of a predetermined size is set at a random position of the input color image (S500).

設定された候補領域の内の一つの候補領域から色ヒストグラムを作成し、作成した色ヒストグラムと先に記憶してある基準色ヒストグラムとの尤度値を求める。尤度値が予め定めた閾値以上であればその候補領域は優良候補領域として残す。閾値未満であればその候補領域を棄却する。これを設定した候補領域全てについて実施する(S510、S520)。   A color histogram is created from one of the set candidate areas, and a likelihood value between the created color histogram and the previously stored reference color histogram is obtained. If the likelihood value is equal to or greater than a predetermined threshold, the candidate area is left as a good candidate area. If it is less than the threshold, the candidate area is rejected. This is performed for all candidate areas for which this has been set (S510, S520).

優良候補領域に対し、尤度値の重み平均で中心となる画素の位置を求める。その求めた位置を手の位置とし、この値を記憶する。優良候補領域は1つ以上あるので、それらの全てに対し重み平均で位置を求める(S530)。   For the excellent candidate region, the position of the center pixel is obtained by the weighted average of likelihood values. The obtained position is set as the hand position, and this value is stored. Since there are one or more excellent candidate areas, the position is obtained by weighted average for all of them (S530).

続いて、優良候補領域の色ヒストグラムを作成し、この色ヒストグラムと基準色ヒストグラムとにそれぞれ重みを付けて(例えば、作成した色ヒストグラムは0.8を、基準色ヒストグラムには0.2を重みとする)合算する。合算した色ヒストグラムを基準色ヒストグラムと置き換える。即ち、基準色ヒストグラムの更新を行う(S540)。   Subsequently, a color histogram of the excellent candidate region is created, and weights are respectively assigned to the color histogram and the reference color histogram (for example, 0.8 is assigned to the created color histogram, and 0.2 is assigned to the reference color histogram). And add up). The combined color histogram is replaced with the reference color histogram. That is, the reference color histogram is updated (S540).

以上の処理フローの説明により、入力されたカラー画像を基にフレーム毎の手の位置を検出し、フレーム間の手の位置から移動方向を求めて観測信号に置き換え、これをHMMに入力して求められた尤度値からジェスチャの種類を求めることができる。この処理では、ジェスチャの始点と終点とを提示することはなくジェスチャを認識できる。また、最初の手の領域を求めるときに肌色モデルを使用したが、その後は色ヒストグラムにより設定した候補領域から手の領域を求めることを行った。これにより、フレーム毎に肌色モデルを用いて手の領域を求める処理に較べて容易に手の領域を識別でき、低コストでリアルタイムの識別という課題を解決できる。さらに、色ヒストグラムを最新のフレームの手の領域の色ヒストグラムで更新することにより、高い認識率で手の領域を認識できる。   According to the description of the above processing flow, the position of the hand for each frame is detected based on the input color image, the movement direction is obtained from the position of the hand between the frames and replaced with an observation signal, and this is input to the HMM. The type of gesture can be obtained from the likelihood value. In this process, the gesture can be recognized without presenting the start and end points of the gesture. In addition, the skin color model was used when obtaining the first hand region, but thereafter, the hand region was obtained from the candidate region set by the color histogram. Thereby, compared with the process which calculates | requires a hand area | region using a skin color model for every flame | frame, a hand area | region can be identified easily and the subject of real-time identification can be solved at low cost. Further, by updating the color histogram with the color histogram of the hand region of the latest frame, the hand region can be recognized with a high recognition rate.

次に、第1手位置検出ルーチンで用いた肌色モデルについて説明する。本実施例では、図6に示すように色相と彩度に対してGauss−1からGauss−3の3つの領域を3次元の肌色モデルとして設定している。それぞれのモデルはガウス分布を成している。複数の肌色モデルを設定したことは、人による肌の色の違いや、光の当たり方によって肌の色が異なることから正確に肌色の領域を識別するためである。   Next, the skin color model used in the first hand position detection routine will be described. In this embodiment, as shown in FIG. 6, three regions Gauss-1 to Gauss-3 are set as a three-dimensional skin color model with respect to hue and saturation. Each model has a Gaussian distribution. The reason for setting a plurality of skin color models is to accurately identify the skin color region because the skin color varies depending on the difference in skin color between people and how light strikes.

次に、手の移動方向から観測信号を作成するときに用いる例を図7を用いて説明する。   Next, an example used when creating an observation signal from the moving direction of the hand will be described with reference to FIG.

図7(a)は、手のジェスチャによる移動を実線で示し、その実線上のAとBがフレームの画像から求められた手の位置である(Aの後にBが求められたものとする)。Aに対するBの移動の方向はθである。   FIG. 7A shows the movement of the hand gesture by a solid line, and A and B on the solid line are the positions of the hand obtained from the frame image (assuming that B is obtained after A). The direction of movement of B with respect to A is θ.

図7(b)は信号作成辞書の考え方を模式的に示すもので、45°毎の各方向に対して観測信号の値を設定している。この値は、例えば移動方向(図7(a)の「θ」)が−22.5°〜+22.5°の範囲であれば観測信号を「0」とするものである。信号作成辞書150にはθの範囲と観測信号の値とを対応付けたテーブルを記憶している。   FIG. 7B schematically shows the concept of the signal creation dictionary, and the value of the observation signal is set for each direction every 45 °. For example, this value sets the observation signal to “0” if the moving direction (“θ” in FIG. 7A) is in the range of −22.5 ° to + 22.5 °. The signal creation dictionary 150 stores a table in which the range of θ and the value of the observation signal are associated with each other.

図7(c)は、順次入力されるフレームの画像から求めた手の移動方向を基に生成された観測信号列の例を示している。この例では、12個の観測信号から構成された固定長観測信号列を示しているが、左の観測信号「1」が最も新しい観測信号で、右の観測信号「6」が最も古い観測信号である。   FIG. 7C shows an example of the observation signal sequence generated based on the hand movement direction obtained from the sequentially input frame images. In this example, a fixed-length observation signal sequence composed of 12 observation signals is shown, but the left observation signal “1” is the newest observation signal and the right observation signal “6” is the oldest observation signal. It is.

次に、前述した第1手位置検出ルーチンの処理を図8を用いて説明する。   Next, the process of the first hand position detection routine described above will be described with reference to FIG.

図8(a)は、入力されたカラー画像から、図6に示した肌色モデルを用いて作成した肌色尤度マップである。曲線の内部は肌色尤度が高いことを示している。   FIG. 8A is a skin color likelihood map created from the input color image using the skin color model shown in FIG. The inside of the curve indicates that the skin color likelihood is high.

図8(b)は肌色尤度マップ上のランダムの位置に設定した候補領域である。候補領域のサイズは所定の大きさである。   FIG. 8B shows a candidate area set at a random position on the skin color likelihood map. The size of the candidate area is a predetermined size.

図8(c)の優良候補領域は、図8(b)のそれぞれの候補領域において一つの候補領域を構成する画素に対して、尤度値が予め定められた閾値以上ある画素の占有率を計算し、その占有率が予め定めた占有率を越えたとき、優良候補領域として肌色尤度マップ上に残し、そうでない候補領域を棄却した結果である。そして手の位置は、優良候補領域から尤度を重みとした平均を求めて得られた画素の位置を手の位置として示したものである。   The excellent candidate region in FIG. 8C has an occupancy ratio of pixels having a likelihood value equal to or greater than a predetermined threshold with respect to the pixels constituting one candidate region in each candidate region in FIG. This is a result of calculation, when the occupancy exceeds a predetermined occupancy, leaving it as a good candidate area on the skin color likelihood map, and rejecting the candidate areas that are not. The hand position indicates the position of the pixel obtained by calculating an average with the likelihood as a weight from the good candidate region as the hand position.

図8(d)は、優良候補領域から基準色ヒストグラムとして作成した色ヒストグラムである。この色ヒストグラムは、彩度と色相の2軸の平面に対して他の1軸を頻度(即ち、画素数)とした3次元のヒストグラムである。   FIG. 8D is a color histogram created as a reference color histogram from the good candidate regions. This color histogram is a three-dimensional histogram in which the other axis is the frequency (that is, the number of pixels) with respect to the two axes plane of saturation and hue.

続いて、前述した第2手位置検出ルーチンの処理を図9を用いて説明する。   Next, the process of the second hand position detection routine described above will be described with reference to FIG.

図9(a)は、入力されたカラー画像上のランダムの位置に候補領域を設定した例を示すものである。候補領域は図8に示した候補領域と同様に所定のサイズである。候補領域の1つにおいて作成された色ヒストグラムを同図の右に示している。この色ヒストグラムも、図8に示した基準色ヒストグラムと同じく彩度と色相の2軸平面に対し頻度を1軸とした3次元のヒストグラムである。   FIG. 9A shows an example in which candidate areas are set at random positions on the input color image. The candidate area has a predetermined size in the same way as the candidate area shown in FIG. A color histogram created in one of the candidate areas is shown on the right side of the figure. This color histogram is also a three-dimensional histogram with the frequency as one axis with respect to the biaxial plane of saturation and hue as in the reference color histogram shown in FIG.

図9(b)は、図9(a)で作成した色ヒストグラムと図8で作成した基準色ヒストグラムとを比較して類似度を求めることを示している。そして、類似度が有る値以上のものだけを優良候補領域として残した状態を右図に示している。   FIG. 9B shows that the similarity is obtained by comparing the color histogram created in FIG. 9A and the reference color histogram created in FIG. And the state which left only the thing more than the value with a similarity as an excellent candidate area | region is shown in the right figure.

図9(c)は、優良候補領域から尤度を重みとした平均を求めて得られた画素の位置を手の位置として示したものである。また、この優良候補領域から作成した色ヒストグラムを図8の基準ヒストグラムと重みを付けて合算し、その色ヒストグラムを基準色ヒストグラムに置き換え、更新された基準色ヒストグラムを右の図に示している。   FIG. 9C shows the position of the pixel obtained by calculating the average with the likelihood as the weight from the excellent candidate area as the position of the hand. Further, the color histogram created from this excellent candidate region is added with the reference histogram of FIG. 8 and added together, the color histogram is replaced with the reference color histogram, and the updated reference color histogram is shown in the right figure.

続いて、図3の処理フローで述べた観測信号列をHMMに入力してジェスチャの認識を行う例を図10により説明する。   Next, an example in which the observation signal sequence described in the processing flow of FIG. 3 is input to the HMM to perform gesture recognition will be described with reference to FIG.

図10の上部の12個の箱が連結された図は信号記憶領域を模式的に示したもので、各箱にはそれぞれ1個の観測信号が格納される。フレーム画像の入力に伴って生成された観測信号を格納するとき、前に格納された観測信号を右に移動して最も左の箱を空け、そこに格納するようにしている。従って、既に12個の観測信号が格納された状態で新しい観測信号が格納されると、最も右の箱に格納されていた観測信号は信号記憶領域から無くなることになる。12個の箱が固定長であることを示している。   FIG. 10 is a diagram in which twelve boxes at the top are connected to each other, schematically showing a signal storage area. Each box stores one observation signal. When storing an observation signal generated with the input of a frame image, the previously stored observation signal is moved to the right to open the leftmost box and store it there. Therefore, when a new observation signal is stored in a state where 12 observation signals are already stored, the observation signal stored in the rightmost box is lost from the signal storage area. 12 boxes have a fixed length.

図10の下部には3つのHMM(HMM−A〜C)を示し、このHMMに信号記憶領域に記憶した12個の信号からなる観測信号列が入力されている状態を矢印で示している。HMM−Aはジェスチャの種類AのHMMであり、同様にHMM−B、HMM−Cはそれぞれジェスチャの種類B、ジェスチャの種類CのHMMである。さらに、それぞれのHMMで算出された尤度値が出力される状態も示している。   In the lower part of FIG. 10, three HMMs (HMM-A to C) are shown, and an arrow indicates a state in which an observation signal string composed of 12 signals stored in the signal storage area is input to the HMM. HMM-A is an HMM of gesture type A. Similarly, HMM-B and HMM-C are HMMs of gesture type B and gesture type C, respectively. Furthermore, the state where the likelihood value calculated by each HMM is output is also shown.

次に、HMMから出力される尤度値の時間的変化を図11に示す。図には、3つのHMMから出力される尤度値が時間の推移に従って変化している状態を示し、時間0のとき被写体の手がジェスチャAを始めているが、まだノイズなどが含まれているためどのHMMからの尤度値は低い。時間の経過に伴ってHMM−Aの尤度値は徐々に上昇しているが、HMM−BとHMM−Cの尤度値はまだ低くなっている。さらに時間の経過によりHMM−Aの尤度値は高くなり、閾値を越えたところでジェスチャAと認識する。被写体の手はジェスチャAに引き続いてジェスチャBに移ったとすると、今度はHMM−Bの尤度が上昇し閾値を越えたところでジェスチャBと認識される。HMM−AはジェスチャBに移った時点で尤度は低下しそのまま低下の状態にある。人間の手はジェスチャBに続いてジェスチャCに移っておりその様子も同様にHMM−Cの尤度の時間変化で示されている。   Next, FIG. 11 shows a temporal change in the likelihood value output from the HMM. The figure shows a state in which the likelihood values output from the three HMMs change with time, and the subject's hand starts gesture A at time 0, but still contains noise and the like. what likelihood values from the HMM is low for. Although the likelihood value of HMM-A gradually increases with the passage of time, the likelihood values of HMM-B and HMM-C are still low. Further, the likelihood value of HMM-A increases with the passage of time, and is recognized as gesture A when the threshold value is exceeded. Assuming that the subject's hand moves to gesture B following gesture A, the likelihood of HMM-B increases this time and is recognized as gesture B when the threshold value is exceeded. When the HMM-A moves to the gesture B, the likelihood decreases and remains as it is. The human hand moves to gesture C following gesture B, and this state is also shown by the time variation of the likelihood of HMM-C.

以上の実施例に関し、さらに以下の付記を開示する。
(付記1)
周期性ジェスチャを認識するジェスチャ認識装置であって、
手のジェスチャの種類に対応した複数の隠れマルコフモデルを記憶したHMMデータベースと、
入力されたフレームの画像から手の位置を求める手位置検出手段と、
時系列に入力されるフレームの画像に従って前記手位置検出手段で求めた手の位置を基にフレーム間の手の移動方向を求め、該移動方向に対応した所定の観測信号を順次作成して所定個数の観測信号からなる固定長観測信号列を生成する観測信号生成手段と、
前記固定長観測信号列を前記複数の隠れマルコフモデルに入力し、それぞれの該隠れマルコフモデルで尤度値を算出する尤度値算出手段と、
前記算出された尤度値に所定の閾値以上の値を示す尤度値があったとき、該尤度値を示した隠れマルコフモデルに対応するジェスチャの種類を認識結果とするジェスチャ認識手段と、
を有することを特徴とするジェスチャ認識装置。
In addition to the above examples, the following additional notes are disclosed.
(Appendix 1)
A gesture recognition device for recognizing a periodic gesture,
An HMM database storing a plurality of hidden Markov models corresponding to the types of hand gestures;
Hand position detecting means for determining the position of the hand from the input frame image;
The movement direction of the hand between the frames is obtained based on the position of the hand obtained by the hand position detection means according to the image of the frame input in time series, and a predetermined number of observation signals corresponding to the movement direction are sequentially generated to obtain a predetermined number of signals. An observation signal generating means for generating a fixed-length observation signal sequence composed of observation signals;
Likelihood value calculation means for inputting the fixed-length observation signal sequence to the plurality of hidden Markov models and calculating likelihood values in the respective hidden Markov models;
A gesture recognition unit that recognizes a gesture type corresponding to a hidden Markov model indicating the likelihood value when the calculated likelihood value has a likelihood value indicating a value equal to or greater than a predetermined threshold;
A gesture recognition device characterized by comprising:

(付記2)
前記手位置検出手段は、
入力されたフレームの画像から予め用意した肌色モデルに基づいて肌色尤度マップを作成し、該肌色尤度マップのランダムの位置に所定サイズの手の領域の候補領域を複数設定し、該候補領域内の肌色尤度値の平均が所定値以上ある候補領域を手の領域とし、該手の領域から手の位置を求め、該手の領域の色ヒストグラムを基準色ヒストグラムとして作成する第1手位置検出手段と、
前記第1手位置検出手段で手の位置を求めた後に入力されたフレームの画像において、該画像のランダムの位置に所定サイズの手の領域の候補領域を複数設定してそれぞれの候補領域の色ヒストグラムを作成し、該色ヒストグラムの前記基準色ヒストグラムに対する類似度が所定の値以上となる候補領域を手の領域と識別し、該手の領域から手の位置を求める第2手位置検出手段と、
を有することを特徴とする付記1記載のジェスチャ認識装置。
(Appendix 2)
The hand position detecting means includes
A skin color likelihood map is created based on a skin color model prepared in advance from an image of an input frame, a plurality of candidate regions for a hand region of a predetermined size are set at random positions in the skin color likelihood map, and the candidate region A first hand position in which a candidate area having an average skin color likelihood value within a predetermined value is a hand area, a hand position is obtained from the hand area, and a color histogram of the hand area is created as a reference color histogram Detection means;
In the image of the frame input after the hand position is obtained by the first hand position detecting means, a plurality of candidate areas for a hand area of a predetermined size are set at random positions in the image, and the color of each candidate area Second hand position detecting means for creating a histogram, identifying a candidate area in which the similarity of the color histogram to the reference color histogram is a predetermined value or more as a hand area, and obtaining a hand position from the hand area; ,
The gesture recognition device according to appendix 1, wherein:

(付記3)
前記手位置検出手段の第2手位置検出手段は、
前記第1手位置検出手段で手の位置を求めた後に入力されたフレームの画像において、該画像のランダムの位置に所定サイズの手の領域の候補領域を複数設定してそれぞれの候補領域の色ヒストグラムを作成し、該色ヒストグラムの前記基準色ヒストグラムに対する類似度が所定の値以上となる候補領域を手の領域と識別し、該手の領域から手の位置を求めると共に、該手の領域から色ヒストグラムを作成することを行い、
前記手位置検出手段は、さらに、
前記手の領域から作成された色ヒストグラムと前記基準色ヒストグラムとに所定の重みを付けて両者を加えた色ヒストグラムを前記基準色ヒストグラムと置き換える基準色ヒストグラム更新手段、
を有することを特徴とする付記2記載のジェスチャ認識装置。
(Appendix 3)
Second hand position detection means of the hand position detection means,
In the image of the frame input after the hand position is obtained by the first hand position detecting means, a plurality of candidate areas for a hand area of a predetermined size are set at random positions in the image, and the color of each candidate area A histogram is created, a candidate area in which the similarity of the color histogram to the reference color histogram is equal to or greater than a predetermined value is identified as a hand area, the position of the hand is determined from the hand area, and the hand area is Create a color histogram,
The hand position detecting means further includes:
A reference color histogram updating means for replacing a color histogram created by adding a predetermined weight to the color histogram created from the hand region and the reference color histogram with the reference color histogram;
The gesture recognition apparatus according to appendix 2, characterized by comprising:

(付記4)
周期性ジェスチャを認識するジェスチャ認識プログラムであって、
コンピュータを、
入力されたフレームの画像から手の位置を求める手位置検出手段と、
時系列に入力されるフレームの画像に従って前記手位置検出手段で求めた手の位置を基にフレーム間の手の移動方向を求め、該移動方向に対応した所定の観測信号を順次作成して所定個数の観測信号からなる固定長観測信号列を生成する観測信号生成手段と、
前記固定長観測信号列を予め用意した手のジェスチャの種類に対応した複数の隠れマルコフモデルに入力し、それぞれの該隠れマルコフモデルで尤度値を算出する尤度値算出手段と、
前記算出された尤度値に所定の閾値以上の値を示す尤度値があったとき、該尤度値を示した隠れマルコフモデルに対応するジェスチャの種類を認識結果とするジェスチャ認識手段と、
を機能させるためのジェスチャ認識プログラム。
(Appendix 4)
A gesture recognition program for recognizing periodic gestures,
Computer
Hand position detecting means for determining the position of the hand from the input frame image;
The movement direction of the hand between the frames is obtained based on the position of the hand obtained by the hand position detection means according to the image of the frame input in time series, and a predetermined number of observation signals corresponding to the movement direction are sequentially generated to obtain a predetermined number of signals. An observation signal generating means for generating a fixed-length observation signal sequence composed of observation signals;
A likelihood value calculating means for inputting the fixed-length observation signal sequence to a plurality of hidden Markov models corresponding to hand gesture types prepared in advance, and calculating a likelihood value in each of the hidden Markov models;
A gesture recognition unit that recognizes a gesture type corresponding to a hidden Markov model indicating the likelihood value when the calculated likelihood value has a likelihood value indicating a value equal to or greater than a predetermined threshold;
Gesture recognition program for functioning.

(付記5)
周期性ジェスチャを認識するジェスチャ認識方法であって、
入力されたフレームの画像から手の位置を求める手位置検出手順と、
時系列に入力されるフレームの画像に従って前記手位置検出手順で求めた手の位置を基にフレーム間の手の移動方向を求め、該移動方向に対応した所定の観測信号を順次作成して所定個数の観測信号からなる固定長観測信号列を生成する観測信号生成手順と、
前記固定長観測信号列を予め用意した手のジェスチャの種類に対応した複数の隠れマルコフモデルに入力し、それぞれの該隠れマルコフモデルで尤度値を算出する尤度値算出手順と、
前記算出された尤度値に所定の閾値以上の値を示す尤度値があったとき、該尤度値を示した隠れマルコフモデルに対応するジェスチャの種類を認識結果とするジェスチャ認識手順と、
を有することを特徴とするジェスチャ認識方法。
(Appendix 5)
A gesture recognition method for recognizing periodic gestures,
A hand position detection procedure for obtaining a hand position from an input frame image;
The movement direction of the hand between the frames is obtained based on the hand position obtained in the hand position detection procedure according to the frame images input in time series, and predetermined observation signals corresponding to the movement direction are sequentially generated to obtain a predetermined number of signals. An observation signal generation procedure for generating a fixed-length observation signal sequence composed of observation signals;
A likelihood value calculation procedure for inputting the fixed-length observation signal sequence to a plurality of hidden Markov models corresponding to hand gesture types prepared in advance, and calculating a likelihood value with each of the hidden Markov models,
When there is a likelihood value indicating a value equal to or greater than a predetermined threshold in the calculated likelihood value, a gesture recognition procedure in which a gesture type corresponding to the hidden Markov model indicating the likelihood value is a recognition result;
A gesture recognition method characterized by comprising:

(付記6)
前記肌色モデルは、色相と彩度のガウス分布である
ことを特徴とする付記2または付記3記載のジェスチャ認識装置。
(Appendix 6)
The gesture recognition apparatus according to appendix 2 or appendix 3, wherein the skin color model is a Gaussian distribution of hue and saturation.

(付記7)
前記肌色モデルは、一つ以上の肌色モデルから構成される
ことを特徴とする付記2または付記3または付記6記載のジェスチャ認識装置。
(Appendix 7)
The gesture recognition device according to appendix 2, appendix 3, or appendix 6, wherein the flesh color model is composed of one or more flesh color models.

発明の原理図である。It is a principle diagram of the invention. ジェスチャ認識装置の構成例である。It is an example of composition of a gesture recognition device. ジェスチャ認識装置の処理フロー例である。It is an example of the processing flow of a gesture recognition apparatus. 第1手位置検出ルーチンの処理フロー例ある。There is an example of a processing flow of a first hand position detection routine. 第2手位置検出ルーチンの処理フロー例ある。There is an example of a processing flow of a second hand position detection routine. 肌色モデル例である。It is an example of a skin color model. 観測信号列の生成例である。It is an example of a production | generation of an observation signal sequence. 第1手位置検出ルーチンの処理例ある。There is a processing example of a first hand position detection routine. 第2手位置検出ルーチンの処理例ある。There is a processing example of a second hand position detection routine. 入力される固定長の観測信号列とHMM例である。It is the observation signal sequence of fixed length inputted, and an HMM example. HMMから出力された尤度値の時間変化例である。It is an example of a time change of the likelihood value output from HMM.

符号の説明Explanation of symbols

10 HMMデータベース
20 手位置検出手段
30 観測信号生成手段
40 尤度値算出手段
50 ジェスチャ認識手段
100 ジェスチャ認識装置
110 CPU
120 入出力制御部
121 CCDカメラ
130 肌色モデルデータベース
140 HMMデータベース
150 信号作成辞書
160 ジェスチャ認識プログラム
161 手位置検出部
162 観測信号生成部
163 尤度値算出部
164 ジェスチャ認識部
DESCRIPTION OF SYMBOLS 10 HMM database 20 Hand position detection means 30 Observation signal generation means 40 Likelihood value calculation means 50 Gesture recognition means 100 Gesture recognition apparatus 110 CPU
DESCRIPTION OF SYMBOLS 120 Input / output control part 121 CCD camera 130 Skin color model database 140 HMM database 150 Signal creation dictionary 160 Gesture recognition program 161 Hand position detection part 162 Observation signal generation part 163 Likelihood value calculation part 164 Gesture recognition part

Claims (5)

周期性ジェスチャを認識するジェスチャ認識装置であって、
手のジェスチャの種類に対応した複数の隠れマルコフモデルを記憶したHMMデータベースと、
入力されたフレームの画像から手の位置を求める手位置検出手段と、
時系列に入力されるフレームの画像に従って前記手位置検出手段で求めた手の位置を基にフレーム間の手の移動方向を求め、該移動方向に対応した所定の観測信号を順次作成して所定個数の観測信号からなる固定長観測信号列を生成する観測信号生成手段と、
前記固定長観測信号列を前記複数の隠れマルコフモデルに入力し、それぞれの該隠れマルコフモデルで尤度値を算出する尤度値算出手段と、
前記算出された尤度値に所定の閾値以上の値を示す尤度値があったとき、該尤度値を示した隠れマルコフモデルに対応するジェスチャの種類を認識結果とするジェスチャ認識手段と、
を有することを特徴とするジェスチャ認識装置。
A gesture recognition device for recognizing a periodic gesture,
An HMM database storing a plurality of hidden Markov models corresponding to the types of hand gestures;
Hand position detecting means for determining the position of the hand from the input frame image;
The movement direction of the hand between the frames is obtained based on the position of the hand obtained by the hand position detection means according to the image of the frame input in time series, and a predetermined number of observation signals corresponding to the movement direction are sequentially generated to obtain a predetermined number of signals. An observation signal generating means for generating a fixed-length observation signal sequence composed of observation signals;
Likelihood value calculation means for inputting the fixed-length observation signal sequence to the plurality of hidden Markov models and calculating likelihood values in the respective hidden Markov models;
A gesture recognition unit that recognizes a gesture type corresponding to a hidden Markov model indicating the likelihood value when the calculated likelihood value has a likelihood value indicating a value equal to or greater than a predetermined threshold;
A gesture recognition device characterized by comprising:
前記手位置検出手段は、
入力されたフレームの画像から予め用意した肌色モデルに基づいて肌色尤度マップを作成し、該肌色尤度マップのランダムの位置に所定サイズの手の領域の候補領域を複数設定し、該候補領域内の肌色尤度値の平均が所定値以上ある候補領域を手の領域とし、該手の領域から手の位置を求め、該手の領域の色ヒストグラムを基準色ヒストグラムとして作成する第1手位置検出手段と、
前記第1手位置検出手段で手の位置を求めた後に入力されたフレームの画像において、該画像のランダムの位置に所定サイズの手の領域の候補領域を複数設定してそれぞれの候補領域の色ヒストグラムを作成し、該色ヒストグラムの前記基準色ヒストグラムに対する類似度が所定の値以上となる候補領域を手の領域と識別し、該手の領域から手の位置を求める第2手位置検出手段と、
を有することを特徴とする請求項1記載のジェスチャ認識装置。
The hand position detecting means includes
A skin color likelihood map is created based on a skin color model prepared in advance from an image of an input frame, a plurality of candidate regions for a hand region of a predetermined size are set at random positions in the skin color likelihood map, and the candidate region A first hand position in which a candidate area having an average skin color likelihood value within a predetermined value is a hand area, a hand position is obtained from the hand area, and a color histogram of the hand area is created as a reference color histogram Detection means;
In the image of the frame that is input after the hand position is determined by the first hand position detecting means, a plurality of candidate areas for a hand area of a predetermined size are set at random positions in the image, and the color of each candidate area Second hand position detecting means for creating a histogram, identifying a candidate area where the similarity of the color histogram to the reference color histogram is a predetermined value or more as a hand area, and obtaining a hand position from the hand area; ,
The gesture recognition apparatus according to claim 1, comprising:
前記手位置検出手段の第2手位置検出手段は、
前記第1手位置検出手段で手の位置を求めた後に入力されたフレームの画像において、該画像のランダムの位置に所定サイズの手の領域の候補領域を複数設定してそれぞれの候補領域の色ヒストグラムを作成し、該色ヒストグラムの前記基準色ヒストグラムに対する類似度が所定の値以上となる候補領域を手の領域と識別し、該手の領域から手の位置を求めると共に、該手の領域から色ヒストグラムを作成することを行い、
前記手位置検出手段は、さらに、
前記手の領域から作成された色ヒストグラムと前記基準色ヒストグラムとに所定の重みを付けて両者を加えた色ヒストグラムを前記基準色ヒストグラムと置き換える基準色ヒストグラム更新手段、
を有することを特徴とする請求項2記載のジェスチャ認識装置。
Second hand position detection means of the hand position detection means,
In the image of the frame input after the hand position is obtained by the first hand position detecting means, a plurality of candidate areas for a hand area of a predetermined size are set at random positions in the image, and the color of each candidate area A histogram is created, a candidate area in which the similarity of the color histogram to the reference color histogram is equal to or greater than a predetermined value is identified as a hand area, the position of the hand is determined from the hand area, and the hand area is Create a color histogram,
The hand position detecting means further includes:
A reference color histogram updating means for replacing a color histogram created by adding a predetermined weight to the color histogram created from the hand region and the reference color histogram with the reference color histogram;
The gesture recognition device according to claim 2, comprising:
周期性ジェスチャを認識するジェスチャ認識プログラムであって、
コンピュータを、
入力されたフレームの画像から手の位置を求める手位置検出手段と、
時系列に入力されるフレームの画像に従って前記手位置検出手段で求めた手の位置を基にフレーム間の手の移動方向を求め、該移動方向に対応した所定の観測信号を順次作成して所定個数の観測信号からなる固定長観測信号列を生成する観測信号生成手段と、
前記固定長観測信号列を予め用意した手のジェスチャの種類に対応した複数の隠れマルコフモデルに入力し、それぞれの該隠れマルコフモデルで尤度値を算出する尤度値算出手段と、
前記算出された尤度値に所定の閾値以上の値を示す尤度値があったとき、該尤度値を示した隠れマルコフモデルに対応するジェスチャの種類を認識結果とするジェスチャ認識手段と、
を機能させるためのジェスチャ認識プログラム。
A gesture recognition program for recognizing periodic gestures,
Computer
Hand position detecting means for determining the position of the hand from the input frame image;
The movement direction of the hand between the frames is obtained based on the position of the hand obtained by the hand position detection means according to the image of the frame input in time series, and a predetermined number of observation signals corresponding to the movement direction are sequentially generated to obtain a predetermined number of signals. An observation signal generating means for generating a fixed-length observation signal sequence composed of observation signals;
A likelihood value calculating means for inputting the fixed-length observation signal sequence to a plurality of hidden Markov models corresponding to hand gesture types prepared in advance, and calculating a likelihood value in each of the hidden Markov models;
A gesture recognition unit that recognizes a gesture type corresponding to a hidden Markov model indicating the likelihood value when the calculated likelihood value has a likelihood value indicating a value equal to or greater than a predetermined threshold;
Gesture recognition program for functioning.
周期性ジェスチャを認識するジェスチャ認識方法であって、
入力されたフレームの画像から手の位置を求める手位置検出手順と、
時系列に入力されるフレームの画像に従って前記手位置検出手順で求めた手の位置を基にフレーム間の手の移動方向を求め、該移動方向に対応した所定の観測信号を順次作成して所定個数の観測信号からなる固定長観測信号列を生成する観測信号生成手順と、
前記固定長観測信号列を予め用意した手のジェスチャの種類に対応した複数の隠れマルコフモデルに入力し、それぞれの該隠れマルコフモデルで尤度値を算出する尤度値算出手順と、
前記算出された尤度値に所定の閾値以上の値を示す尤度値があったとき、該尤度値を示した隠れマルコフモデルに対応するジェスチャの種類を認識結果とするジェスチャ認識手順と、
を有することを特徴とするジェスチャ認識方法。
A gesture recognition method for recognizing periodic gestures,
A hand position detection procedure for obtaining a hand position from an input frame image;
The movement direction of the hand between the frames is obtained based on the hand position obtained in the hand position detection procedure according to the frame images input in time series, and predetermined observation signals corresponding to the movement direction are sequentially generated to obtain a predetermined number of signals. An observation signal generation procedure for generating a fixed-length observation signal sequence composed of observation signals;
A likelihood value calculation procedure for inputting the fixed-length observation signal sequence to a plurality of hidden Markov models corresponding to hand gesture types prepared in advance, and calculating a likelihood value with each of the hidden Markov models,
When there is a likelihood value indicating a value equal to or greater than a predetermined threshold in the calculated likelihood value, a gesture recognition procedure in which a gesture type corresponding to the hidden Markov model indicating the likelihood value is a recognition result;
A gesture recognition method characterized by comprising:
JP2005274718A 2005-09-21 2005-09-21 Gesture recognition device, gesture recognition program, and gesture recognition method Withdrawn JP2007087089A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005274718A JP2007087089A (en) 2005-09-21 2005-09-21 Gesture recognition device, gesture recognition program, and gesture recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005274718A JP2007087089A (en) 2005-09-21 2005-09-21 Gesture recognition device, gesture recognition program, and gesture recognition method

Publications (1)

Publication Number Publication Date
JP2007087089A true JP2007087089A (en) 2007-04-05

Family

ID=37974013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005274718A Withdrawn JP2007087089A (en) 2005-09-21 2005-09-21 Gesture recognition device, gesture recognition program, and gesture recognition method

Country Status (1)

Country Link
JP (1) JP2007087089A (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7719569B2 (en) 2008-05-28 2010-05-18 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method
JP2010537320A (en) * 2007-08-20 2010-12-02 ジェスチャー テック,インコーポレイテッド Advanced vocabulary rejection
WO2011007390A1 (en) * 2009-07-15 2011-01-20 株式会社 東芝 Image-processing device and interface device
KR101017449B1 (en) * 2009-01-28 2011-02-25 서경대학교 산학협력단 Hidden Markov Model-based Motion Recognition Method and Computer-readable Recording Media with Program for Realizing the Same
EP2367140A1 (en) 2010-03-15 2011-09-21 OMRON Corporation, a corporation of Japan Gesture recognition apparatus, method for controlling gesture recognition apparatus, and control program
JP2011258130A (en) * 2010-06-11 2011-12-22 Namco Bandai Games Inc Program, information storage medium, and image generation system
CN102567703A (en) * 2010-12-10 2012-07-11 上海上大海润信息系统有限公司 Hand motion identification information processing method based on classification characteristic
JP2012517044A (en) * 2009-02-02 2012-07-26 アイサイト モバイル テクノロジーズ リミテッド System and method for object recognition and tracking in video streams
WO2012117570A1 (en) 2011-03-03 2012-09-07 オムロン株式会社 Gesture input device and method for controlling gesture input device
CN104460967A (en) * 2013-11-25 2015-03-25 安徽寰智信息科技股份有限公司 Recognition method of upper limb bone gestures of human body
US9165181B2 (en) 2012-01-13 2015-10-20 Sony Corporation Image processing device, method and program for moving gesture recognition using difference images
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
JP2016527628A (en) * 2013-07-19 2016-09-08 マイクロチップ テクノロジー インコーポレイテッドMicrochip Technology Incorporated Hidden Markov Model Based Method for Gesture Recognition
US9639164B2 (en) 2013-09-26 2017-05-02 Fujitsu Limited Gesture input method
CN110032958A (en) * 2019-03-28 2019-07-19 广州凡拓数字创意科技股份有限公司 A kind of human body limb language identification method and system
KR101977274B1 (en) * 2017-12-29 2019-08-28 한국생산기술연구원 Framework setting method for autonomous robot and digital control device
CN111815689A (en) * 2020-06-30 2020-10-23 杭州科度科技有限公司 Semi-automatic labeling method, equipment, medium and device

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010537320A (en) * 2007-08-20 2010-12-02 ジェスチャー テック,インコーポレイテッド Advanced vocabulary rejection
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
US8565535B2 (en) 2007-08-20 2013-10-22 Qualcomm Incorporated Rejecting out-of-vocabulary words
US8013890B2 (en) 2008-05-28 2011-09-06 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method for recognizing an object with color
US7719569B2 (en) 2008-05-28 2010-05-18 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method
KR101017449B1 (en) * 2009-01-28 2011-02-25 서경대학교 산학협력단 Hidden Markov Model-based Motion Recognition Method and Computer-readable Recording Media with Program for Realizing the Same
JP2012517044A (en) * 2009-02-02 2012-07-26 アイサイト モバイル テクノロジーズ リミテッド System and method for object recognition and tracking in video streams
JP5297530B2 (en) * 2009-07-15 2013-09-25 株式会社東芝 Image processing apparatus and interface apparatus
WO2011007390A1 (en) * 2009-07-15 2011-01-20 株式会社 東芝 Image-processing device and interface device
EP2367140A1 (en) 2010-03-15 2011-09-21 OMRON Corporation, a corporation of Japan Gesture recognition apparatus, method for controlling gesture recognition apparatus, and control program
US8526675B2 (en) 2010-03-15 2013-09-03 Omron Corporation Gesture recognition apparatus, method for controlling gesture recognition apparatus, and control program
JP2011258130A (en) * 2010-06-11 2011-12-22 Namco Bandai Games Inc Program, information storage medium, and image generation system
CN102567703B (en) * 2010-12-10 2014-04-09 上海上大海润信息系统有限公司 Hand motion identification information processing method based on classification characteristic
CN102567703A (en) * 2010-12-10 2012-07-11 上海上大海润信息系统有限公司 Hand motion identification information processing method based on classification characteristic
US9058059B2 (en) 2011-03-03 2015-06-16 Omron Corporation Gesture input device and method for controlling gesture input device
WO2012117570A1 (en) 2011-03-03 2012-09-07 オムロン株式会社 Gesture input device and method for controlling gesture input device
US9940507B2 (en) 2012-01-13 2018-04-10 Sony Corporation Image processing device and method for moving gesture recognition using difference images
US10565437B2 (en) 2012-01-13 2020-02-18 Sony Corporation Image processing device and method for moving gesture recognition using difference images
US9165181B2 (en) 2012-01-13 2015-10-20 Sony Corporation Image processing device, method and program for moving gesture recognition using difference images
JP2016527628A (en) * 2013-07-19 2016-09-08 マイクロチップ テクノロジー インコーポレイテッドMicrochip Technology Incorporated Hidden Markov Model Based Method for Gesture Recognition
US9639164B2 (en) 2013-09-26 2017-05-02 Fujitsu Limited Gesture input method
CN104460967A (en) * 2013-11-25 2015-03-25 安徽寰智信息科技股份有限公司 Recognition method of upper limb bone gestures of human body
KR101977274B1 (en) * 2017-12-29 2019-08-28 한국생산기술연구원 Framework setting method for autonomous robot and digital control device
CN110032958A (en) * 2019-03-28 2019-07-19 广州凡拓数字创意科技股份有限公司 A kind of human body limb language identification method and system
CN110032958B (en) * 2019-03-28 2020-01-24 广州凡拓数字创意科技股份有限公司 Human body limb language identification method and system
CN111815689A (en) * 2020-06-30 2020-10-23 杭州科度科技有限公司 Semi-automatic labeling method, equipment, medium and device
CN111815689B (en) * 2020-06-30 2024-06-04 杭州科度科技有限公司 Semi-automatic labeling method, equipment, medium and device

Similar Documents

Publication Publication Date Title
JP2007087089A (en) Gesture recognition device, gesture recognition program, and gesture recognition method
Majumder et al. Vision and inertial sensing fusion for human action recognition: A review
Ronao et al. Human activity recognition using smartphone sensors with two-stage continuous hidden Markov models
US20190259284A1 (en) Pedestrian detection for vehicle driving assistance
Jalal et al. Human Depth Sensors‐Based Activity Recognition Using Spatiotemporal Features and Hidden Markov Model for Smart Environments
CN110895671A (en) Fall detection method and electronic system using same
Singh et al. Human fall detection using machine learning methods: A survey
Menacho et al. Fall detection based on CNN models implemented on a mobile robot
KR20190099537A (en) Motion learning device, function determining device and function determining system
EP2899706B9 (en) Method and system for analyzing human behavior in an intelligent surveillance system
JP2011186576A (en) Operation recognition device
JP2022033805A (en) Method, device, apparatus, and storage medium for identifying passenger's status in unmanned vehicle
EP2610783A2 (en) Object recognition method and descriptor for object recognition
Tra et al. Human fall detection based on adaptive background mixture model and HMM
Moutsis et al. Fall detection paradigm for embedded devices based on YOLOv8
JP2007280219A (en) Motion pattern recognition apparatus, motion pattern recognition method, and motion pattern recognition program
CN116959035A (en) Gait-based identity recognition method, device, chip and terminal
Kamble et al. Fall alert: a novel approach to detect fall using base as a YOLO object detection
Wang et al. MF-YOLO: A lightweight method for real-time dangerous driving behavior detection
Zhang et al. A Fall Detection Device Based on Single Sensor Combined with Joint Features
Sreenivasulu et al. A comparative review on object detection system for visually impaired
Cheng et al. A fall detection algorithm based on pattern recognition and human posture analysis
Farzad et al. Recognition and classification of human behavior in Intelligent surveillance systems using Hidden Markov Model
Kushwaha et al. Rule based human activity recognition for surveillance system
Rothmeier et al. Comparison of Machine Learning and Rule-based Approaches for an Optical Fall Detection System

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081202