JP2006318341A

JP2006318341A - 検知対象画像判定装置、検知対象画像判定方法および検知対象画像判定プログラム

Info

Publication number: JP2006318341A
Application number: JP2005142226A
Authority: JP
Inventors: Hideto Takeuchi; 英人竹内
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-05-16
Filing date: 2005-05-16
Publication date: 2006-11-24

Abstract

【課題】人物画像部分などの検知対象画像を効率良く検出判定することができる方法を提供する。
【解決手段】与えられた濃淡画像が検知対象画像であるか否かを判定する検知対象画像判定装置である。濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して設けられ、画素の組の２画素間の輝度値の差分を特徴量として求め、求めた特徴量に基づいて前記画素の組が検知対象画像の輪郭部分であるか否かを示す推定値を算出する弱判別手段の複数個を設ける。判定手段は、複数個の弱判別手段により算出された推定値に基づいて、与えられた濃淡画像が検知対象画像であるか否かを判定する。
【選択図】図１

Description

この発明は、例えば人物画像などの検知対象画像を、与えられた濃淡画像から検出する検知対象画像判定装置、方法およびプログラムに関する。

従来、画像中から、コンピュータにより、人物画像部分を自動的に見つける方法として、動きのある部分を人物画像部分とみなして検知する方法、人物画像を代表する部分である顔や頭部の肌色や顔部品により検知して、人物画像部分を検知したとする方法などがある。

前者の例として、予め作成した背景画像と入力される画像との差分をとることにより、変化した部分を人物画像部分として検知する手法がある（例えば、特許文献１（特開平１１−３１１６８２号公報）参照）。

また、後者の例としては、顔を楕円としてモデル化し、肌色領域の楕円検知による顔検知を行なう手法がある（例えば、特許文献２（特開平１１−１８５０２６号公報）参照）。

この他に、例えば特許文献３（特開２００１−２２２７１９号公報）には、頭部を円としてモデル化し、テンプレートを作成し、投票により円形状の検知を行なうことで、頭部検知を行なう手法が開示されている。

また、特許文献４（特開２００４−１７８２２９号公報）には、特許文献３と同様に、頭部と外側に凸な境界曲線で囲まれる形状モデルで近似し、投票によりその形状を検知し、頭部検知を行なう方法が開示されている。

上記の特許文献は、次の通りである。
特開平１１−３１１６８２号公報特開平１１−１８５０２６号公報特開２００１−２２２７１９号公報特開２００４−１７８２２９号公報

しかしながら、特許文献１の発明のように、変化部分をもとめる手法では、画像上の明度が大きく変化した領域を人物画像部分とするために、照明環境変化のあった場合、椅子などの物が移動する場合でも人物として、検知してしまう問題がある。

また、特許文献２の発明の場合には、人物画像部分の肌色をさまざまな照明環境化で安定して検知することは難しい。また、楕円当て嵌めは、人物が正面を向いている顔については有効な手段であるが、人物が斜めを向いているときの検知に用いることは難しい。また、人物が後ろ向きの場合は頭部を検知できないという問題もある。

また、特許文献３の発明では、検知を行なう際に用いる投票に使用するテンプレートの形状が同心円であるために、検知に寄与しない投票が多く、処理時間が無駄になるとともに、偽の投票ピークが作られて、誤検知が発生するという問題がある。

さらに、特許文献４の発明では、頭部を外側に凸な形状と仮定してテンプレートを作成しているので、撮影方向などによっては、その仮定が成り立たず、人物画像部分の検知ができなくなるという問題がある。

この発明は、以上の問題点を軽減して、人物画像部分などの検知対象画像を効率良く検出判定することができる装置および方法を提供することを目的とする。

上記の課題を解決するために、請求項１の発明は、
与えられた濃淡画像が検知対象画像であるか否かを判定する検知対象画像判定装置であって、
前記濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して設けられ、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を算出する弱判別手段の複数個と、
前記複数個の弱判別手段により算出された前記推定値に基づいて、前記与えられた濃淡画像が前記検知対象画像であるか否かを判定する判定手段と
を備えることを特徴とする検知対象画像判定装置を提供する。

この請求項１の発明においては、検知対象画像を判定するための特徴量として、隣接または近接する２つの画素間の輝度値の差分を用いる。この特徴量は、広義の物体輪郭情報に相当する。したがって、請求項１の発明によれば、人の頭部や肩のような大まかな輝度変化を持つ輪郭部分またはエッジ部分が優先的に検知でき、与えられた濃淡画像が、人物画像（人型画像）などの検知対象画像であるか否かを効率的に検知判定することができる。

また、請求項３の発明は、
濃淡画像中から検知対象画像を検出判定する検知対象画像判定装置であって、
前記濃淡画像を縮小し、複数の異なる大きさの画像を生成する画像縮小手段と、
前記画像縮小手段からの前記複数の異なる大きさの縮小画像のそれぞれを、固定サイズのウインドウ単位で走査する走査手段と、
前記走査手段から得られる前記ウインドウ単位の濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して設けられ、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を算出する弱判別手段の複数個と、
前記複数個の弱判別手段により算出された前記推定値に基づいて、前記ウインドウ単位の濃淡画像が前記検知対象画像であるか否かを判定する判定手段と
を備えることを特徴とする検知対象画像判定装置を提供する。

この請求項３の発明においては、濃淡画像中に検知対象画像が含まれている場合に、予め定められた固定サイズのウインドウ単位で、前記請求項１と同様の検知対象画像の検知判定処理を行なう。この場合に、濃淡画像中の検知対象画像は、種々の大きさで含まれている可能性が大きいが、請求項３の発明では、濃淡画像を縮小して、種々のサイズの縮小画像を生成し、その縮小画像のそれぞれについて、前記固定サイズのウインドウ単位での走査を行なって、当該ウインドウ単位の画像が、検知対象画像であるか否かを判定する。

したがって、請求項３の発明によれば、効率良く、濃淡画像中に種々の大きさで含まれる検知対象画像を検知判定することができる。

この発明によれば、人の頭部や肩のような大まかな輝度変化を持つ輪郭部分またはエッジ部分が優先的に検知でき、与えられた濃淡画像が、人物画像（人型画像）などの検知対象画像であるか否かを効率的に検知判定することができる。また、濃淡画像中に種々の大きさで含まれる検知対象画像を、効率良く検知判定することができる。

以下、この発明による検知対象画像判定装置および方法の実施形態を、図を参照しながら説明する。以下に説明する実施形態は、アンサンブル学習（Ｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇ：集団学習）を利用して、入力画像から検知対象画像を検出判定する場合である。以下の説明は、静止画を処理する場合について説明するが、動画の場合にも同様の処理が可能である。なお、動画の処理の場合には、以下に説明する検知対象画像判定装置を複数個設けて、それら複数個の検知対象画像判定装置を並列に動作させて処理を行なうこともできる。

図１は、実施形態の検知対象画像判定装置を含む対象物検出システムの構成例を示すブロック図であり、入力画像提供装置１と、実施形態の検知対象画像判定装置２と、検知対象画像の結果出力装置部３とからなる。

入力画像供給装置部１は、検知対象画像判定装置部２に対して、その入力画像として、濃淡画像を出力する。この入力画像提供装置部１は、例えば、記録紙に記録されている画像をスキャンして読み取り、濃淡画像の画像データとして出力したり、入力端子を通じて入力された画像データを取り込んで、濃淡画像の画像データとして出力したりする機能を備える。入力画像の画像データが濃淡画像の画像データではないときには、当該入力画像の画像データを濃淡画像の画像データに変換する機能も備える。

検知対象画像判定装置部２は、スケーリング部２１と、走査部２２と、判定部２３と、処理制御部２０とを備えて構成されており、与えられた画像（入力画像）中から、検知対象画像の領域を示す検知対象画像位置および検知対象画像の大きさの情報を出力する。

結果出力装置部３は、検知対象画像判定装置部２からの検知対象画像位置および検知対象画像の大きさの情報を受けて、検知対象画像位置および検知対象画像の大きさをユーザに報知する。

この例では、検知対象画像判定装置部２のスケーリング部２１、走査部２２、判定部２３および処理制御部２０は、機能ブロックとされており、検知対象画像判定装置２は、コンピュータにより構成されている。すなわち、この例の場合には、スケーリング部２１、走査部２２、判定部２３および処理制御部２０は、コンピュータが備えるメモリに格納されたプログラムが実行されることにより実現されるソフトウエア機能手段の構成とされている。

もっとも、スケーリング部２１、走査部２２、判別部２３および処理制御部２０のそれぞれを、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などによりハードウエア構成とすることもできる。その場合には、処理制御部２０は、検知対象画像判定装置２の全体を制御するマイクロコンピュータなどの構成とすることができる。

スケーリング部２１は、処理制御部２０の指示に基づき、入力画像を、予め設定されている複数の大きさ（サイズ）の全てに縮小または拡大し、その処理結果のスケーリング画像を走査部２２に出力する。

入力画像供給装置部１からの入力画像のサイズは、固定サイズとすることもできるが、この例においては、一定とは限らない。もしも、入力画像のサイズが予め設定されているサイズの中の最大サイズあるいはそれ以上であるときには、スケーリング部２１では縮小処理のみを行なって、予め設定されている全てのサイズのスケーリング画像を得ることができる。しかし、入力画像のサイズが予め設定されているサイズの中の最大サイズよりも小さいときには、画像のサイズの拡大処理が必要となる。ここで、画像の縮小処理としては、バイリニア補完を用いた画像の縮小処理などが行なわれる。

走査部２２は、各サイズのスケーリング画像について、検出したい対象物の大きさのウインドウ単位で順次走査をしながら、各走査位置でのウインドウ画像を切り出し、切り出したウインドウ画像を判定部２３に供給する。

判定部２３は、各ウインドウ画像が、検知対象画像であるか否かを判別し、その判別結果を処理制御部２０に出力する。処理制御部２０は、検知対象画像であると判定した時のスケーリング画像のサイズおよびそのスケーリング画像におけるウインドウ画像位置（ウインドウ位置）の情報を結果出力装置部３に出力する。

ここで、検知対象画像判定装置部２の処理制御部２０は、入力画像から複数の検知対象画像が検出された場合は、複数の領域情報を結果出力装置部３に出力する。更に、複数の領域情報のうち領域が重なりあっている領域が存在する場合は、後述する方法で最も検知対象画像とされる評価が高い領域を選択する処理も行なうことができる。

前述したように、スケーリング部２１では、予め設定されている複数サイズのスケーリング画像を生成し、生成したスケーリング画像を走査部２２に出力する。この実施形態においては、スケーリング部２１では、最初に、全ての複数のスケーリング画像を生成してしまって、それを走査部２２に出力するのではなく、所定のサイズのスケーリング画像を生成したら、その生成したスケーリング画像を走査部４に対して出力し、そのスケーリング画像についての走査処理および判定処理を終えた後、次のサイズのスケーリング画像を生成し、走査部２２に渡すという処理を、全てのサイズのスケーリング画像が出力されるまで繰り返す。

この繰り返し制御を含む検知対象画像判定処理は、処理制御部２０の制御により実行される。この処理制御部２０における検知対象画像判定処理制御動作の概要を、図２のフローチャートを参照しながら、説明する。

まず、処理制御部２０は、入力画像供給装置部１からの入力画像を検知対象画像判定装置部２に取り込む（ステップＳ１）。そして、処理制御部２０は、スケーリング部２１に、この例では、例えば最も大きい画像サイズのスケーリング画像の生成指示をする（ステップＳ２）。スケーリング部２１は、この指示に基づいて、指示されたサイズのスケーリング画像、例えば図３のスケーリング画像１０Ａを生成して、走査部２２に出力するようにする。ここで、例えば最も大きい画像サイズのスケーリング画像１０Ａは、入力画像のサイズそのものであるときには、スケーリング部２１は、入力画像をそのままスケーリング画像１０Ａとして走査部２２に出力するようにする。

次に、処理制御部２０は、例えばスケーリング部２１からのスケーリング画像１０Ａの生成完了通知に基づき、走査部２２に、スケーリング画像１０Ａを受け取り、ウインドウによる走査およびウインドウ画像の切り出しを行なうように指示する（ステップＳ３）。走査部２２は、この処理制御部２０からの指示に基づいて、受け取ったスケーリング画像について、ウインドウによる走査およびウインドウ画像の切り出しを行なう。

この場合に、走査部２２では、例えば図４に示すような固定サイズ、例えば２４画素×２４画素のウインドウＷＤを用意し、このウインドウＷＤを、図４に示すように、スケーリング画像の水平方向にＮ画素（Ｎ≧１）づつ移動させて走査させ、この水平方向の走査が終了すると、スケーリング画像の垂直方向にＭ画素（Ｍ≧１）だけ移動させて、水平方向の走査を繰り返すというように、ウインドウ走査を行なう。すなわち、この例では、走査部２２は、いわゆるラスタースキャン型の走査を行なう。

そして、走査部２２は、スケジュール画像上における各ウインドウ走査位置において、当該ウインドウＷＤに囲まれる領域の画像を切り出して、それをウインドウ画像として判定部２３に出力するようにする。

ここで、上記Ｎ，Ｍの値を１画素とすると非常に精細な画像走査が可能となるが、処理すべきウインドウ画像数が増加するため、処理速度の低下を招く。また、上記Ｎ，Ｍの値をあまりに大きくすると、画像走査が大雑把になり、判定結果の信頼性が低下する。そこで、この例では、処理速度と判定結果の信頼性を考慮して、上記Ｎ，Ｍの値を設定するようにする。

ウインドウＷＤは、この例のように縦横のサイズが同じなくても良く、また、矩形である必要もない。例えば処理によって、ウインドウＷＤは、複雑な形状、例えばダイヤモンド型やフリーハンドで指定した形状であってもよい。

また、ウインドウＷＤの走査方法としては、上述の例では、一定の画素間隔でラスタースキャンをするようにしたが、一定の画素間隔である必要は無い。例えば、入力画像が一連の動画像である場合には、以前に検知対象画像が検知された付近では狭い間隔で、それ以外の箇所では広い間隔で走査するようにしても良い。また、スキャン方法は、垂直方向を先にスキャンして、そのスキャン位置を水平方向にずらして行くような方法でもよい。また、ラスタースキャンではなく、例えば周辺部から渦巻状に中心に向かってスキャンするようにしても良い。

次に、処理制御部２０は、走査部２２からの１回の走査完了通知ごとに、判定部２３に、切り出されたウインドウ画像を受け取り、当該ウインドウ画像が検知対象画像であるか否かの判定を行なうように指示する（ステップＳ４）。

そして、判定部２３でウインドウ画像についての判定結果（検知対象画像であるか否かを示す情報）を受け取ると、処理制御部２０は、その判定結果を、その時のスケーリング画像のサイズおよびウインドウ位置の情報と共に一時保持した後、当該スケーリング画像におけるウインドウＷＤによる全走査が完了したか否か判別する（ステップＳ５）。このとき、この例では、処理制御部２０は、処理中のスケーリング画像の画像サイズを認識しており、このため、ウインドウＷＤによる当該スケーリング画像における走査回数をも処理制御部２０は認識しているので、ステップＳで、当該スケーリング画像におけるウインドウＷＤによる全走査が完了したか否か判別することができる。

ステップＳ５で、当該スケーリング画像におけるウインドウＷＤによる全走査が完了してはいないと判別したときには、処理制御部２０は、ステップＳ３に戻って、走査部２２に対して、ウインドウＷＤを次の走査位置に移動させ、ウインドウ画像を切り出して、判定部２３に出力させるようにする指示する。そして、処理制御部２０は、ステップＳ３、ステップＳ４、ステップＳ５の処理を繰り返す。

以上のようにして、処理制御部２０は、ステップＳ３〜ステップＳ５を、１つのスケーリング画像について、全ウインドウ走査位置について繰り返すように、走査部２２および判定部２３を制御する。

ステップＳ５で、当該スケーリング画像におけるウインドウＷＤによる全走査が完了したと判別したときには、処理制御部２０は、全てのスケーリング画像についての検知対象画像の検出判定処理が終了したか否か判別し（ステップＳ６）、終了していないと判別したときには、ステップＳ２に戻り、スケーリング部２１に、次の画像サイズのスケーリング画像、例えば図３の画像１０Ｂを生成して走査部２２に出力するように指示する。そして、処理制御部２０は、前述したこのステップＳ２以降の処理を繰り返す。

ここで、図３の例では、最も大きいサイズの画像１０Ａから、画像１０Ａ→画像１０Ｂ→画像１０Ｃ→画像１０Ｄ→画像１０Ｅというように順次に画像サイズを縮小したものを示しており、スケーリング部２１は、例えば、画像１０Ａを０．８７５倍して画像１０Ｂを生成し、画像１０Ｂを０．８７５倍して画像１０Ｃを生成し、画像１０Ｃを０．８７５倍して画像１０Ｄを生成・・・というようにして、各画像サイズのスケーリング画像を生成するようにする。

この例では、ウインドウＷＤのサイズは一定とされ、判定部２３では、この固定サイズのウインドウ画像について、それが検知対象画像であるか否かの判定をするようにするが、上述のようにして、スケーリング部２１で、各画像サイズのスケジュール画像が生成されて、入力画像の画像サイズが様々なサイズに変換されるので、任意の大きさの検知対象画像についての判定をすることが可能になる。

なお、入力画像のサイズを変更するのではなく、ウインドウＷＤのサイズを変更することにより、上述と同様の処理結果を得ることができるが、その場合には、判定部２３では、種々の大きさのウインドウ画像についての判定を行なう必要が生じ、好ましくない。

また、後述するように、この例においては、判定部２３では集団学習による学習結果を反映させた判定方法が用いられるが、その場合に、ウインドウ画像の大きさが種々のものとなると、その複数個のウインドウ画像のそれぞれに対応した学習を行ない、その複数個のウインドウ画像についての学習結果をそれぞれ用いた判定処理が必要となり、処理が膨大になるという問題もある。この点、この実施形態のようにすれば、画像サイズ縮小（場合によっては画像サイズ拡大）処理を行なうだけで、ウインドウ画像は１種でよいので、全体として構成が簡単化できる。

以上のようにして、全ての画像サイズのスケーリング画像についての検知対象画像の判定処理が終了すると、ステップＳ６からステップＳ７に進み、処理制御部２０は、一時保持している判定部２３からの検知対象画像についての判定結果（スケーリング画像のサイズとウインドウ位置の情報を含む）を参照し、検知対象画像であると判定されたスケーリング画像のサイズおよびそのウインドウ位置の情報を結果出力装置部３に出力する。

なお、結果出力装置部３において出力する判定結果は、上述の説明の例のように、スケーリング画像のサイズと、ウインドウの位置の情報に限られるものではなく、検知されたウインドウ領域の画像を、上記の判定結果と併せてあるいは単独で表示するようにしても良い。

また、上述の説明では、判定結果は、１つの入力画像についての判定処理が終了した後に検知対象画像判定装置部２から結果出力装置部３に出力するようにしたが、検知対象画像が検出される毎に、その判定結果を検知対象画像判定装置部２から結果出力装置部３に出力するようにしてもよい。また、出力時に、検知対象画像の判定結果について、判定領域に重なりがある場合には、検知対象画像判定装置部２に重複を取り除く処理を追加して、重なり部分を無くして出力するようにすることもできる。

［判定部２３の構成例］
この実施形態における判定部２３は、アンサンブル学習（集団学習）を利用して、その入力画像（ウインドウ画像）が検知対象画像であるか否かを判定する。なお、この判定部２３は、請求項１の発明の実施形態を構成するものである。

集団学習によって得られる学習機械は、多数の弱仮説と、これらを組み合わせる結合機（ｃｏｍｂｉｎｅｒ）とからなる。ここで、入力によらず、固定した重みで弱仮説の出力を統合する結合機の一例としてブースティングがある。ブースティングは、前に生成した弱仮説の学習結果を使用して、間違いを苦手とする学習サンプル（例題）の重みを増すように、学習サンプルが従う分布を加工し、この分布に基づき新たな弱仮説の学習を行なう。

これにより不正解が多く、検知対象画像として判別が難しい学習サンプルの重みが相対的に上昇し、結果的に、重みが大きい、即ち判別が難しい学習サンプルを正解させるような弱判別器が逐次選択される。すなわち、学習における弱仮説の生成は逐次的に行われるものであり、後から生成された弱仮説は、その前に生成された弱仮説に依存することになる。

検知対象画像を検出する際には、上述のようにして、学習により逐次生成された多数の弱仮説の判別結果を使用する。例えばアダブースト（ＡｄａＢｏｏｓｔ）の場合は、この学習により生成された弱仮説（以下、弱判別器という。）の全ての判別結果（検知対象画像であれば１、非検知対象画像であれば−１）が結合機に供給され、結合機は、全判別結果に対して、対応する弱判別器毎に学習時に算出された信頼度を重み付け加算し、その重み付き多数決の結果を出力し、結合機の出力値を評価することで、入力された画像が検知対象画像か否かを判定するものである。

弱判別器は、なんらかの特徴量を使用して、検知対象画像か、又は非検知対象画像であるかの判定を行なうものである。なお、後述するように、弱判別器の出力は、検知対象画像か否かを確定的に出力してもよく、また、検知対象画像らしさを確率密度などで確率的に出力してもよい。

ここで、この実施形態においては、２つの画素（ピクセル）間の輝度値の差という極めて簡単な特徴量（以下、ピクセル間差分特徴量という。）を使用して、検知対象画像か否かを判別する弱判別器を使用した集団学習装置を利用することで、検知対象画像の検出処理を高速化するものである。しかも、この実施形態では、ウインドウ画像中における全ての２画素間のピクセル間差分特徴量を用いるのではなく、例えば検知対象画像となる頭部や人の肩において大まかな輝度変化を持つ輪郭部分あるいはエッジ部分を優先的に検知して、より効率的な検知対象画像の検知判定を可能にしている。

すなわち、この実施形態では、ウインドウ画像内の全ての２画素間の差分を用いるのではなく、図５に示すように、検知対象画像の輪郭部分あるいはエッジ部分となる互いに隣接する、あるいは近接する２画素Ｐ１，Ｐ２間の輝度値Ｉ１，Ｉ２の差のみを、判定のための特徴量（以下、制約ピクセル間差分特徴量と呼ぶ）として用いる。

図６は、この実施形態の判定部２３の構成例を示すブロック図である。すなわち、判定部２３は、後述するアンサンブル学習により得られた複数の弱判別器２０ｔ（ｔ＝１〜Ｔ）と、これら複数の弱判別器２０ｔの出力のそれぞれに対して、重み付け係数Ｗｔ（ｉ＝１〜ｎ）を乗算して重み付け処理する複数個の係数乗算器２１ｔ（ｔ＝１〜Ｔ）と、係数乗算器２１ｔからの重み付け判定出力を受けて、重み付き多数決を求める加算器２２０と、その加算器２２０からの重み付き多数決の値に応じて検知対象画像であるか否かを判定する判定出力部２３０を有する。判定出力部２３０からの判定出力は、処理制御部２０に供給される。

複数個の弱判別器２０ｔを求めると共に、重み付け係数Ｗｔを求めるために、この実施形態では、処理制御部２０には、処理機能部として構成される集団学習機部２４が設けられる。この集団学習機部２４は、この例では、集団学習により、弱判別器２０ｔおよび重み付け係数Ｗｔを求める。この場合、集団学習としては、複数の判別器の結果を多数決にて求めることができるものであれば、具体的にはどんな手法でも適用可能である。例えば、データの重み付けを行って、重み付き多数決を行なう前述したアダブーストなどのブースティングを用いた集団学習を適用することができる。

前述したように、各弱判別器２０ｔは、判別のための特徴量として、制約ピクセル間差分特徴量を使用する。そして、判別には、予め学習された検知対象画像か非検知対象画像であるかのラベリングがされた複数の濃淡画像からなる学習サンプルにより予め学習された特徴量と、入力されたウインドウ画像の特徴量とを比較し、ウインドウ画像が検知対象画像であるか否かを推定するための推定値を確定的又は確率的に出力する。

ここで、アダブーストでは、複数の弱判別器２０ｔは、順次推定値を算出し、これに伴い重み付き係数Ｗｔの値が逐次更新されていく。これら複数の弱判別器２０ｔは、集団学習機部２４により、後述するアルゴリズムに従い、上述の学習サンプルを使用して集団学習により逐次的に生成されたものであり、例えばその生成順に上記推定値を算出する。また、重み付き多数決の重み係数Ｗｔ（信頼度）は、弱判別器２０ｔを生成する後述する学習工程にて学習されるものである。

弱判別器２０ｔは、例えばアダブーストのように弱判別器が２値出力を行なうべきものである場合は、制約ピクセル間差分特徴量を閾値で二分することで、検知対象画像であるかどうかの判別を行なう。閾値による判別方法は、複数の閾値を用いてもよい。

また、弱判別器２０ｔは、例えばリアル・アダブースト（Ｒｅａｌ−ＡｄａＢｏｏｓｔ）のように制約ピクセル間差分特徴量から対象物体かどうかを表す度合いの連続値を確率的に出力してもよい。これら弱判別器２０ｔが必要とする判別のための特徴量（閾値）なども学習時に上記アルゴリズムに従って学習されるものである。

さらに、この実施形態では、重み付き多数決の処理を行なう際、全ての弱判別器２０ｔの計算結果を待たず、計算途中であってもその値によっては検知対象画像でないと判断して計算を打ち切りする。このための打ち切りの閾値も、学習時に学習する。この打ち切り処理によって、検出処理における演算量を大幅に削減することが可能となる。これにより、全ての弱判別器２０ｔの計算結果を待たず、計算途中で次のウインドウ画像の判別処理に移ることができる。

このように、判定部２３は、ウインドウ画像が検知対象画像か否かを判定するための評価値として重み付き多数決の値を算出し、その評価値（重み付け多数決の値）に基づき、ウインドウ画像が検知対象画像か否かを判定する判定手段としての機能する。また、判定部２３は、前述したように、請求項１の検知対象判定装置の実施形態とされている。

さらに、判定部２３は、予め学習により生成された複数の弱判別器２０ｔが推定値を順次算出して出力し、前記推定値が算出される毎にその推定値に対して、学習により得られた各弱判別器２０ｔに対する重み付け係数Ｗｔを乗算して加算した重み付き多数決の値を更新し、この重み付き多数決の値（評価値）が更新される毎に、上記打ち切り閾値を利用して推定値の算出を打ち切るか否かをも制御することができるものである。

この判定部２３は、集団学習機部２４において、学習サンプルを使用し、所定のアルゴリズムに従って集団学習することにより生成される。ここでは先ず、集団学習機部２４における集団学習方法について説明し、次に、その集団学習により学習されて得られた判定部２３を使用し、入力画像から検知対象画像を判別する方法について説明する。

［集団学習機部２４］
ブースティングアルゴリズムを用いて集団学習する集団学習機部２４は、上述したように複数の弱判別器を複数個組み合わせ、結果的に強い判定結果が得られるよう学習するものである。

弱判別器は、１つ１つは、極めて簡単な構成とし、１つでは、検知対象画像か否か、例えば顔か顔でないかの判別能力も低いものである。しかし、弱判別器を、例えば数百〜数千個組み合わせることで、高い判別能力を持たせることができる。

この集団学習機部２４は、例えば数千の学習サンプルといわれる予め正解付け（ラベリング）された検知対象画像と非検知対象画像、例えば顔画像と、非顔画像とからならなるサンプル画像を使用し、多数の学習モデル（仮説の組み合わせ）から所定の学習アルゴリズムに従って１つの仮説を選択（学習）することで弱判別器を生成し、生成した弱判別器の組み合わせ方を決定していく。

前述したように、弱判別器は、それ自体では判別性能が低いものであるが、これらの選別、組み合わせ方により結果的に判別能力が高い判別器を得ることができるため、集団学習機部２３では、弱判別器の組み合わせ方、即ち弱判別器の選別及びそれらの出力値を重み付き多数決処理する際の重み付け係数Ｗｔなどの学習をする。

次に、適切な弱判別器を学習アルゴリズムに従って多数組み合わせた判定部２３を得るための集団学習機部２４の学習方法について説明する。ここで、集団学習機部２４の学習方法の説明に先立ち、集団学習にて学習する学習データのうちで、この実施の形態において特徴量となる学習データ、具体的には弱判別器を構成するための制約ピクセル間差分特徴量、および判別工程（検出工程）において検出を途中で打ち切るための打ち切り閾値について説明しておく。

［弱判別器の構成］
この実施の形態における判定部２３は、これを構成する複数個の弱判別器２０ｔが、当該複数個の弱判別器２０ｔに入力される画像に含まれる全画素において選択された、隣接するまたは近接する２つの画素の輝度値の差分（制約ピクセル間差分特徴量）により、検知対象画像例えば顔か否かを判別する極めて簡単な構成とすることで、判別工程において弱判別器２０ｔの判別結果の算出を高速化するものである。弱判別器２０ｔに入力される画像は、学習工程では、学習サンプルであり、判別工程では、スケーリング画像から切り出されたウインドウ画像である。

前述したように、この実施形態では、図５に示したように、隣接するまたは近接する任意の２つの画素の輝度値の差、図５の例では、画素Ｐ１の輝度値Ｉ１と、画素Ｐ２の輝度値Ｉ２との差を、次の（式ａ）に示すように制約ピクセル間差分特徴量と定義する。すなわち、
制約ピクセル間差分特徴量：ｄ＝Ｉ１−Ｉ２・・・（式ａ）
と定義する。

ここで、どの制約ピクセル間差分特徴量を、検知対象画像検出に使用するかが弱判別器の能力となる。したがって、ウインドウＷＤによる切り出し画像に含まれる隣接するまたは近接する任意の２画素の組み合わせ（フィルタ又は弱仮説ともいう。）から、弱判別器に使用するピクセル位置の組を選択する必要がある。

例えばアダブーストでは、弱判別器に、＋１（検知対象画像である）か、−１（非検知対象画像）であるかの確定的な出力を要求する。そこで、アダブーストにおいては、隣接するまたは近接する或る任意の画素位置において、その制約ピクセル間差分特徴量を、１又は複数の閾値を利用して二分割（＋１又は−１)することをもって弱判別器とすることができる。

また、このような２値出力ではなく、学習サンプルの確率分布を示す連続値（実数値）を確率的に出力するような例えばリアル・アダブースト（Ｒｅａｌ−ＡｄａＢｏｏｓｔ）又はジェントルブースト（ＧｅｎｔｌｅＢｏｏｓｔ）などのブースティングアルゴリズムの場合、弱判別器は、入力された画像が対象物である確からしさ（確率）を出力する。弱判別器の出力は、このように確定的であっても、確率的であってもよい。先ず、これら２種類の弱判別器について説明する。

＜２値出力の弱判別器＞
確定的な２値出力をする弱判別器は、制約ピクセル間差分特徴量の値に応じて、検知対象画像か否かの２クラス判別を行なう。対象画像領域（ウインドウ画像）中のある隣接するまたは近接する２つのピクセルの輝度値をＩ１、Ｉ２とし、制約ピクセル間差分特徴量により検知対象画像か否かを判別するための閾値をＴｈとすると、
Ｉ１−Ｉ２＞Ｔｈ・・・（式ｂ）
を満たすか否かで、いずれのクラスに属するかを決定することができる。

ここで、弱判別器を構成するには、隣接するまたは近接する２つのピクセル位置と、その閾値を決定する必要があるが、その決定方法については後述する。上記（式ｂ）の閾値判定は最も単純な場合である。また、閾値判定には、
Ｔｈ１＞Ｉ１−Ｉ２＞Ｔｈ２・・・（式ｃ）
Ｉ１−Ｉ２＞Ｔｈ１ａｎｄＴｈ２＞Ｉ１−Ｉ２・・・（式ｄ）
でそれぞれ表わされる（式ｃ）又は（式ｄ）に示す２つの閾値を用いることもできる。

図７（Ａ）、図７（Ｂ）、図７（Ｃ）は、縦軸に頻度をとり、横軸に制約ピクセル間差分特徴量をとって、それぞれ上記（式ｂ）、（式ｃ）、（式ｄ）に示した３つの判別方法を、検知対象画像データおよび非検知対象画像データの頻度分布の特徴的なケースに合わせて説明するための模式図である。

ここで、図７（Ａ）、図７（Ｂ）、図７（Ｃ）において、ｙｉは弱判別器の出力を示しており、それぞれ破線で示す曲線は、ｙｉ＝−１（非検知対象画像の場合）である全学習サンプルの頻度分布を示し、それぞれ実線で示す曲線は、ｙｉ＝１（検知対象画像の場合）である全学習サンプルの頻度分布を示す。

検知対象画像が例えば顔画像として場合、多数の顔画像、非顔画像からなる学習サンプルに対し、同一の制約ピクセル間差分特徴量に対する頻度を取ると、図７（Ａ）、図７（Ｂ）、図７（Ｃ）に示すヒストグラム分布が得られる。

図７（Ａ）に示すように、ヒストグラム分布が、例えば、破線で示す非検知対象画像の場合と、実線で示す検知対象画像の場合とで、それぞれ同様な形状の正規分布曲線のような分布を示すが、その正規分布曲線のピーク位置がずれるような場合には、２つの正規分布曲線の境の制約ピクセル間差分特徴量を閾値Ｔｈとし、上記（式ｂ）によって、検知対象画像か否かを判別することができる。

例えばアダブーストにおいては、弱判別器の出力をｆ（ｘ）としたとき、入力ウインドウ画像を検知対象画像であると判別すると、出力ｆ（ｘ）＝１となり、また、入力ウインドウ画像を非検知対象画像であると判定すると、出力ｆ（ｘ）＝−１となる。図７（Ａ）では、制約ピクセル間差分特徴量が閾値Ｔｈより大きい場合に検知対象画像であると判定され、弱判別器の出力がｆ（ｘ）＝１となる例を示している。

また、図７（Ｂ）または図７（Ｃ）に示すように、破線で示す非検知対象画像の場合と、実線で示す検知対象画像の場合とで、それぞれの正規分布曲線のピーク位置が同じような位置にあって、そのヒストグラム分布の幅が異なるような場合、分布が狭い方の制約ピクセル間差分特徴量の下限値近傍の値Ｔｈ１および上限値近傍の値Ｔｈ２を閾値として、上記（式ｃ）または（式ｄ）により検知対象画像か否かを判別することができる。

図７（Ｂ）は、分布が狭い方を検知対象画像と判定される例を示し、図７（Ｃ）は、分布の幅が広い方から分布の幅が狭い方を除いたものが検知対象画像と判定されて、弱判別器の出力がｆ（ｘ）＝１となる例を示している。

弱判別器は、ある制約ピクセル間差分特徴量と、その閾値とを決定することにより構成されるが、その判定によって誤り率ができるだけ小さくなるような、即ち判別率が高い制約ピクセル間差分特徴量を選択する必要がある。

例えば、閾値は、隣接するまたは近接する２つの画素位置を決め、正解付けされた学習サンプルに対して図７に示したヒストグラムを求め、最も正解率が高く、非正解率（誤り率）が最も小さくなるような閾値を検索することで、求めることができる。また、隣接するまたは近接する２つの画素位置は、閾値と共に得られる誤り率が最も小さいものを選択するなどすればよい。

ただし、アダブーストにおいては、判別の難易度を反映した重み（データ重み）が各学習サンプルに付けられており、適切な制約ピクセル間差分特徴量（どの位置の隣接するまたは近接する２つの画素の輝度値を特徴値とするか）が、後述する重み付き誤り率を最小にするように学習される。

＜連続値出力の弱判別器＞
確率的な出力をする弱判別器としては、上述した如く、例えばリアル・アダブースト（Ｒｅａｌ−ＡｄａＢｏｏｓｔ）やジェントルブースト（ＧｅｎｔｌｅＢｏｏｓｔ）などのように弱判別器が連続値を出力するものがある。この場合は、或る決められた一定値（閾値）により判別問題を解き、２値出力（ｆ（ｘ）＝１又は−１）ではなく、入力された画像が検知対象画像である度合いを、例えば確率密度関数として出力する。

このような、検知対象画像である度合い（確率）を示す確率的な出力は、制約ピクセル間差分特徴量ｄを入力としたとき、Ｐｐ（ｘ）を学習サンプルの検知対象画像の確率密度関数、Ｐｎ（ｘ）を学習サンプルの非検知対象画像の確率密度関数とすると、図Ａの（式ｅ）に示す関数ｆ（ｘ）とすることができる。

図８（Ａ）は、縦軸に確率密度をとり、横軸に制約ピクセル間差分特徴量をとって、データの頻度分布の特徴的なケースを示す図である。また、図８（Ｂ）は、縦軸に前記（式ｅ）の関数ｆ（ｘ）の値をとり、横軸に制約ピクセル間差分特徴量をとって、図８（Ａ）に示すデータ分布における関数ｆ（ｘ）値の特性を示す図である。

図８（Ａ）において、破線が非検知対象画像であることを示す確率密度、実線が検知対象画像であることを示す確率密度を示す。前記（式ｅ）から関数ｆ（ｘ）を求めると、図８（Ｂ）に示すグラフが得られる。

この場合、弱判別器は、判別工程において、入力されるウインドウ画像から得られた前記（式ａ）に示した制約ピクセル間差分特徴量ｄに対応する関数ｆ（ｘ）を出力する。この関数ｆ（ｘ）は、検知対象画像らしさの度合いを示すものであって、例えば非検知対象画像を−１、検知対象画像を１としたとき、−１〜１までの連続値を取るものとすることができる。

例えば制約ピクセル間差分特徴量ｄと、それに対応する関数ｆ（ｘ）とからなるテーブルを記憶し、入力に応じてテーブルから関数値ｆ（ｘ）を読出し出力する。したがって、一定値である閾値Ｔｈ又はＴｈ１、Ｔｈ２を記憶する場合より若干記憶量が大きくなるが、判別性能が向上する。

これら複数の推定方法（判別方法）は、アンサンブル学習中に組み合わせて使用することで、判別性能が向上することが期待できる。また、いずれか単一の判別方法のみを利用すれば、実行速度性能を引き出すことができる。

この実施の形態において使用する弱判別器は、使用する特徴量（制約ピクセル間差分特徴量）が非常に単純であるために、上述したように極めて高速に検知対象画像の判別を行なうことができる点が特長である。

検知対象画像として例えば顔検出する場合には、制約ピクセル間差分特徴量を、上述の判別方法のうち最も単純な（式ｂ）に示す閾値判定を用いても、極めてよい判別結果が得られるが、どのような判別方法により弱判別器が有効に機能するかは、対象とする問題によって異なり、その閾値設定方法などを適宜選択すればよい。

また、問題によっては、隣接するまたは近接する２つの画素の輝度値の差ではなく、隣接するまたは近接する２以上の複数個の画素間における輝度値の差を特徴量としたり、それらを組み合わせた特徴量を使用したりしてもよい。

＜打ち切り閾値＞
次に、打ち切り閾値について説明する。ブースティングを用いた集団学習機においては、通常は、上述したように判定部２３を構成する全ての弱判別器の出力の重み付き多数決により、ウインドウ画像が検知対象画像か否かを判別する。重み付き多数決は、弱判別器の判別結果（推定値）を逐次足し合わせていくことで算出される。例えば、弱判別器２０ｔのそれぞれに対応する多数決の重み（信頼度）を前述したようにＷｔ、各弱判別器の出力をｆｔ（ｘ）としたとき、アダブーストにおける重み付き多数決の値Ｆ（ｘ）は、図Ａの（式ｆ）により求めることができる。

図９は、横軸に、判定部２３を構成する弱判別器の数をとり、縦軸に前記（式ｆ）に示す重み付き多数決の値Ｆ(ｘ)をとって、入力される画像が検知対象画像か否かに応じた重み付き多数決の値Ｆ(ｘ)の変化を示すグラフ図である。

この図９において、破線で示すデータＤ１〜Ｄ４は、検知対象画像としてラベリングされている画像（学習サンプル）を入力として弱判別器により算出した推定値ｆ（ｘ）を逐次算出し、その重み付き多数決の値Ｆ(ｘ)を逐次求めたものである。このデータＤ１〜Ｄ４に示すように、検知対象画像を入力画像とすると、ある程度の個数の弱判別器の判別によりその重み付き多数決の値Ｆ(ｘ)はプラスになる。

ここで、この実施の形態においては、通常のブースティングアルゴリズムとは異なる手法を導入する。すなわち、弱判別器の判別結果を逐次足し合わせていく過程において、全ての弱判別器の結果を得る前であっても、明らかに検知対象画像ではないと判別できるウインドウ画像については、その判別を中止するものである。この際、判別を中止するか否かを決定する閾値を学習工程にて学習しておく。以下、判別を中止するか否かの判定に用いる閾値を打ち切り閾値という。

この打ち切り閾値により、判定部２３では、全てのウインドウ画像について、全弱判別器の出力結果を用いなくとも、非検知対象画像であることが確実に推定できる場合、弱判別器の推定値ｆ（ｘ）の演算を途中で中止することができ、これにより、全ての弱判別器を使用した重み付き多数決を行なうのに比して格段に演算量を低減することができる。

この打ち切り閾値としては、ラベリングされている学習サンプルのうち、検出検知対象画像を示す学習サンプルの判別結果の重み付き多数決の値が取り得る最小値を用いることができる。

判別工程において、ウインドウ画像の弱判別器による結果が逐次重み付きされて出力される、即ち、重み付き多数決の値が逐次更新されていくが、この更新されていく値と、上記打ち切り閾値とを更新の度、すなわち、１つの弱判別器が判別結果を出力する毎に比較し、更新された重み付き多数決の値が打ち切り閾値を下回る場合には当該ウインドウ画像は検知対象画像ではないとし、計算を打ち切ることができ、これにより無駄な演算を省いて、さらに判別処理を高速化することができる。

すなわち、Ｋ番目の弱判別器の出力ｆ_Ｋ（ｘ）の打ち切り閾値Ｒ_Ｋは、学習サンプルｘｉ（＝ｘ１〜ｘＮ；ｉ＝１〜Ｎ）のうち、検知対象画像である学習サンプルｘｊ（＝ｘ１〜ｘＪ；ｊ＝１〜Ｊ）を使用したときの重み付き多数決の値の最小値とされ、図Ａの（式ｇ）のように定義される。

この（式ｇ）に示すように、検知対象画像である学習サンプルｘ１〜ｘＪの重み付き多数決の値の最小値が０を上回る場合には、打ち切り閾値Ｒ_Ｋには０が設定される。なお、０を上回らないようにするのは、０を閾値にして判別を行なうアダブーストの場合であり、ここは集団学習の手法により異なる場合がありうる。

アダブーストの場合においては、打ち切り閾値は、図９において太線で示すように、入力画像として検知対象画像を入力した場合の全データＤ１〜Ｄ４のうち、取り得る最小値に設定され、全てのデータＤ１〜Ｄ４の最小値が０を超えた場合は、打ち切り閾値が０に設定される。

この実施の形態においては、弱判別器が生成される毎に打ち切り閾値Ｒｔを学習しておくことで、後述する判別工程において、例えばデータＤ５のように、複数の弱判別器により推定値が逐次出力され、重み付き多数決の値が逐次更新されていくが、この値が上記打ち切り閾値を下回った時点で、後段の弱判別器による判別を行なう処理を終了する。

すなわち、この打ち切り閾値Ｒｔを学習しておくことにより、弱判別器の推定値を計算する毎に次の弱判別器の計算を行なうか否かを決定でき、明らかに検知対象画像ではないとされる場合には、全ての弱判別器の判別結果を待たずに非検知対象画像であることが判定でき、演算を途中で打ち切りことにより検出処理を高速化することができる。

［学習の方法］
次に、集団学習機部２４における学習方法について説明する。与えられたデータが、例えば顔か否かを判別する問題など、一般的な２クラス判別のパターン認識問題の前提として、予め人手によりラベリング（正解付け）された学習サンプルとなる画像（訓練データ）を用意する。学習サンプルは、検出したい検知対象画像の領域を切り出した画像群（検知対象画像群）と、検出したい検知対象画像とは全く関係のない例えば風景画などを切り出したランダムな画像群（非検知対象画像群）とからなる。

これらの学習サンプルを基に学習アルゴリズムを適用し、判別時に用いる学習データを生成する。判別時に用いる学習データとは、この実施の形態においては、上述した学習データを含む以下の４つの学習データである。すなわち、
（Ａ）隣接するまたは近接する２つのピクセル位置の組（Ｔ個）
（Ｂ）弱判別器の閾値（Ｔ個）
（Ｃ）重み付き多数決の重み（弱判別器の信頼度）（Ｔ個）
（Ｄ）打ち切り閾値（Ｔ個）
である。

次に、上述したような多数の学習サンプルから、上記（Ａ）〜（Ｄ）に示す４種類の学習データを学習するアルゴリズムを説明する。

図１０は、集団学習機部２４における学習方法を示すフローチャートである。なお、ここでは、学習アルゴリズムとして、弱判別の際の閾値として一定の値を使用するアルゴリズム（アダブースト（ＡｄａＢｏｏｓｔ））に従った学習について説明するが、閾値として正解の確からしさ（確率）を示す連続値を使用する例えばリアル・アダブースト（Ｒｅａｌ−ＡｄａＢｏｏｓｔ）など、弱判別器を複数結合するために集団学習するものであれば、学習アルゴリズムはアダブーストに限らない。

（準備処理）学習サンプルのラベリング
図１０の処理フローに先立ち、上述のように、予め検知対象画像又は非検知対象画像であることがラベリングされた学習サンプル（ｘｉ，ｙｉ）を用意する。

ここで、
学習サンプル（ｘｉ，ｙｉ）：（ｘ１，ｙ１），・・・，（ｘＮ，ｙＮ）
ｘｉ∈Ｘ，ｙｉ∈｛−１，１}
Ｘ：学習サンプルのデータ
Ｙ：学習サンプルのラベル（正解）
Ｎ：学習サンプル数
をそれぞれ示す。

すなわち、ｘｉは、学習サンプル画像の全輝度値からなる特徴ベクトルを示す。また、ｙｉ＝−１は、学習サンプルが非検知対象画像としてラベリングされている場合を示し、ｙｉ＝１は、学習サンプルが検知対象画像としてラベリングされていることを示す。

（ステップＳ１１）データ重みの初期化
ブースティングにおいては、各学習サンプルの重み（データ重み）を異ならせ、判別が難しい学習サンプルに対するデータ重みを相対的に大きくしていく。判別結果は、弱判別器を評価する誤り率（エラー）の算出に使用されるが、判別結果にデータ重みを乗算することで、より難しい学習サンプルの判別を誤った弱判別器の評価が実際の判別率より下まわることになる。データ重みは、後述する方法によって逐次更新されるが、先ず最初にこの学習サンプルのデータ重みの初期化を行なう。学習サンプルのデータ重みの初期化は、全学習サンプルの重みを一定にすることにより行なわれ、図Ｂの（式１）に示すように定義される。

ここで、（式１）の学習サンプルのデータ重みＤ_１，ｉは、繰り返し回数ｔ＝１回目の学習サンプルｘｉ（＝ｘ1〜ｘＮ）のデータ重みを示す。Ｎは学習サンプル数である。

（ステップＳ１２〜Ｓ１７）繰り返し処理
次に、以下に示すステップＳ１２〜ステップＳ１７の処理を繰り返すことで判定部２３を生成する。ここで、繰り返し処理回数をｔ＝１，２，・・・，Ｔとする。１回の繰り返し処理を行う毎に１つの弱判別器、すなわち、隣接または近接する１組の画素と、その組の制約ピクセル間差分特徴量が学習され、従って繰り返し処理回数（Ｔ回）分、弱判別器が生成されて、Ｔ個の弱判別器からなる判定部２３が生成されることになる。

なお、通常、数百〜数千個の繰り返し処理により、数百〜数千個の弱判別器が生成されるが、繰り返し処理回数（弱判別器の個数）は、要求される判別性能、判別する問題（検知対象画像）に応じて適宜設定すればよい。

（ステップＳ１２）弱判別器の学習
ステップＳ１２では、弱判別器の学習（生成）を行うが、この学習方法については後述する。この実施の形態においては、１回の繰り返し処理毎に、１つの弱判別器を、後述する方法に従って生成する。

（ステップＳ１３）重み付き誤り率ｅ_ｔの算出
次に、ステップＳ１２にて生成された弱判別器の重み付き誤り率ｅ_ｔを、図Ｂの（式２）により算出する。

（式２）に示すように、重み付き誤り率ｅ_ｔは、学習サンプルのうち、弱判別器の判別結果が誤っているもの（ｆｔ（ｘｉ）≠ｙｉ）である学習サンプルのデータ重みのみを加算したものとなり、上述したように、データ重みＤ_ｔ，ｉが大きい（判別が難しい）学習サンプルの判別を間違えると、重み付き誤り率ｅ_ｔが大きくなるよう算出される。なお、重み付き誤り率ｅ_ｔは０．５未満となるが、この理由は後述する。

（ステップＳ１４）重み付き多数決の重み（弱判別器の信頼度）の算出
次に、上述の（式２）に示す重み付き誤り率ｅ_ｔに基づき、重み付き多数決の重みＷｔを、図Ｂの（式３）により算出する。この、重み付き多数決の重みＷｔは、繰り返し回数ｔ回目に生成された弱判別器の信頼度を示す。以下、この重み付き多数決の重みＷｔを、信頼度Ｗｔという。

上述の（式３）に示すように、重み付き誤り率ｅ_ｔが小さいものほど、その弱判別器の信頼度Ｗｔが大きくなる。

（ステップＳ１５）学習サンプルのデータ重み更新
次に、上記（式３）にて得られた信頼度Ｗｔを使用して、図Ｂの（式４）により学習サンプルのデータ重みＤ_ｔ，ｉを更新する。データ重みＤ_ｔ，ｉは、通常全部足し合わせると１になるよう正規化されており、図Ｂの（式５）はデータ重みＤ_ｔ，ｉを正規化するためのものである。

（ステップＳ１６）打ち切り閾値Ｒ_ｔの算出
次に、上述したように、判別工程にて、各弱判別器２０ｔの段階で判別を打ち切るための打ち切り閾値Ｒ_ｔを算出する。打ち切り閾値Ｒ_ｔは、上述した図Ａの（式ｇ）に従って、検知対象画像である学習サンプル（ポジディブな学習サンプル）ｘ１〜ｘＪの重み付き多数決の値又は０のうち最も小さい値が選択される。なお、上述したように、最小値又は０を打ち切り閾値に設定するのは、０を閾値にして判別を行なうアダブーストの場合である。いずれにせよ、打ち切り閾値Ｒ_ｔは、少なくとも全てのポジティブな学習サンプルが通過できる最大の値となるよう設定する。

（ステップＳ１７）繰り返し処理
ステップＳ１７においては、所定回数（＝Ｔ回）のブースティングが行われたか否かを判別し、行なわれていないと判別した場合は、ステップＳ１７からステップＳ１２に戻り、上述したステップＳ１２〜ステップＳ１７の処理を繰り返す。所定回数の学習が終了したと判別した場合は、図１０の学習処理を終了する。この実施の形態では、学習サンプルなどの与えられる画像から、検出対象とする検知対象画像を十分判別できる数の弱判別器を学習すると終了するものとする。

［弱判別器の生成］
次に、上述したステップＳ１２における弱判別器の学習方法（生成方法）について説明する。弱判別器の生成は、弱判別器が２値出力の場合と、図Ａの（式ｅ）に示した関数ｆ（ｘ）として連続値を出力する場合とで異なる。また、２値出力の場合においても、前述の（式ｂ）に示したような１つの閾値Ｔｈで判別する場合と、前述の（式ｃ）、（式ｄ）に示したような２つの閾値Ｔｈ１、Ｔｈ２で判別する場合とで処理が若干異なる。

ここでは、１つの閾値Ｔｈで２値出力する弱判別器の学習方法（生成方法）を説明する。図１１は、１つの閾値Ｔｈで２値出力する弱判別器の学習方法（生成方法）を説明するためのフローチャートであり、弱判別器のパラメータ決定手順に相当する。

（ステップＳ２１）画素の選択
ここでは、学習サンプルにおける全画素から隣接または近接する任意の２つの画素を選択する。例えば２４×２４画素の学習サンプルを使用する場合に、その全ての２画素の組ではなく、隣接または近接する２つの画素の組の１つをランダムに選択する。

この実施形態では、差分特徴量つまりエッジ強度を特徴として判別に利用するため、このような隣接または近接する２画素の組を用いる。前述の図５に示したように、選択された２つの画素をＰ１、Ｐ２、その輝度値をそれぞれＩ１、Ｉ２としたとき、この差分特徴量を求めるための２画素Ｐ１、Ｐ２は、ウインドウＷＤ内で、例えば、図１８の（式６）に従うように選ばれる。この（式６）において、（ｘ１，ｙ１）は画素Ｐ１の位置を、（ｘ２，ｙ２）は画素Ｐ２の位置を、θは閾値を示している。

この画素選択により、ある１画素に対して例えば上下左右に隣接するいわゆる４近傍や、また、４近傍画素に加えて斜め方向に近接する画素を含む周囲８画素からなる８近傍などの、隣接または近接する２画素が選択される。

このステップＳ２１では、学習サンプルの全ての２画素の組から隣接または近接する２つの画素の組の群（Ｍ個）を選択しておき、その画素の組の群の中からランダムに、１つの隣接または近接する２つの画素を選択するようにする。ここで、ランダムに選択する理由は、学習の効果を上げるためである。

ここで、例えば人の頭部および肩部の人型の検知に使用する際の２画素の組み合わせ例を、図１２に示す。この例は、ウインドウサイズが２４画素×２４画素（図では簡略化して１２画素×１２画素で表現）の場合であり、黒丸で示したものが選択された弱判別器で使用される２画素である。この図１２は、上位８個の弱判別器で使用される隣接または近接２画素の組み合わせを示したものであり、実際のアンサンブル学習では、さらに多くの弱判別器を用いることになる。

参考のため、検知対象である人の頭部および肩部のエッジ形状の例を図１３に示す。この図１３は、複数枚の頭部画像にエッジ検出処理を施し、その平均を取ったものである。実際の学習過程においては事前にエッジ検出処理を行なわないので、ここでは参考に留めるが、前記のようにして選択された隣接または近接２画素の組を累積していくと、ほぼこの平均画像と同様の形状になっていく。

（ステップＳ２２）頻度分布作成
次に、全ての学習サンプルに対して、ステップＳ２１にて選択した隣接または近接した２つの画素の輝度値の差（Ｉ１−Ｉ２）として、制約ピクセル間差分特徴量ｄを求め、図７（Ａ）に示したようなヒストグラム（頻度分布）を求める。

（ステップＳ２３）閾値Ｔｈminの算出
次に、ステップＳ２２にて求めた頻度分布から、前記図１７の（式２）に示した重み付き誤り率ｅ_ｔを、その最小値ｅminにする閾値Ｔｈminを求める。

（ステップＳ２４）閾値Ｔｈmaxの算出
次に、ステップＳ２２にて求めた頻度分布から、前記図１７の（式２）に示した重み付き誤り率ｅ_ｔを、その最大値ｅmaxにする閾値Ｔｈmaxを求め、図１８の（式７）に示す方法によって閾値を反転する。すなわち、弱判別器は１つの閾値Ｔｈより大きいか否かで正解か不正解かの２つの値を出力するものであり、したがって、重み付き誤り率ｅ_ｔが０．５未満である場合は、閾値を反転することで、重み付き誤り率を０．５以上にすることができる。

（ステップＳ２５）パラメータ決定
次に、上述のｅminとｅmax’とから、弱判別器を構成する各パラメータ、すなわち、隣接または近接する２つの画素Ｐ１、Ｐ２の位置と、その閾値Ｔｈとを決定する。すなわち、
ｅmin＜ｅmax’の場合：Ｐ１、Ｐ２、Ｔｈmin、
ｅmin＞ｅmax’の場合：Ｐ１’（＝Ｐ２）、Ｐ２’（＝Ｐ１）、Ｔｈmin、
とする。

（ステップＳ２６）繰り返し処理
そして、ステップＳ２６において、学習サンプルについて隣接または近接する２つの画素の組の全ての数Ｍ分について、ステップＳ２１〜２５の処理を繰り返したか否かを判別し、全ての画素の組数Mについて、未だステップＳ２１〜２５を繰り返してはいない判別したときには、ステップＳ２１に戻り、ステップＳ２１〜ステップＳ２６の処理を繰り返す。このように、１つの弱判別器の生成にあたって、ｍ（＝１，２，・・・，Ｍ）回の繰り返し処理が行われる。

（ステップＳ２７）弱判別器の選択
ステップＳ２６で、全ての画素の組数Mについて、未だステップＳ２１〜２５を繰り返したと判別したときには、ステップＳ２７に進み、Ｍ回の繰り返し処理にて生成された弱判別器のうち、誤り率ｅ_ｔが最も小さかった弱判別器のパラメータ候補を最終的な弱判別器のパラメータとして採用する。そして、この図１１の処理を終了し、図１０に示したステップＳ１３に進む。

ここで、ステップＳ２７では、弱判別器は、図１８の（式８）を基に判別が行なわれる。この（式８）において、ｋ_１，ｋ_２は、画素Ｉ１，Ｉ２の位置、ｘはウインドウ画像の輝度値、θ_ｔは閾値である。

なお、説明の都合上、図１０に示したステップＳ１３において重み付き誤り率ｅ_ｔを算出するものとして説明したが、ステップＳ２７において、誤り率ｅ_ｔが最も小さい弱判別器を選択した時点で、ステップＳ１３に示す誤り率ｅ_ｔが自動的に得られる。

なお、この実施の形態においては、前回の繰り返し処理においてステップＳ１５にて求めたデータ重みＤ_ｔ，ｉを使用し、複数の弱判別器の特徴量を学習し、これらの弱判別器（弱判別器候補）の中から前記図１７の（式２）に示した重み付き誤り率ｅ_ｔが最も小さいものを選択することで、１つの弱判別器を生成する場合について説明したが、上述のステップＳ１２において、例えば予め用意又は学習した複数の画素位置から任意の画素位置を選択して弱判別器を生成するようにしてもよい。

また、上述のステップＳ１２〜ステップＳ１７までの繰り返し処理に使用する学習サンプルとは異なる学習サンプルを使用して弱判別器を生成してもよい。また、交差検定（ｃｒｏｓｓ−ｖａｌｉｄａｔｉｏｎ）法又はジャックナイフ（jack-knife）法などの評価などのように、学習サンプルとは別のサンプルを用意して、生成された弱判別器や判定部２３の評価を行うようにしてもよい。

ここで、交差検定法とは、学習サンプルを均等にＬ個に分割し、その中から１つ以外を使用して学習を行い、当該１つを使用して学習結果を評価する作業をＬ回繰り返して学習結果の評価を行う手法である。

以上は、弱判別器が１つの閾値Ｔｈを有する場合であるが、前述した（式ｃ）または（式ｄ）に示すように、弱判別器が２つの閾値Ｔｈ１、Ｔｈ２を有するような場合には、図１１に示したステップＳ２３〜ステップＳ２５の処理が若干異なる。

すなわち、前記（式ｂ）に示したように、１つの閾値Ｔｈの場合は、反転することにより、重み付き誤り率が０．５より大きい場合に、その誤り率を反転させることができたが、（式ｃ）に示したように、制約ピクセル間差分特徴量が、閾値Ｔｈ２より大きく、かつ、閾値Ｔｈ１より小さい場合が正解の判別結果である場合、これを反転すると、（式ｄ）に示すように、閾値Ｔｈ２より小さいか、閾値Ｔｈ１より大きい場合が、正解の判別結果になる。すなわち、（式ｃ）の反転は、（式ｄ）となり、（式ｄ）の反転は、（式ｃ）となる。

弱判別器が２つの閾値Ｔｈ１、Ｔｈ２を有して判別結果を出力するような場合は、図１１に示すステップＳ２２において、制約ピクセル間差分特徴量における頻度分布を求め、重み付き誤り率ｅ_ｔを最小にする閾値Ｔｈ１、Ｔｈ２を求める。そして、ステップＳ２６で所定回数Ｍ回、繰り返したことを判別した後、ステップＳ２７で、生成された弱判別器の中で、重み付き誤り率ｅ_ｔが最も小さい弱判別器を採用する。

また、前記（式ｅ）に示したように、２値出力ではなく、連続値を出力する弱判別器の場合、図１１のステップＳ２１と同様にして、先ず、隣接または近接２画素群の中から、２つの画素をランダムに選択する。そして、ステップＳ２２と同様にして、全学習サンプルにおける頻度分布を求める。そして、得られた頻度分布に基づき、（式ｅ）に示した関数ｆ（ｘ）を求める。

そして、弱判別器の出力として検知対象画像である度合い（正解である度合い）を出力するような所定の学習アルゴリズムに従って誤り率を算出するという一連の処理を所定回数Ｍ回繰り返し、誤り率が最も小さい（正答率が高い）パラメータを選択することで弱判別器を生成する。

以上のようにして、繰り返し回数の最大数繰り返す、すなわち、生成し得る最大数の弱判別器を生成し、それらの中から誤り率が最も小さいものを弱判別器として採用すると、性能が高い弱判別器を生成することができるが、最大回数未満の例えば数百回繰り返し処理を行って、その中から最も誤り率が小さいものを採用してもよい。

なお、上述の説明では、ウインドウＷＤは、例えば２４画素×２４画素の図１４（Ａ）に示すような矩形形状としたが、前述もしたように、ウインドウＷＤの形状およびサイズは、これに限られるものではなく、例えば、検知対象画像の輪郭形状特徴に併せたウインドウ形状としてもよい。例えば前述した人の頭部および肩部の人型を検知対象とする場合には、図１４（Ｂ）に示すように、黒く塗り潰した領域をマスク領域として、その領域を使用せず、有効な領域のみで、隣接または近接する２画素を抽出して、学習に用いるようにしても良い。

［検知対象画像の検出判定方法］
次に、図１に示した検知対象画像検出装置における検知対象画像検出方法の実施形態について説明する。図１５は、検知対象画像検出方法の実施形態を示すフローチャートであり、図２に示した処理のフローチャートよりは、詳細な処理説明図である。

検出時（判別工程）においては、上述のようにして生成された弱判別器群２０１〜２０Ｔを利用した判定部２３を使用し、所定のアルゴリズムに従って、入力画像供給装置部からの入力画像中から検知対象画像を検出する。なお、この図１５の例は、入力画像供給装置部からの入力画像が、最大のサイズのスケーリング画像となっている場合である。

（ステップＳ３１）スケーリング画像生成
先ず、図１に示した検知対象画像判定装置部２では、スケーリング部２１が、入力画像供給装置部１から与えられた濃淡画像（入力画像）を一定の割合で縮小スケーリングする。この場合、入力画像供給装置部１は、入力画像として濃淡画像が入力されたものをそのまま検知対象画像判定装置部２に出力するようにしてもよく、また、入力画像供給装置部２にて、その入力画像を濃淡画像に変換した後、検知対象画像判定装置部２に出力するようにしてもよい。

スケーリング部２１は、最初は、入力画像供給装置部１から与えられる画像をスケール変換せずに出力し、次のタイミング以降で縮小スケーリングしたスケーリング画像を出力する。ここで、次のスケーリング画像を生成するタイミングは、前に出力したスケーリング画像の全領域についての検知対象画像の検出判定が終了した時点とする。

そして、この例では、スケーリング画像が、ウインドウ画像より小さくなった時点で、入力画像の１枚分についての検知対象画像の検出判定処理が終了したとして、次の入力画像（動画の場合には、次のフレームの画像）の処理に移る。ただし、図１５は、１枚の入力画像についての検知対象画像の検出判定処理となっており、図１５の処理が、入力画像の１枚ごとに行なわれるものである。

（ステップＳ３２）
走査部２２は、スケーリング部２２からのスケーリング画像の情報を受け取り、当該スケーリング画像上において、ウインドウＷＤの位置を縦横に走査し、各走査位置におけるウインドウ画像を判定部２３に出力する。

（ステップＳ３３、３４）評価値ｓの算出
判定部２３は、走査部２２から出力されるウインドウ画像が検知対象画像であるか否かを判定する。判定部２３は、ウインドウ画像に対して、上述した複数の弱判別器２０ｔ（＝２０１〜２０Ｔ）の推定値ｆｔ（ｘ）を、逐次、重み付き加算し、その重み付け加算値（重み付き多数決の値の更新値）を評価値ｓとして算出する。そして、この評価値ｓに基づき、ウインドウ画像が検知対象画像か否か、及び判別を打ち切るか否かを判定する。

なお、実際的には、判定部２３は、評価値ｓを処理制御部２０に出力し、処理制御部２０が、ウインドウ画像が検知対象画像か否か、及び判別を打ち切るか否かを判定するようにする。

判定部２３は、先ず、ウインドウ画像が入力されると、その評価値ｓ＝０に初期化する。判定部２３の初段の弱判別器２０１は、制約ピクセル間差分特徴量ｄを算出する（ステップＳ３３）。そして、この弱判別器２０１が出力する推定値を上記評価値ｓに反映させる（ステップＳ３４）。

ここで、上述した（式ｂ）、（式ｃ）、（式ｄ）により、２値の推定値を出力する弱判別器と、（式ｅ）に示す関数ｆ（ｘ）を推定値として出力する弱判別器とでは、その推定値の評価値ｓへの反映の仕方が異なる。

先ず、前記（式ｂ）を弱判別器２０ｔに利用し、２値の値を推定値として出力する場合、評価値ｓは、図１８の（式９）に示すようなものとなる。

また、前記（式ｃ）を弱判別器２０ｔに利用し、２値の値を推定値として出力する場合、評価値ｓは、図１８の（式１０）に示すようなものとなる。

また、前記（式ｄ）を弱判別器２０ｔに利用し、２値の値を推定値として出力する場合、評価値ｓは、図１８の（式１１）に示すようなものとなる。

また、前記（式ｅ）を弱判別器２０ｔに利用し、関数ｆを推定値として出力する場合、評価値ｓは、図１８の（式１２）に示すようなものとなる。

（ステップＳ３５、Ｓ３６、Ｓ３７、Ｓ３８）検出判定および打ち切り判定
そして、判定部２３（または処理制御部２０）は、上述に示した例えば４つの方法の何れかにより得られた（更新された）評価値ｓが、打ち切り閾値Ｒ_ｔより大きいか否かを判定する（ステップＳ３５）。このステップＳ３５で評価値ｓが打ち切り閾値Ｒ_ｔより大きいと判別された場合は、所定回数（＝Ｔ回）繰り返したか否かを判別し（ステップＳ３６）、Ｔ回繰り返していないと判別したときには、ステップＳ３３に戻り、このステップＳ３３からステップＳ３６までの処理を繰り返す。

また、ステップＳ３６で、所定回数（＝Ｔ回）繰り返していると判別したときには、判定部２３は、得られている評価値ｓが０より大きいか否かにより、ウインドウ画像が検知対象画像であるか否かの判定をして、検知対象画像であると判定した場合は、処理制御部２０は、現在のスケーリング画像サイズおよびウインドウ位置を記憶する（ステップＳ３７）。そして、ステップＳ３７の次には、ステップＳ３８に進む。

また、ステップＳ３５で、評価値ｓが打ち切り閾値Ｒ_ｔより小さいと判別されたときにも、ステップＳ３８に進む。ステップＳ３８では、処理制御部２０が、次の探索ウインドウがあるか否かを判別し、次の探索ウインドウがあると判別したときには、ステップＳ３２に戻り、このステップＳ３２からの処理を繰り返す。

また、ステップＳ３８で、次の探索ウインドウがないと判別したときには、処理制御部２０は、ステップＳ３９に進み、次のスケーリング画像があるか否かを判別し、次のスケーリング画像があると判別した場合は、ステップＳ３１に戻って、このステップＳ３１からの処理を繰り返す。前述したように、ステップＳ２１のスケーリング処理は、ウインドウ画像よりスケーリング画像が小さくなった時点で終了する。

（ステップＳ４０〜Ｓ４２）重なり領域の削除
ステップＳ３９で、次のスケーリング画像がなくなったと判別したときには、検知対象画像であると検知判定されたウインドウ画像領域についての重なり領域の有無を判定し、重なり領域があるときには、当該重なり領域の削除処理を実行する。

すなわち、ステップＳ３９で、１枚の入力画像に対して、全てのスケーリング画像の処理が終了したと判別すると、検出判定された検知対象画像の領域（ウインドウ画像の領域）について、重なりがあるか否か判別する（ステップＳ４０）。

ステップＳ４０で、互いに重なっている領域が在ると判別したときには、当該互いに重なっている２つのウインドウ領域を取り出し（ステップＳ４１）、この２つのウインドウ領域のうち、評価値ｓが小さい領域は信頼度が低いとみなし削除し、評価値ｓの大きい領域を真の検知対象画像の領域であると選択する（ステップＳ４２）。

そして、ステップＳ４２からステップＳ４０に戻り、互いに重なっている領域がなくなるまで、ステップＳ４０からステップＳ４２までの処理を繰り返す。そして、ステップＳ４０で、互いに重なっている領域がないとは判別されると、この図１５の処理ルーチンを終了する。これにより、複数個の重複領域が検出されても、最も評価値ｓが高い領域１枚のみが選択される。

以上のように、この実施の形態における検知対象画像検出方法によれば、制約ピクセル間差分特徴量により弱判別する弱判別器を集団学習により学習した判定部を使用して検知対象画像を検出するため、ウインドウ画像において、対応する２つの画素の輝度値を読み出し、その差を算出するのみで、上記ステップＳ３３における検知対象画像の特徴量の算出工程が終了し、極めて高速に検知対象画像の検出処理することができるため、リアルタイムな人型などの検出が可能である。

また、制約ピクセル間差分特徴量から判別した判別結果（推定値）と、判別に使用した弱判別器に対する信頼度とを乗算した値を加算して評価値ｓを逐次更新する毎に打ち切り閾値Ｒｔと比較し、弱判別器の推定値の演算を続けるか否かを判定する。そして、打ち切り閾値Ｒｔを評価値ｓが下回った場合に弱判別器の演算を打ち切り、次のウインドウ画像の処理に移ることにより、無駄な演算を飛躍的に低減して、更に高速に検知対象画像の検出が可能となる。

すなわち、入力画像及びそれを縮小スケーリングした、またスケーリング画像の全ての領域を走査してウインドウ画像を切り出した場合、それらのウインドウ画像のうち検知対象画像である確率は小さく、ほとんどが非検知対象画像である。この非検知対象画像であるウインドウ画像の判別を、途中で打ち切ることで、判別工程を極めて高効率化することができる。

なお、逆に検出すべき検知対象画像が多数含まれるような場合、上述した打ち切り閾値と同様の手法にて、検知対象画像であることが明らかなウインドウ画像の演算を、途中で打ち切るような閾値も設けてもよい。さらに、入力画像をスケーリング部にて、種々のサイズにスケーリングすることで、固定サイズのウインドウを用いるものであっても、実質的に任意の大きさの探索ウインドウを設定したのと等価となり、任意の大きさの検知対象画像を検出することができる。

また、例えば顔を検知対象画像とする場合に、目、鼻、口などを詳細に検知判別する場合には、ウインドウＷＤ内の全ての２画素の組み合わせについて、ピクセル間差分特徴量を求めることで、それを検知判別することができるが、全ての２ピクセル間差分特徴量を求める必要がある分、演算量が多くなる。

これに対して、この実施形態の場合には、全ての２ピクセル間差分特徴量を求めるのではなく、上述した隣接または近接する２画素のみを用いた制約ピクセル間差分特徴量を用いるものであり、特に、例えば、顔の目、鼻、口などの詳細部分は検知する必要がない人型の検知を行なう場合に好適であり、有効である。何故なら、人の頭部、肩部にかけての輪郭形状は、一般に特徴的なΩ型であり、見る方向によらずΩ型に見えるから、全ての２画素間の特徴量を用いるよりも、効率的で有効な検知判別が可能となる。

すなわち、この実施形態によれば、一般に行われる画像マッチングのような詳細なパターンの比較ではなく、大体の輪郭の類似性から検知対象物体を検知できるようになるため、個体や見る方向などによる違いを吸収した検知を行なうことが可能である。

前述したように、人の頭部肩部にかけての輪郭形状は、一般に特徴的なΩ型である。ただし、ある特定の形状テンプレートを用いてそのΩ型を表現し、人を検知することは、個人個人の体型、髪型を含む特徴の違いにより難しい。これに対して、この実施形態の手法は、輪郭形状を表す制約ピクセル間差分特徴量を判別特徴量としているために、人のようなΩ型を検知するのに有利である。

そして、例えばΩ型を特徴量とした場合、顔の表情、メガネ、マスクの着用、顔の向きに寄らない検知が可能である。さらに、後頭部からの検知など、顔検知には不可能な向きからの検知も可能になる。

さらに、この実施形態の制約ピクセル間差分特徴量を用いたアンサンブル学習法型検知判定装置は、弱判別器を終結した判定装置であるため、ひとつの判別器からなるような判別手法よりも、個人個人の輪郭形状の差異に対してロバストな検知を行なうことができる。また、実際の人型を学習してテンプレートを作るようにするため、勝手に定義された特定形状テンプレートを用いる他の手段よりもロバストな検知が行なえる。

この発明による検知対象画像検出装置の実施形態における処理機能を示す機能ブロック図である。図１の実施形態における検知対象画像の検知判定処理動作を説明するためのフローチャートである。図１の実施形態におけるスケーリング部２１にてスケール変換された画像を示す模式図である。図１の実施形態における走査部２２が探索ウインドウを走査する様子を示す図である。制約ピクセル間差分特徴量を説明するための画像を示す模式図である。図１の実施形態における判定部２３の構成例を示す図である。図１の実施形態における検知対象画像の検知判定方法と、閾値との関係を説明するための図である。図１の実施形態における検知対象画像の他の検知判定方法と、閾値との関係を説明するための図である。横軸に弱判別器の数をとり、縦軸に重み付き多数決の値Ｆ(ｘ)をとって、入力される画像が検知対象画像か否かに応じた重み付き多数決の値Ｆ(ｘ)の変化を示す図である。図１の実施形態における判定部２３を構成する複数個の弱判別器を得るための集団学習機の学習方法の一例を示すフローチャートである。１つの閾値Ｔｈで２値出力する弱判別器の学習方法（生成方法）の一例を示すフローチャートである。図１１の学習方法で生成される弱判別器で用いる２画素の組の例を示す図である。この発明の実施形態で使用される学習サンプルの一例を説明するための図である。この発明の実施形態における走査部２２で使用されるウインドウの他の例を説明するための図である。この発明の実施形態における検知対象画像検出方法の一例を示すフローチャートである。この発明の実施形態の説明に用いる式を示す図である。この発明の実施形態の説明に用いる式を示す図である。この発明の実施形態の説明に用いる式を示す図である。

符号の説明

１…入力画像提供装置部、２…検知対象画像検出装置部、３…結果出力装置部、２０…処理制御部、２１…スケーリング部、２２…走査部、２３…判定部、２４…集団学習機部、２０１〜２０Ｔ…弱判別器、２１０…加算器

Claims

与えられた濃淡画像が検知対象画像であるか否かを判定する検知対象画像判定装置であって、
前記濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して設けられ、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を算出する弱判別手段の複数個と、
前記複数個の弱判別手段により算出された前記推定値に基づいて、前記与えられた濃淡画像が前記検知対象画像であるか否かを判定する判定手段と
を備えることを特徴とする検知対象画像判定装置。
請求項１に記載の検知対象画像判定装置において、
前記複数個の弱判別手段のそれぞれからの前記推定値に対して、前記学習により求められた重み付け係数を乗算する重み付け付与手段と、
前記判定手段は、前記重み付け付与手段からの前記重み付けが付与された前記推定値に基づいて、前記与えられた濃淡画像が前記検知対象画像であるか否かを判定する
ことを特徴とする検知対象画像判定装置。
濃淡画像中から検知対象画像を検出判定する検知対象画像判定装置であって、
前記濃淡画像を縮小し、複数の異なる大きさの画像を生成する画像縮小手段と、
前記画像縮小手段からの前記複数の異なる大きさの縮小画像のそれぞれを、固定サイズのウインドウ単位で走査する走査手段と、
前記走査手段から得られる前記ウインドウ単位の濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して設けられ、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を算出する弱判別手段の複数個と、
前記複数個の弱判別手段により算出された前記推定値に基づいて、前記ウインドウ単位の濃淡画像が前記検知対象画像であるか否かを判定する判定手段と
を備えることを特徴とする検知対象画像判定装置。
請求項３に記載の検知対象画像判定装置において、
前記複数個の弱判別手段のそれぞれからの前記推定値に対して、前記学習により求められた重み付け係数を乗算する重み付け付与手段と、
前記判定手段は、前記重み付け付与手段からの前記重み付けが付与された前記推定値に基づいて、前記与えられた濃淡画像が前記検知対象画像であるか否かを判定する
ことを特徴とする検知対象画像判定装置。
与えられた濃淡画像が検知対象画像であるか否かを判定する検知対象画像判定方法であって、
前記濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して行なうものであって、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を、前記複数個の画素の組のそれぞれについて算出する弱判別工程と、
前記弱判別工程で算出された前記複数個の推定値に基づいて、前記与えられた濃淡画像が前記検知対象画像であるか否かを判定する判定工程と
を備えることを特徴とする検知対象画像判定方法。
請求項５に記載の検知対象画像判定方法において、
前記弱判別工程で算出された前記複数個の推定値のそれぞれに対して、前記学習により求められた重み付け係数を乗算する重み付け付与工程と、
前記判定工程では、前記重み付け付与工程で前記重み付けが付与された前記推定値に基づいて、前記ウインドウ単位の濃淡画像が前記検知対象画像であるか否かを判定する
ことを特徴とする検知対象画像判定方法。
濃淡画像中から検知対象画像を検出判定する検知対象画像判定方法であって、
前記濃淡画像を縮小し、複数の異なる大きさの縮小画像を生成する画像縮小工程と、
前記画像縮小工程で生成された前記複数の異なる大きさの縮小画像のそれぞれを、固定サイズのウインドウ単位で走査する走査工程と、
前記走査工程で得られる前記ウインドウ単位の濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して行なうものであって、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を、前記複数個の画素の組のそれぞれについて算出する弱判別工程と、
前記弱判別工程で算出された前記複数個の推定値に基づいて、前記ウインドウ単位の濃淡画像が前記検知対象画像であるか否かを判定する判定工程と
を備えることを特徴とする検知対象画像判定方法。
請求項７に記載の検知対象画像判定方法において、
前記弱判別工程で算出された前記複数個の推定値のそれぞれに対して、前記学習により求められた重み付け係数を乗算する重み付け付与工程と、
前記判定工程では、前記重み付け付与工程で前記重み付けが付与された前記推定値に基づいて、前記ウインドウ単位の濃淡画像が前記検知対象画像であるか否かを判定する
ことを特徴とする検知対象画像判定方法。
与えられた濃淡画像が検知対象画像であるか否かを判定するためにコンピュータを、
前記濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して設けられ、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を算出する弱判別手段の複数個、および、
前記複数個の弱判別手段により算出された前記推定値に基づいて、前記与えられた濃淡画像が前記検知対象画像であるか否かを判定する判定手段
として機能させるための検知対象画像判定プログラム。
濃淡画像中から検知対象画像を検出判定するためにコンピュータを、
前記濃淡画像を縮小し、複数の異なる大きさの画像を生成する画像縮小手段と、
前記画像縮小手段からの前記複数の異なる大きさの縮小画像のそれぞれを、固定サイズのウインドウ単位で走査する走査手段、
前記走査手段から得られる前記ウインドウ単位の濃淡画像を構成する画素のうちの、予め学習により定められた隣接または近接する２つの位置の画素の組の複数個のそれぞれの組に対して設けられ、前記画素の組の２画素間の輝度値の差分を特徴量として求め、前記特徴量に基づいて前記画素の組が前記検知対象画像の輪郭部分であるか否かを示す推定値を算出する弱判別手段の複数個、および、
前記複数個の弱判別手段により算出された前記推定値に基づいて、前記ウインドウ単位の濃淡画像が前記検知対象画像であるか否かを判定する判定手段
として機能させるための検知対象画像判定プログラム。