JP2004054638A

JP2004054638A - クロスモーダル学習装置及び認識処理方法

Info

Publication number: JP2004054638A
Application number: JP2002211759A
Authority: JP
Inventors: Takamasa Echizen; 越膳　孝方; Sou Yamada; 山田　想; Koji Tsujino; 辻野　広司
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2002-07-19
Filing date: 2002-07-19
Publication date: 2004-02-19

Abstract

【課題】複数のセンサ情報を統合し、環境の変化に柔軟に対応可能な学習処理を、計算処理量と記憶容量を過大に増大させることなく実現する。
【解決手段】再配線回路２４は、外界の情報を計測する複数のセンサ２０からの情報を形状スプラモダリティと動きスプラモダリティとに統合する。注意的強化学習部２６は、期待値最大化アルゴリズムにより、形状スプラモダリティと動きスプラモダリティのパラメータを学習する。結合記憶マップ３４は、重みベクトルを使用して前記形状スプラモダリティと前記動きスプラモダリティの結合関係を計算し、予測的行動に関わる注意クラスを決定する。行動制御部３６は、決定された注意クラスに応じた行動を出力する。このようにして、本発明によるクロスモーダル学習装置１０は、教師データに基づかず自己教師的にパラメータ最適化を行うので、環境の変化に対して柔軟に適合する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、種類の異なる複数のセンサ情報を統合処理し、適切な行動を選択するためのクロスモーダル学習装置及び認識処理方法に関する。
【０００２】
【従来の技術】
認識処理や計測などの分野では、認識や計測の精度を向上させ信頼度を上げるための手段として、複数のセンサを利用したセンサ統合技術が用いられる。しかし、周囲の環境に応じてセンサの検出能力や精度にはばらつきがあるため、周囲環境に適さないセンサを用いると十分な認識処理が行えなくなる。そこで、種類の異なる複数のセンサを用いて認識処理を行うシステムが提案されている。
【０００３】
そのようなシステムの例として、特開２００２−３２７５４号公報においては、種類の異なる複数のセンサで各々検出された検出データに関する情報に対する重みを周囲環境の変化に応じて適切に変化させることにより、環境変化に対して柔軟に適合可能とした認識処理装置が提供されている。この装置では、予め想定される周囲環境に対する適切な重みを周囲環境情報と共に記憶手段に記憶しておく。そして、実動作においては、検出領域の周囲環境に関する情報を入力し、周囲環境を参照データとして記憶手段から重みを引き出して用いる手法を取る。従って、周囲環境が記憶手段に記憶されていないような想定外の状況になった場合には、適切な重み設定を行うことが極めて困難であるという問題がある。
【０００４】
この発明のように、予め与えられるデータすなわち教師データに基づいて学習やパラメータ最適化を行う場合には、環境の変化に対する柔軟な対応が一般に困難であることが知られている。
【０００５】
教師データを用いず、外部情報のみに基づいて対象を認識するようにすれば環境の変化に柔軟に対応する装置を実現することができる。このようなシステムの例が、特開平８−３０５８５３号公報に開示されている。記号推論システムのように問題解決に必要な情報を全て記号表現として与えるようなシステムでは、外界情報から記号への変換と意味の付与を全て人間が行う必要があるため、解決可能な問題が極めて限定されてしまう。この問題を解決するため、上記発明による意思決定装置は、センサ情報を処理することによって外界情報を内部データ表現に変換するシステムを構築している。すなわち、意思決定装置は、各種のセンサ情報から形状、動き、色、テクスチャ等の属性に対応する情報を抽出しそれらをシステム内部で照合可能な内部データ表現に変換する機構を有する。そして、その内部データ表現と記憶蓄積部に記憶されたデータとの照合を条件付き確率に基づいて行うことにより、認識対象物体の認識を行う。これにより、従来の記号表現とは異なる柔軟な推論を爆発的な計算量の増大なしに行うことが可能となる。
【０００６】
しかしながら、この発明では、センサ情報として画像信号を用いる場合のみが示されており、他の複数種類のセンサ情報を同時に入力する場合の処理方法に関しては述べられていない。また、認識対象と行動計画の対応表は前もって与えられており、これを自ら獲得するための学習手段については述べられていない。
【０００７】
また、本願発明者らによるＴ．　Ｋｏｓｈｉｚｅｎ，　Ｋ．　Ａｋａｔｓｕｋａ　ａｎｄ　Ｈ．　Ｔｓｕｊｉｎｏ，　“Ａ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｍｏｄｅｌ　ｏｆ　Ａｔｔｅｎｔｉｖｅ　Ｖｉｓｕａｌ　Ｓｙｓｔｅｍ　Ｉｎｄｕｃｅｄ　ｂｙ　Ｃｏｒｔｉｃａｌ　ＮｅｕｒａｌＮｅｔｗｏｒｋｓ”，　Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，　Ｖｏｌ．　４４−４６Ｃ，　ｐｐ．　８７９−８８５　（Ｊｕｎ．　２００２）は、センサの取得した画像を複数の局所領域に分割し、各局所領域毎に特徴を抽出し、抽出した特徴を画像全体で融合させてモダリティ情報とし、この情報に基づいて行動推定のための注意のクラスを決定する画像処理装置を開示している。この発明も、使用するセンサ情報は画像のみであり、それ以外のセンサ情報をも統合する処理方法は述べられていない。
【０００８】
【発明が解決しようとする課題】
本発明は上記の点に鑑みてなされたものであり、複数のセンサ情報を統合し、環境の変化に柔軟に対応可能な学習処理を、計算処理量と記憶容量を過大に増大させることなく実現する装置及び方法を提供することを目的とする。
【０００９】
【課題を解決するための手段】
本発明によるクロスモーダル学習装置は、複数のセンサ情報をモダリティ（感覚情報処理の様式）情報に集約する再配線回路と、教師データ無しで内部パラメータの学習を行う注意的強化学習機構とを備えることを特徴とする。
【００１０】
本発明の一実施形態によると、クロスモーダル学習装置は、外界の情報を計測する複数のセンサと、各センサで捉えた情報を位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離するモダリティ分離手段と、前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報をそれぞれ形状スプラモダリティと動きスプラモダリティに統合する再配線回路と、形状スプラモダリティと動きスプラモダリティのパラメータを学習する注意的強化学習部と、形状スプラモダリティと動きスプラモダリティに基づいて注意クラスを決定する結合記憶マップと、前記注意クラスに応じた行動を出力する行動制御部を備える。
【００１１】
この形態では、クロスモーダル学習装置は、複数のセンサ情報を形状という（スプラ）モダリティ情報と動きという（スプラ）モダリティ情報とに統合する処理を行う。このように異種センサによる情報を統合することによって、より正確な行動の選択が行える。これらスプラモダリティ情報は、確率密度分布と密接に関連している。
【００１２】
各センサで捉えた情報は、必要に応じてさらに複数のサブセンサデータに分離され、該サブセンサデータは位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離される。
【００１３】
注意的強化学習部は、位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に基づいて前記行動の事後確率を計算する強化学習部をさらに含む。強化学習部は、事後確率を使用して、期待値最大化アルゴリズムによりスプラモダリティ情報に関するパラメータを更新する。
【００１４】
注意的強化学習部は、事後確率を評価して、評価結果に応じた報酬を出力する行動評価部をさらに含む。また、報酬値を使用してコスト関数を計算し、該コスト関数と所定の閾値との比較結果に応じて、重みベクトルの変更を指示する注意転調を行うか否かを判断する注意要求／転調部をも含む。そして、強化学習部は注意転調に応じて重みベクトルを再計算する。結合記憶マップは、重みベクトルを使用して前記形状スプラモダリティと前記動きスプラモダリティの結合関係を計算し、予測的行動に関わる注意クラスを決定する。
【００１５】
このような構成によって、クロスモーダル学習装置は教師データに基づかずに自己教師的にパラメータ最適化を行うので、環境の変化に対して柔軟に適合可能となる。さらに、本発明の一実施形態によれば、スプラモダリティ情報と注意クラスとの関係を記述するマップのみを準備すれば足り、このマップのサイズはセンサ数には依存しないので、自己教師型の学習処理を少ない計算処理量と少ない記憶容量で実現することができる。
【００１６】
【発明の実施の形態】
＜本発明の概念的説明＞
初めに、図１を参照して本発明による認識処理の概念を説明する。
【００１７】
本発明では、ＣＣＤカメラやＸ線センサのように画像情報を捉える視覚センサ、マイクロフォン等の聴覚センサ、触圧を感知する触覚センサ等、モダリティ情報を計測可能な任意のセンサを用いて外界情報を計測する。これらのセンサにより計測されたデータは、必要に応じてサブセンサ情報に分離される。得られたサブセンサデータから、センサの種類に応じた適切な処理により、まず位置情報が抽出される。
【００１８】
抽出された位置情報は、二次元位置座標にｓ_−１，ｋ（Ｘ，Ｙ）として展開される。図１中の四角形６が認識対象の平面であり、四角形６の中の小丸が位置座標成分を表す。二次元位置座標は、例えば一方が視覚センサでもう一方が聴覚センサである場合のように、各サブセンサ毎に異なることもあるが、一定の対応関係を持っており所定の計算で同じ座標に変換することができる。
【００１９】
展開された位置座標成分ｓ_−１，ｋ（Ｘ，Ｙ）は、それぞれ時間差分を計算され、二次元速度座標上にｓ_＋１，ｋ（Ｖ_Ｘ，Ｖ_Ｙ）として展開される。位置座標と同様に、図中の四角形８が認識対象の平面であり、四角形８の中の小丸が速度座標成分を表す。
【００２０】
本明細書では、ｓ_−１，ｋ（Ｘ，Ｙ）を「位置センサモダリティ」、ｓ_＋１，ｋ（Ｖ_Ｘ，Ｖ_Ｙ）を「速度センサモダリティ」と呼ぶ。２つを併せて「センサモダリティ」と呼ぶ場合もある。
【００２１】
続いて、期待値最大化アルゴリズム（ＥＭアルゴリズム）を用いた学習によって獲得されるパラメータの集合θを用いて、別々に得られる複数のセンサモダリティを、それぞれ二次元位置座標及び二次元速度座標上の各点において、スプラモダリティ情報ρ_−１（ｓ_−１（Ｘ，Ｙ））とρ_＋１（ｓ_＋１（Ｖ_ｘ，Ｖ_ｙ））に統合する。前者は、二次元位置座標に基づいて計算されていることから、認識対象の形状様式を表現していると捉えることができ、従ってこれを「形状スプラモダリティ」と呼ぶ。後者は、二次元速度座標に基づいて計算されていることから、認識対象の動き様式を表現していると捉えることができ、従ってこれを「動きスプラモダリティ」と呼ぶ。ρ_−１（ｓ_−１）とρ_＋１（ｓ_＋１）は、集合的にスプラモダリティ情報ρ_ｉ（ｓ_ｉ）（ｉ＝±１、ここで、ｉ＝−１は形状を表し、ｉ＝＋１は動きを表す）と記載する場合もある。
【００２２】
続いて、スプラモダリティ情報ρ_−１（ｓ_−１）及びρ_＋１（ｓ_＋１）と、スプラモダリティ情報の結合関係を表す重みベクトルｗ_ｉを用いて、予測的行動情報に関わる注意クラスΩが決定される。ここで、予測的行動情報とは、後の処理においてどのような行動を出力させるかという指針となる情報のことである。重みベクトルｗ_ｉはＡｌｌｅｎ−Ｃａｈｎアルゴリズムを用いて最適化される。そして、決定された注意クラスΩに基づいた行動が外界に出力されることになる。
【００２３】
本願発明者らによる上述の文献における処理は、図１において一点鎖線で囲んだ部分に相当すると考えることができる。この発明においては、センサ情報として視覚センサのみが用いられている。そして、センサから得られる情報に基づいて抽出された動きに関わる局所的な情報がＥＭアルゴリズムにより計算され、さらにこの局所的な情報から注意クラスが決定されている。
【００２４】
これに対し、本発明によるクロスモーダル学習装置では、複数のセンサを統合的に用いることが可能である。そして、これらセンサ情報に基づいて形状と動きの両者に関わるスプラモダリティ情報を計算し、スプラモダリティ情報に基づいて注意クラスが決定される。すなわち、本発明によるクロスモーダル学習装置の特徴の１つは、複数のセンサ情報を形状スプラモダリティと動きスプラモダリティに集約する処理を行う点にある。このような処理を行うことによって、センサ数の増加に伴う計算量の増大が抑制される。
【００２５】
＜構成要素の説明＞
次に、本発明の一実施形態であるクロスモーダル学習装置１０について、図２を参照して説明する。クロスモーダル学習装置１０は、Ｚ個のセンサ２０、Ｍ個のサブセンサ２２、再配線回路２４、注意的強化学習部２６、結合記憶マップ３４、行動制御部３６の各機能ブロックにより構成される。このうち、図１のセンサモダリティはサブセンサ２２に対応し、形状スプラモダリティと動きスプラモダリティは再配線回路２４で計算される。また、図１中のＥＭアルゴリズムによるパラメータθの学習と重みベクトルｗ_ｉの設定は、注意的強化学習部２６で行われる。クロスモーダル学習装置１０は、センサ２０を除きコンピュータにより実現することができ、各機能ブロックはソフトウェアでもハードウェアでも構成することができる。
【００２６】
ここで、予め符号の説明をしておく。時間ステップｊとは、センサ２０が計測した外界情報を出力するタイミングであり、これは注意的強化学習部２６における学習の時間ｔとは無関係に進行する。
【００２７】
また、ある変数Ａについて「Ａ_{ｉ，ｋ，ｊ}」のように表記した場合、Ａは、ｋ番目（１≦ｋ≦Ｍ）のサブセンサ２２が時間ステップｊにおいて出力したスプラモダリティｉに関連する情報であることを表している。ここで、上述したようにｉ＝±１はスプラモダリティ情報の種類である。また、「Ａ_ｉ，ｋ」のようにインデックスｊを付けずに表記した場合は、Ａは、ｋ番目のサブセンサ２２が直近の時間ステップにおいて出力したスプラモダリティｉに関連する情報であることを示す。
【００２８】
以下、クロスモーダル学習装置１０の各ブロックの機能を順に説明する。
【００２９】
Ｚ個のセンサ２０は、それぞれ外界の情報を計測する。各センサ２０は、ＣＣＤカメラやＸ線センサのように画像情報を捉える視覚センサ、マイクロフォン等の聴覚センサ、触圧を感知する触覚センサ等、モダリティ情報を計測可能な任意のセンサとすることができる。外界の特性に応じて、若しくは行動を出力する対象に応じて、ＣＣＤカメラと赤外線カメラ、Ｘ線センサといったように異なる作用で視覚情報を得るセンサを組み合わせることも、あるいは視覚センサと聴覚センサ、触覚センサといったように異なるモダリティ情報を得るセンサを組み合わせることも可能である。
【００３０】
計測されたデータは、必要に応じてサブセンサデータに分離される。例えば、センサ２０がＣＣＤカメラである場合は、赤（Ｒ）、緑（Ｇ）、青（Ｂ）それぞれの出力データを３つのサブセンサデータとする。また、センサ２０がマイクロフォンである場合は、計測した音声データを適当な数の周波数帯域に分離し、各周波数帯域における信号をそれぞれサブセンサデータとする。このようにセンサデータをサブセンサデータに分離するのは、１つの測定データから詳細な情報を得るためである。また、１つのセンサデータから分離するサブセンサデータの数は任意である。それぞれのサブセンサデータを得る機構がサブセンサ２２である。サブセンサ２２を用いずに、センサデータを直接以下で述べるセンサモダリティ情報としても良い。
【００３１】
各サブセンサデータからは、位置情報ｓ_ｉ，ｋ（ｉ＝±１、１≦ｋ≦Ｍ）が抽出される。例えば、センサ２０がＣＣＤカメラである場合のように、センサの計測する情報の中に既に位置に関する情報が含まれている場合は、そのまま位置情報とする（つまり、画像強度がそのまま位置情報ｓ_ｉ，ｋとなる）。マイクロフォンで計測された音響信号データのように、センサの計測する情報の中に位置に関する情報が明確には含まれていない場合は、マイクロフォンアレーのような音源方向推定手法を適用して位置情報を抽出する。二次元位置座標は各サブセンサ毎に異なるが、所定の対応関係付けがされている。
【００３２】
抽出された位置情報は、二次元位置座標上に位置センサモダリティｓ_−１，ｋ（Ｘ，Ｙ）として展開される。速度情報は位置センサモダリティｓ_−１，ｋ（Ｘ，Ｙ）の時間差分として求められ、二次元速度座標上に速度センサモダリティｓ_＋１，ｋ（Ｖ_Ｘ，Ｖ_Ｙ）として展開される。
【００３３】
サブセンサデータが画像情報である場合に速度情報を抽出する方法の一例は、上述の文献に詳細に記載されている。
【００３４】
得られた位置センサモダリティｓ_−１，ｋ（Ｘ，Ｙ）と速度センサモダリティｓ_＋１，ｋ（Ｖ_Ｘ，Ｖ_Ｙ）は、再配線回路２４及び強化学習部２８へ出力される。
【００３５】
再配線回路２４は、Ｍ個のサブセンサ２２によって分離された全ての位置センサモダリティと速度センサモダリティをそれぞれ受け取り、２つのスプラモダリティ情報ρ_−１（ｓ_−１）及びρ_＋１（ｓ_＋１）に統合する。スプラモダリティ情報は、次式のように表される。
【００３６】
【数５】

ここで、ｓ_ｉはｓ_ｉ，ｋ（ｉ＝±１、１≦ｋ≦Ｍ）の集合である。パラメータα_ｉ，ｋ、μ_ｉ，ｋ、σ_ｉ，ｋはそれぞれｋ番目のセンサ情報ｓ_ｉ，ｋの混合比率、平均、分散であり、まとめてθ_ｉ，ｋで表す。また、｜ｄｓ_ｉ，ｋ｜はｋ番目のサブセンサの分解能を表し、ｓ_ｉ，ｋと同じ物理次元（例えば、輝度、周波数、温度等）を有する。さらに、パラメータα_ｉ，ｋは無次元数であり、ｉ＝±１それぞれに対し０≦α_ｉ，ｋ≦１かつΣα_ｉ，ｋ＝１を満たす。後述するように、このα_ｉ，ｋの割合を変えることで、各センサモダリティのスプラモダリティ情報に対する寄与度を変化させ、外界の環境の変化に適合することができる。
【００３７】
パラメータθ_ｉ，ｋは、時刻ｔ＝０において適当な値に初期化され、ｔ＞０においては強化学習部２６により計算される。
【００３８】
これらのパラメータも、ｉ＝−１に対しては位置座標において、ｉ＝＋１に対しては速度座標において、それぞれ分布を持つ。同様に、スプラモダリティ情報ρ_ｉ（ｓ_ｉ）は二次元座標上に分布する。計算されたスプラモダリティ情報ρ_ｉ（ｓ_ｉ）は、強化学習部２８及び結合記憶マップ３４へ出力される。
【００３９】
このように、再配線回路２４によりスプラモダリティ情報を統合することによって、学習すべきパラメータはセンサの数に関わらずスプラモダリティ情報に対応するｉ＝±１の２組だけになり、扱うべき計算量の増大を抑制できる。尚、本実施形態ではセンサ情報を２つのスプラモダリティに統合しているが、スプラモダリティを３つ以上としても良い。
【００４０】
別法では、スプラモダリティ情報をより簡便な次式で計算しても良い。
【００４１】
【数６】

ここで、ｙ_ｉはパラメータ（関数）ｓ_ｉに応じて「−１」または「＋１」に決められる。この場合もα_ｉ，ｋは無次元数であり、０≦α_ｉ，ｋ≦１かつΣα_ｉ，ｋ＝１を満たす。この式を用いた場合、計算量はさらに削減される。
【００４２】
注意的強化学習部２６は、ＥＭアルゴリズムを用いた学習によるθの更新と再配線回路２４への出力を行う強化学習部２８、事後確率に対する報酬値を計算する行動評価部３０、及びコスト関数を計算し、重みベクトルｗ_ｉを最適化する注意要求／転調部３２により構成される。
【００４３】
強化学習部２８は、サブセンサ２２から最近のセンサモダリティ情報を受け取り、各ｉ、ｋに対し事後確率Ｐ_ｉｋ ^ｐｏｓｔを計算し、行動評価部３０へ出力する。さらに、事後確率を使用して、ＥＭアルゴリズムによりパラメータθ_ｉ，ｋを更新し、その結果を再配線回路２４へ出力する。これらは位置座標及び速度座標の各点に対して行われる。ここで、事後確率Ｐ_ｉｋ ^ｐｏｓｔは、サブセンサｋからのセンサモダリティの各スプラモダリティに対する寄与の割合である。
【００４４】
つまり、強化学習部２８は、前回の計算により決定された行動の影響によって外界から計算されるセンサモダリティ情報が変化していることから、その情報を利用してスプラモダリティ情報の構築に必要なパラメータを自己教師的に学習しようとする。
【００４５】
各時間ステップｊにおける事後確率Ｐ_ｉｋ ^ｐｏｓｔは、スプラモダリティを式（１）で計算した場合は、次式で求められる。
【００４６】
【数７】

【００４７】
スプラモダリティを式（２）で計算した場合は、次式で求められる。
【００４８】
【数８】

【００４９】
求めた事後確率Ｐ_ｉｋ ^ｐｏｓｔを用いて、強化学習部２８は、次式により新たなパラメータθ_ｉ，ｋ＝（α_ｉ，ｋ，μ_ｉ，ｋ，σ_ｉ，ｋ）を計算する。
【００５０】
【数９】

ここで、Ｑは学習に用いるｋ番目のセンサ情報の数、すなわちセンサ出力の時間ステップ数である。この数Ｑはセンサ間で異なっていても良い。
【００５１】
σ_ｉ，ｋについては、次式で計算することも可能である。
【００５２】
【数１０】

ここで、ηはパラメータであり、［０，１］の範囲の値に設定される。
【００５３】
新たなパラメータθ_ｉ，ｋは再配線回路２４へ出力され、次の時間ステップで再配線回路２４におけるモダリティ情報の計算に用いられる。
【００５４】
強化学習部２８は、注意要求／転調部３２から報酬値εが入力されるとき、Ａｌｌｅｎ−Ｃａｈｎアルゴリズムにより重みベクトルｗを最適化する役割も有するが、これについては後述する。
【００５５】
行動評価部３０は、強化学習部２８から受け取った事後確率Ｐ_ｉｋ ^ｐｏｓｔに基づいて、前回選択された行動によって生じた外界の変化が適当であったか否かを評価する。
【００５６】
具体的には、行動評価部３０はまず次式により報酬値１／εの逆数εを計算する。
【００５７】
【数１１】

【００５８】
上式によると、二次元位置座標で積分した事後確率と二次元速度座標で積分した事後確率とが近い場合に、εは０に近づく。つまり、報酬値１／εは高く与えられることになる。
【００５９】
一例として、図２のセンサとして視覚センサ、聴覚センサ、触覚センサの３種類のセンサを使用しており、各センサについての事後確率Ｐ_ｉｋ ^ｐｏｓｔの積分値が図３のように分布していると仮定する。この場合、各センサに対する事後確率の積分値がｉ＝−１（位置座標）とｉ＝＋１（速度座標）とで大きく異なるため、εが大きくなり、従って報酬値１／εは低くなる。これに対し、同様のセンサの組合せに対し図４のような分布が得られると、ｉ＝−１とｉ＝＋１とで事後確率の積分値の分布が相似しているため、εが小さくなり高い報酬値１／εが得られる。計算した報酬値１／εは、注意要求／転調部３２へ出力される。式（７）のようにεの計算式を与えることで、ｉ＝−１とｉ＝＋１とで積分値の分布を相似させる方向に重みベクトルｗ_ｉが最適化される。
【００６０】
注意要求／転調部３２は、行動評価部３０の計算した報酬値に基づいて、重みベクトルｗ_ｉを更新するよう強化学習部２８に注意要求をするべきか否かを決定する。ここで、用語「注意要求」とは、複数のスプラモダリティ情報を取り扱う際に付加する重みなどの内部パラメータの変更が必要であると判断することを意味し、「注意転調」とはこの要求を出力することによりパラメータの変更を実行させることを意味する。
【００６１】
具体的には、注意要求／転調部３２は、まず次式によりコスト関数Ψの計算を行う。
【００６２】
【数１２】

Φ（ｗ_ｉ）は二重井戸型ポテンシャルであり、例えば次式で表される形状を持つ。
【００６３】
【数１３】

ｃは適切に設定されるパラメータであり、ｃ＝１とした場合のΦ（ｗ_ｉ）の形状を図５に示す。
【００６４】
尚、上記の式（８）において用いた積分の標識
【数１４】

は、Ａなる量を認識対象の位置座標全体において積分した結果と速度座標全体において積分した結果とを加算することを意味している。すなわち、次式の関係を満たす。
【００６５】
【数１５】

【００６６】
式（８）のコスト関数Ψの計算式における右辺第一項は、二重井戸型ポテンシャルΦ（ｗ_ｉ）に基づくエネルギーを低くすることを目的とする項であり、第二項は学習を進めて行くときにｗの変化を滑らかにし収束性を向上させることを目的とする項である。
【００６７】
注意要求／転調部３２は、コスト関数Ψの計算結果を所定の閾値と比較する。そして、コスト関数Ψが閾値より大きければ、注意を要求すべきと判断し、強化学習部２８に対して注意要求を行い、εを出力する。コスト関数Ψが閾値より小さければ、注意要求を行わない。
【００６８】
注意要求されると、上述の強化学習部２８は次式に従って新しい重みベクトルｗ_ｉを計算する。ｗ_ｉの計算も位置座標及び速度座標の各点において行われる。
【００６９】
【数１６】

【００７０】
この関数の形状を図７に示す。式（１２）で計算される重みベクトルｗ_ｉを用いると、前回のｗ_ｉを用いる場合と比較して報酬値１／εが大きくなる（すなわちεが小さくなる）ことがＡｌｌｅｎ−Ｃａｈｎアルゴリズムにより保証されている。Ａｌｌｅｎ−Ｃａｈｎアルゴリズムの代わりに、サポートベクターマシンやニューラルネットワークを用いても良い。
【００７１】
計算された重みベクトルｗ_ｉは結合記憶マップ３４へ出力される。
【００７２】
結合記憶マップ３４は、スプラモダリティ情報と予測的行動情報との関係を記憶しており、強化学習部２８から新たな重みベクトルｗ_ｉを受け取ると、その関係を書き換える。そして、再配線回路２４から受け取るスプラモダリティ情報を用いて、予測的行動情報に関わる注意クラスΩを次式により決定する。
【００７３】
【数１７】

【００７４】
決定された注意クラスΩは、行動制御部３６に送られる。
【００７５】
行動制御部３６は、注意クラスΩを受け取り、対応する行動出力Ｏに変換して外界へ出力する。注意クラスΩと行動出力Ｏの対応関係は、事前に教師付き学習により獲得しておくか、または人間が予め適切な出力を想定して入力しておく。あるいは、より高次の学習機能により対応関係を自己獲得するようにしても良い。
【００７６】
＜認識処理のプロセス＞
以上説明した各機能ブロックを有するクロスモーダル学習装置は、外界の情報に対して異種のモダリティ情報の結合関係を自己学習的に更新していくことによって、外界の状態を認識し、外界に適応した行動を出力する。このときの各機能ブロック間の連係を図６のフローチャートを参照して説明する。
【００７７】
初期状態と開始時について説明すると、初めに位置座標及び速度座標の各点におけるパラメータθ_ｉ，ｋ＝（α_ｉ，ｋ、μ_ｉ，ｋ、σ_ｉ，ｋ）及び重みベクトルｗ_ｉの初期値を設定する。一例として、α_ｉ，ｋ＝１／Ｍ、μ_ｉ，ｋ＝０、σ_ｉ，ｋ＝１とし、またｗ_−１は区間［−１，０］において発生させた乱数、ｗ_＋１は区間［０，１］において発生させた乱数を初期値とする。乱数は、例えばＣ言語における疑似乱数発生関数ｒａｎｄ（）を用いて生成することが可能である。
【００７８】
計算を開始し、センサ２０は外界情報を計測し、サブセンサ２２は時刻ｔ＝０のセンサモダリティｓ_ｉ，ｋを取得する。再配線回路２４は、センサモダリティｓ_ｉ，ｋとθ_ｉ，ｋの初期値を用いて、スプラモダリティρ_ｉ（ｓ_ｉ）を計算する。時刻ｔ＝０においては、まだ強化学習部２８で学習すべき対象が存在しないので、スプラモダリティρ_ｉ（ｓ_ｉ）は結合記憶マップ３４にのみ出力される。結合記憶マップ３４は、スプラモダリティρ_ｉ（ｓ_ｉ）に対して、重みベクトルｗ_ｉの初期値を用いて注意クラスΩを決定する。行動制御部３６は、注意クラスΩに対応する行動Ｏを外界に出力する。以降、センサ２０で捉えられる外界の情報には、前の時間ステップで外界に出力された行動Ｏの影響が外界を経由して反映されることになる。
【００７９】
次の時間ステップからは、以下に説明する処理が繰り返される。
【００８０】
センサ２０は、時間ステップｊで外界の情報を計測する（Ｓ４８）。サブセンサ２２はその情報を位置モダリティと速度モダリティに分離する（Ｓ５０）。分離されたセンサモダリティは、再配線回路２４と強化学習部２８へ出力される。
【００８１】
再配線回路２４は、前時刻に強化学習部２８において決定されたパラメータθ_ｉ，ｋを使用して、位置モダリティと速度モダリティを２つのスプラモダリティ情報ρ_−１（ｓ_−１）及びρ_＋１（ｓ_＋１）に統合する（Ｓ５２）。スプラモダリティ情報は、強化学習部２８と結合記憶マップ３４へ出力される。
【００８２】
このとき、強化学習部２８は、サブセンサ２２から受け取ったセンサモダリティを用いて、上記式（５）または式（６）により新たなパラメータθ_ｉ，ｋを計算する（Ｓ５４）。計算された新たなパラメータθ_ｉ，ｋは再配線回路２４へ送られ、次の時間ステップでの再配線回路２４におけるスプラモダリティ情報ρ_−１（ｓ_−１）及びρ_＋１（ｓ_＋１）の構築（式（１）または式（２））に使用されることになる。
【００８３】
強化学習部２８は、さらに現時点のセンサモダリティ情報を使用して、位置座標及び速度座標の各点における事後確率Ｐ_ｉｋ ^ｐｏｓｔを計算する（Ｓ５６）。事後確率Ｐ_ｉｋ ^ｐｏｓｔは行動評価部３０へ出力される。
【００８４】
行動評価部３０は、強化学習部２８で計算された事後確率の分布を使用して、式（７）により報酬値１／εの逆数εを計算する（Ｓ５８）。報酬値は注意要求／転調部３２へ送られる。
【００８５】
注意要求／転調部３２は、行動評価部から入力される報酬値の逆数εを用いて、式（８）に従ってコスト関数Ψを計算する（Ｓ６０）。ここで用いる重みベクトルｗ_ｉは前時刻の計算で得られた値である。注意要求／転調部３２は、コスト関数Ψを所定の閾値（例えば０．０１）と比較し（Ｓ６２）、Ψが閾値より大きければ、重みベクトルｗ_ｉの更新が必要であると判断（注意要求）し、εを強化学習部へ出力（注意転調）する（Ｓ６４）。コスト関数Ψが閾値より小さければ、重みベクトルｗ_ｉは適切に設定されていると判断し、ｗ_ｉの更新をせずにステップＳ６８へ進む。
【００８６】
注意要求／転調部３２が注意転調をした場合、強化学習部２８は新しい重みベクトルｗ_ｉを計算し、結合記憶マップを書き換える（Ｓ６６）。
【００８７】
結合記憶マップ３４は、再配線回路２４から受け取ったスプラモダリティ情報に基づいて、式（１３）に従って注意クラスΩを決定する（Ｓ６８）。重みベクトルｗ_ｉが更新されていた場合は、同一値のスプラモダリティ情報から計算される注意クラスΩが変化することになる。重みベクトルが更新されていなければ前回の値を用いる。決定した注意クラスΩは行動制御部３６へ出力される。
【００８８】
行動制御部３６は、注意クラスΩを行動Ｏに変換し、外界に出力する（Ｓ７０）。以上で、１つの時間ステップの計算が終了し、次の時間ステップで再びステップＳ４８からの処理を繰り返し行う。
【００８９】
クロスモーダル学習装置が多数の時間ステップの間学習を継続すると、上記の処理を全て実行しなくても、学習をすることができるようになる。以下ではこの場合について説明する。
【００９０】
図６のフローチャートでは、ステップＳ５４でＥＭアルゴリズムを用いた学習によりパラメータθ_ｉ，ｋ＝（α_ｉ，ｋ，μ_ｉ，ｋ，σ_ｉ，ｋ）の全てを更新する計算を行った。しかしながら、ある程度学習が進んだ段階においては、パラメータθ_ｉ，ｋのうちμ_ｉ，ｋ及びσ_ｉ，ｋの変化をゼロと見なすことができるようになり、従って各センサモダリティ情報の混合係数α_ｉ，ｋ及びスプラモダリティ情報の重みベクトルｗ_ｉのみを更新するだけで環境への適合が可能となる。
【００９１】
学習の進み具合の判断は、例えば以下の条件式を用いることにより行う。
【００９２】
【数１８】

ここで、α_{ｔｈｒｅｓ}は定数であり、例えば０．７のような数値に設定する。上記の式が成立する場合には、次回の時間ステップからはμ_ｉ，ｋ及びσ_ｉ，ｋの更新を行わず、強化学習部２８はα_ｉ，ｋのみを計算し、再配線回路２４へはα_ｉ，ｋのみが出力される。
【００９３】
本発明のクロスモーダル学習装置は、異種センサによる情報を統合してより正確な行動の選択が行える。選択した行動が不適切な場合には、上記のように事後確率の積分値の分布が各センサモダリティ間で相似しないため、報酬値１／εが小さくなる。そして、これに応答して重みベクトルｗ_ｉが更新され、スプラモダリティ情報ρの結合関係を変化させる。従って、それまでとは異なる注意クラスΩが選択されることになり、これによって行動Ｏも変化する。こうして、外部環境の状態に応じてパラメータが最適化される。このように、本発明では教師データに基づかずに自己教師的にパラメータ最適化が行われるので、環境の変化に対し柔軟に適合可能となる。また、自己運動に伴って生じる外界の変化を計算量の増大なく柔軟に効率良く認識できるようになる。
【００９４】
さらに、本発明によるクロスモーダル学習装置は、センサ数の増加に伴い指数関数的に増加する計算量を抑制する。例えば、センサをＭ個備える認識システムにおいて、各センサモダリティが位置座標上及び速度座標上でそれぞれＮ×Ｎ＝Ｎ^２個の点において抽出されると仮定する。中間的なモダリティ情報を経由せず、各センサ情報の組合せに対して直接的に行動情報をマッピングする従来の処理方法では、センサ情報と行動との関係を記述するマップをセンサ情報の組合せの各々に対して与える必要があるため、マップのサイズは（Ｎ^２）^２Ｍとなり、センサ数Ｍに指数関数的に依存して増大する。それに対し、図１に示す本発明の一実施形態によれば、スプラモダリティ情報ρ_ｉと注意クラスΩとの関係を記述するマップのみを与えれば良く、そのサイズはセンサ数Ｍには依存せず、常に（Ｎ^２）^２となる。また、従来の処理方法では、各センサ情報に対して与えたパラメータを学習により決定する場合、学習に要する計算量は（Ｎ^２）^２Ｍのオーダーとなるが、本発明の一実施形態によれば２ＭＮ^２のオーダーに収まる。従って、装置内部に必要となるマップのサイズと学習に必要となる計算量の両方が低減される。以上の内容を表１にまとめて示す。
【００９５】
【表１】

【００９６】
クロスモーダル学習装置は、単独の行動決定装置として使用できるだけでなく、具体的な応用形態として、自動車やヘリコプター、人間型ロボット等の運動体に搭載し、外界の情報に基づいて運動体のとるべき行動を決定するように使用することができる。
【００９７】
以上本発明のいくつかの実施形態を説明してきｔたが、本発明はこれに限定されるものではない。
【００９８】
【発明の効果】
本発明によれば、複数のセンサ情報を統合し、環境の変化に対し柔軟に適合可能な学習処理を少ない計算処理量と少ない記憶容量で実現することができる。
【図面の簡単な説明】
【図１】本発明による認識処理の概念を説明する図である。
【図２】本発明の一実施形態によるクロスモーダル学習装置のブロック図である。
【図３】報酬値が低い場合の事後確率の積分値の分布の一例を示すグラフである。
【図４】報酬値が高い場合の事後確率の積分値の分布の一例を示すグラフである。
【図５】二重井戸型ポテンシャルの形状の一例を示すグラフである。
【図６】図２のクロスモーダル学習装置による処理を説明するフローチャートである。
【図７】重みベクトルとスプラモダリティ情報の関係を示すグラフである。
【符号の説明】
２０　　　　センサ
２２　　　　サブセンサ
２４　　　　再配線回路
２６　　　　注意的強化学習部
２８　　　　強化学習部
３０　　　　行動評価部
３２　　　　注意要求／転調部
３４　　　　結合記憶マップ
３６　　　　行動制御部

Claims

外界の情報を計測する複数のセンサと、
各センサで捉えた情報を位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離するモダリティ分離手段と、
前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報をそれぞれ形状スプラモダリティと動きスプラモダリティに統合する再配線回路と、
前記形状スプラモダリティと前記動きスプラモダリティのパラメータを学習する注意的強化学習部と、
前記形状スプラモダリティ及び前記動きスプラモダリティに基づいて注意クラスを決定する結合記憶マップと、
前記注意クラスに応じた行動を出力する行動制御部と、
を備えるクロスモーダル学習装置。
前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項１に記載のクロスモーダル学習装置

ここで、ｓ_ｉ（ｉ＝±１、ここで、ｉ＝−１は形状を表し、ｉ＝＋１は動きを表す）は位置座標におけるセンサモダリティ情報ｓ_−１，ｋ及び速度座標におけるセンサモダリティ情報ｓ_＋１，ｋ（１≦ｋ≦Ｍ）の集合であり、Ｍはセンサモダリティ情報の総数であり、α_ｉ，ｋ、μ_ｉ，ｋ、σ_ｉ，ｋはそれぞれｋ番目のセンサモダリティ情報ｓ_ｉ，ｋの混合比率、平均、分散であり、｜ｄｓ_ｉ，ｋ｜はｋ番目のセンサモダリティ情報の分解能である。
前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項１に記載のクロスモーダル学習装置

ここで、ｓ_ｉ（ｉ＝±１、ここで、ｉ＝−１は形状を表し、ｉ＝＋１は動きを表す）は位置座標におけるセンサモダリティ情報ｓ_−１，ｋ及び速度座標におけるセンサモダリティ情報ｓ_＋１，ｋ（１≦ｋ≦Ｍ）の集合であり、Ｍはセンサモダリティ情報の総数であり、α_ｉ，ｋ、μ_ｉ，ｋ、σ_ｉ，ｋはそれぞれｋ番目のセンサモダリティ情報ｓ_ｉ，ｋの混合比率、平均、分散である。
前記注意的強化学習部は、前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報に基づいて前記行動の事後確率を計算する強化学習部をさらに含む、請求項１に記載のクロスモーダル学習装置。
前記強化学習部は、前記事後確率を使用して、期待値最大化アルゴリズムにより前記パラメータを更新する、請求項１に記載のクロスモーダル学習装置。
前記注意的強化学習部は、前記事後確率を評価して、評価結果に応じた報酬を出力する行動評価部をさらに含む、請求項１に記載のクロスモーダル学習装置。
前記結合記憶マップは、重みベクトルを使用して前記形状スプラモダリティと前記動きスプラモダリティの結合関係を表現する、請求項１に記載のクロスモーダル学習装置。
前記注意的強化学習部は、前記報酬値を使用してコスト関数を計算し、該コスト関数と所定の閾値との比較結果に応じて前記重みベクトルの変更を指示する注意転調を行うか否かを判断する注意要求／転調部をさらに含む、請求項７に記載のクロスモーダル学習装置。
前記強化学習部は前記注意転調に応じて前記重みベクトルを再計算する請求項８に記載のクロスモーダル学習装置。
前記強化学習部は、学習の進展度合いに応じて前記パラメータの更新方法を変更する請求項５に記載のクロスモーダル学習装置。
各センサで捉えた情報をさらに複数のサブセンサデータに分離し、該サブセンサデータを位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離する、請求項１乃至１０に記載のクロスモーダル学習装置。
外界の情報を計測し、
計測した情報を位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離し、
前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報をそれぞれ形状スプラモダリティと動きスプラモダリティに統合し、
前記形状スプラモダリティと前記動きスプラモダリティのパラメータを学習し、
前記形状スプラモダリティ及び前記動きスプラモダリティに基づいて注意クラスを決定し、
前記注意クラスに応じた行動を出力することを含む認識処理方法。
前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項１２に記載の認識処理方法

ここで、ｓ_ｉ（ｉ＝±１、ここで、ｉ＝−１は形状を表し、ｉ＝＋１は動きを表す）は位置座標におけるセンサモダリティ情報ｓ_−１，ｋ及び速度座標におけるセンサモダリティ情報ｓ_＋１，ｋ（１≦ｋ≦Ｍ）の集合であり、Ｍはセンサモダリティ情報の総数であり、α_ｉ，ｋ、μ_ｉ，ｋ、σ_ｉ，ｋはそれぞれｋ番目のセンサモダリティ情報ｓ_ｉ，ｋの混合比率、平均、分散であり、｜ｄｓ_ｉ，ｋ｜はｋ番目のセンサモダリティ情報の分解能である。
前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項１２に記載の認識処理方法

ここで、ｓ_ｉ（ｉ＝±１、ここで、ｉ＝−１は形状を表し、ｉ＝＋１は動きを表す）は位置座標におけるセンサモダリティ情報ｓ_−１，ｋ及び速度座標におけるセンサモダリティ情報ｓ_＋１，ｋ（１≦ｋ≦Ｍ）の集合であり、Ｍはセンサモダリティ情報の総数であり、α_ｉ，ｋ、μ_ｉ，ｋ、σ_ｉ，ｋはそれぞれｋ番目のセンサモダリティ情報ｓ_ｉ，ｋの混合比率、平均、分散である。
前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報に基づいて前記行動の事後確率を計算することをさらに含む、請求項１２に記載の認識処理方法。
前記パラメータの学習は、前記事後確率を使用して期待値最大化アルゴリズムにより行われる、請求項１２に記載の認識処理方法。
前記事後確率を評価して、評価結果に応じた報酬を出力することをさらに含む、請求項１２に記載の認識処理方法。
前記注意クラスの決定は、重みベクトルにより表現された前記形状スプラモダリティと前記動きスプラモダリティの結合関係に基づいて行われる、請求項１２に記載の認識処理方法。
前記報酬値を使用してコスト関数を計算し、該コスト関数と所定の閾値との比較結果に応じて前記重みベクトルの変更を指示する注意転調を行うか否かを判断することをさらに含む、請求項１８に記載の認識処理方法。
前記注意転調に応じて前記重みベクトルを再計算することをさらに含む請求項１９に記載の認識処理方法。
学習の進展度合いに応じて前記パラメータの更新方法を変更する請求項１６に記載の認識処理方法。
各センサで捉えた情報をさらに複数のサブセンサデータに分離し、該サブセンサデータを位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離する、請求項１２乃至２１に記載の認識処理方法。
請求項１２ないし２１の何れか１項に記載の処理をコンピュータに実行させるためのプログラム。