[go: up one dir, main page]

JP2004054638A - クロスモーダル学習装置及び認識処理方法 - Google Patents

クロスモーダル学習装置及び認識処理方法 Download PDF

Info

Publication number
JP2004054638A
JP2004054638A JP2002211759A JP2002211759A JP2004054638A JP 2004054638 A JP2004054638 A JP 2004054638A JP 2002211759 A JP2002211759 A JP 2002211759A JP 2002211759 A JP2002211759 A JP 2002211759A JP 2004054638 A JP2004054638 A JP 2004054638A
Authority
JP
Japan
Prior art keywords
sensor
information
modality
splat
modality information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002211759A
Other languages
English (en)
Inventor
Takamasa Echizen
越膳 孝方
Sou Yamada
山田 想
Koji Tsujino
辻野 広司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2002211759A priority Critical patent/JP2004054638A/ja
Publication of JP2004054638A publication Critical patent/JP2004054638A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Image Analysis (AREA)

Abstract

【課題】複数のセンサ情報を統合し、環境の変化に柔軟に対応可能な学習処理を、計算処理量と記憶容量を過大に増大させることなく実現する。
【解決手段】再配線回路24は、外界の情報を計測する複数のセンサ20からの情報を形状スプラモダリティと動きスプラモダリティとに統合する。注意的強化学習部26は、期待値最大化アルゴリズムにより、形状スプラモダリティと動きスプラモダリティのパラメータを学習する。結合記憶マップ34は、重みベクトルを使用して前記形状スプラモダリティと前記動きスプラモダリティの結合関係を計算し、予測的行動に関わる注意クラスを決定する。行動制御部36は、決定された注意クラスに応じた行動を出力する。このようにして、本発明によるクロスモーダル学習装置10は、教師データに基づかず自己教師的にパラメータ最適化を行うので、環境の変化に対して柔軟に適合する。
【選択図】図2

Description

【0001】
【発明の属する技術分野】
本発明は、種類の異なる複数のセンサ情報を統合処理し、適切な行動を選択するためのクロスモーダル学習装置及び認識処理方法に関する。
【0002】
【従来の技術】
認識処理や計測などの分野では、認識や計測の精度を向上させ信頼度を上げるための手段として、複数のセンサを利用したセンサ統合技術が用いられる。しかし、周囲の環境に応じてセンサの検出能力や精度にはばらつきがあるため、周囲環境に適さないセンサを用いると十分な認識処理が行えなくなる。そこで、種類の異なる複数のセンサを用いて認識処理を行うシステムが提案されている。
【0003】
そのようなシステムの例として、特開2002−32754号公報においては、種類の異なる複数のセンサで各々検出された検出データに関する情報に対する重みを周囲環境の変化に応じて適切に変化させることにより、環境変化に対して柔軟に適合可能とした認識処理装置が提供されている。この装置では、予め想定される周囲環境に対する適切な重みを周囲環境情報と共に記憶手段に記憶しておく。そして、実動作においては、検出領域の周囲環境に関する情報を入力し、周囲環境を参照データとして記憶手段から重みを引き出して用いる手法を取る。従って、周囲環境が記憶手段に記憶されていないような想定外の状況になった場合には、適切な重み設定を行うことが極めて困難であるという問題がある。
【0004】
この発明のように、予め与えられるデータすなわち教師データに基づいて学習やパラメータ最適化を行う場合には、環境の変化に対する柔軟な対応が一般に困難であることが知られている。
【0005】
教師データを用いず、外部情報のみに基づいて対象を認識するようにすれば環境の変化に柔軟に対応する装置を実現することができる。このようなシステムの例が、特開平8−305853号公報に開示されている。記号推論システムのように問題解決に必要な情報を全て記号表現として与えるようなシステムでは、外界情報から記号への変換と意味の付与を全て人間が行う必要があるため、解決可能な問題が極めて限定されてしまう。この問題を解決するため、上記発明による意思決定装置は、センサ情報を処理することによって外界情報を内部データ表現に変換するシステムを構築している。すなわち、意思決定装置は、各種のセンサ情報から形状、動き、色、テクスチャ等の属性に対応する情報を抽出しそれらをシステム内部で照合可能な内部データ表現に変換する機構を有する。そして、その内部データ表現と記憶蓄積部に記憶されたデータとの照合を条件付き確率に基づいて行うことにより、認識対象物体の認識を行う。これにより、従来の記号表現とは異なる柔軟な推論を爆発的な計算量の増大なしに行うことが可能となる。
【0006】
しかしながら、この発明では、センサ情報として画像信号を用いる場合のみが示されており、他の複数種類のセンサ情報を同時に入力する場合の処理方法に関しては述べられていない。また、認識対象と行動計画の対応表は前もって与えられており、これを自ら獲得するための学習手段については述べられていない。
【0007】
また、本願発明者らによるT. Koshizen, K. Akatsuka and H. Tsujino, “A Computational Model of Attentive Visual System Induced by Cortical NeuralNetworks”, Neurocomputing, Vol. 44−46C, pp. 879−885 (Jun. 2002)は、センサの取得した画像を複数の局所領域に分割し、各局所領域毎に特徴を抽出し、抽出した特徴を画像全体で融合させてモダリティ情報とし、この情報に基づいて行動推定のための注意のクラスを決定する画像処理装置を開示している。この発明も、使用するセンサ情報は画像のみであり、それ以外のセンサ情報をも統合する処理方法は述べられていない。
【0008】
【発明が解決しようとする課題】
本発明は上記の点に鑑みてなされたものであり、複数のセンサ情報を統合し、環境の変化に柔軟に対応可能な学習処理を、計算処理量と記憶容量を過大に増大させることなく実現する装置及び方法を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明によるクロスモーダル学習装置は、複数のセンサ情報をモダリティ(感覚情報処理の様式)情報に集約する再配線回路と、教師データ無しで内部パラメータの学習を行う注意的強化学習機構とを備えることを特徴とする。
【0010】
本発明の一実施形態によると、クロスモーダル学習装置は、外界の情報を計測する複数のセンサと、各センサで捉えた情報を位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離するモダリティ分離手段と、前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報をそれぞれ形状スプラモダリティと動きスプラモダリティに統合する再配線回路と、形状スプラモダリティと動きスプラモダリティのパラメータを学習する注意的強化学習部と、形状スプラモダリティと動きスプラモダリティに基づいて注意クラスを決定する結合記憶マップと、前記注意クラスに応じた行動を出力する行動制御部を備える。
【0011】
この形態では、クロスモーダル学習装置は、複数のセンサ情報を形状という(スプラ)モダリティ情報と動きという(スプラ)モダリティ情報とに統合する処理を行う。このように異種センサによる情報を統合することによって、より正確な行動の選択が行える。これらスプラモダリティ情報は、確率密度分布と密接に関連している。
【0012】
各センサで捉えた情報は、必要に応じてさらに複数のサブセンサデータに分離され、該サブセンサデータは位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離される。
【0013】
注意的強化学習部は、位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に基づいて前記行動の事後確率を計算する強化学習部をさらに含む。強化学習部は、事後確率を使用して、期待値最大化アルゴリズムによりスプラモダリティ情報に関するパラメータを更新する。
【0014】
注意的強化学習部は、事後確率を評価して、評価結果に応じた報酬を出力する行動評価部をさらに含む。また、報酬値を使用してコスト関数を計算し、該コスト関数と所定の閾値との比較結果に応じて、重みベクトルの変更を指示する注意転調を行うか否かを判断する注意要求/転調部をも含む。そして、強化学習部は注意転調に応じて重みベクトルを再計算する。結合記憶マップは、重みベクトルを使用して前記形状スプラモダリティと前記動きスプラモダリティの結合関係を計算し、予測的行動に関わる注意クラスを決定する。
【0015】
このような構成によって、クロスモーダル学習装置は教師データに基づかずに自己教師的にパラメータ最適化を行うので、環境の変化に対して柔軟に適合可能となる。さらに、本発明の一実施形態によれば、スプラモダリティ情報と注意クラスとの関係を記述するマップのみを準備すれば足り、このマップのサイズはセンサ数には依存しないので、自己教師型の学習処理を少ない計算処理量と少ない記憶容量で実現することができる。
【0016】
【発明の実施の形態】
<本発明の概念的説明>
初めに、図1を参照して本発明による認識処理の概念を説明する。
【0017】
本発明では、CCDカメラやX線センサのように画像情報を捉える視覚センサ、マイクロフォン等の聴覚センサ、触圧を感知する触覚センサ等、モダリティ情報を計測可能な任意のセンサを用いて外界情報を計測する。これらのセンサにより計測されたデータは、必要に応じてサブセンサ情報に分離される。得られたサブセンサデータから、センサの種類に応じた適切な処理により、まず位置情報が抽出される。
【0018】
抽出された位置情報は、二次元位置座標にs−1,k(X,Y)として展開される。図1中の四角形6が認識対象の平面であり、四角形6の中の小丸が位置座標成分を表す。二次元位置座標は、例えば一方が視覚センサでもう一方が聴覚センサである場合のように、各サブセンサ毎に異なることもあるが、一定の対応関係を持っており所定の計算で同じ座標に変換することができる。
【0019】
展開された位置座標成分s−1,k(X,Y)は、それぞれ時間差分を計算され、二次元速度座標上にs+1,k(V,V)として展開される。位置座標と同様に、図中の四角形8が認識対象の平面であり、四角形8の中の小丸が速度座標成分を表す。
【0020】
本明細書では、s−1,k(X,Y)を「位置センサモダリティ」、s+1,k(V,V)を「速度センサモダリティ」と呼ぶ。2つを併せて「センサモダリティ」と呼ぶ場合もある。
【0021】
続いて、期待値最大化アルゴリズム(EMアルゴリズム)を用いた学習によって獲得されるパラメータの集合θを用いて、別々に得られる複数のセンサモダリティを、それぞれ二次元位置座標及び二次元速度座標上の各点において、スプラモダリティ情報ρ−1(s−1(X,Y))とρ+1(s+1(V,V))に統合する。前者は、二次元位置座標に基づいて計算されていることから、認識対象の形状様式を表現していると捉えることができ、従ってこれを「形状スプラモダリティ」と呼ぶ。後者は、二次元速度座標に基づいて計算されていることから、認識対象の動き様式を表現していると捉えることができ、従ってこれを「動きスプラモダリティ」と呼ぶ。ρ−1(s−1)とρ+1(s+1)は、集合的にスプラモダリティ情報ρ(s)(i=±1、ここで、i=−1は形状を表し、i=+1は動きを表す)と記載する場合もある。
【0022】
続いて、スプラモダリティ情報ρ−1(s−1)及びρ+1(s+1)と、スプラモダリティ情報の結合関係を表す重みベクトルwを用いて、予測的行動情報に関わる注意クラスΩが決定される。ここで、予測的行動情報とは、後の処理においてどのような行動を出力させるかという指針となる情報のことである。重みベクトルwはAllen−Cahnアルゴリズムを用いて最適化される。そして、決定された注意クラスΩに基づいた行動が外界に出力されることになる。
【0023】
本願発明者らによる上述の文献における処理は、図1において一点鎖線で囲んだ部分に相当すると考えることができる。この発明においては、センサ情報として視覚センサのみが用いられている。そして、センサから得られる情報に基づいて抽出された動きに関わる局所的な情報がEMアルゴリズムにより計算され、さらにこの局所的な情報から注意クラスが決定されている。
【0024】
これに対し、本発明によるクロスモーダル学習装置では、複数のセンサを統合的に用いることが可能である。そして、これらセンサ情報に基づいて形状と動きの両者に関わるスプラモダリティ情報を計算し、スプラモダリティ情報に基づいて注意クラスが決定される。すなわち、本発明によるクロスモーダル学習装置の特徴の1つは、複数のセンサ情報を形状スプラモダリティと動きスプラモダリティに集約する処理を行う点にある。このような処理を行うことによって、センサ数の増加に伴う計算量の増大が抑制される。
【0025】
<構成要素の説明>
次に、本発明の一実施形態であるクロスモーダル学習装置10について、図2を参照して説明する。クロスモーダル学習装置10は、Z個のセンサ20、M個のサブセンサ22、再配線回路24、注意的強化学習部26、結合記憶マップ34、行動制御部36の各機能ブロックにより構成される。このうち、図1のセンサモダリティはサブセンサ22に対応し、形状スプラモダリティと動きスプラモダリティは再配線回路24で計算される。また、図1中のEMアルゴリズムによるパラメータθの学習と重みベクトルwの設定は、注意的強化学習部26で行われる。クロスモーダル学習装置10は、センサ20を除きコンピュータにより実現することができ、各機能ブロックはソフトウェアでもハードウェアでも構成することができる。
【0026】
ここで、予め符号の説明をしておく。時間ステップjとは、センサ20が計測した外界情報を出力するタイミングであり、これは注意的強化学習部26における学習の時間tとは無関係に進行する。
【0027】
また、ある変数Aについて「Ai,k,j」のように表記した場合、Aは、k番目(1≦k≦M)のサブセンサ22が時間ステップjにおいて出力したスプラモダリティiに関連する情報であることを表している。ここで、上述したようにi=±1はスプラモダリティ情報の種類である。また、「Ai,k」のようにインデックスjを付けずに表記した場合は、Aは、k番目のサブセンサ22が直近の時間ステップにおいて出力したスプラモダリティiに関連する情報であることを示す。
【0028】
以下、クロスモーダル学習装置10の各ブロックの機能を順に説明する。
【0029】
Z個のセンサ20は、それぞれ外界の情報を計測する。各センサ20は、CCDカメラやX線センサのように画像情報を捉える視覚センサ、マイクロフォン等の聴覚センサ、触圧を感知する触覚センサ等、モダリティ情報を計測可能な任意のセンサとすることができる。外界の特性に応じて、若しくは行動を出力する対象に応じて、CCDカメラと赤外線カメラ、X線センサといったように異なる作用で視覚情報を得るセンサを組み合わせることも、あるいは視覚センサと聴覚センサ、触覚センサといったように異なるモダリティ情報を得るセンサを組み合わせることも可能である。
【0030】
計測されたデータは、必要に応じてサブセンサデータに分離される。例えば、センサ20がCCDカメラである場合は、赤(R)、緑(G)、青(B)それぞれの出力データを3つのサブセンサデータとする。また、センサ20がマイクロフォンである場合は、計測した音声データを適当な数の周波数帯域に分離し、各周波数帯域における信号をそれぞれサブセンサデータとする。このようにセンサデータをサブセンサデータに分離するのは、1つの測定データから詳細な情報を得るためである。また、1つのセンサデータから分離するサブセンサデータの数は任意である。それぞれのサブセンサデータを得る機構がサブセンサ22である。サブセンサ22を用いずに、センサデータを直接以下で述べるセンサモダリティ情報としても良い。
【0031】
各サブセンサデータからは、位置情報si,k(i=±1、1≦k≦M)が抽出される。例えば、センサ20がCCDカメラである場合のように、センサの計測する情報の中に既に位置に関する情報が含まれている場合は、そのまま位置情報とする(つまり、画像強度がそのまま位置情報si,kとなる)。マイクロフォンで計測された音響信号データのように、センサの計測する情報の中に位置に関する情報が明確には含まれていない場合は、マイクロフォンアレーのような音源方向推定手法を適用して位置情報を抽出する。二次元位置座標は各サブセンサ毎に異なるが、所定の対応関係付けがされている。
【0032】
抽出された位置情報は、二次元位置座標上に位置センサモダリティs−1,k(X,Y)として展開される。速度情報は位置センサモダリティs−1,k(X,Y)の時間差分として求められ、二次元速度座標上に速度センサモダリティs+1,k(V,V)として展開される。
【0033】
サブセンサデータが画像情報である場合に速度情報を抽出する方法の一例は、上述の文献に詳細に記載されている。
【0034】
得られた位置センサモダリティs−1,k(X,Y)と速度センサモダリティs+1,k(V,V)は、再配線回路24及び強化学習部28へ出力される。
【0035】
再配線回路24は、M個のサブセンサ22によって分離された全ての位置センサモダリティと速度センサモダリティをそれぞれ受け取り、2つのスプラモダリティ情報ρ−1(s−1)及びρ+1(s+1)に統合する。スプラモダリティ情報は、次式のように表される。
【0036】
【数5】
Figure 2004054638
ここで、sはsi,k(i=±1、1≦k≦M)の集合である。パラメータαi,k、μi,k、σi,kはそれぞれk番目のセンサ情報si,kの混合比率、平均、分散であり、まとめてθi,kで表す。また、|dsi,k|はk番目のサブセンサの分解能を表し、si,kと同じ物理次元(例えば、輝度、周波数、温度等)を有する。さらに、パラメータαi,kは無次元数であり、i=±1それぞれに対し0≦αi,k≦1かつΣαi,k=1を満たす。後述するように、このαi,kの割合を変えることで、各センサモダリティのスプラモダリティ情報に対する寄与度を変化させ、外界の環境の変化に適合することができる。
【0037】
パラメータθi,kは、時刻t=0において適当な値に初期化され、t>0においては強化学習部26により計算される。
【0038】
これらのパラメータも、i=−1に対しては位置座標において、i=+1に対しては速度座標において、それぞれ分布を持つ。同様に、スプラモダリティ情報ρ(s)は二次元座標上に分布する。計算されたスプラモダリティ情報ρ(s)は、強化学習部28及び結合記憶マップ34へ出力される。
【0039】
このように、再配線回路24によりスプラモダリティ情報を統合することによって、学習すべきパラメータはセンサの数に関わらずスプラモダリティ情報に対応するi=±1の2組だけになり、扱うべき計算量の増大を抑制できる。尚、本実施形態ではセンサ情報を2つのスプラモダリティに統合しているが、スプラモダリティを3つ以上としても良い。
【0040】
別法では、スプラモダリティ情報をより簡便な次式で計算しても良い。
【0041】
【数6】
Figure 2004054638
ここで、yはパラメータ(関数)sに応じて「−1」または「+1」に決められる。この場合もαi,kは無次元数であり、0≦αi,k≦1かつΣαi,k=1を満たす。この式を用いた場合、計算量はさらに削減される。
【0042】
注意的強化学習部26は、EMアルゴリズムを用いた学習によるθの更新と再配線回路24への出力を行う強化学習部28、事後確率に対する報酬値を計算する行動評価部30、及びコスト関数を計算し、重みベクトルwを最適化する注意要求/転調部32により構成される。
【0043】
強化学習部28は、サブセンサ22から最近のセンサモダリティ情報を受け取り、各i、kに対し事後確率Pik postを計算し、行動評価部30へ出力する。さらに、事後確率を使用して、EMアルゴリズムによりパラメータθi,kを更新し、その結果を再配線回路24へ出力する。これらは位置座標及び速度座標の各点に対して行われる。ここで、事後確率Pik postは、サブセンサkからのセンサモダリティの各スプラモダリティに対する寄与の割合である。
【0044】
つまり、強化学習部28は、前回の計算により決定された行動の影響によって外界から計算されるセンサモダリティ情報が変化していることから、その情報を利用してスプラモダリティ情報の構築に必要なパラメータを自己教師的に学習しようとする。
【0045】
各時間ステップjにおける事後確率Pik postは、スプラモダリティを式(1)で計算した場合は、次式で求められる。
【0046】
【数7】
Figure 2004054638
【0047】
スプラモダリティを式(2)で計算した場合は、次式で求められる。
【0048】
【数8】
Figure 2004054638
【0049】
求めた事後確率Pik postを用いて、強化学習部28は、次式により新たなパラメータθi,k=(αi,k,μi,k,σi,k)を計算する。
【0050】
【数9】
Figure 2004054638
ここで、Qは学習に用いるk番目のセンサ情報の数、すなわちセンサ出力の時間ステップ数である。この数Qはセンサ間で異なっていても良い。
【0051】
σi,kについては、次式で計算することも可能である。
【0052】
【数10】
Figure 2004054638
ここで、ηはパラメータであり、[0,1]の範囲の値に設定される。
【0053】
新たなパラメータθi,kは再配線回路24へ出力され、次の時間ステップで再配線回路24におけるモダリティ情報の計算に用いられる。
【0054】
強化学習部28は、注意要求/転調部32から報酬値εが入力されるとき、Allen−Cahnアルゴリズムにより重みベクトルwを最適化する役割も有するが、これについては後述する。
【0055】
行動評価部30は、強化学習部28から受け取った事後確率Pik postに基づいて、前回選択された行動によって生じた外界の変化が適当であったか否かを評価する。
【0056】
具体的には、行動評価部30はまず次式により報酬値1/εの逆数εを計算する。
【0057】
【数11】
Figure 2004054638
【0058】
上式によると、二次元位置座標で積分した事後確率と二次元速度座標で積分した事後確率とが近い場合に、εは0に近づく。つまり、報酬値1/εは高く与えられることになる。
【0059】
一例として、図2のセンサとして視覚センサ、聴覚センサ、触覚センサの3種類のセンサを使用しており、各センサについての事後確率Pik postの積分値が図3のように分布していると仮定する。この場合、各センサに対する事後確率の積分値がi=−1(位置座標)とi=+1(速度座標)とで大きく異なるため、εが大きくなり、従って報酬値1/εは低くなる。これに対し、同様のセンサの組合せに対し図4のような分布が得られると、i=−1とi=+1とで事後確率の積分値の分布が相似しているため、εが小さくなり高い報酬値1/εが得られる。計算した報酬値1/εは、注意要求/転調部32へ出力される。式(7)のようにεの計算式を与えることで、i=−1とi=+1とで積分値の分布を相似させる方向に重みベクトルwが最適化される。
【0060】
注意要求/転調部32は、行動評価部30の計算した報酬値に基づいて、重みベクトルwを更新するよう強化学習部28に注意要求をするべきか否かを決定する。ここで、用語「注意要求」とは、複数のスプラモダリティ情報を取り扱う際に付加する重みなどの内部パラメータの変更が必要であると判断することを意味し、「注意転調」とはこの要求を出力することによりパラメータの変更を実行させることを意味する。
【0061】
具体的には、注意要求/転調部32は、まず次式によりコスト関数Ψの計算を行う。
【0062】
【数12】
Figure 2004054638
Φ(w)は二重井戸型ポテンシャルであり、例えば次式で表される形状を持つ。
【0063】
【数13】
Figure 2004054638
cは適切に設定されるパラメータであり、c=1とした場合のΦ(w)の形状を図5に示す。
【0064】
尚、上記の式(8)において用いた積分の標識
【数14】
Figure 2004054638
は、Aなる量を認識対象の位置座標全体において積分した結果と速度座標全体において積分した結果とを加算することを意味している。すなわち、次式の関係を満たす。
【0065】
【数15】
Figure 2004054638
【0066】
式(8)のコスト関数Ψの計算式における右辺第一項は、二重井戸型ポテンシャルΦ(w)に基づくエネルギーを低くすることを目的とする項であり、第二項は学習を進めて行くときにwの変化を滑らかにし収束性を向上させることを目的とする項である。
【0067】
注意要求/転調部32は、コスト関数Ψの計算結果を所定の閾値と比較する。そして、コスト関数Ψが閾値より大きければ、注意を要求すべきと判断し、強化学習部28に対して注意要求を行い、εを出力する。コスト関数Ψが閾値より小さければ、注意要求を行わない。
【0068】
注意要求されると、上述の強化学習部28は次式に従って新しい重みベクトルwを計算する。wの計算も位置座標及び速度座標の各点において行われる。
【0069】
【数16】
Figure 2004054638
【0070】
この関数の形状を図7に示す。式(12)で計算される重みベクトルwを用いると、前回のwを用いる場合と比較して報酬値1/εが大きくなる(すなわちεが小さくなる)ことがAllen−Cahnアルゴリズムにより保証されている。Allen−Cahnアルゴリズムの代わりに、サポートベクターマシンやニューラルネットワークを用いても良い。
【0071】
計算された重みベクトルwは結合記憶マップ34へ出力される。
【0072】
結合記憶マップ34は、スプラモダリティ情報と予測的行動情報との関係を記憶しており、強化学習部28から新たな重みベクトルwを受け取ると、その関係を書き換える。そして、再配線回路24から受け取るスプラモダリティ情報を用いて、予測的行動情報に関わる注意クラスΩを次式により決定する。
【0073】
【数17】
Figure 2004054638
【0074】
決定された注意クラスΩは、行動制御部36に送られる。
【0075】
行動制御部36は、注意クラスΩを受け取り、対応する行動出力Oに変換して外界へ出力する。注意クラスΩと行動出力Oの対応関係は、事前に教師付き学習により獲得しておくか、または人間が予め適切な出力を想定して入力しておく。あるいは、より高次の学習機能により対応関係を自己獲得するようにしても良い。
【0076】
<認識処理のプロセス>
以上説明した各機能ブロックを有するクロスモーダル学習装置は、外界の情報に対して異種のモダリティ情報の結合関係を自己学習的に更新していくことによって、外界の状態を認識し、外界に適応した行動を出力する。このときの各機能ブロック間の連係を図6のフローチャートを参照して説明する。
【0077】
初期状態と開始時について説明すると、初めに位置座標及び速度座標の各点におけるパラメータθi,k=(αi,k、μi,k、σi,k)及び重みベクトルwの初期値を設定する。一例として、αi,k=1/M、μi,k=0、σi,k=1とし、またw−1は区間[−1,0]において発生させた乱数、w+1は区間[0,1]において発生させた乱数を初期値とする。乱数は、例えばC言語における疑似乱数発生関数rand()を用いて生成することが可能である。
【0078】
計算を開始し、センサ20は外界情報を計測し、サブセンサ22は時刻t=0のセンサモダリティsi,kを取得する。再配線回路24は、センサモダリティsi,kとθi,kの初期値を用いて、スプラモダリティρ(s)を計算する。時刻t=0においては、まだ強化学習部28で学習すべき対象が存在しないので、スプラモダリティρ(s)は結合記憶マップ34にのみ出力される。結合記憶マップ34は、スプラモダリティρ(s)に対して、重みベクトルwの初期値を用いて注意クラスΩを決定する。行動制御部36は、注意クラスΩに対応する行動Oを外界に出力する。以降、センサ20で捉えられる外界の情報には、前の時間ステップで外界に出力された行動Oの影響が外界を経由して反映されることになる。
【0079】
次の時間ステップからは、以下に説明する処理が繰り返される。
【0080】
センサ20は、時間ステップjで外界の情報を計測する(S48)。サブセンサ22はその情報を位置モダリティと速度モダリティに分離する(S50)。分離されたセンサモダリティは、再配線回路24と強化学習部28へ出力される。
【0081】
再配線回路24は、前時刻に強化学習部28において決定されたパラメータθi,kを使用して、位置モダリティと速度モダリティを2つのスプラモダリティ情報ρ−1(s−1)及びρ+1(s+1)に統合する(S52)。スプラモダリティ情報は、強化学習部28と結合記憶マップ34へ出力される。
【0082】
このとき、強化学習部28は、サブセンサ22から受け取ったセンサモダリティを用いて、上記式(5)または式(6)により新たなパラメータθi,kを計算する(S54)。計算された新たなパラメータθi,kは再配線回路24へ送られ、次の時間ステップでの再配線回路24におけるスプラモダリティ情報ρ−1(s−1)及びρ+1(s+1)の構築(式(1)または式(2))に使用されることになる。
【0083】
強化学習部28は、さらに現時点のセンサモダリティ情報を使用して、位置座標及び速度座標の各点における事後確率Pik postを計算する(S56)。事後確率Pik postは行動評価部30へ出力される。
【0084】
行動評価部30は、強化学習部28で計算された事後確率の分布を使用して、式(7)により報酬値1/εの逆数εを計算する(S58)。報酬値は注意要求/転調部32へ送られる。
【0085】
注意要求/転調部32は、行動評価部から入力される報酬値の逆数εを用いて、式(8)に従ってコスト関数Ψを計算する(S60)。ここで用いる重みベクトルwは前時刻の計算で得られた値である。注意要求/転調部32は、コスト関数Ψを所定の閾値(例えば0.01)と比較し(S62)、Ψが閾値より大きければ、重みベクトルwの更新が必要であると判断(注意要求)し、εを強化学習部へ出力(注意転調)する(S64)。コスト関数Ψが閾値より小さければ、重みベクトルwは適切に設定されていると判断し、wの更新をせずにステップS68へ進む。
【0086】
注意要求/転調部32が注意転調をした場合、強化学習部28は新しい重みベクトルwを計算し、結合記憶マップを書き換える(S66)。
【0087】
結合記憶マップ34は、再配線回路24から受け取ったスプラモダリティ情報に基づいて、式(13)に従って注意クラスΩを決定する(S68)。重みベクトルwが更新されていた場合は、同一値のスプラモダリティ情報から計算される注意クラスΩが変化することになる。重みベクトルが更新されていなければ前回の値を用いる。決定した注意クラスΩは行動制御部36へ出力される。
【0088】
行動制御部36は、注意クラスΩを行動Oに変換し、外界に出力する(S70)。以上で、1つの時間ステップの計算が終了し、次の時間ステップで再びステップS48からの処理を繰り返し行う。
【0089】
クロスモーダル学習装置が多数の時間ステップの間学習を継続すると、上記の処理を全て実行しなくても、学習をすることができるようになる。以下ではこの場合について説明する。
【0090】
図6のフローチャートでは、ステップS54でEMアルゴリズムを用いた学習によりパラメータθi,k=(αi,k,μi,k,σi,k)の全てを更新する計算を行った。しかしながら、ある程度学習が進んだ段階においては、パラメータθi,kのうちμi,k及びσi,kの変化をゼロと見なすことができるようになり、従って各センサモダリティ情報の混合係数αi,k及びスプラモダリティ情報の重みベクトルwのみを更新するだけで環境への適合が可能となる。
【0091】
学習の進み具合の判断は、例えば以下の条件式を用いることにより行う。
【0092】
【数18】
Figure 2004054638
ここで、αthresは定数であり、例えば0.7のような数値に設定する。上記の式が成立する場合には、次回の時間ステップからはμi,k及びσi,kの更新を行わず、強化学習部28はαi,kのみを計算し、再配線回路24へはαi,kのみが出力される。
【0093】
本発明のクロスモーダル学習装置は、異種センサによる情報を統合してより正確な行動の選択が行える。選択した行動が不適切な場合には、上記のように事後確率の積分値の分布が各センサモダリティ間で相似しないため、報酬値1/εが小さくなる。そして、これに応答して重みベクトルwが更新され、スプラモダリティ情報ρの結合関係を変化させる。従って、それまでとは異なる注意クラスΩが選択されることになり、これによって行動Oも変化する。こうして、外部環境の状態に応じてパラメータが最適化される。このように、本発明では教師データに基づかずに自己教師的にパラメータ最適化が行われるので、環境の変化に対し柔軟に適合可能となる。また、自己運動に伴って生じる外界の変化を計算量の増大なく柔軟に効率良く認識できるようになる。
【0094】
さらに、本発明によるクロスモーダル学習装置は、センサ数の増加に伴い指数関数的に増加する計算量を抑制する。例えば、センサをM個備える認識システムにおいて、各センサモダリティが位置座標上及び速度座標上でそれぞれN×N=N個の点において抽出されると仮定する。中間的なモダリティ情報を経由せず、各センサ情報の組合せに対して直接的に行動情報をマッピングする従来の処理方法では、センサ情報と行動との関係を記述するマップをセンサ情報の組合せの各々に対して与える必要があるため、マップのサイズは(N2Mとなり、センサ数Mに指数関数的に依存して増大する。それに対し、図1に示す本発明の一実施形態によれば、スプラモダリティ情報ρと注意クラスΩとの関係を記述するマップのみを与えれば良く、そのサイズはセンサ数Mには依存せず、常に(Nとなる。また、従来の処理方法では、各センサ情報に対して与えたパラメータを学習により決定する場合、学習に要する計算量は(N2Mのオーダーとなるが、本発明の一実施形態によれば2MNのオーダーに収まる。従って、装置内部に必要となるマップのサイズと学習に必要となる計算量の両方が低減される。以上の内容を表1にまとめて示す。
【0095】
【表1】
Figure 2004054638
【0096】
クロスモーダル学習装置は、単独の行動決定装置として使用できるだけでなく、具体的な応用形態として、自動車やヘリコプター、人間型ロボット等の運動体に搭載し、外界の情報に基づいて運動体のとるべき行動を決定するように使用することができる。
【0097】
以上本発明のいくつかの実施形態を説明してきtたが、本発明はこれに限定されるものではない。
【0098】
【発明の効果】
本発明によれば、複数のセンサ情報を統合し、環境の変化に対し柔軟に適合可能な学習処理を少ない計算処理量と少ない記憶容量で実現することができる。
【図面の簡単な説明】
【図1】本発明による認識処理の概念を説明する図である。
【図2】本発明の一実施形態によるクロスモーダル学習装置のブロック図である。
【図3】報酬値が低い場合の事後確率の積分値の分布の一例を示すグラフである。
【図4】報酬値が高い場合の事後確率の積分値の分布の一例を示すグラフである。
【図5】二重井戸型ポテンシャルの形状の一例を示すグラフである。
【図6】図2のクロスモーダル学習装置による処理を説明するフローチャートである。
【図7】重みベクトルとスプラモダリティ情報の関係を示すグラフである。
【符号の説明】
20    センサ
22    サブセンサ
24    再配線回路
26    注意的強化学習部
28    強化学習部
30    行動評価部
32    注意要求/転調部
34    結合記憶マップ
36    行動制御部

Claims (23)

  1. 外界の情報を計測する複数のセンサと、
    各センサで捉えた情報を位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離するモダリティ分離手段と、
    前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報をそれぞれ形状スプラモダリティと動きスプラモダリティに統合する再配線回路と、
    前記形状スプラモダリティと前記動きスプラモダリティのパラメータを学習する注意的強化学習部と、
    前記形状スプラモダリティ及び前記動きスプラモダリティに基づいて注意クラスを決定する結合記憶マップと、
    前記注意クラスに応じた行動を出力する行動制御部と、
    を備えるクロスモーダル学習装置。
  2. 前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項1に記載のクロスモーダル学習装置
    Figure 2004054638
    ここで、s(i=±1、ここで、i=−1は形状を表し、i=+1は動きを表す)は位置座標におけるセンサモダリティ情報s−1,k及び速度座標におけるセンサモダリティ情報s+1,k(1≦k≦M)の集合であり、Mはセンサモダリティ情報の総数であり、αi,k、μi,k、σi,kはそれぞれk番目のセンサモダリティ情報si,kの混合比率、平均、分散であり、|dsi,k|はk番目のセンサモダリティ情報の分解能である。
  3. 前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項1に記載のクロスモーダル学習装置
    Figure 2004054638
    ここで、s(i=±1、ここで、i=−1は形状を表し、i=+1は動きを表す)は位置座標におけるセンサモダリティ情報s−1,k及び速度座標におけるセンサモダリティ情報s+1,k(1≦k≦M)の集合であり、Mはセンサモダリティ情報の総数であり、αi,k、μi,k、σi,kはそれぞれk番目のセンサモダリティ情報si,kの混合比率、平均、分散である。
  4. 前記注意的強化学習部は、前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報に基づいて前記行動の事後確率を計算する強化学習部をさらに含む、請求項1に記載のクロスモーダル学習装置。
  5. 前記強化学習部は、前記事後確率を使用して、期待値最大化アルゴリズムにより前記パラメータを更新する、請求項1に記載のクロスモーダル学習装置。
  6. 前記注意的強化学習部は、前記事後確率を評価して、評価結果に応じた報酬を出力する行動評価部をさらに含む、請求項1に記載のクロスモーダル学習装置。
  7. 前記結合記憶マップは、重みベクトルを使用して前記形状スプラモダリティと前記動きスプラモダリティの結合関係を表現する、請求項1に記載のクロスモーダル学習装置。
  8. 前記注意的強化学習部は、前記報酬値を使用してコスト関数を計算し、該コスト関数と所定の閾値との比較結果に応じて前記重みベクトルの変更を指示する注意転調を行うか否かを判断する注意要求/転調部をさらに含む、請求項7に記載のクロスモーダル学習装置。
  9. 前記強化学習部は前記注意転調に応じて前記重みベクトルを再計算する請求項8に記載のクロスモーダル学習装置。
  10. 前記強化学習部は、学習の進展度合いに応じて前記パラメータの更新方法を変更する請求項5に記載のクロスモーダル学習装置。
  11. 各センサで捉えた情報をさらに複数のサブセンサデータに分離し、該サブセンサデータを位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離する、請求項1乃至10に記載のクロスモーダル学習装置。
  12. 外界の情報を計測し、
    計測した情報を位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離し、
    前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報をそれぞれ形状スプラモダリティと動きスプラモダリティに統合し、
    前記形状スプラモダリティと前記動きスプラモダリティのパラメータを学習し、
    前記形状スプラモダリティ及び前記動きスプラモダリティに基づいて注意クラスを決定し、
    前記注意クラスに応じた行動を出力することを含む認識処理方法。
  13. 前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項12に記載の認識処理方法
    Figure 2004054638
    ここで、s(i=±1、ここで、i=−1は形状を表し、i=+1は動きを表す)は位置座標におけるセンサモダリティ情報s−1,k及び速度座標におけるセンサモダリティ情報s+1,k(1≦k≦M)の集合であり、Mはセンサモダリティ情報の総数であり、αi,k、μi,k、σi,kはそれぞれk番目のセンサモダリティ情報si,kの混合比率、平均、分散であり、|dsi,k|はk番目のセンサモダリティ情報の分解能である。
  14. 前記形状スプラモダリティ情報及び前記動きスプラモダリティ情報が次式により計算される、請求項12に記載の認識処理方法
    Figure 2004054638
    ここで、s(i=±1、ここで、i=−1は形状を表し、i=+1は動きを表す)は位置座標におけるセンサモダリティ情報s−1,k及び速度座標におけるセンサモダリティ情報s+1,k(1≦k≦M)の集合であり、Mはセンサモダリティ情報の総数であり、αi,k、μi,k、σi,kはそれぞれk番目のセンサモダリティ情報si,kの混合比率、平均、分散である。
  15. 前記位置座標におけるセンサモダリティ情報と前記速度座標におけるセンサモダリティ情報に基づいて前記行動の事後確率を計算することをさらに含む、請求項12に記載の認識処理方法。
  16. 前記パラメータの学習は、前記事後確率を使用して期待値最大化アルゴリズムにより行われる、請求項12に記載の認識処理方法。
  17. 前記事後確率を評価して、評価結果に応じた報酬を出力することをさらに含む、請求項12に記載の認識処理方法。
  18. 前記注意クラスの決定は、重みベクトルにより表現された前記形状スプラモダリティと前記動きスプラモダリティの結合関係に基づいて行われる、請求項12に記載の認識処理方法。
  19. 前記報酬値を使用してコスト関数を計算し、該コスト関数と所定の閾値との比較結果に応じて前記重みベクトルの変更を指示する注意転調を行うか否かを判断することをさらに含む、請求項18に記載の認識処理方法。
  20. 前記注意転調に応じて前記重みベクトルを再計算することをさらに含む請求項19に記載の認識処理方法。
  21. 学習の進展度合いに応じて前記パラメータの更新方法を変更する請求項16に記載の認識処理方法。
  22. 各センサで捉えた情報をさらに複数のサブセンサデータに分離し、該サブセンサデータを位置座標におけるセンサモダリティ情報と速度座標におけるセンサモダリティ情報に分離する、請求項12乃至21に記載の認識処理方法。
  23. 請求項12ないし21の何れか1項に記載の処理をコンピュータに実行させるためのプログラム。
JP2002211759A 2002-07-19 2002-07-19 クロスモーダル学習装置及び認識処理方法 Pending JP2004054638A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002211759A JP2004054638A (ja) 2002-07-19 2002-07-19 クロスモーダル学習装置及び認識処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002211759A JP2004054638A (ja) 2002-07-19 2002-07-19 クロスモーダル学習装置及び認識処理方法

Publications (1)

Publication Number Publication Date
JP2004054638A true JP2004054638A (ja) 2004-02-19

Family

ID=31934891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002211759A Pending JP2004054638A (ja) 2002-07-19 2002-07-19 クロスモーダル学習装置及び認識処理方法

Country Status (1)

Country Link
JP (1) JP2004054638A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020507160A (ja) * 2017-01-20 2020-03-05 フォロー インスピレーション,エセ.アー. 自律型ロボットシステム
CN110998585A (zh) * 2017-06-22 2020-04-10 株式会社半导体能源研究所 布局设计系统及布局设计方法
JP2020064468A (ja) * 2018-10-17 2020-04-23 オムロン株式会社 センサシステム
CN111583011A (zh) * 2019-02-18 2020-08-25 北京奇虎科技有限公司 一种数据处理方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020507160A (ja) * 2017-01-20 2020-03-05 フォロー インスピレーション,エセ.アー. 自律型ロボットシステム
JP7075935B2 (ja) 2017-01-20 2022-05-26 フォロー インスピレーション,エセ.アー. 自律型ロボットシステム
CN110998585A (zh) * 2017-06-22 2020-04-10 株式会社半导体能源研究所 布局设计系统及布局设计方法
JP2020064468A (ja) * 2018-10-17 2020-04-23 オムロン株式会社 センサシステム
JP7083454B2 (ja) 2018-10-17 2022-06-13 オムロン株式会社 センサシステム
CN111583011A (zh) * 2019-02-18 2020-08-25 北京奇虎科技有限公司 一种数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP7263216B2 (ja) ワッサースタイン距離を使用する物体形状回帰
JP4970408B2 (ja) 物体特性のロバストな推定を用いる適応型運転者支援システム
KR20190113119A (ko) 합성곱 신경망을 위한 주의집중 값 계산 방법
CN108304795A (zh) 基于深度强化学习的人体骨架行为识别方法及装置
US20070185825A1 (en) Learning system and method, recognition device and method, creation device and method, recognition and creation device and method, and program
CN114943324B (zh) 神经网络训练方法、人体运动识别方法及设备、存储介质
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
CN113688765A (zh) 一种基于注意力机制的自适应图卷积网络的动作识别方法
US20240013048A1 (en) Method and System for Solving QUBO Problems with Hybrid Classical-Quantum Solvers
CN110799996A (zh) 在不同的深度学习架构之间的知识转移
CN112270648A (zh) 基于循环对抗网络的无监督图像变换方法及装置
JP4169038B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20240311670A1 (en) Hybrid quantum classical classification system for classifying images and training method
KR20200003444A (ko) 영상 모델 구축 장치 및 방법
CN116343012B (zh) 基于深度马尔可夫模型的全景图像扫视路径预测方法
Oniz et al. Control of a direct drive robot using fuzzy spiking neural networks with variable structure systems-based learning algorithm
CN113496194A (zh) 信息处理装置、信息处理方法、车辆、信息处理服务器和记录介质
CN119681909B (zh) 基于多模态大模型的机器人控制法
CN114067081B (zh) 一种基于双向增强网络的3d牙齿模型分割方法
JP2004054638A (ja) クロスモーダル学習装置及び認識処理方法
KR20230065125A (ko) 기계 학습 모델의 트레이닝 방법 및 전자 장치
CN117379284B (zh) 髋关节外骨骼的控制方法、装置、终端设备及存储介质
CN118650609A (zh) 机器人抓取方法、装置、设备、存储介质及产品
Pak et al. Carnet: A dynamic autoencoder for learning latent dynamics in autonomous driving tasks
JP7113674B2 (ja) 情報処理装置及び情報処理方法