[go: up one dir, main page]

JP2004199288A - Data processing device, data processing method, data processing program, and recording medium - Google Patents

Data processing device, data processing method, data processing program, and recording medium Download PDF

Info

Publication number
JP2004199288A
JP2004199288A JP2002365709A JP2002365709A JP2004199288A JP 2004199288 A JP2004199288 A JP 2004199288A JP 2002365709 A JP2002365709 A JP 2002365709A JP 2002365709 A JP2002365709 A JP 2002365709A JP 2004199288 A JP2004199288 A JP 2004199288A
Authority
JP
Japan
Prior art keywords
similarity
matrix
attribute
data processing
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002365709A
Other languages
Japanese (ja)
Other versions
JP4401650B2 (en
Inventor
Kengo Kinoshita
賢吾 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2002365709A priority Critical patent/JP4401650B2/en
Publication of JP2004199288A publication Critical patent/JP2004199288A/en
Application granted granted Critical
Publication of JP4401650B2 publication Critical patent/JP4401650B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対象の特定の属性に関して類似度が定まるような場合においても適正な分類及びその分類結果の表示を行うことができるデータ処理装置を提供する。
【解決手段】データ処理装置1は、複数の対象それぞれについて、対象が有する特定の属性に関し、複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶する記憶部10と、複数の対象それぞれについて、他の対象それぞれとの間の類似度を配列して行を構成し、複数の対象それぞれについて構成された行を配列して行列を構成し、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線Dに近づくように、行列の行及び列を入れ替える順序入れ替え部20と、順序入れ替え部20により行及び列が入れ替えられた行列に基づいて、複数の対象それぞれが互いに類似関係にあるか否かに関する情報をグラフィック表示する表示部30とを備える。
【選択図】 図1
An object of the present invention is to provide a data processing device capable of performing appropriate classification and displaying the classification result even when similarity is determined for a specific attribute of a target.
A data processing apparatus stores a similarity indicating a similarity between each of a plurality of objects and a specific attribute of the object with each of other objects included in the plurality of objects. And, for each of the plurality of objects, form a row by arranging the similarity between each of the other objects, form a matrix by arranging the rows configured for each of the plurality of objects, and a predetermined Based on the evaluation function, the order permutation unit 20 that permutates the rows and columns of the matrix, and the rows and columns are permuted by the permutation unit 20 such that the element having the higher similarity among the elements of the matrix approaches the diagonal line D of the matrix. A display unit 30 for graphically displaying information on whether or not each of the plurality of objects has a similar relationship with each other based on the matrix.
[Selection diagram] Fig. 1

Description

【0001】
【発明の属する技術分野】
本発明は、複数の対象それぞれが互いに類似関係にあるか否かに関する情報を表示するデータ処理装置、データ処理方法、データ処理プログラム及び記録媒体に関するものである。
【0002】
【従来の技術】
従来、対象を類似した特徴を持つ幾つかのグループ(クラスター)に分類し、その分類結果を樹形図等で表示する手法としてクラスター分析等が知られている(例えば、非特許文献1参照)。そして、このようなクラスター分析等を用いた対象の比較分類は、様々な分野で広く行われている。
【0003】
【非特許文献1】
脇本和昌、田中豊著、「多変量統計解析法」、現代数学社、1983年5月、p.230−244
【0004】
【発明が解決しようとする課題】
しかしながら、クラスター分析に代表される既知の分類法は、対象間の類似度が対象全体で定義されるときには有効に機能するが、対象の特定の属性に関して類似度が定められるような場合には誤分類を生じるという問題を有する。具体的には、対象Aと対象B及び対象Bと対象Cそれぞれが特定の属性に関して類似している場合、対象Aと対象Cとが該特定の属性に関して類似していなくても、対象A、B及びCが同じクラスターに属するという間違った分類を行うという問題が有る。
【0005】
本発明は、上記問題点を解消する為になされたものであり、対象の特定の属性に関して類似度が定まるような場合においても適正な分類及びその分類結果の表示を行うことができる、データ処理装置、データ処理方法、データ処理プログラム及び記録媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明に係るデータ処理装置は、複数の対象それぞれが互いに類似関係にあるか否かに関する情報を表示するデータ処理装置であって、複数の対象それぞれについて、対象が有する特定の属性に関し、複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶する記憶手段と、複数の対象それぞれについて、記憶手段に記憶された他の対象それぞれとの間の類似度を配列して行を構成し、複数の対象それぞれについて構成された行を配列して行列を構成し、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線に近づくように、行列の行及び列を入れ替える順序入れ替え手段と、順序入れ替え手段により行及び列が入れ替えられた行列に基づいて、複数の対象それぞれが互いに類似関係にあるか否かに関する情報をグラフィック表示する表示手段とを備えることを特徴とする。
【0007】
本発明に係るデータ処理方法は、複数の対象それぞれが互いに類似関係にあるか否かに関する情報を表示するデータ処理方法であって、複数の対象それぞれについて、対象が有する特定の属性に関し、複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶手段に記憶しておき、順序入れ替え手段が、複数の対象それぞれについて、記憶手段に記憶された他の対象それぞれとの間の類似度を配列して行を構成し、複数の対象それぞれについて構成された行を配列して行列を構成し、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線に近づくように、行列の行及び列を入れ替える処理を行う順序入れ替え処理ステップと、順序入れ替え手段により行及び列が入れ替えられた行列に基づいて、複数の対象それぞれが互いに類似関係にあるか否かに関する情報を、表示手段にグラフィック表示する表示処理ステップとを備えることを特徴とする。
【0008】
本発明に係るデータ処理装置またはデータ処理方法によれば、複数の対象それぞれについて、当該対象が有する特定の属性に関し、他の対象それぞれとの間の類似度が記憶手段により記憶され、複数の対象それぞれについて、記憶手段に記憶された他の対象それぞれとの間の類似度が配列されて行が構成され、複数の対象それぞれについて構成された行が配列されて行列が構成され、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線に近づくように、行列の行及び列が入れ替えられる。
【0009】
そして、行及び列が入れ替えられた行列に基づいて、複数の対象それぞれが互いに類似関係にあるか否かに関する情報がグラフィック表示される。よって、このグラフィック表示に基づいて特定の属性に関して互いに類似関係に有る対象のグループを得ることが出来る。
【0010】
また、本発明に係るデータ処理装置は、記憶手段が、特定の一つの属性に関する類似度と特定の一つの属性とは異なる他の属性に関する類似度とを記憶し、順序入れ替え手段が、行列を構成するに際し、一つの属性に関する類似度が行列の上三角部分に配置され、かつ、他の属性に関する類似度が行列の下三角部分に配置されるように行列を構成し、一つの属性に関する類似度に関する所定の評価関数に基づいて、行列の要素のうち一つの属性に関する類似度の大きい要素が行列の対角線に近づくように、行列の行及び列を入れ替えることが好適である。
【0011】
また、本発明に係るデータ処理方法は、特定の一つの属性に関する類似度と特定の一つの属性とは異なる他の属性に関する類似度とを記憶手段に記憶しておき、順序入れ替え処理ステップにおいて、順序入れ替え手段が、行列を構成するに際し、一つの属性に関する類似度が行列の上三角部分に配置され、かつ、他の属性に関する類似度が行列の下三角部分に配置されるように行列を構成し、一つの属性に関する類似度に関する所定の評価関数に基づいて、行列の要素のうち一つの属性に関する類似度の大きい要素が行列の対角線に近づくように、行列の行及び列を入れ替えることが好適である。
【0012】
この場合、特定の一つの属性に関する類似度と他の属性に関する類似度とが記憶手段により記憶され、順序入れ替え手段により(順序入れ替え処理ステップで)一つの属性に関する類似度が行列の上三角部分に配置され、かつ、他の属性に関する類似度が行列の下三角部分に配置されるように行列が構成され、一つの属性に関する類似度に関する所定の評価関数に基づいて、行列の要素のうち一つの属性に関する類似度の大きい要素が行列の対角線に近づくように、行列の行及び列が入れ替えられる。これにより、特定の一つの属性に関して類似していることと他の属性に関して類似していることとが相関関係を有するか否かについての情報を得ることができる。
【0013】
また、本発明に係るデータ処理装置は、評価関数が、インデックス行番号i,j、i番目の対象とj番目の対象との類似度Si,j、類似度に関する閾値S0、次数nを用いて
【数7】

Figure 2004199288
【数8】
Figure 2004199288
で表され、0.5≦n≦2であることが好適である。
【0014】
また、本発明に係るデータ処理方法は、評価関数が、インデックス行番号i,j、i番目の対象とj番目の対象との類似度Si,j、類似度に関する閾値S0、次数nを用いて
【数9】
Figure 2004199288
【数10】
Figure 2004199288
で表され、0.5≦n≦2であることが好適である。
【0015】
この場合、nが0.5以上2以下に設定されることにより、類似度の大きい要素を適切に行列の対角線に近づけることが可能となる。
【0016】
また、本発明に係るデータ処理装置は、n=1であることが好適である。
【0017】
また、本発明に係るデータ処理方法は、n=1であることが好適である。
【0018】
この場合、距離を表す関数として1次関数|i−j|が用いられることにより、類似度の大きい要素をより適切に行列の対角線に近づけることが可能となる。また、データを処理するために必要とされる計算量を大幅に低減することが可能となる。
【0019】
また、本発明に係るデータ処理装置は、複数の対象それぞれが生体分子であり、属性が生体分子についての所定の空間における原子の配置に関する属性であり、類似度が生体分子についての所定の空間における原子の配置に基づいて決定されることが好適である。
【0020】
また、本発明に係るデータ処理方法は、複数の対象それぞれが生体分子であり、属性が生体分子についての所定の空間における原子の配置に関する属性であり、類似度が生体分子についての所定の空間における原子の配置に基づいて決定されることが好適である。
【0021】
この場合、例えば、蛋白質などの生体分子において構造的あるいは機能的に独立した部分構造の類似度に基づいて分類処理を行うことが可能となる。
【0022】
本発明に係るデータ処理プログラムは、複数の対象それぞれが互いに類似関係にあるか否かに関する情報を表示するためのデータ処理プログラムであって、コンピュータを、複数の対象それぞれについて、対象が有する特定の属性に関し、複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶する記憶手段と、複数の対象それぞれについて、記憶手段に記憶された他の対象それぞれとの間の類似度を配列して行を構成し、複数の対象それぞれについて構成された行を配列して行列を構成し、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線に近づくように、行列の行及び列を入れ替える順序入れ替え手段と、順序入れ替え手段により行及び列が入れ替えられた行列に基づいて、複数の対象それぞれが互いに類似関係にあるか否かに関する情報をグラフィック表示する表示手段として機能させることを特徴とする。
【0023】
本発明に係るデータ処理プログラムが実行されることにより、コンピュータが、複数の対象それぞれについて、対象が有する特定の属性に関し、複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶する記憶手段と、複数の対象それぞれについて、記憶手段に記憶された他の対象それぞれとの間の類似度を配列して行を構成し、複数の対象それぞれについて構成された行を配列して行列を構成し、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線に近づくように、行列の行及び列を入れ替える順序入れ替え手段と、順序入れ替え手段により行及び列が入れ替えられた行列に基づいて、複数の対象それぞれが互いに類似関係にあるか否かに関する情報をグラフィック表示する表示手段として機能させられる。そして、このグラフィック表示に基づいて特定の属性に関して互いに類似関係に有る対象のグループを得ることが可能となる。
【0024】
また、本発明に係るデータ処理プログラムは、記憶手段が、特定の一つの属性に関する類似度と特定の一つの属性とは異なる他の属性に関する類似度とを記憶し、順序入れ替え手段が、行列を構成するに際し、一つの属性に関する類似度が行列の上三角部分に配置され、かつ、他の属性に関する類似度が行列の下三角部分に配置されるように行列を構成し、一つの属性に関する類似度に関する所定の評価関数に基づいて、行列の要素のうち一つの属性に関する類似度の大きい要素が行列の対角線に近づくように、行列の行及び列を入れ替えることが好適である。
【0025】
この場合、本発明に係るデータ処理プログラムが実行されることにより、特定の一つの属性に関する類似度と他の属性に関する類似度とが記憶手段により記憶され、順序入れ替え手段により、一つの属性に関する類似度が行列の上三角部分に配置され、かつ、他の属性に関する類似度が行列の下三角部分に配置されるように行列が構成され、一つの属性に関する類似度に関する所定の評価関数に基づいて、行列の要素のうち一の属に関する類似度の大きい要素が行列の対角線に近づくように、行列の行及び列が入れ替えられる。これにより、特定の一つの属性に関して類似していることと他の属性に関して類似していることとが相関関係を有するか否かについての情報を得ることが可能となる。
【0026】
また、本発明に係るデータ処理プログラムは、評価関数が、インデックス行番号i,j、i番目の対象とj番目の対象との類似度Si,j、類似度に関する閾値S0、次数nを用いて
【数11】
Figure 2004199288
【数12】
Figure 2004199288
で表され、0.5≦n≦2であることが好適である。
【0027】
この場合、nが0.5以上2以下に設定されることにより、類似度の大きい要素を適切に行列の対角線に近づけることが可能となる。
【0028】
また、本発明に係るデータ処理プログラムは、n=1であることが好適である。
【0029】
この場合、距離を表す関数として1次関数|i−j|が用いられることにより、類似度の大きい要素をより適切に行列の対角線に近づけることが可能となる。また、データを処理するために必要とされる計算量を大幅に低減することが可能となる。
【0030】
また、本発明に係るデータ処理プログラムは、複数の対象それぞれが生体分子であり、属性が生体分子についての所定の空間における原子の配置に関する属性であり、類似度が生体分子についての所定の空間における原子の配置に基づいて決定されることが好適である。この場合、例えば、蛋白質などの生体分子において構造的あるいは機能的に独立した部分構造の類似度に基づいて分類処理を行うことが可能となる。
【0031】
本発明に係るコンピュータ読み取り可能な記録媒体は、上記のデータ処理プログラムを記録したことを特徴とする。この場合、記録媒体に記録されたデータ処理プログラムをコンピュータに実行させることにより、上記データ処理に必要な機能がコンピュータ上に実現される。
【0032】
【発明の実施の形態】
以下、添付図面を参照して本発明の実施の形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【0033】
(第1実施形態)
第1実施形態に係るデータ処理装置1の構成について説明する。なお、以下の説明では具体的な実施例としてデータ処理装置1をモノヌクレオチド結合蛋白質の分類に用いた場合について説明する。図1は、第1実施形態に係るデータ処理装置1の全体構成を示すブロック図である。データ処理装置1は、記憶部10(記憶手段)、順序入れ替え部20(順序入れ替え手段)及び表示部30(表示手段)を備えている。
【0034】
記憶部10は、複数(461個)のモノヌクレオチド結合蛋白質それぞれについて、モノヌクレオチド結合蛋白質が有する特定の属性(モノヌクレオチドの中の燐酸基から7Å以内の距離にある蛋白質原子の空間配置(以下「空間配置属性」という))に関し、461個のモノヌクレオチド結合蛋白質に含まれる他のモノヌクレオチド結合蛋白質それぞれとの間の類似度合いを示す類似度を記憶する。この記憶部10には、例えば、ハードディスクや光ディスク等が好適に用いられる。
【0035】
ここで、空間配置属性に関するモノヌクレオチド結合蛋白質間の類似度は、例えば、専用のコンピュータプログラムなどにより予め付与される。具体的に類似度は、原子の種類が一致しており、最適重ね合わせを行ったときに、根平均2乗誤差(原子間の距離の2乗の和を原子数で除したものの平方根の値)が1Åを超えない範囲内で原子を対応付けたときの対応する原子の数とした。
【0036】
空間配置属性に関する類似度は、例えば、「S(A、B)=10」というように表現される。ここで、A及びBはモノヌクレオチド結合蛋白質を表し、「10」はモノヌクレオチド結合蛋白質Aとモノヌクレオチド結合蛋白質Bとの間の空間配置属性に関する類似度を示す数値(対応する原子数)である。
【0037】
順序入れ替え部20は、461個のモノヌクレオチド結合蛋白質それぞれについて、記憶部10に記憶された他のモノヌクレオチド結合蛋白質それぞれとの間の類似度を配列して行を構成し、461個のモノヌクレオチド結合蛋白質それぞれについて構成された行を配列して行列を構成し、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線Dに近づくように、行列の行及び列を入れ替える。詳細は後述する。この順序入れ替え部20には、例えば、コンピュータ等が好適に用いられる。
【0038】
また、所定の評価関数としては、インデックス行番号i,j、i番目の対象とj番目の対象との類似度Si,j、類似度に関する閾値S0、次数nを用いて、例えば、
【数13】
Figure 2004199288
【数14】
Figure 2004199288
で表される関数を用いる。ここで、nは、0.5以上、2以下とするのが良い。
【0039】
評価関数の形は類似度の大きい要素を行列の対角線に近づける度合いを表すが、nを2より大きくした場合には対角線に近づける圧力が強くなり過ぎ、また、nを0.5より小さくしたときには対角線に近づける圧力が弱くなり過ぎる。よって、これらの場合には類似度の大きい要素を適切に行列の対角線に近づけることができない。しかし、nが0.5以上2以下に設定されたときには、類似度の大きい要素を行列の対角線に近づける圧力が適切となるので、類似度の大きい要素を適切に行列の対角線に近づけることが可能となる。
【0040】
表示部30は、順序入れ替え部20により行及び列が入れ替えられた行列に基づいて、461個のモノヌクレオチド結合蛋白質それぞれが互いに類似関係にあるか否かに関する情報をグラフィック表示する。詳細は後述する。表示部30には、例えば、CRTディスプレイ、LCDディスプレイ及びプリンタ等が好適に用いられる。
【0041】
次に、図3を用いて、第1実施形態に係るデータ処理装置1の動作及びデータ処理方法について詳細に説明する。
【0042】
ステップS100では、461個のモノヌクレオチド結合蛋白質それぞれについて、記憶部10に予め記憶された他のモノヌクレオチド結合蛋白質それぞれとの間の類似度を配列して行を構成し、さらに、複数のモノヌクレオチド結合蛋白質それぞれについて構成された行を配列して行列を構成する。行列の初期値は、ランダムな配置を採用しても良いが、より迅速に計算を終了させるためには、予めクラスター分析を行って、同一のクラスターに含まれるモノヌクレオチド結合蛋白質同士が近くに配置されるように並べておくことも有効である。
【0043】
ステップS110では、ステップS100で構成された行列において、上記式(13)に基づいて、空間配置属性に関して類似していると判定されたモノヌクレオチド結合蛋白質間の距離の総和Fを算出する。本実施形態では、式(13)におけるnの値を1に設定した。ここで、nを1に設定することにより、行列の要素のうち類似度の大きい要素を行列の対角線に適切に近づけることが可能となる。また、データを処理するために必要とされる計算量を大幅に低減することが可能となる。なお、式(13)において、|i−j|はi番目のモノヌクレオチド結合蛋白質とj番目のモノヌクレオチド結合蛋白質との距離を表す。また、θは、i番目のモノヌクレオチド結合蛋白質とj番目のモノヌクレオチド結合蛋白質とが空間配置属性に関して類似する場合に1となり、類似しない場合に0となるステップファンクションである。
【0044】
ステップS120では、ステップS100で構成された行列において、複数のモノヌクレオチド結合蛋白質の中から無作為に抽出された第1のモノヌクレオチド結合蛋白質(i)についての要素と第2のモノヌクレオチド結合蛋白質(j)についての要素とを入れ替えて、行列を再構成する。
【0045】
ステップS130では、ステップS120で第1のモノヌクレオチド結合蛋白質(i)についての要素と第2のモノヌクレオチド結合蛋白質(j)についての要素とを入れ替えて再構成した行列において、空間配置属性に関して類似していると判定されたモノヌクレオチド結合蛋白質間の距離の総和F’を上記式(13)により算出する。
【0046】
ステップS140では、行列の要素の入れ替え前の距離の総和Fと入れ替え後の距離の総和F’とに基づいて、ステップS120でのモノヌクレオチド結合蛋白質(i)及び(j)についての要素の入れ替えの採否を判定する。原則として「F’−F」の値が判定基準値(0)よりも小さくなった場合に入れ替えが採択される。但し、局所的な対象の集中を防止し、また、処理結果がデータ処理開始時の対象の配列に依存することを防止するために、データ処理開始時には判定基準値を所定の正の値(例えば、10)とし、入れ替えを採択するごとにこの判定基準値を徐々に(例えば、1%づつ)0まで小さくして行く処理を行う。
【0047】
ステップS150では、例えば、予め設定した規定の入れ替え回数(例えば、1万回)の10%(1千回)以上の回数連続して「F’−F」の値が判定基準値よりも小さくならなかったとき及び上記規定の回数行列の要素の入れ替えが行われたときには終了条件が満たされたとして処理を終了する。この終了条件が満たされていない場合には、終了条件が満たされるまでステップS120〜ステップS140を繰り返して行う。
【0048】
ステップS160では、ステップS150で上記の終了条件が満たされたときに、順序入れ替え部20により行及び列が入れ替えられた行列に基づいて、複数のモノヌクレオチド結合蛋白質それぞれが互いに類似関係にあるか否かに関する情報を表示部30によりグラフィック表示する。具体的には、i番目のモノヌクレオチド結合蛋白質とj番目のモノヌクレオチド結合蛋白質とが空間配置属性に関して類似しているときには行列の(i,j)に点を打つことにより処理結果を可視化してグラフィック表示する。図11は、本実施形態のデータ処理結果を示す模式図である。ここで、対応する原子数が23〜29のものを点、30以上のものを黒塗りで表示した。
【0049】
上記の評価関数におけるi番目のモノヌクレオチド結合蛋白質とj番目のモノヌクレオチド結合蛋白質との距離の総和Fは、行列の対角線Dから点(i,j)までの最短距離の総和の21/2倍に対応する。よって、距離の総和Fが小さくなるようにモノヌクレオチド結合蛋白質の行及び列の順序を入れ替えることは行列上の点を対角線D上に集めることに相当する。しかし、異なるモノヌクレオチド結合蛋白質が行列上の同じ場所を占めることはできないので全ての点が行列の対角線Dに集まることができず一部の点は対角線Dから少し離れた場所を占めざるを得ない、その際に距離の総和Fをできるだけ小さくするために類似する空間配置を持つモノヌクレオチド結合蛋白質が一つのグループ(塊)として集まることとなる。その結果、行列の対角線Dに近い部分に類似する空間配置を有するモノヌクレオチド結合蛋白質のグループが作成される。
【0050】
例えば、図5で模式的に示されるように最初ばらばらに分布していた相互に類似するモノヌクレオチド結合蛋白質が、距離の総和Fを最小化することにより、図6で模式的に示されるように対角線Dに近い部分に集まりグループ(塊)を形成する。その結果、空間配置属性に関して互いに類似関係を有するモノヌクレオチド結合蛋白質をグループ化して分類することができる。ここで、一つの塊として表示されているグループに属するモノヌクレオチド結合蛋白質は空間配置属性に関して相互に類似し、別々のグループに属するモノヌクレオチド結合蛋白質は該空間配置属性に関して相互に類似していないと判定される。
【0051】
本実施形態に係るデータ処理装置による解析の結果、多くの場合は、蛋白質の局所的な構造の類似性も全体構造での類似性と同様に蛋白質の進化的な類縁関係を示唆するが、進化的な類縁関係に拘束されない物理化学的な相互作用に起因する類似構造も数多く存在することが解明できた。このように、本実施形態に係るデータ処理装置によれば、進化的類縁関係に束縛されない物理化学的な相互作用に起因する類似性を見つけ出すことができるので、どのような立体構造上の類似性が機能の類似性を意味するかを解析することにより、構造からの機能予測が可能となる。
【0052】
(第2実施形態)
次に、図2を用いて、本発明に係るデータ処理装置の第2実施形態について説明する。なお、図2において第1実施形態と同一または同等の構成要素については同一の符号が付されている。以下の説明では具体的な実施例としてデータ処理装置2をモノヌクレオチド結合蛋白質の分類に用いた場合について説明する。
【0053】
本実施形態が第1実施形態と異なるのは、記憶部10の代わりに記憶部(複数属性)10bを用いた点及び順序入れ替え部20の代わりに順序入れ替え部(複数属性)20bを用いた点である。
【0054】
記憶部(複数属性)10bは、特定の一つの属性(モノヌクレオチド結合蛋白質の中の燐酸基から7Å以内にある蛋白質原子の空間配置(以下「燐酸基空間配置属性」という))に関する類似度と該特定の一つの属性とは異なる他の属性(塩基から7Å以内にある蛋白質原子の空間配置(以下「塩基空間配置属性」という))に関する類似度とを記憶する。
【0055】
また、順序入れ替え部(複数属性)20bは、燐酸基空間配置属性に関する類似度が行列の上三角部分に配置され、かつ、塩基空間配置属性に関する類似度が行列の下三角部分に配置されるように行列を構成し、燐酸基空間配置属性に関する類似度に関して上記式(13)により行列要素のうち燐酸基空間配置属性に関する類似度の大きい要素が行列の対角線Dに近づくように行列の行及び列を入れ替える。
【0056】
次に、図4を参照して、データ処理装置2の動作及びデータ処理方法について説明する。
【0057】
ステップS100bでは、1137個のモノヌクレオチド結合蛋白質それぞれについて、記憶部(複数属性)10bに予め記憶された他のモノヌクレオチド結合蛋白質それぞれとの間の類似度を配列して行を構成し、さらに、複数のモノヌクレオチド結合蛋白質それぞれについて構成された行を配列して行列を構成する。また、この行列を構成する際に、燐酸基空間配置属性に関する類似度が行列の上三角部分に配置され、かつ、塩基空間配置属性に関する類似度が行列の下三角部分に配置されるように行列を構成する。
【0058】
ステップS110〜S160では、燐酸基空間配置属性に関して上記第1実施形態と同様の処理が行われる。
【0059】
そして、図12に示すように、行列の左上に燐酸基空間配置属性についてのデータ処理結果、右下に塩基空間配置属性についてのデータ処理結果を表示して可視化した。ここで、対応する原子数が23〜29のものを点、30以上のものを黒塗りで表示した。
【0060】
以上のデータ処理により、図7に模式的に示すように、燐酸基空間配置属性について類似するモノヌクレオチド結合蛋白質と塩基空間配置属性について類似するモノヌクレオチド結合蛋白質とが行列の対角線Dに対して略対称な形状に集合したときには、燐酸基空間配置属性について類似していることと塩基空間配置属性について類似していることには相関関係があり、図8に模式的に示すように、非対称になった場合には燐酸基空間配置属性について類似していることと塩基空間配置属性について類似していることには相関関係が無いことが判断できる。
【0061】
このように、本実施形態のデータ処理装置2によれば、燐酸基空間配置属性についてのモノヌクレオチド結合蛋白質相互間の類似性と塩基空間配置属性についてのモノヌクレオチド結合蛋白質相互間の類似性との相関関係を判断することができるという、格別の効果を有する。
【0062】
次に、本発明の実施形態に係るデータ処理方法をコンピュータ3に実行させるためのデータ処理プログラム102及びデータ処理プログラム102を記録したコンピュータ読み取り可能な記録媒体100(以下、単に記録媒体という)について説明する。
【0063】
ここで、記録媒体とは、コンピュータのハードウェア資源に備えられている読み取り装置に対して、プログラムの記述内容に応じて、磁気、光、電気等のエネルギーの変化状態を引き起こして、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。かかる記録媒体としては、例えば、磁気ディスク、光ディスク、CD−ROM及びコンピュータに内蔵されるメモリ等が該当する。
【0064】
図9は、本発明の実施形態に係る記録媒体100の構成図である。記録媒体100は、図9に示すように、プログラムを記録するプログラム領域101を備えている。このプログラム領域101にはデータ処理プログラム102が記録されている。
【0065】
このデータ処理プログラム102は、前述したデータ処理方法を実行するプログラムであって、図9に示すように、処理を統括するメインモジュール102aと、複数のモノヌクレオチド結合蛋白質それぞれについて、記憶部10に記憶された他のモノヌクレオチド結合蛋白質それぞれとの間の類似度を配列して行を構成し、複数のモノヌクレオチド結合蛋白質それぞれについて構成された行を配列して行列を構成し、類似度に関する所定の評価関数に基づいて、行列の要素のうち類似度の大きい要素が行列の対角線Dに近づくように、行列の行及び列を入れ替える順序入れ替えモジュール102bと、順序入れ替えモジュール102bにより出力された行列に基づいて、複数のモノヌクレオチド結合蛋白質それぞれが互いに類似関係にあるか否かに関する情報を表示部30によりグラフィック表示する表示モジュール102cとを備えて構成される。
【0066】
図10は、上記記録媒体100に記録されたデータ処理プログラム102を実行するためのコンピュータ3のシステム構成図である。コンピュータ3は、データ処理プログラム102の実行等を制御するCPU40と、記録媒体100に記録されたデータ処理プログラム102を読み取り可能な読み取り装置60と、メモリ(RAM)50と、ディスプレイ等より成る表示部30とを備えている。ここで、記録媒体100が読み取り装置60に挿入されると、記録媒体100に記録された情報が読み取り装置60からアクセス可能となり、図9に示す記録媒体100のプログラム領域101に記録されたデータ処理プログラム102が、コンピュータ3によって実行可能となる。
【0067】
上記読み取り装置60としては、記録媒体100に対応して、フレキシブルディスクドライブ装置、CD−ROMドライブ装置、あるいは磁気テープドライブ装置などが用いられる。
【0068】
以上、本発明の実施形態では、蛋白質の分類及び分類結果の表示に本発明に係るデータ処理装置を適用した例を説明した。しかし、本発明は、蛋白質の分類に限らず、例えば、アンケート結果の分類や疫学調査など、広い範囲に応用することが可能である。
【0069】
【発明の効果】
以上、詳細に説明したとおり、本発明によれば、対象の特定の属性に関して類似度が定まるような場合においても適正な分類及びその分類結果の表示を行うことができる、データ処理装置、データ処理方法、データ処理プログラム及び記録媒体を提供することができる。
【図面の簡単な説明】
【図1】第1実施形態に係るデータ処理装置の全体構成を示すブロック図である。
【図2】第2実施形態に係るデータ処理装置の全体構成を示すブロック図である。
【図3】第1実施形態に係るデータ処理方法の全体処理を示す流れ図である。
【図4】第2実施形態に係るデータ処理方法の全体処理を示す流れ図である。
【図5】データ処理前の複数の対象それぞれの類似関係を示す模式図である。
【図6】データ処理後の複数の対象それぞれの類似関係を示す模式図である。
【図7】第2実施形態に係るデータ処理方法による処理結果を説明するための模式図である。
【図8】第2実施形態に係るデータ処理方法による処理結果を説明するための模式図である。
【図9】記録媒体の構成図である。
【図10】コンピュータのシステム構成図である。
【図11】第1実施形態に係るデータ処理方法によるデータ処理の結果を示す模式図である。
【図12】第2実施形態に係るデータ処理方法によるデータ処理の結果を示す模式図である。
【符号の説明】
1,2…データ処理装置、3…コンピュータ、10…記憶部、20…順序入れ替え部、30…表示部、100…記録媒体、102…データ処理プログラム、D…対角線。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a data processing device, a data processing method, a data processing program, and a recording medium that display information on whether or not a plurality of objects are similar to each other.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, cluster analysis and the like are known as a method of classifying objects into several groups (clusters) having similar characteristics and displaying the classification result in a tree diagram or the like (for example, see Non-Patent Document 1). . Such comparative classification of objects using cluster analysis or the like is widely performed in various fields.
[0003]
[Non-patent document 1]
Kazumasa Wakimoto and Yutaka Tanaka, "Multivariate Statistical Analysis", Gendai Mathematics, May 1983, p. 230-244
[0004]
[Problems to be solved by the invention]
However, known classification methods represented by cluster analysis work effectively when similarity between objects is defined for the entire object, but are erroneous when similarity is determined for a specific attribute of the object. It has the problem of causing classification. Specifically, when the target A and the target B and the target B and the target C are similar with respect to a specific attribute, even if the target A and the target C are not similar with respect to the specific attribute, the target A, There is a problem in that B and C incorrectly classify as belonging to the same cluster.
[0005]
The present invention has been made in order to solve the above-described problem, and it is possible to perform appropriate classification and display the classification result even when similarity is determined for a specific attribute of a target. It is an object to provide an apparatus, a data processing method, a data processing program, and a recording medium.
[0006]
[Means for Solving the Problems]
A data processing device according to the present invention is a data processing device that displays information on whether or not each of a plurality of targets has a similar relationship to each other. A storage unit that stores a similarity indicating a degree of similarity with each of the other objects included in the object, and a similarity between each of the plurality of objects and each of the other objects stored in the storage unit. To form a matrix by arranging the rows configured for each of the plurality of objects to form a matrix, and based on a predetermined evaluation function regarding the similarity, an element having a high similarity among the elements of the matrix is located on a diagonal of the matrix. In order to approach each other, a plurality of objects are mutually exchanged based on the order changing means for changing the rows and columns of the matrix and the matrix in which the rows and columns are changed by the order changing means. Information about whether the similarity relation, characterized in that it comprises display means for graphically displaying.
[0007]
A data processing method according to the present invention is a data processing method for displaying information on whether or not each of a plurality of objects has a similar relationship to each other. The similarity indicating the degree of similarity with each of the other objects included in the object is stored in the storage unit, and the order changing unit compares the plurality of objects with each of the other objects stored in the storage unit. Arrange the similarities between to form a row, arrange the rows configured for each of a plurality of objects to form a matrix, based on a predetermined evaluation function related to the similarity, based on the similarity of the elements of the matrix An order permutation processing step of permuting the rows and columns of the matrix so that the large element approaches the diagonal of the matrix, and the rows and columns are permuted by the permutation means. Based on the matrix, the information on whether each of the plurality of target are in similar relationship to each other, characterized by comprising a display processing step of graphically displaying on a display unit.
[0008]
According to the data processing device or the data processing method according to the present invention, for each of a plurality of objects, the similarity between each of the plurality of objects and each of the other objects is stored by the storage unit, For each of them, the degree of similarity with each of the other objects stored in the storage means is arranged to form a row, the rows configured for each of the plurality of objects are arranged to form a matrix, and a predetermined The rows and columns of the matrix are exchanged based on the evaluation function of such that the elements having a large similarity among the elements of the matrix approach the diagonal of the matrix.
[0009]
Then, based on the matrix in which the rows and columns are exchanged, information regarding whether or not each of the plurality of objects has a similar relationship to each other is graphically displayed. Therefore, based on the graphic display, it is possible to obtain target groups having a similar relationship with each other with respect to a specific attribute.
[0010]
Further, in the data processing device according to the present invention, the storage unit stores the similarity relating to one specific attribute and the similarity relating to another attribute different from the specific one attribute, and the order changing unit converts the matrix into a matrix. In the configuration, the matrix is configured such that the similarity regarding one attribute is arranged in the upper triangular part of the matrix, and the similarity regarding the other attribute is arranged in the lower triangular part of the matrix. It is preferable that the rows and columns of the matrix be exchanged based on a predetermined evaluation function for the degree such that an element having a high degree of similarity regarding one attribute of the elements of the matrix approaches a diagonal line of the matrix.
[0011]
Further, in the data processing method according to the present invention, the similarity regarding one specific attribute and the similarity regarding another attribute different from the specific one attribute are stored in the storage unit, and in the order rearrangement processing step, The order changing means configures the matrix such that similarities regarding one attribute are arranged in an upper triangular portion of the matrix and similarities regarding other attributes are arranged in a lower triangular portion of the matrix. Then, based on a predetermined evaluation function regarding the similarity regarding one attribute, it is preferable to replace the rows and columns of the matrix such that an element having a high similarity regarding one attribute of the elements of the matrix approaches a diagonal line of the matrix. It is.
[0012]
In this case, the similarity regarding one specific attribute and the similarity regarding another attribute are stored by the storage unit, and the similarity regarding one attribute is stored in the upper triangular part of the matrix by the order changing unit (in the order changing process step). The matrix is arranged such that the similarities regarding the other attributes are arranged in the lower triangular portion of the matrix, and one of the elements of the matrix is determined based on a predetermined evaluation function regarding the similarity regarding one attribute. The rows and columns of the matrix are swapped such that the elements with a high degree of similarity for the attributes approach the diagonal of the matrix. As a result, it is possible to obtain information on whether or not the similarity regarding one specific attribute and the similarity regarding another attribute have a correlation.
[0013]
Further, in the data processing device according to the present invention, the evaluation function may be such that the index row number i, j, the similarity S between the i-th object and the j-th object, i, j , Threshold value S for similarity 0 , Using order n
(Equation 7)
Figure 2004199288
(Equation 8)
Figure 2004199288
It is preferable that 0.5 ≦ n ≦ 2.
[0014]
Further, in the data processing method according to the present invention, the evaluation function may be such that the index row number i, j, the similarity S between the i-th object and the j-th object. i, j , Threshold value S for similarity 0 , Using order n
(Equation 9)
Figure 2004199288
(Equation 10)
Figure 2004199288
It is preferable that 0.5 ≦ n ≦ 2.
[0015]
In this case, by setting n to be equal to or greater than 0.5 and equal to or less than 2, it becomes possible to appropriately bring elements having a large similarity closer to the diagonal of the matrix.
[0016]
In the data processing device according to the present invention, it is preferable that n = 1.
[0017]
In the data processing method according to the present invention, it is preferable that n = 1.
[0018]
In this case, by using the linear function | i−j | as the function representing the distance, it becomes possible to more appropriately bring the element having a large similarity closer to the diagonal of the matrix. Further, the amount of calculation required to process data can be significantly reduced.
[0019]
Further, in the data processing apparatus according to the present invention, each of the plurality of objects is a biomolecule, the attribute is an attribute related to the arrangement of atoms in a predetermined space for the biomolecule, and the similarity is a predetermined value for the biomolecule in the predetermined space. Preferably, it is determined based on the arrangement of atoms.
[0020]
Further, in the data processing method according to the present invention, each of the plurality of targets is a biomolecule, the attribute is an attribute related to the arrangement of atoms in a predetermined space for the biomolecule, and the similarity is a predetermined value for the biomolecule in the predetermined space. Preferably, it is determined based on the arrangement of atoms.
[0021]
In this case, for example, classification processing can be performed based on the similarity of structurally or functionally independent partial structures in a biomolecule such as a protein.
[0022]
A data processing program according to the present invention is a data processing program for displaying information on whether or not each of a plurality of objects has a similar relationship with each other. Regarding the attribute, a storage unit that stores a similarity indicating a degree of similarity with each of the other objects included in the plurality of objects, and, for each of the plurality of objects, a storage unit that stores the similarity between each of the other objects stored in the storage unit. A row is formed by arranging similarities, a matrix is formed by arranging rows configured for each of a plurality of objects, and an element having a large similarity among the elements of the matrix based on a predetermined evaluation function regarding the similarity So that the matrix approaches the diagonal of the matrix, the order of the rows and columns of the matrix is changed, and the order of the rows and columns is changed by the matrix. Zui it, characterized in that the functioning of the information on whether each of the plurality of target are in similar relationship to each other as a display means for graphically displaying.
[0023]
When the data processing program according to the present invention is executed, the computer causes each of the plurality of objects to display a similarity indicating a degree of similarity with each of the other objects included in the plurality of objects with respect to a specific attribute of the object. Storage means for storing the degrees, and for each of the plurality of objects, rows are arranged by arranging the similarity between each of the other objects stored in the storage means, and the rows constituted for each of the plurality of objects are arranged. A matrix, and based on a predetermined evaluation function related to similarity, an order permuting means for permuting rows and columns of the matrix such that an element having a higher similarity among the elements of the matrix approaches a diagonal of the matrix, Based on the matrix in which the rows and columns are exchanged by the exchange means, a graphic table is provided with information on whether or not each of the plurality of objects is similar to each other. It is caused to function as a display means for. Then, based on this graphic display, it is possible to obtain target groups having a similar relationship with each other with respect to a specific attribute.
[0024]
Further, in the data processing program according to the present invention, the storage means stores the similarity regarding one specific attribute and the similarity regarding another attribute different from the specific one attribute, and In the configuration, the matrix is configured such that the similarity regarding one attribute is arranged in the upper triangular part of the matrix, and the similarity regarding the other attribute is arranged in the lower triangular part of the matrix. It is preferable that the rows and columns of the matrix be exchanged based on a predetermined evaluation function for the degree such that an element having a high degree of similarity regarding one attribute of the elements of the matrix approaches a diagonal line of the matrix.
[0025]
In this case, when the data processing program according to the present invention is executed, the similarity regarding one specific attribute and the similarity regarding another attribute are stored by the storage unit, and the similarity regarding one attribute is stored by the order changing unit. The matrix is configured such that the degrees are arranged in the upper triangular part of the matrix, and the similarities regarding other attributes are arranged in the lower triangular part of the matrix, and based on a predetermined evaluation function regarding the similarity regarding one attribute. , The rows and columns of the matrix are swapped such that the element with the highest similarity for one genus among the elements of the matrix approaches the diagonal of the matrix. As a result, it is possible to obtain information on whether or not the similarity regarding one specific attribute and the similarity regarding another attribute have a correlation.
[0026]
Further, in the data processing program according to the present invention, the evaluation function is such that the index row number i, j, the similarity S between the i-th object and the j-th object i, j , Threshold value S for similarity 0 , Using order n
[Equation 11]
Figure 2004199288
(Equation 12)
Figure 2004199288
It is preferable that 0.5 ≦ n ≦ 2.
[0027]
In this case, by setting n to be equal to or greater than 0.5 and equal to or less than 2, it becomes possible to appropriately bring elements having a large similarity closer to the diagonal of the matrix.
[0028]
In the data processing program according to the present invention, it is preferable that n = 1.
[0029]
In this case, by using the linear function | i−j | as the function representing the distance, it becomes possible to more appropriately bring the element having a large similarity closer to the diagonal of the matrix. Further, the amount of calculation required to process data can be significantly reduced.
[0030]
Further, in the data processing program according to the present invention, each of the plurality of objects is a biomolecule, the attribute is an attribute related to the arrangement of atoms in a predetermined space for the biomolecule, and the similarity is a predetermined value in the predetermined space for the biomolecule Preferably, it is determined based on the arrangement of atoms. In this case, for example, classification processing can be performed based on the similarity of structurally or functionally independent partial structures in a biomolecule such as a protein.
[0031]
A computer-readable recording medium according to the present invention has the above-described data processing program recorded thereon. In this case, by causing the computer to execute the data processing program recorded on the recording medium, the functions necessary for the data processing are realized on the computer.
[0032]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same elements will be denoted by the same reference symbols, without redundant description.
[0033]
(1st Embodiment)
A configuration of the data processing device 1 according to the first embodiment will be described. In the following description, a case where the data processing device 1 is used for classification of a mononucleotide binding protein will be described as a specific example. FIG. 1 is a block diagram illustrating an overall configuration of a data processing device 1 according to the first embodiment. The data processing device 1 includes a storage unit 10 (storage unit), an order changing unit 20 (order changing unit), and a display unit 30 (display unit).
[0034]
The storage unit 10 stores, for each of a plurality of (461) mononucleotide-binding proteins, a specific attribute of the mononucleotide-binding protein (the spatial arrangement of protein atoms within a distance of 7 mm from the phosphate group in the mononucleotide (hereinafter, referred to as “ Regarding “spatial arrangement attribute”), the similarity indicating the similarity with each of the other mononucleotide binding proteins included in the 461 mononucleotide binding proteins is stored. For the storage unit 10, for example, a hard disk or an optical disk is preferably used.
[0035]
Here, the similarity between the mononucleotide binding proteins with respect to the spatial arrangement attribute is given in advance by, for example, a dedicated computer program. Specifically, the similarity is calculated by calculating the root mean square error (the square root of the sum of the squares of the distance between atoms divided by the number of atoms) when the types of atoms are the same and the optimal superposition is performed. ) Is the number of corresponding atoms when the atoms are associated within a range not exceeding 1 °.
[0036]
The similarity regarding the spatial arrangement attribute is expressed, for example, as “S (A, B) = 10”. Here, A and B represent mononucleotide binding proteins, and “10” is a numerical value (corresponding number of atoms) indicating the degree of similarity regarding the spatial arrangement attribute between mononucleotide binding protein A and mononucleotide binding protein B. .
[0037]
The reordering unit 20 arranges the similarity between each of the 461 mononucleotide binding proteins and each of the other mononucleotide binding proteins stored in the storage unit 10 to form a row, and forms 461 mononucleotide binding proteins. A matrix is formed by arranging the rows configured for each of the binding proteins, and based on a predetermined evaluation function regarding the similarity, the matrix having a similarity is brought closer to the diagonal line D of the matrix based on a predetermined evaluation function. Swap rows and columns. Details will be described later. For example, a computer or the like is suitably used for the order changing unit 20.
[0038]
The predetermined evaluation function includes index row numbers i and j, and the similarity S between the i-th target and the j-th target. i, j , Threshold value S for similarity 0 , Using the order n,
(Equation 13)
Figure 2004199288
[Equation 14]
Figure 2004199288
Is used. Here, n is preferably 0.5 or more and 2 or less.
[0039]
The form of the evaluation function indicates the degree to which an element having a large similarity approaches the diagonal of the matrix. However, when n is larger than 2, the pressure for approaching the diagonal becomes too strong, and when n is smaller than 0.5, The pressure to approach the diagonal is too weak. Therefore, in these cases, an element having a large similarity cannot be appropriately approximated to a diagonal line of the matrix. However, when n is set to 0.5 or more and 2 or less, the pressure for bringing an element having a large similarity close to the diagonal of the matrix becomes appropriate, so that an element having a large similarity can be appropriately brought close to the diagonal of the matrix. It becomes.
[0040]
The display unit 30 graphically displays information on whether or not each of the 461 mononucleotide binding proteins has a similarity to each other based on the matrix in which the rows and columns are exchanged by the order exchange unit 20. Details will be described later. As the display unit 30, for example, a CRT display, an LCD display, a printer, or the like is suitably used.
[0041]
Next, an operation and a data processing method of the data processing device 1 according to the first embodiment will be described in detail with reference to FIG.
[0042]
In step S100, for each of the 461 mononucleotide binding proteins, a similarity between each of the other mononucleotide binding proteins previously stored in the storage unit 10 is arranged to form a row, and a plurality of mononucleotide binding proteins are further arranged. A row is arranged for each of the binding proteins to form a matrix. The initial value of the matrix may adopt a random arrangement, but in order to finish the calculation more quickly, perform a cluster analysis in advance and arrange the mononucleotide binding proteins contained in the same cluster close to each other. It is also effective to arrange them so that
[0043]
In step S110, in the matrix formed in step S100, the total sum F of the distances between the mononucleotide binding proteins determined to be similar in the spatial arrangement attribute is calculated based on the above equation (13). In the present embodiment, the value of n in Expression (13) is set to 1. Here, by setting n to 1, it becomes possible to appropriately bring elements having a large similarity among the elements of the matrix closer to the diagonal of the matrix. Further, the amount of calculation required to process data can be significantly reduced. In formula (13), | ij | represents the distance between the i-th mononucleotide binding protein and the j-th mononucleotide binding protein. Θ is a step function that is 1 when the i-th mononucleotide binding protein and the j-th mononucleotide binding protein are similar in spatial arrangement attributes, and is 0 when they are not similar.
[0044]
In step S120, in the matrix formed in step S100, the elements of the first mononucleotide binding protein (i) randomly extracted from the plurality of mononucleotide binding proteins and the second mononucleotide binding protein ( The matrix is reconstructed by replacing the elements in j).
[0045]
In step S130, in the matrix reconstructed by exchanging the element for the first mononucleotide binding protein (i) and the element for the second mononucleotide binding protein (j) in step S120, the spatial arrangement attributes are similar. The total sum F ′ of the distances between the mononucleotide binding proteins determined to be present is calculated by the above equation (13).
[0046]
In step S140, based on the sum F of the distances before exchanging the elements of the matrix and the sum F 'of the distances after the exchange, the element exchange of the mononucleotide binding proteins (i) and (j) in step S120 is performed. Determine adoption or rejection. In principle, the replacement is adopted when the value of “F′−F” becomes smaller than the criterion value (0). However, in order to prevent the local concentration of the target and to prevent the processing result from depending on the array of the target at the start of the data processing, the determination reference value is set to a predetermined positive value (for example, at the start of the data processing). , 10), and a process of gradually reducing (for example, 1%) to 0 each time the replacement is adopted is performed.
[0047]
In step S150, for example, if the value of “F′−F” is continuously smaller than the determination reference value by 10% (1,000 times) or more of the predetermined number of replacement times (eg, 10,000 times) If not, and if the elements of the specified number matrix are replaced, the processing is terminated assuming that the termination condition is satisfied. If the termination condition is not satisfied, steps S120 to S140 are repeated until the termination condition is satisfied.
[0048]
In step S160, when the above-mentioned termination condition is satisfied in step S150, based on the matrix in which the rows and columns are exchanged by the order exchange unit 20, whether or not each of the plurality of mononucleotide binding proteins is similar to each other is determined. Is graphically displayed on the display unit 30. Specifically, when the i-th mononucleotide binding protein and the j-th mononucleotide binding protein are similar with respect to the spatial arrangement attribute, the processing result is visualized by marking (i, j) in the matrix. Graphic display. FIG. 11 is a schematic diagram illustrating a data processing result of the present embodiment. Here, those having the corresponding number of atoms of 23 to 29 are displayed as dots, and those having the number of atoms of 30 or more are displayed in black.
[0049]
The sum F of the distances between the i-th mononucleotide binding protein and the j-th mononucleotide binding protein in the above evaluation function is the sum of the shortest distances from the diagonal D of the matrix to the point (i, j). 1/2 Corresponds to double. Therefore, changing the order of the rows and columns of the mononucleotide binding protein so that the total sum F of the distances becomes small corresponds to collecting the points on the matrix on the diagonal line D. However, since different mononucleotide binding proteins cannot occupy the same place on the matrix, not all points can converge on the diagonal D of the matrix, and some points have to occupy a place slightly away from the diagonal D. In this case, mononucleotide-binding proteins having a similar spatial arrangement are collected as one group (lump) in order to minimize the total distance F as much as possible. As a result, a group of mononucleotide binding proteins having a spatial arrangement similar to that of the matrix near the diagonal D is created.
[0050]
For example, the mutually similar mononucleotide binding proteins initially distributed in a discrete manner as schematically shown in FIG. 5 can be obtained by minimizing the sum F of the distances as shown schematically in FIG. Gather at a portion near the diagonal line D to form a group (lump). As a result, mononucleotide-binding proteins having a similar relationship with each other in terms of spatial arrangement attributes can be grouped and classified. Here, the mononucleotide binding proteins belonging to the group displayed as one lump are similar to each other with respect to the spatial configuration attribute, and the mononucleotide binding proteins belonging to different groups are not similar to each other with respect to the spatial configuration attribute. Is determined.
[0051]
As a result of analysis by the data processing apparatus according to the present embodiment, in many cases, similarity in local structure of proteins also suggests evolutionary affinity of proteins as in similarity in overall structure. It has been revealed that there are many similar structures caused by physicochemical interactions that are not restricted by physical relationships. As described above, according to the data processing device according to the present embodiment, it is possible to find the similarity due to the physicochemical interaction that is not bound by the evolutionary affinity, By analyzing whether or not means similarity of function, it is possible to predict function from the structure.
[0052]
(2nd Embodiment)
Next, a second embodiment of the data processing device according to the present invention will be described with reference to FIG. In FIG. 2, the same or equivalent components as those of the first embodiment are denoted by the same reference numerals. In the following description, a case where the data processing device 2 is used for classification of a mononucleotide binding protein will be described as a specific example.
[0053]
This embodiment is different from the first embodiment in that a storage unit (multiple attributes) 10b is used instead of the storage unit 10 and that a sequence permutation unit (multiple attributes) 20b is used instead of the sequence permutation unit 20. It is.
[0054]
The storage unit (multiple attributes) 10b stores the similarity with respect to one specific attribute (the spatial arrangement of protein atoms within 7 mm from the phosphate group in the mononucleotide-binding protein (hereinafter referred to as “phosphate group spatial arrangement attribute”)). The similarity regarding another attribute different from the specific one attribute (spatial arrangement of protein atoms within 7 mm from the base (hereinafter referred to as “base spatial arrangement attribute”)) is stored.
[0055]
Also, the order changing unit (multiple attributes) 20b arranges the similarity regarding the phosphate group space arrangement attribute in the upper triangular part of the matrix and the similarity regarding the base space arrangement attribute is arranged in the lower triangular part of the matrix. , And the rows and columns of the matrix are arranged such that the element having the large similarity with respect to the phosphate group spatial arrangement attribute among the matrix elements approaches the diagonal D of the matrix according to the equation (13) with respect to the similarity regarding the phosphate group spatial arrangement attribute. Replace
[0056]
Next, an operation of the data processing device 2 and a data processing method will be described with reference to FIG.
[0057]
In step S100b, for each of the 1137 mononucleotide binding proteins, a similarity between each of the 1137 mononucleotide binding proteins and each of the other mononucleotide binding proteins stored in advance in the storage unit (multiple attributes) 10b is arranged to form a row. A row is arranged for each of the plurality of mononucleotide binding proteins to form a matrix. When constructing this matrix, the matrix is arranged such that the similarity related to the phosphate group space arrangement attribute is arranged in the upper triangular part of the matrix and the similarity related to the base space arrangement attribute is arranged in the lower triangular part of the matrix. Is composed.
[0058]
In steps S110 to S160, the same processing as that in the first embodiment is performed with respect to the phosphoric acid group space arrangement attribute.
[0059]
Then, as shown in FIG. 12, the data processing result on the phosphate group space arrangement attribute was displayed on the upper left of the matrix, and the data processing result on the base space arrangement attribute was displayed and visualized on the lower right of the matrix. Here, those having the corresponding number of atoms of 23 to 29 are displayed as dots, and those having the number of atoms of 30 or more are displayed in black.
[0060]
By the above data processing, as schematically shown in FIG. 7, a mononucleotide binding protein having a similar phosphoric acid space configuration attribute and a mononucleotide binding protein having a similar base space configuration attribute are substantially aligned with the diagonal D of the matrix. When assembled into a symmetrical shape, there is a correlation between the similarity in the phosphoric acid group spatial configuration attribute and the similarity in the base spatial configuration attribute, and as shown schematically in FIG. In this case, it can be determined that there is no correlation between the similarity in the phosphate group spatial configuration attribute and the similarity in the base spatial configuration attribute.
[0061]
As described above, according to the data processing device 2 of the present embodiment, the similarity between the mononucleotide-binding proteins with respect to the phosphoric acid space configuration attribute and the similarity between the mononucleotide-binding proteins with respect to the base spatial configuration attribute are determined. This has a special effect that the correlation can be determined.
[0062]
Next, a data processing program 102 for causing the computer 3 to execute the data processing method according to the embodiment of the present invention and a computer-readable recording medium 100 (hereinafter, simply referred to as a recording medium) storing the data processing program 102 will be described. I do.
[0063]
Here, the recording medium causes a change state of energy such as magnetism, light, electricity, or the like to occur in a reading device provided in a hardware resource of a computer in accordance with a description content of a program, and the recording medium corresponds to the change state. It is capable of transmitting the description content of the program to the reading device in the form of a signal. Examples of such a recording medium include a magnetic disk, an optical disk, a CD-ROM, and a memory built in a computer.
[0064]
FIG. 9 is a configuration diagram of the recording medium 100 according to the embodiment of the present invention. The recording medium 100 includes a program area 101 for recording a program, as shown in FIG. In this program area 101, a data processing program 102 is recorded.
[0065]
The data processing program 102 is a program for executing the above-described data processing method. As shown in FIG. 9, a main module 102a for controlling the processing and a plurality of mononucleotide binding proteins are stored in the storage unit 10. A row is formed by arranging the similarity between each of the other mononucleotide-binding proteins, and a matrix is formed by arranging the rows configured for each of the plurality of mononucleotide-binding proteins, and a predetermined degree of similarity is determined. Based on the evaluation function, based on the matrix output from the order changing module 102b and the order changing module 102b for changing the rows and columns of the matrix such that the element having a large similarity among the elements of the matrix approaches the diagonal line D of the matrix. The plurality of mononucleotide binding proteins are similar to each other The display unit 30 information about whether constituted by a display module 102c for graphically displaying.
[0066]
FIG. 10 is a system configuration diagram of the computer 3 for executing the data processing program 102 recorded on the recording medium 100. The computer 3 includes a CPU 40 that controls the execution of the data processing program 102, a reading device 60 that can read the data processing program 102 recorded on the recording medium 100, a memory (RAM) 50, and a display unit including a display and the like. 30. Here, when the recording medium 100 is inserted into the reading device 60, the information recorded on the recording medium 100 becomes accessible from the reading device 60, and the data processing recorded on the program area 101 of the recording medium 100 shown in FIG. The program 102 can be executed by the computer 3.
[0067]
As the reading device 60, a flexible disk drive device, a CD-ROM drive device, a magnetic tape drive device, or the like is used corresponding to the recording medium 100.
[0068]
As described above, in the embodiment of the present invention, the example in which the data processing device according to the present invention is applied to the classification of proteins and the display of the classification results has been described. However, the present invention is not limited to the classification of proteins, and can be applied to a wide range, such as classification of questionnaire results and epidemiological investigation.
[0069]
【The invention's effect】
As described above in detail, according to the present invention, a data processing apparatus and a data processing apparatus capable of performing proper classification and displaying the classification result even when similarity is determined for a specific attribute of a target. A method, a data processing program, and a recording medium can be provided.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating an overall configuration of a data processing device according to a first embodiment.
FIG. 2 is a block diagram illustrating an overall configuration of a data processing device according to a second embodiment.
FIG. 3 is a flowchart showing an entire process of a data processing method according to the first embodiment.
FIG. 4 is a flowchart showing an entire process of a data processing method according to a second embodiment.
FIG. 5 is a schematic diagram illustrating a similarity relationship between a plurality of targets before data processing.
FIG. 6 is a schematic diagram showing a similarity relationship between a plurality of objects after data processing.
FIG. 7 is a schematic diagram for explaining a processing result by a data processing method according to a second embodiment.
FIG. 8 is a schematic diagram for explaining a processing result by a data processing method according to a second embodiment.
FIG. 9 is a configuration diagram of a recording medium.
FIG. 10 is a system configuration diagram of a computer.
FIG. 11 is a schematic diagram showing a result of data processing by the data processing method according to the first embodiment.
FIG. 12 is a schematic diagram illustrating a result of data processing by a data processing method according to a second embodiment.
[Explanation of symbols]
1, 2, data processing device, 3, computer, 10 storage unit, 20 order changing unit, 30 display unit, 100 recording medium, 102 data processing program, D diagonal line.

Claims (16)

複数の対象それぞれが互いに類似関係にあるか否かに関する情報を表示するデータ処理装置であって、
前記複数の対象それぞれについて、当該対象が有する特定の属性に関し、前記複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶する記憶手段と、
前記複数の対象それぞれについて、前記記憶手段に記憶された前記他の対象それぞれとの間の類似度を配列して行を構成し、前記複数の対象それぞれについて構成された前記行を配列して行列を構成し、前記類似度に関する所定の評価関数に基づいて、前記行列の要素のうち前記類似度の大きい要素が前記行列の対角線に近づくように、前記行列の前記行及び列を入れ替える順序入れ替え手段と、
前記順序入れ替え手段により前記行及び列が入れ替えられた前記行列に基づいて、前記複数の対象それぞれが互いに類似関係にあるか否かに関する情報をグラフィック表示する表示手段と
を備えることを特徴とするデータ処理装置。
A data processing device that displays information on whether or not each of the plurality of targets has a similar relationship to each other,
For each of the plurality of objects, for a specific attribute of the object, storage means for storing a similarity indicating a similarity between each of the other objects included in the plurality of objects,
For each of the plurality of objects, a row is configured by arranging the degree of similarity with each of the other objects stored in the storage unit, and a matrix is formed by arranging the rows configured for each of the plurality of objects. Based on a predetermined evaluation function related to the similarity, so that the rows and columns of the matrix are exchanged so that the element having the larger similarity among the elements of the matrix approaches a diagonal line of the matrix. When,
Display means for graphically displaying information on whether or not each of the plurality of objects has a similar relationship to each other based on the matrix in which the rows and columns are interchanged by the order changing means. Processing equipment.
前記記憶手段は、特定の一つの属性に関する類似度と前記特定の一つの属性とは異なる他の属性に関する類似度とを記憶し、
前記順序入れ替え手段は、前記行列を構成するに際し、前記一つの属性に関する類似度が前記行列の上三角部分に配置され、かつ、前記他の属性に関する類似度が前記行列の下三角部分に配置されるように前記行列を構成し、前記一つの属性に関する類似度に関する所定の評価関数に基づいて、前記行列の要素のうち前記一つの属性に関する類似度の大きい要素が前記行列の対角線に近づくように、前記行列の前記行及び列を入れ替える
ことを特徴とする請求項1に記載のデータ処理装置。
The storage means stores a similarity regarding a specific one attribute and a similarity regarding another attribute different from the specific one attribute,
The order permuting unit is configured such that, when configuring the matrix, the similarity regarding the one attribute is arranged in an upper triangular portion of the matrix, and the similarity regarding the other attribute is arranged in a lower triangular portion of the matrix. The matrix is configured such that, based on a predetermined evaluation function regarding the similarity regarding the one attribute, an element having a large similarity regarding the one attribute among the elements of the matrix approaches a diagonal line of the matrix. 2. The data processing apparatus according to claim 1, wherein the rows and columns of the matrix are exchanged.
前記評価関数は、インデックス行番号i,j、i番目の対象とj番目の対象との類似度Si,j、類似度に関する閾値S0、次数nを用いて
Figure 2004199288
Figure 2004199288
で表され、0.5≦n≦2である
ことを特徴とする請求項1に記載のデータ処理装置。
The evaluation function uses the index row numbers i, j, the similarity S i, j between the i-th target and the j-th target, the threshold value S 0 for the similarity, and the degree n.
Figure 2004199288
Figure 2004199288
2. The data processing device according to claim 1, wherein 0.5 ≦ n ≦ 2.
n=1である
ことを特徴とする請求項3に記載のデータ処理装置。
4. The data processing device according to claim 3, wherein n = 1.
前記複数の対象それぞれは、生体分子であり、
前記属性は、前記生体分子についての所定の空間における原子の配置に関する属性であり、
前記類似度は、前記生体分子についての前記所定の空間における原子の配置に基づいて決定される
ことを特徴とする請求項1に記載のデータ処理装置。
Each of the plurality of objects is a biomolecule,
The attribute is an attribute related to the arrangement of atoms in a predetermined space for the biomolecule,
The data processing apparatus according to claim 1, wherein the similarity is determined based on an arrangement of atoms in the predetermined space with respect to the biomolecule.
複数の対象それぞれが互いに類似関係にあるか否かに関する情報を表示するデータ処理方法であって、
前記複数の対象それぞれについて、当該対象が有する特定の属性に関し、前記複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶手段に記憶しておき、
順序入れ替え手段が、前記複数の対象それぞれについて、前記記憶手段に記憶された前記他の対象それぞれとの間の類似度を配列して行を構成し、前記複数の対象それぞれについて構成された前記行を配列して行列を構成し、前記類似度に関する所定の評価関数に基づいて、前記行列の要素のうち前記類似度の大きい要素が前記行列の対角線に近づくように、前記行列の前記行及び列を入れ替える処理を行う順序入れ替え処理ステップと、
前記順序入れ替え手段により前記行及び列が入れ替えられた前記行列に基づいて、前記複数の対象それぞれが互いに類似関係にあるか否かに関する情報を、表示手段にグラフィック表示する表示処理ステップと
を備えることを特徴とするデータ処理方法。
A data processing method for displaying information on whether or not each of a plurality of objects is similar to each other,
For each of the plurality of targets, regarding a specific attribute of the target, a similarity indicating a similarity between each of the other targets included in the plurality of targets is stored in a storage unit,
The order changing means arranges the similarity between each of the plurality of objects and each of the other objects stored in the storage means to form a row, and the row constituted for each of the plurality of objects is arranged. Are arranged to form a matrix, and based on a predetermined evaluation function related to the similarity, the rows and columns of the matrix are arranged such that the element having the large similarity approaches the diagonal of the matrix among the elements of the matrix. An order rearrangement processing step of performing a process of replacing
A display processing step of graphically displaying, on a display unit, information on whether or not each of the plurality of objects has a similar relationship to each other based on the matrix in which the rows and columns are exchanged by the order rearranging unit. A data processing method characterized by the following.
特定の一つの属性に関する類似度と前記特定の一つの属性とは異なる他の属性に関する類似度とを記憶手段に記憶しておき、
前記順序入れ替え処理ステップにおいて、前記順序入れ替え手段は、前記行列を構成するに際し、前記一つの属性に関する類似度が前記行列の上三角部分に配置され、かつ、前記他の属性に関する類似度が前記行列の下三角部分に配置されるように前記行列を構成し、前記一つの属性に関する類似度に関する所定の評価関数に基づいて、前記行列の要素のうち前記一つの属性に関する類似度の大きい要素が前記行列の対角線に近づくように、前記行列の前記行及び列を入れ替えることを特徴とする請求項6に記載のデータ処理方法。
The similarity regarding one specific attribute and the similarity regarding another attribute different from the specific one attribute are stored in the storage unit,
In the reordering processing step, the reordering unit is configured such that, when composing the matrix, the similarity regarding the one attribute is arranged in an upper triangular portion of the matrix, and the similarity regarding the other attribute is the matrix. The matrix is configured to be arranged in a lower triangular portion, and based on a predetermined evaluation function regarding the similarity regarding the one attribute, an element having a large similarity regarding the one attribute among the elements of the matrix is the 7. The data processing method according to claim 6, wherein the rows and columns of the matrix are exchanged so as to approach a diagonal of the matrix.
前記評価関数は、インデックス行番号i,j、i番目の対象とj番目の対象との類似度Si,j、類似度に関する閾値S0、次数nを用いて
Figure 2004199288
Figure 2004199288
で表され、0.5≦n≦2である
ことを特徴とする請求項6に記載のデータ処理方法。
The evaluation function uses the index row numbers i, j, the similarity S i, j between the i-th target and the j-th target, the threshold value S 0 for the similarity, and the degree n.
Figure 2004199288
Figure 2004199288
7. The data processing method according to claim 6, wherein 0.5 ≦ n ≦ 2.
n=1である
ことを特徴とする請求項8に記載のデータ処理方法。
9. The data processing method according to claim 8, wherein n = 1.
前記複数の対象それぞれは、生体分子であり、
前記属性は、前記生体分子についての所定の空間における原子の配置に関する属性であり、
前記類似度は、前記生体分子についての前記所定の空間における原子の配置に基づいて決定される
ことを特徴とする請求項6に記載のデータ処理方法。
Each of the plurality of objects is a biomolecule,
The attribute is an attribute related to the arrangement of atoms in a predetermined space for the biomolecule,
The data processing method according to claim 6, wherein the similarity is determined based on an arrangement of atoms in the predetermined space with respect to the biomolecule.
複数の対象それぞれが互いに類似関係にあるか否かに関する情報を表示するためのデータ処理プログラムであって、
コンピュータを、
前記複数の対象それぞれについて、当該対象が有する特定の属性に関し、前記複数の対象に含まれる他の対象それぞれとの間の類似度合いを示す類似度を記憶する記憶手段と、
前記複数の対象それぞれについて、前記記憶手段に記憶された前記他の対象それぞれとの間の類似度を配列して行を構成し、前記複数の対象それぞれについて構成された前記行を配列して行列を構成し、前記類似度に関する所定の評価関数に基づいて、前記行列の要素のうち前記類似度の大きい要素が前記行列の対角線に近づくように、前記行列の前記行及び列を入れ替える順序入れ替え手段と、
前記順序入れ替え手段により前記行及び列が入れ替えられた前記行列に基づいて、前記複数の対象それぞれが互いに類似関係にあるか否かに関する情報をグラフィック表示する表示手段
として機能させることを特徴とするデータ処理プログラム。
A data processing program for displaying information on whether or not each of the plurality of objects is similar to each other,
Computer
For each of the plurality of objects, for a specific attribute of the object, storage means for storing a similarity indicating a similarity between each of the other objects included in the plurality of objects,
For each of the plurality of objects, a row is configured by arranging the degree of similarity with each of the other objects stored in the storage unit, and a matrix is formed by arranging the rows configured for each of the plurality of objects. Based on a predetermined evaluation function related to the similarity, so that the rows and columns of the matrix are exchanged so that the element having the larger similarity among the elements of the matrix approaches a diagonal line of the matrix. When,
Data based on the matrix in which the rows and columns have been replaced by the order changing means, and functioning as display means for graphically displaying information on whether or not each of the plurality of objects has a similar relationship to each other. Processing program.
前記記憶手段は、特定の一つの属性に関する類似度と前記特定の一つの属性とは異なる他の属性に関する類似度とを記憶し、
前記順序入れ替え手段は、前記行列を構成するに際し、前記一つの属性に関する類似度が前記行列の上三角部分に配置され、かつ、前記他の属性に関する類似度が前記行列の下三角部分に配置されるように前記行列を構成し、前記一つの属性に関する類似度に関する所定の評価関数に基づいて、前記行列の要素のうち前記一つの属性に関する類似度の大きい要素が前記行列の対角線に近づくように、前記行列の前記行及び列を入れ替える
ことを特徴とする請求項11に記載のデータ処理プログラム。
The storage means stores a similarity regarding a specific one attribute and a similarity regarding another attribute different from the specific one attribute,
The order permuting unit is configured such that, when configuring the matrix, the similarity regarding the one attribute is arranged in an upper triangular portion of the matrix, and the similarity regarding the other attribute is arranged in a lower triangular portion of the matrix. The matrix is configured such that, based on a predetermined evaluation function regarding the similarity regarding the one attribute, an element having a large similarity regarding the one attribute among the elements of the matrix approaches a diagonal line of the matrix. The data processing program according to claim 11, wherein the rows and columns of the matrix are exchanged.
前記評価関数は、インデックス行番号i,j、i番目の対象とj番目の対象との類似度Si,j、類似度に関する閾値S0、次数nを用いて
Figure 2004199288
Figure 2004199288
で表され、0.5≦n≦2である
ことを特徴とする請求項11に記載のデータ処理プログラム。
The evaluation function uses the index row numbers i, j, the similarity S i, j between the i-th target and the j-th target, the threshold value S 0 for the similarity, and the degree n.
Figure 2004199288
Figure 2004199288
The data processing program according to claim 11, wherein 0.5 ≦ n ≦ 2.
n=1である
ことを特徴とする請求項13に記載のデータ処理プログラム。
14. The data processing program according to claim 13, wherein n = 1.
前記複数の対象それぞれは、生体分子であり、
前記属性は、前記生体分子についての所定の空間における原子の配置に関する属性であり、
前記類似度は、前記生体分子についての前記所定の空間における原子の配置に基づいて決定される
ことを特徴とする請求項11に記載のデータ処理プログラム。
Each of the plurality of objects is a biomolecule,
The attribute is an attribute related to the arrangement of atoms in a predetermined space for the biomolecule,
The data processing program according to claim 11, wherein the similarity is determined based on an arrangement of atoms in the predetermined space with respect to the biomolecule.
請求項11〜15のいずれか1項に記載のデータ処理プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。A computer-readable recording medium on which the data processing program according to any one of claims 11 to 15 is recorded.
JP2002365709A 2002-12-17 2002-12-17 Data processing apparatus, data processing method, data processing program, and recording medium Expired - Fee Related JP4401650B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002365709A JP4401650B2 (en) 2002-12-17 2002-12-17 Data processing apparatus, data processing method, data processing program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002365709A JP4401650B2 (en) 2002-12-17 2002-12-17 Data processing apparatus, data processing method, data processing program, and recording medium

Publications (2)

Publication Number Publication Date
JP2004199288A true JP2004199288A (en) 2004-07-15
JP4401650B2 JP4401650B2 (en) 2010-01-20

Family

ID=32763188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002365709A Expired - Fee Related JP4401650B2 (en) 2002-12-17 2002-12-17 Data processing apparatus, data processing method, data processing program, and recording medium

Country Status (1)

Country Link
JP (1) JP4401650B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022089674A (en) * 2020-12-04 2022-06-16 国立大学法人山梨大学 Target element ranking system, method, and program
CN115280307A (en) * 2020-03-13 2022-11-01 三菱电机株式会社 Information processing apparatus, program, and information processing method
CN118948305A (en) * 2024-07-29 2024-11-15 广州医科大学附属第二医院 A method and system for monitoring physiological information after transcranial magnetic stimulation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115280307A (en) * 2020-03-13 2022-11-01 三菱电机株式会社 Information processing apparatus, program, and information processing method
JP2022089674A (en) * 2020-12-04 2022-06-16 国立大学法人山梨大学 Target element ranking system, method, and program
JP7573267B2 (en) 2020-12-04 2024-10-25 国立大学法人山梨大学 System, method and program for ranking target elements
CN118948305A (en) * 2024-07-29 2024-11-15 广州医科大学附属第二医院 A method and system for monitoring physiological information after transcranial magnetic stimulation

Also Published As

Publication number Publication date
JP4401650B2 (en) 2010-01-20

Similar Documents

Publication Publication Date Title
Oluwadare et al. An overview of methods for reconstructing 3-D chromosome and genome structures from Hi-C data
US10916333B1 (en) Artificial intelligence system for enhancing data sets used for training machine learning-based classifiers
JP4825222B2 (en) Improved image segmentation method
JP2006507558A (en) Viewing multidimensional data through hierarchical visualization
CN111341408B (en) Image report template generation method, computer equipment and storage medium
JP6863926B2 (en) Data analysis system and data analysis method
Schlager et al. Package ‘Morpho’
US7774185B2 (en) Protein structure alignment using cellular automata
JP2004199288A (en) Data processing device, data processing method, data processing program, and recording medium
JP2020057264A (en) Computer system and data classification analysis method
JP2007122682A (en) Extraction method and extraction system for faulty products
Melo Package ‘CommEcol’
JP3779519B2 (en) Data area analysis method and expression method
KR20250017380A (en) Device and method for diagnosing major depressive disorder using deep learning model
JP7164060B1 (en) Information processing device, information processing method and information processing program
Aouabed et al. Visualizing biclustering results on gene expression data: A survey
CN113906404A (en) Bottleneck detection for processes
JP7057566B2 (en) Analytical system and analytical method
CN109493929B (en) Low redundancy feature selection method based on grouping variables
EP4036764A1 (en) Machine learning program, machine learning method, and machine learning apparatus
JP2021193503A (en) Division program, division method and information processing device
de Azeredo Lopes Statistical analysis of particle distributions in composite materials
US20250307268A1 (en) Cluster interpretation using a persistence measure
Liu et al. Interactive visual decision tree classification
CN116450872B (en) Spark distributed vector grid turning method, system and equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090325

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090814

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091020

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091028

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121106

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees