[go: up one dir, main page]

JP2004177290A - 遺伝子解析データの処理方法 - Google Patents

遺伝子解析データの処理方法 Download PDF

Info

Publication number
JP2004177290A
JP2004177290A JP2002344468A JP2002344468A JP2004177290A JP 2004177290 A JP2004177290 A JP 2004177290A JP 2002344468 A JP2002344468 A JP 2002344468A JP 2002344468 A JP2002344468 A JP 2002344468A JP 2004177290 A JP2004177290 A JP 2004177290A
Authority
JP
Japan
Prior art keywords
peak
data
analysis data
program
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002344468A
Other languages
English (en)
Inventor
Kenji Hayashi
健志 林
Koichiro Hikasa
幸一郎 日笠
Hiroji Kukida
洋児 久木田
Shingo Baba
眞吾 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu TLO Co Ltd
Original Assignee
Kyushu TLO Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu TLO Co Ltd filed Critical Kyushu TLO Co Ltd
Priority to JP2002344468A priority Critical patent/JP2004177290A/ja
Publication of JP2004177290A publication Critical patent/JP2004177290A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

【課題】遺伝子解析データの処理方法の提供。
【解決手段】遺伝子解析データの処理方法であって、以下のステップ:
(a) 遺伝子解析データのノイズをフィルタリングするステップ、
(b) ベースラインサブトラクションを実行するステップ、
(c) カラーセパレーションを実行するステップ、
(d) 解析データ曲線のピークを検出するステップ、及び
(e) グローバルアラインメントを実行するステップ
を含む方法。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、遺伝子の解析データを処理する方法に関する。
【0002】
【従来の技術】
標準ヒトゲノム配列の作製が完了に近づいており、次の重要な目標は、各個人のゲノム中の変異を広範に特徴づけることである。ゲノムにおいては、単一ヌクレオチド多型(Single nucleotide polypmorphism: SNP)が遍在しており(Sachidanandam, R., et al., 2001. Nature 409:928−933.; Venter, J.C. et al., 2001. Science 291:1304−1351.)、これらのSNPは、ポリジーン性形質(疾患への罹りやすさ、薬剤感受性/耐性等)に関与する遺伝子を同定するためのゲノムマーカーとして利用することができる。SNPは多数存在し、またそれ以上に潜在的サンプルが多数あるため(Kruglyak, L. 1999. Nat. Genet. 22:139−144.; Reich, D.E. et al., 2001. Nature 411:199−204.)、ハイスループットでかつ低コストなSNP分析に適した広く利用可能な方法の開発が望まれている。
【0003】
最近、本発明者はSNPを特徴づける方法を開発した。この方法はPCR産物を蛍光色素でポストラベル(ost−abeled)し、そして広く入手可能なPLACE−SSCP (utomated apillary lectrophoresis DNA sequencers under conditions for ingle−tranded onformational olymorphism analysis:1本鎖コンホメーション多型分析用の自動キャピラリー電気泳動DNAシークエンサー)を用いて直接分析するものである(Inazuka, M. et al., 1996. Genome Res. 6:551−557.(非特許文献1); Inazuka, M. et al., 1997. Genome Res. 7:1094−1103. (非特許文献2))。この方法は、個人のSNP遺伝子型を低コストで決定するのに適するのみならず、プール化DNAを用いたアレル頻度の正確な推定にも適する(Sasaki, T. et al., 2001. Am. J. Hum. Genet. 68:214−218. (非特許文献3))。
【0004】
キャピラリー電気泳動(CE)法は、DNA断片を高分解能で短時間に再現性良く分離できる方法であり、ゲル電気泳動に代わるDNA分析自動化技術である。ポリマーを含む緩衝液を用いたNongel−sieving CEは、煩雑なゲルの作製が必要無く、短時間で1塩基の違いを分離できることからキャピラリー型シークエンサーとして広く用いられている。現在では、DNA解析におけるキャピラリー電気泳動は、オートシークエンサーとしての地位を確立させている。
【0005】
GeneScanTM(Applied Biosystems)及びMegaBACETM Genetic Profiler (Amersham Pharmacia Biotech)は、SNP又はマイクロサテライトの解析データを処理するためのソフトウェアであり、それぞれAppliedBiosystems社、Amersham Pharmacia Biotech社の遺伝子解析装置から得られた波形データを自動解析し、DNAフラグメントの同定、定量、サイズ測定を決定するものである。
【0006】
しかしながら、これらのソフトウエアは、特定された用途以外のもの(例えばSSCP)に使用するには適さない。例えば、ABI キャピラリーシークエンサーと共に供給されるGeneScanTMソフトウエアは、データポイントを再指定して各泳動を手動で実施しなければ、内部マーカーによって生成されるピークをアラインすることが困難である(Larsen, L.A. et al., 2001. Hum. Mutat. 18:451−457. (非特許文献4))。
【0007】
従って、各種解析データに対し高精度に対応し得る汎用性の高いソフトウエアの開発が望まれている。
【0008】
【非特許文献1】
Inazuka, M. et al., 1996. Genome Res. 6:551−557.
【0009】
【非特許文献2】
Inazuka, M. et al., 1997. Genome Res. 7:1094−1103.
【0010】
【非特許文献3】
Sasaki, T. et al., 2001. Am. J. Hum. Genet. 68:214−218.
【0011】
【非特許文献4】
Larsen, L.A. et al., 2001. Hum. Mutat. 18:451−457.
【0012】
【発明が解決しようとする課題】
本発明は、遺伝子の解析データを処理する方法を提供することを目的とする。
【0013】
【課題を解決するための手段】
本発明者は、上記課題を解決するため鋭意研究を行ない、多重チャネルキャピラリー電気泳動系に適用してスループットを増大させた(Kukita, Y., et al., 2002. Electrophoresis 23:2259−2266.)。この分析系を確立する過程で、当該分析に適したソフトウエアを開発することに成功し、本発明を完成するに至った。
【0014】
すなわち、本発明は以下の通りである。
(1) 遺伝子解析データの処理方法であって、以下のステップ:
(a) 遺伝子解析データのノイズをフィルタリングするステップ、
(b) ベースラインサブトラクションを実行するステップ、
(c) カラーセパレーションを実行するステップ、
(d) 解析データ曲線のピークを検出するステップ、及び
(e) グローバルアラインメントを実行するステップ
を含む方法。
(2) 上記(1)に示すカラーセパレーション実行ステップ後のデータの処理方法であって、
(f) ローカルピークを検出するステップ
(g) ローカルピークを選択するステップ、及び
(h) ローカルアラインメントを実行するステップ
を含む方法。
(3) 上記(1)及び(2)の方法において、さらに、(i) ピーク定量ステップを含めることができる。
(4) 遺伝子解析データの処理システムであって、以下の手段:
(a) 遺伝子解析データのノイズをフィルタリングする手段、
(b) ベースラインサブトラクションを実行する手段、
(c) カラーセパレーションを実行する手段、
(d) 解析データ曲線のピークを検出する手段、
(e) グローバルアラインメントを実行する手段
を含むシステム。
(5) 上記(4)に示すカラーセパレーション実行手段後のデータの処理システムであって、
(f) ローカルピークを検出する手段
(g) ローカルピークを選択する手段、及び
(h) ローカルアラインメントを実行する手段
を含むシステム。
(6) 上記(4)及び(5)のシステムにおいて、さらに、(i) ピーク定量手段を含めることができる。
(7) コンピュータを、遺伝子解析データの処理システムとして機能させるためのプログラムであって、以下の手段:
(a) 遺伝子解析データのノイズをフィルタリングする手段、
(b) ベースラインサブトラクションを実行する手段、
(c) カラーセパレーションを実行する手段、
(d) 解析データ曲線のピークを検出する手段、
(e) グローバルアラインメントを実行する手段
を含むプログラム。
(8) コンピュータを、上記(7)に示すカラーセパレーション実行手段後のデータの処理システムとして機能させるためのプログラムであって、以下の手段:
(f) ローカルピークを検出する手段
(g) ローカルピークを選択する手段、及び
(h) ローカルアラインメントを実行する手段
を含むプログラム。
(9) 上記(7)及び(8)のプログラムにおいて、さらに、(i) ピーク定量手段を含めることができる。
(10) 上記(7)、(8)又は(9)に示すプログラムを記録したコンピュータ読み取り可能な記録媒体。
【0015】
以下、本発明を詳細に説明する。
【0016】
【発明の実施の形態】
PCR−SSCP分析は、PCR産物の配列変異型を高感度で検出するための簡便で迅速な電気泳動技法である。本発明は、クロスプラットフォーム対応プログラムパッケージである「QUISCA」(Quantitative nterpretation of SCP in apillaryrray electrophoresis)と呼ばれるプログラムに関するものである(「QUISCA」又は「QUISCAプログラム」という)。このプログラムは、種々のキャピラリーアレイ装置を用いた複数色蛍光式SSCP電気泳動によって分離される変異型配列の量的検出を可能とするものである。QUISCAはまた、多重染色用色素、多重インジェクション実験のトレースデータを取り扱うことも可能である。
【0017】
QUISCAは、一塩基多型(SNP)のジェノタイピング及びアレル頻度推定のみならず、フラグメントのサイジング(大きさの順に並べること)をも含む迅速なフラグメント分析の実行を可能とする。
【0018】
このプログラムは、グラフィカルユーザーインターフェース(GUI)としての「QUISCAview」と呼ばれるプログラム(「QUISCAview」又は「QUISCAviewプログラム」という)と協同してASCII形式のトレースデータを取り込み、そして3つのモジュールを用いてそれらのデータを処理する。第1に、シグナルの脱ノイズ化/ベースラインサブトラクション、第2にカラーマトリックス構築/適用(カラーセパレーション)、及び第3にピーク検出である。
【0019】
QUISCAは広く用いられている種々のキャピラリーアレイシークエンサーに適合することが可能であり、また個々のDNAにおけるSNPの発見やタイピングに適するばかりでなく、プールされたDNAを用いて多数のSNPのアレル頻度を正確に検出することにも適している。QUISCAはまた、種々のフラグメント分析のための多目的コアプログラムとしても役立つものである。
1.遺伝子解析データ処理システム
ここで、本発明の遺伝子解析データ処理システムの構成例を示すブロック図を示す(図1)。遺伝子解析データとしては、複数色蛍光式電気泳動によって得られた遺伝子の解析データが挙げられる。
【0020】
図1に示すように、本発明の遺伝子解析データ処理システムは、CPU101、ROM102、RAM103、入力部104、情報通信送信/受信部105、出力部106、ハードディスクドライブ(HDD)107及びCD−ROMドライブ108等を備える。
【0021】
CPU101は、情報記憶手段(例えば磁気的及び/又は光学的記録媒体)に記憶されているプログラムに従って、解析データ処理システム全体を制御する。そして、入力部104などから受け取った情報を出力部106に供給する。また、ネットワーク回線109を通じて受け取った情報に基づいて解析処理を実行することもできる。入力部104は、キーボードやマウス等であり、解析処理を実行する上で必要な条件又はデータを入力するときに操作される。ROM102は、本発明の解析処理システムの動作に必要な処理を命令するプログラム等を格納する。RAM103は、解析処理システムにおける処理を実行する上で必要なデータを一時的に格納する。
【0022】
送信/受信部105は、CPU101の命令に基づいて、ネットワーク回線109等との間で情報通信(データの送受信処理)を実行するものであり、例えばモデム、ルーター等が例示される。出力部106は、入力手段104から入力された遺伝子の解析データ、その他各種条件等を、CPU101からの命令に基づいて情報表示処理する(例えば表示画面、プリンタ)。CD−ROMドライブ108は、CPU101の指示に基づいて、CD−ROMに格納されている解析処理システムを機能させるためのプログラム又はデータ等を読み出し、例えばRAM103に格納する。CD−ROMの代わりに記録媒体として書き換え可能なCD−R、CD−RWを用いることもできる。その場合には、CD−ROMドライブ108の代わりにCD−R又はCD−RW用ドライブを設ける。また、上記媒体の他に、DVD、MOとそれらの媒体を用い、それに対応するドライブを備える構成としてもよい。
【0023】
QUISCAは、例えばC言語で書くことができ、そしてクロスプラットフォームに対応できるように設計されている。従って、このソフトウエアはWindows(登録商標)95/98/2000、Linux、UNIX(登録商標)で作動させることが可能である。QUISCAviewもまた、例えばperl(perl5又はその後のバージョン)及びPerl/Tkモジュールをインストールさせておけば、これらのオペレーティングシステムのもとで作動することができる。
2.データ収集及びインプットファイルの作製ステップ
本発明の解析に使用されるデータは、電気泳動システムによって得られたデータからQUISCA用インプットファイルを抽出することにより得ることができる(図2、S01,S02)。QUISCAのインプットファイルは、遺伝子解析データのトレースファイルとして処理される(図2、S03)。「トレースファイル」とは、ASCII形式の多数行多数列からなる蛍光強度表であり、キャピラリーアレイの各レーンに対して1つのトレースファイルを作製する。このトレースファイルの行は予め定められた波長範囲を、列はデータ収集のタイムポイントを表わす。
【0024】
ABI PRISMTM 3100 Genetic Analyzer又は 3700 DNA Analyzer (Applied Biosystems, Foster City, CA)から得られたPLACE−SSCPの蛍光データファイルは、ABITool Kitを用いてトレースファイルに変換することが可能である。また、MegaBACETM−1000 DNA Analysis System (Amersham Pharmacia Biotech)由来のデータは MegaBACETM Sequence Analysis Softwareを用いてトレースファイルに変換することができる。
3.パラメータ
本発明において、ユーザーがQUISCAの処理能力をモジュレートすることができるパラメータは、高周波数カットオフの決定子(D)、バックグラウンドの推定におけるウインドウサイズ(N)、ブロック同定におけるブロックマージン及び検索範囲(それぞれr及びR)、並びにピーク検出における高さ及び幅の閾値(それぞれh及びw)である。これらのパラメータのデフォルト設定は、種々の条件下で種々の装置を用いて得られる多数のデータに対して最適化されている(Kukita, Y.,et al., 2002. Electrophoresis 23:2259−2266.)。4.アルゴリズム概要
QUISCAを用いたデータ処理のフローチャートを図2に示す。QUISCAに実装されている機能は、ノイズフィルタリングを実行するステップ(S11)、ベースラインサブトラクションを実行するステップ(S12)、カラーセパレーションを実行するステップ(S13)、ピークを検出するステップ(S14又はS15)、グローバルなデータポイントのアラインメントを実行するステップ(S16)、及びカラーマトリックスの構築を実行するステップ(S17)である。QUISCAの各ステップで処理されたデータは、インターフェースであるQUISCAviewに送られ、可視化される。このインターフェースに実装されている他の機能は、ローカルピーク検出、ローカルピーク選択及びローカルアラインメントである。
【0025】
(1) ノイズフィルタリング(S11)
実際にキャピラリー電気泳動装置を稼動させると、検出器の熱ノイズ、検出光学系の振動など、操作環境に由来する他のノイズを含むいくつかのノイズが生じうる。本発明者は、数種類のノイズ除去手法を用いて実験を行い(Savitsky, A. and M. Golay, J. 1964. Anal. Chem. 36:1627−1639.)、その結果、高周波ノイズを除去する高速フーリエ変換(Fast Fourier Transform: (FFT))を用いると満足できるフィルタリングが得られることを見いだした(Press, W.H. et al., 1988. Numerical Recipies in C. Cambridge University Press, Cambridge, England.)。
【0026】
このフィルタリングプロセスは、生データの各チャネルごとに以下のように進行する。まず、FFTによってデータを周波数ドメインに変換する。次に、得られた複雑なアレイにポイントごとに下記のフィルター関数を掛ける。そして最後に、周波数ドメインにあるフィルタリングされたデータを、逆FFTを適用して時間ドメインに逆変換する。フィルターは下記の式:
F(f) ≧ 0の場合 F(f) = 1 − D
F(f) < 0の場合 F(f) = 0
(式中、fは周波数を、Dは高周波数カットオフの決定子を表わす)
によって表わされる二次関数である。パラメータDは、総データポイント数及びノイズの量に基づいて選択される(後述)。
(2) ベースラインサブトラクション(S12)
生データ中のバックグラウンドシグナルは、チャネル(波長範囲)間及びキャピラリー間で異なるのみならず、時間が経過するにつれてゆっくり変化する。そこで、電気泳動図の全トレースのバックグラウンドシグナルを差し引く。この操作をベースラインサブトラクションという。これは、ピークを正確に定量するために、さらにピークの特徴を視覚的に容易に同定できるようにするために必要なステップである。
【0027】
QUISCAにおいては、ベースラインサブトラクションのために先ず、トレースをデータポイント数Nの連続的ウインドウに区切り、それらのウインドウ内における最小シグナル強度をサーチすることによりスタートする(Nはユーザーが選択できる)。ベースラインは隣接するウインドウでの最小シグナル強度間の線形補間として推定される。各データポイントのシグナル強度は、推定されたベースラインの対応する数値を差し引くことによって補正される。
(3) カラーセパレーション(S13)
複数の色素を用いた多重蛍光キャピラリー電気泳動系に用いられる蛍光色素は個別の発光スペクトルを有する。一般的にこれらの発光スペクトルは、色素間でオーバーラップしている。カラーセパレーションとは、波長ごとに経時的にスキャンしたトレースデータを各蛍光色素によってラベルされたDNA量のトレースデータに換算することを意味する。
【0028】
カラーセパレーションを実行するには、各データチャネルの標的色素から望ましくないシグナルを除去するためにスペクトルクロストークマトリックス(M)を用いる。この変換は f = Mdという式によって表わされる。式中、fは各波長範囲で測定された蛍光強度のベクトルを表わし(「蛍光スペースの」ベクトル)、dは「色素スペースの」ベクトルである。本発明においては、逆向きの操作を実施してfをdに変換する必要がある。そこで、Mを逆数にし(Press, W.H. et al., 1988. Numerical Recipies in C. Cambridge University Press, Cambridge, England.)、d = M−1fという式を用いる。
【0029】
デフォルト(所期設定)では、QUISCAは4色の色素を扱うように設定されている。4種類の色標準サンプルを別々に電気泳動し、あらかじめ定めた4つの波長範囲で蛍光強度を測定し、標準化することによって4x4スペクトルのクロストークマトリックス(カラーマトリックス)を構築する(S17)。但し、本発明においては処理する色素の数は4色に限定されるものではなく、例えば1色〜10色の色素を扱うことが可能である。ABI−3100/3700由来のトレースデータはABI Data Collection Software内ですでにカラーセパレーションされており、そのため単位行列が用いられる。
【0030】
(4) ピーク検出(S14, S15)
波形が凸状の領域、すなわち p’(t)≧0 かつ p’(t+1)<0の範囲を求めてトレースをスキャンすることによってピークを検索する。式中、p’(t)及びp’(t+1)は、それぞれタイムポイントt、t+1におけるトレースデータの一次導関数(first derivative)である。次に、ピークの高さ(h)及び幅(w)の数値が閾値未満の場合は、そのピークは除かれる。なお、ピーク幅は、p’(t)≦0 及び p’(t+1)>0を満たす最も近い2つのタイムポイント間の距離によって規定される。
【0031】
(5) アラインメント
このステップの目的は、▲1▼移動度におけるキャピラリーごと又は泳動ごとの変動を補正すること、並びに▲2▼ピークの同定及び定量を容易にすることである。このステップでは、サンプル標識用に用いた色素とは異なる色素で標識した内部標準マーカーのピークの高さ及び位置を評価する。そして移動度の変動が、全体的に、又はユーザーによって選択された特定の範囲内で局所的に、調整される。上記全体的に調整することをグローバルアラインメントといい(S16)、局所的に調整することをローカルアラインメントという(S20)。
【0032】
▲1▼ グローバルアラインメント(S16)
グローバルアラインメントは3つのプロセスからなる。すなわち、(i)標準ピークを検出するステップ、(ii)各サンプル泳動により得られたピークを、予め選択したテンプレート泳動により得られたピークの対応部分に割当てること(帰属決定という)、及び(iii)サンプル泳動におけるサンプルピークのタイムポイントを較正することである。
【0033】
ピーク検出のアルゴリズムは、S14及びS15のステップと同様である。
【0034】
ピークの割当て(帰属決定)は、アラインメントプロセスの最も複雑な部分であり、各マーカーピークを同定するのに困難な作業となる。複数の同じサンプルを同一の条件で泳動しても、厳密には各泳動結果に種々の誤差、例えばピークの高さの変動、ノイズ、ピーク分解能の変動、ピーク間隔の変動等が生じる(例えば図3A〜C)。各泳動間のデータを比較すると、個々のピークの高さ及び位置は必ずしも一貫しているとは限らないが、それらの相対値(すなわちピークパターン)は通常類似している。そこで、QUISCAにおいては、各サンプル泳動のデータを、2つの隣接するピークによって範囲が定められる領域に分割する。(図3A〜Cの枠囲み部分)。この1つの領域をブロックという。
【0035】
次に、テンプレート泳動におけるn番目のブロックの最も可能性の高い(最も妥当と思われる)開始位置(t)を、最初のブロック(n=1)から逐次的に(adaptively)決定する。これは下記の式によって与えられるQ(t)(タイムポイントtにおけるブロック領域内のシグナル強度の差の絶対値の和)を評価することによって行われる:
【0036】
【数1】
Figure 2004177290
【0037】
式中、T(t)及びS(s)は、それぞれ、テンプレート泳動及びサンプル泳動のタイムポイントt、sにおけるトレースの蛍光強度をそれぞれ表わす。Bはn番目のブロックの幅を、Sは各サンプルの泳動におけるn番目のブロックの開始位置を、rは検索を最適化するのに必要なブロックマージンを(図3)、そしてRは検索範囲を表わす。
【0038】
次に、下記の式を満たすtの値としてtを得る:
Q(t) = min Q(t)
式中、minは最小値を表す。
【0039】
類似するパターンの相対的位置関係を特定した後は、適切なブロック内のピーク位置の類似性によって、サンプル泳動のピークに対応するテンプレート泳動のピークが同定される。
【0040】
最後に、サンプル泳動における全データポイントが、2つのアルゴリズム、すなわち(i)キュービックスプライン(cubic spline)( Press, W.H., et al., 1988. Numerical Recipies in C. Cambridge University Press, Cambridge, England.)及び(ii)ローカルサザン(Southern, E.M. 1979. Anal. Biochem. 100:319−323.)補間法のどちらかによって較正され、ピークの同定/定量を行なう (S21)。
【0041】
▲2▼ ローカルアラインメント
ローカルアラインメントは、QUISCAviewによって実施される。QUISCAviewのプログラムでは、まず、QUISCAにより処理されたカラーセパレーション(S13)後のデータを組み込み、ローカルピークの検出を行なう(S18)。その後、ローカルピークの選択を行ない(S19) 、ローカルアラインメント処理を行なう(S20)。ローカルアラインメント(S20)は、(i)目的の範囲の定義、(ii)ピーク検出のためのパラメータの設定、及び(iii)標準ピークの選択を含む操作からなる。
【0042】
次に、QUISCAについて記載したグローバルアラインメントと同じアルゴリズムによってサンプルピークの移動度が較正される。
(6) ピークの同定/定量(S21)
ユーザーによって選択されたピークは、その高さによって定量する(S21)。選択されたピークの高さ及び位置に関する情報は、QUISCAviewから外部ファイルへ表計算形式でアウトプットされる(S22)。
【0043】
ユーザーはQUISCAを操作するためのいくつかのパラメータをコマンドラインオプションとして設定することができる(ユーザーインターフェースという)。本発明においては、このプログラム(QUISCA)に示される殆どのデータに対してうまく機能するパラメータの標準(デフォルト)セットを使用することができる。標準(デフォルト)セットとは、SSCPに最適化された各々の処理のパラメータセットを意味し、上記D、N、r、R、h及びwの6種類により構成される。
5.コンピュータプログラム
本発明は、コンピュータを、遺伝子の解析データの処理方法として機能させるためのプログラムをも提供する。本発明のコンピュータプログラムQUISCAは、以下の手段:
(a) 遺伝子解析データのノイズをフィルタリングする手段、
(b) ベースラインサブトラクションを実行する手段、
(c) カラーセパレーションを実行する手段、
(d) 解析データ曲線のピークを検出する手段、及び
(e) グローバルアラインメントを実行する手段
を含むものである。
【0044】
さらに、本発明においては、QUISCAViewプログラムも含まれる。QUISCAViewプログラムは、QUISCAにより処理されたカラーセパレーション後のデータを処理するプログラムであり、
(f) ローカルピークを検出する手段
(g) ローカルピークを選択する手段、及び
(h) ローカルアラインメントを実行する手段
を含むものである。
【0045】
本発明のQUISCAプログラムは、一般には、本発明のシステムにおいて使用するコンピュータ上で、又はネットワーク上で機能しうるプログラム言語、例えばPerl/Tk、C++、Java(登録商標)、Visual Basic等で作動する。QUISCAプログラムは、蛍光式キャピラリーアレイ電気泳動装置で収集した多重スペクトルトレースデータを受け入れるように設計されている。QUISCAプログラムは1組のプロセシングアルゴリズムによってデータを処理し、次にこれらのデータを保存させる。また、前記パラメータをさらに最適化して、任意の特定装置に由来するデータに対する処理能力を増大させることが可能である。処理されたデータの各セットはグラフィカルユーザーインターフェースQUISCAviewを用いて検査される。
【0046】
QUISCAviewプログラムは、処理されたデータの全体像を提供し、またユーザーがアレルコーリング(allele calling)のためにローカルアラインメントを実施するのを可能とする、QUISCAプログラムのグラフィカルユーザーインターフェースである。QUISCAviewプログラムは、例えばperl/Tkを備えたコンピュータで作動する。QUISCAViewプログラムは、通常は上記QUISCAとともに機能させる。さらに、QUISCAview プログラムには、ローカルアラインメント及びピークコーリングを含む機能も実装されている。
6.コンピュータ用記録媒体
本発明のQUISCA及びQUISCAviewプログラムは、コンピュータ読み取り可能な記録媒体又はコンピュータに接続しうる記憶手段に保存することができる。本発明のプログラムを含有するコンピュータ用記録媒体又は記憶手段も本発明に含まれる。記録媒体又は記憶手段としては、磁気的媒体(フレキシブルディスク、ハードディスクなど)、光学的媒体(CD、DVDなど)、磁気光学的媒体(MO、MD)などが挙げられる。
【0047】
【実施例】
以下、実施例により本発明をさらに具体的に説明する。但し、本発明はこれら実施例に限定されるものではない。
【0048】
〔実施例1〕 PCR−SSCPデータ処理
本実施例では、MegaBACE、ABI3100及びABI3700により得られたデータの処理を行なった。
(1) PLACE−SSCP
まず、2人の日本人及び2つのプール化DNA(日本人プール及びCEPHプール)から、フォワードプライマー(5’−attCATTGCCCTATTTCAA−3’:配列番号1)及びリバースプライマー(5’−gttAGCAAAGGATTGAATG−3’:配列番号2)を用いて、SNP (rs460752)を含む配列タグ部位 (STS)を増幅し、PLACE−SSCP分析を実施した。ABI PRISMTM 3100 Genetic Analyzerを用いたキャピラリー電気泳動を2xTME (60 mM Tris, 70 mM MES及び2 mM NaEDTA, pH 6.8)で緩衝化した12% linearポリジメチルアクリルアミド中で30℃で実施した(Kukita, Y. et al., 2002. Electrophoresis 23:2259−2266.)。
【0049】
PLACE−SSCPによる定量的アレル検出は混合実験によって試験した(Sasaki, T. et al., 2001. Am. J. Hum. Genet. 68:214−218.)。本発明者は、QUISCAによって処理されたデータと、GeneScanTM Analysis Software (Applied Biosystems) によって処理されたデータとを、Sasakiら(Sasaki, T. et al., 2001. Am. J. Hum. Genet. 68:214−218.)に記述されているものと同一のデータ及び方法を用いて比較した。すなわち、1つのSNPについてアレルがホモ接合性である2人のヒトのゲノムDNAを種々の比(0:10から10:0)で混合し、PLACE−SSCPによって分析した。ピークの高さを定量し、そして比が1:1の場合のピークの高さを用いて標準化し、PCRバイアスを補正した。
(2) ノイズフィルタリング
フィルタリングにおいては、ユーザーは有用なシグナル情報が過剰なフィルタリングによって失われないように周波数カットオフのためのパラメータを選択することができる。本発明者は、パラメータDを1/mから20/mに設定することによってノイズフィルタリングにおけるレベルの効果を試験した。mは、当該泳動の全タイムポイントより大きい、2の最小整数べき乗を意味する(Press, W.H., et al., 1988. Numerical Recipies in C. Cambridge University Press, Cambridge,England.)。mの典型的な値は、どの機器を使う場合も16384であった。本発明においては、ピークの不正確な分割、又はベースラインノイズの過剰推定がない正確なピーク定量に最も適切な脱ノイズ化データは、経験的にはD = 9/mと設定した時に得られた。図4G、4H及び4Iは、フィルタリングされたシグナルと元のシグナルとの差が、ピーク又はピーク近辺において均一でないことを示している。特に、MegaBACE由来のデータにおいて不均一が顕著であった。これは、異分散性のノイズ(Mittermayr, C.R. et al., 1997. Anal. Commun. 34:73−75.)が除去されたこと、あるいはシグナル構成要素が若干損傷されたことを示している。但し、ピークに関連するこれらの差異はピークの高さの2〜3%を超えるものではなく、ピークの定量に影響はなかった。
(3) ベースラインサブトラクション
FTTによる脱ノイズ化後も、ベースラインの低周波数変異型は残る。今回用いたベースライン補正法では、ウインドウサイズNが最適化の可能な唯一のパラメータである。Nは、ピークの高さを過度に小さくするのを避けるため予測されるいずれのピークの幅よりも大きく、しかしベースライン変動(drift)の特徴を補足するのに十分なだけ小さく設定される必要がある。
【0050】
本発明者は、N = 500と設定した場合に、図4J、4K及び4Lに示すように、試験した全ての機器に由来する広範なデータセットに対してこの方法がうまく機能することを見いだした。
(4) アラインメント(泳動間つまりキャピラリー間のピーク位置の較正)
内部マーカーのピークを正確に割当てる(帰属を決める)ことは、各泳動の移動度較正にとって極めて重大である。ピーク帰属法を評価するため、本発明者はABI3100を用いてGS500 TAMRAサイズ標準品(Applied Biosystems)を168回泳動させて得た4783個のピークを含むピークセットを作製した。帰属を決めるためのパラメータは、r = 150及びR = 100を選択したときに満足できる結果が達成された。このように設定した場合、本発明者はピークの98.1%(4690個)がグローバルアラインメントモードで正しく同定されることを見いだした。QUISCAviewを用いたローカルアラインメントモードでは、標準ピークを帰属決定し、そしてそのアラインメントは常に満足できるものであった(図5)。図5において、AはABI3100を用いたときの結果であり、Bは本発明のプログラムを用いて処理したときの結果である。緑色(点線)及び青色(実線)のピークは、2種類の蛍光染料(R110及びR6G)でそれぞれ示差的に標識した、PCR産物の2本の相補鎖に由来するものである。標準ピークは黒色である(図中、矢印(▲)が付されていないピーク)。矢印(▲)はアレルのピーク位置を示す。本発明のプログラムを使用すると、ピークの位置のずれを補正することができる。
(5) 定量
表1に示すように、計算されたアレル組成は全範囲にわたって混合比と極めてよく一致した。QUISCA及びGeneScanTMによって処理された混合データの測定係数(r)は、それぞれ0.999803及び0.999729であった。このようにQUISCAによる推定値は、従来の推定値よりも改善することができた。
【0051】
【表1】
Figure 2004177290
【0052】
これらのデータは Sasakiら(Sasaki, T. et al., 2001. Am. J. Hum. Genet. 68:214−218.)から取ったものである。
恣意的に選択されたユニットにおけるピークの高さ。
生データのピークの高さから推定されるアレル1の割合(%)。
補正されたデータのピークの高さから推定されるアレル1の割合(%)。
【0053】
補正方法の詳細はSasakiら(Sasaki, T. et al., 2001. Am. J. Hum. Genet. 68:214−218.)に記述されている。
【0054】
【発明の効果】
本発明により、遺伝子の解析データを処理する方法及びそのプログラムが提供される。本発明のプログラムは、SSCPデータをバッチごとに処理することが可能であり、標準ピークは高い精度で帰属決定され、そしてアレルは正確に定量される。
【0055】
【配列表】
Figure 2004177290
Figure 2004177290
【0056】
【配列表フリーテキスト】
配列番号1:合成DNA
配列番号2:合成DNA
【図面の簡単な説明】
【図1】本発明の解析システムを示すブロック図である。
【図2】QUISCA/QUISCAviewのフローチャートの図である。
【図3】サンプル泳動のデータについて、2つの隣接するピークのブロック分割を示す図である。
【図4】ノイズのフィルタリング及びベースラインの調整を示す図である。パネルAからCは3つの装置、すなわちMegaBACE (左)、ABI3100 (中央)及びABI3700 (右)に由来する元のシグナルを示す。パネルDからFはフィルタリング後の再構築されたシグナルを示す。パネルGからIはフィルタリングされたシグナルと元のシグナルとの差のベクトルを示す。パネルJからLはフィルタリング及びベースライン除去後の処理されたシグナルを示す。パネルAからF中の横棒の領域について、拡大したトレースの領域を挿入パネル中に示す。
【図5】アラインメントの前(パネルA)及び後(パネルB)のPLACE−SSCPデータのクロマトグラムである。
【符号の説明】
101:CPU、 102:ROM、 103:RAM、 104:入力部、105:送信/受信部、
106:出力部、 107:HDD、 108:CD−ROMドライブ、 109:ネットワーク回線

Claims (10)

  1. 遺伝子解析データの処理方法であって、以下のステップ:
    (a) 遺伝子解析データのノイズをフィルタリングするステップ、
    (b) ベースラインサブトラクションを実行するステップ、
    (c) カラーセパレーションを実行するステップ、
    (d) 解析データ曲線のピークを検出するステップ、及び
    (e) グローバルアラインメントを実行するステップ
    を含む方法。
  2. 請求項1記載のカラーセパレーション実行ステップ後のデータの処理方法であって、
    (f) ローカルピークを検出するステップ
    (g) ローカルピークを選択するステップ、及び
    (h) ローカルアラインメントを実行するステップ
    を含む方法。
  3. さらに、(i) ピーク定量ステップを含む請求項1又は2記載の方法。
  4. 遺伝子解析データの処理システムであって、以下の手段:
    (a) 遺伝子解析データのノイズをフィルタリングする手段、
    (b) ベースラインサブトラクションを実行する手段、
    (c) カラーセパレーションを実行する手段、
    (d) 解析データ曲線のピークを検出する手段、
    (e) グローバルアラインメントを実行する手段
    を含むシステム。
  5. 請求項4記載のカラーセパレーション実行手段後のデータの処理システムであって、
    (f) ローカルピークを検出する手段
    (g) ローカルピークを選択する手段、及び
    (h) ローカルアラインメントを実行する手段
    を含むシステム。
  6. さらに、(i) ピーク定量手段を含む請求項3又は4記載のシステム。
  7. コンピュータを、遺伝子解析データの処理システムとして機能させるためのプログラムであって、以下の手段:
    (a) 遺伝子解析データのノイズをフィルタリングする手段、
    (b) ベースラインサブトラクションを実行する手段、
    (c) カラーセパレーションを実行する手段、
    (d) 解析データ曲線のピークを検出する手段、
    (e) グローバルアラインメントを実行する手段
    を含むプログラム。
  8. コンピュータを、請求項7記載のカラーセパレーション実行手段後のデータの処理システムとして機能させるためのプログラムであって、以下の手段:
    (f) ローカルピークを検出する手段
    (g) ローカルピークを選択する手段、及び
    (h) ローカルアラインメントを実行する手段
    を含むプログラム。
  9. さらに、(i) ピーク定量手段を含む請求項7又は8記載のプログラム。
  10. 請求項7、8又は9記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002344468A 2002-11-27 2002-11-27 遺伝子解析データの処理方法 Pending JP2004177290A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002344468A JP2004177290A (ja) 2002-11-27 2002-11-27 遺伝子解析データの処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002344468A JP2004177290A (ja) 2002-11-27 2002-11-27 遺伝子解析データの処理方法

Publications (1)

Publication Number Publication Date
JP2004177290A true JP2004177290A (ja) 2004-06-24

Family

ID=32705948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002344468A Pending JP2004177290A (ja) 2002-11-27 2002-11-27 遺伝子解析データの処理方法

Country Status (1)

Country Link
JP (1) JP2004177290A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013539970A (ja) * 2010-09-21 2013-10-31 ポピュレーション ジェネティクス テクノロジーズ リミテッド 分子計数による対立遺伝子呼び出しの信頼度の増加
JP2022088444A (ja) * 2017-03-07 2022-06-14 イルミナ インコーポレイテッド 単一の光源、2光学チャネル配列決定

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013539970A (ja) * 2010-09-21 2013-10-31 ポピュレーション ジェネティクス テクノロジーズ リミテッド 分子計数による対立遺伝子呼び出しの信頼度の増加
JP2017012185A (ja) * 2010-09-21 2017-01-19 ポピュレーション ジェネティクス テクノロジーズ リミテッド 分子計数による対立遺伝子呼び出しの信頼度の増加
US9670536B2 (en) 2010-09-21 2017-06-06 Population Genetics Technologies Ltd. Increased confidence of allele calls with molecular counting
JP2022088444A (ja) * 2017-03-07 2022-06-14 イルミナ インコーポレイテッド 単一の光源、2光学チャネル配列決定

Similar Documents

Publication Publication Date Title
US8268558B2 (en) Internal calibration standards for electrophoretic analyses
US8965711B2 (en) Method and system for determining the accuracy of DNA base identifications
Covarrubias-Pazaran et al. Fragman: an R package for fragment analysis
Takahashi et al. Automated identification of single nucleotide polymorphisms from sequencing data
Maddalena et al. Technical standards and guidelines: molecular genetic testing for ultra-rare disorders
US6598013B1 (en) Method for reducing cross-talk within DNA data
Lin et al. Developmental validation of FaSTR™ DNA: software for the analysis of forensic DNA profiles
JP2004177290A (ja) 遺伝子解析データの処理方法
Higasa et al. Software for machine-independent quantitative interpretation of SSCP in capillary array electrophoresis (QUISCA)
Dash et al. Analysis of capillary electrophoresis results by GeneMapper® ID-X v 1.5 Software
Johansson et al. A novel method for automatic genotyping of microsatellite markers based on parametric pattern recognition
JP5213009B2 (ja) 遺伝子発現変動解析方法及びシステム、並びにプログラム
JP4894860B2 (ja) 核酸塩基配列信頼度の算定方法
Wang et al. Allele size miscalling due to the pull-up effect influencing size standard calibration in capillary electrophoresis: A case study using HEX fluorescent dye in microsatellites
JP3975663B2 (ja) 遺伝子多型解析方法
JP2017016665A (ja) 配列のデータからの変異情報の選択方法、システム、及び、コンピュータプログラム
JPH11118760A (ja) 核酸断片の電気泳動パターンの解析法
US20170235874A1 (en) Methods and systems for detecting minor variants in a sample of genetic material
US20070178517A1 (en) Microarray analysis
Symons et al. ResqMi-a versatile algorithm and software for Resequencing Microarrays
Mattocks et al. Comparative sequence analysis
AU2002313667B2 (en) Internal calibration standards for electrophoretic analyses
ARRIGO et al. Automatize scoring of AFLP datasets with RawGeno: a free R CRAN library.
US20090182512A1 (en) Gene information processing apparatus and gene information display apparatus
AU2011253591A1 (en) Internal calibration standards for electrophoretic analyses