JP2004177290A

JP2004177290A - 遺伝子解析データの処理方法

Info

Publication number: JP2004177290A
Application number: JP2002344468A
Authority: JP
Inventors: Kenji Hayashi; 健志林; Koichiro Hikasa; 幸一郎日笠; Hiroji Kukida; 洋児久木田; Shingo Baba; 眞吾馬場
Original assignee: Kyushu TLO Co Ltd
Current assignee: Kyushu TLO Co Ltd
Priority date: 2002-11-27
Filing date: 2002-11-27
Publication date: 2004-06-24

Abstract

【課題】遺伝子解析データの処理方法の提供。
【解決手段】遺伝子解析データの処理方法であって、以下のステップ：
（ａ）遺伝子解析データのノイズをフィルタリングするステップ、
（ｂ）ベースラインサブトラクションを実行するステップ、
（ｃ）カラーセパレーションを実行するステップ、
（ｄ）解析データ曲線のピークを検出するステップ、及び
（ｅ）グローバルアラインメントを実行するステップ
を含む方法。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、遺伝子の解析データを処理する方法に関する。
【０００２】
【従来の技術】
標準ヒトゲノム配列の作製が完了に近づいており、次の重要な目標は、各個人のゲノム中の変異を広範に特徴づけることである。ゲノムにおいては、単一ヌクレオチド多型（Ｓｉｎｇｌｅｎｕｃｌｅｏｔｉｄｅｐｏｌｙｐｍｏｒｐｈｉｓｍ：ＳＮＰ）が遍在しており（Ｓａｃｈｉｄａｎａｎｄａｍ，Ｒ．，ｅｔａｌ．，２００１．Ｎａｔｕｒｅ４０９：９２８−９３３．；Ｖｅｎｔｅｒ，Ｊ．Ｃ．ｅｔａｌ．，２００１．Ｓｃｉｅｎｃｅ２９１：１３０４−１３５１．）、これらのＳＮＰは、ポリジーン性形質（疾患への罹りやすさ、薬剤感受性／耐性等）に関与する遺伝子を同定するためのゲノムマーカーとして利用することができる。ＳＮＰは多数存在し、またそれ以上に潜在的サンプルが多数あるため（Ｋｒｕｇｌｙａｋ，Ｌ．１９９９．Ｎａｔ．Ｇｅｎｅｔ．２２：１３９−１４４．；Ｒｅｉｃｈ，Ｄ．Ｅ．ｅｔａｌ．，２００１．Ｎａｔｕｒｅ４１１：１９９−２０４．）、ハイスループットでかつ低コストなＳＮＰ分析に適した広く利用可能な方法の開発が望まれている。
【０００３】
最近、本発明者はＳＮＰを特徴づける方法を開発した。この方法はＰＣＲ産物を蛍光色素でポストラベル（Ｐｏｓｔ−Ｌａｂｅｌｅｄ）し、そして広く入手可能なＰＬＡＣＥ−ＳＳＣＰ（ＡｕｔｏｍａｔｅｄＣａｐｉｌｌａｒｙＥｌｅｃｔｒｏｐｈｏｒｅｓｉｓＤＮＡｓｅｑｕｅｎｃｅｒｓｕｎｄｅｒｃｏｎｄｉｔｉｏｎｓｆｏｒＳｉｎｇｌｅ−ＳｔｒａｎｄｅｄＣｏｎｆｏｒｍａｔｉｏｎａｌＰｏｌｙｍｏｒｐｈｉｓｍａｎａｌｙｓｉｓ：１本鎖コンホメーション多型分析用の自動キャピラリー電気泳動ＤＮＡシークエンサー）を用いて直接分析するものである（Ｉｎａｚｕｋａ，Ｍ．ｅｔａｌ．，１９９６．ＧｅｎｏｍｅＲｅｓ．６：５５１−５５７．（非特許文献１）；Ｉｎａｚｕｋａ，Ｍ．ｅｔａｌ．，１９９７．ＧｅｎｏｍｅＲｅｓ．７：１０９４−１１０３．（非特許文献２））。この方法は、個人のＳＮＰ遺伝子型を低コストで決定するのに適するのみならず、プール化ＤＮＡを用いたアレル頻度の正確な推定にも適する（Ｓａｓａｋｉ，Ｔ．ｅｔａｌ．，２００１．Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．６８：２１４−２１８．（非特許文献３））。
【０００４】
キャピラリー電気泳動（ＣＥ）法は、ＤＮＡ断片を高分解能で短時間に再現性良く分離できる方法であり、ゲル電気泳動に代わるＤＮＡ分析自動化技術である。ポリマーを含む緩衝液を用いたＮｏｎｇｅｌ−ｓｉｅｖｉｎｇＣＥは、煩雑なゲルの作製が必要無く、短時間で１塩基の違いを分離できることからキャピラリー型シークエンサーとして広く用いられている。現在では、ＤＮＡ解析におけるキャピラリー電気泳動は、オートシークエンサーとしての地位を確立させている。
【０００５】
ＧｅｎｅＳｃａｎ^ＴＭ（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）及びＭｅｇａＢＡＣＥ^ＴＭＧｅｎｅｔｉｃＰｒｏｆｉｌｅｒ（ＡｍｅｒｓｈａｍＰｈａｒｍａｃｉａＢｉｏｔｅｃｈ）は、ＳＮＰ又はマイクロサテライトの解析データを処理するためのソフトウェアであり、それぞれＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ社、ＡｍｅｒｓｈａｍＰｈａｒｍａｃｉａＢｉｏｔｅｃｈ社の遺伝子解析装置から得られた波形データを自動解析し、ＤＮＡフラグメントの同定、定量、サイズ測定を決定するものである。
【０００６】
しかしながら、これらのソフトウエアは、特定された用途以外のもの（例えばＳＳＣＰ）に使用するには適さない。例えば、ＡＢＩキャピラリーシークエンサーと共に供給されるＧｅｎｅＳｃａｎ^ＴＭソフトウエアは、データポイントを再指定して各泳動を手動で実施しなければ、内部マーカーによって生成されるピークをアラインすることが困難である（Ｌａｒｓｅｎ，Ｌ．Ａ．ｅｔａｌ．，２００１．Ｈｕｍ．Ｍｕｔａｔ．１８：４５１−４５７．（非特許文献４））。
【０００７】
従って、各種解析データに対し高精度に対応し得る汎用性の高いソフトウエアの開発が望まれている。
【０００８】
【非特許文献１】
Ｉｎａｚｕｋａ，Ｍ．ｅｔａｌ．，１９９６．ＧｅｎｏｍｅＲｅｓ．６：５５１−５５７．
【０００９】
【非特許文献２】
Ｉｎａｚｕｋａ，Ｍ．ｅｔａｌ．，１９９７．ＧｅｎｏｍｅＲｅｓ．７：１０９４−１１０３．
【００１０】
【非特許文献３】
Ｓａｓａｋｉ，Ｔ．ｅｔａｌ．，２００１．Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．６８：２１４−２１８．
【００１１】
【非特許文献４】
Ｌａｒｓｅｎ，Ｌ．Ａ．ｅｔａｌ．，２００１．Ｈｕｍ．Ｍｕｔａｔ．１８：４５１−４５７．
【００１２】
【発明が解決しようとする課題】
本発明は、遺伝子の解析データを処理する方法を提供することを目的とする。
【００１３】
【課題を解決するための手段】
本発明者は、上記課題を解決するため鋭意研究を行ない、多重チャネルキャピラリー電気泳動系に適用してスループットを増大させた（Ｋｕｋｉｔａ，Ｙ．，ｅｔａｌ．，２００２．Ｅｌｅｃｔｒｏｐｈｏｒｅｓｉｓ２３：２２５９−２２６６．）。この分析系を確立する過程で、当該分析に適したソフトウエアを開発することに成功し、本発明を完成するに至った。
【００１４】
すなわち、本発明は以下の通りである。
（１）遺伝子解析データの処理方法であって、以下のステップ：
（ａ）遺伝子解析データのノイズをフィルタリングするステップ、
（ｂ）ベースラインサブトラクションを実行するステップ、
（ｃ）カラーセパレーションを実行するステップ、
（ｄ）解析データ曲線のピークを検出するステップ、及び
（ｅ）グローバルアラインメントを実行するステップ
を含む方法。
（２）上記（１）に示すカラーセパレーション実行ステップ後のデータの処理方法であって、
（ｆ）ローカルピークを検出するステップ
（ｇ）ローカルピークを選択するステップ、及び
（ｈ）ローカルアラインメントを実行するステップ
を含む方法。
（３）上記（１）及び（２）の方法において、さらに、（ｉ）ピーク定量ステップを含めることができる。
（４）遺伝子解析データの処理システムであって、以下の手段：
（ａ）遺伝子解析データのノイズをフィルタリングする手段、
（ｂ）ベースラインサブトラクションを実行する手段、
（ｃ）カラーセパレーションを実行する手段、
（ｄ）解析データ曲線のピークを検出する手段、
（ｅ）グローバルアラインメントを実行する手段
を含むシステム。
（５）上記（４）に示すカラーセパレーション実行手段後のデータの処理システムであって、
（ｆ）ローカルピークを検出する手段
（ｇ）ローカルピークを選択する手段、及び
（ｈ）ローカルアラインメントを実行する手段
を含むシステム。
（６）上記（４）及び（５）のシステムにおいて、さらに、（ｉ）ピーク定量手段を含めることができる。
（７）コンピュータを、遺伝子解析データの処理システムとして機能させるためのプログラムであって、以下の手段：
（ａ）遺伝子解析データのノイズをフィルタリングする手段、
（ｂ）ベースラインサブトラクションを実行する手段、
（ｃ）カラーセパレーションを実行する手段、
（ｄ）解析データ曲線のピークを検出する手段、
（ｅ）グローバルアラインメントを実行する手段
を含むプログラム。
（８）コンピュータを、上記（７）に示すカラーセパレーション実行手段後のデータの処理システムとして機能させるためのプログラムであって、以下の手段：
（ｆ）ローカルピークを検出する手段
（ｇ）ローカルピークを選択する手段、及び
（ｈ）ローカルアラインメントを実行する手段
を含むプログラム。
（９）上記（７）及び（８）のプログラムにおいて、さらに、（ｉ）ピーク定量手段を含めることができる。
（１０）上記（７）、（８）又は（９）に示すプログラムを記録したコンピュータ読み取り可能な記録媒体。
【００１５】
以下、本発明を詳細に説明する。
【００１６】
【発明の実施の形態】
ＰＣＲ−ＳＳＣＰ分析は、ＰＣＲ産物の配列変異型を高感度で検出するための簡便で迅速な電気泳動技法である。本発明は、クロスプラットフォーム対応プログラムパッケージである「ＱＵＩＳＣＡ」（ＱｕａｎｔｉｔａｔｉｖｅｉｎｔｅｒｐｒｅｔａｔｉｏｎｏｆＳＳＣＰｉｎｃａｐｉｌｌａｒｙａｒｒａｙｅｌｅｃｔｒｏｐｈｏｒｅｓｉｓ）と呼ばれるプログラムに関するものである（「ＱＵＩＳＣＡ」又は「ＱＵＩＳＣＡプログラム」という）。このプログラムは、種々のキャピラリーアレイ装置を用いた複数色蛍光式ＳＳＣＰ電気泳動によって分離される変異型配列の量的検出を可能とするものである。ＱＵＩＳＣＡはまた、多重染色用色素、多重インジェクション実験のトレースデータを取り扱うことも可能である。
【００１７】
ＱＵＩＳＣＡは、一塩基多型（ＳＮＰ）のジェノタイピング及びアレル頻度推定のみならず、フラグメントのサイジング（大きさの順に並べること）をも含む迅速なフラグメント分析の実行を可能とする。
【００１８】
このプログラムは、グラフィカルユーザーインターフェース（ＧＵＩ）としての「ＱＵＩＳＣＡｖｉｅｗ」と呼ばれるプログラム（「ＱＵＩＳＣＡｖｉｅｗ」又は「ＱＵＩＳＣＡｖｉｅｗプログラム」という）と協同してＡＳＣＩＩ形式のトレースデータを取り込み、そして３つのモジュールを用いてそれらのデータを処理する。第１に、シグナルの脱ノイズ化／ベースラインサブトラクション、第２にカラーマトリックス構築／適用（カラーセパレーション）、及び第３にピーク検出である。
【００１９】
ＱＵＩＳＣＡは広く用いられている種々のキャピラリーアレイシークエンサーに適合することが可能であり、また個々のＤＮＡにおけるＳＮＰの発見やタイピングに適するばかりでなく、プールされたＤＮＡを用いて多数のＳＮＰのアレル頻度を正確に検出することにも適している。ＱＵＩＳＣＡはまた、種々のフラグメント分析のための多目的コアプログラムとしても役立つものである。
１．遺伝子解析データ処理システム
ここで、本発明の遺伝子解析データ処理システムの構成例を示すブロック図を示す（図１）。遺伝子解析データとしては、複数色蛍光式電気泳動によって得られた遺伝子の解析データが挙げられる。
【００２０】
図１に示すように、本発明の遺伝子解析データ処理システムは、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、入力部１０４、情報通信送信／受信部１０５、出力部１０６、ハードディスクドライブ（ＨＤＤ）１０７及びＣＤ−ＲＯＭドライブ１０８等を備える。
【００２１】
ＣＰＵ１０１は、情報記憶手段（例えば磁気的及び／又は光学的記録媒体）に記憶されているプログラムに従って、解析データ処理システム全体を制御する。そして、入力部１０４などから受け取った情報を出力部１０６に供給する。また、ネットワーク回線１０９を通じて受け取った情報に基づいて解析処理を実行することもできる。入力部１０４は、キーボードやマウス等であり、解析処理を実行する上で必要な条件又はデータを入力するときに操作される。ＲＯＭ１０２は、本発明の解析処理システムの動作に必要な処理を命令するプログラム等を格納する。ＲＡＭ１０３は、解析処理システムにおける処理を実行する上で必要なデータを一時的に格納する。
【００２２】
送信／受信部１０５は、ＣＰＵ１０１の命令に基づいて、ネットワーク回線１０９等との間で情報通信（データの送受信処理）を実行するものであり、例えばモデム、ルーター等が例示される。出力部１０６は、入力手段１０４から入力された遺伝子の解析データ、その他各種条件等を、ＣＰＵ１０１からの命令に基づいて情報表示処理する（例えば表示画面、プリンタ）。ＣＤ−ＲＯＭドライブ１０８は、ＣＰＵ１０１の指示に基づいて、ＣＤ−ＲＯＭに格納されている解析処理システムを機能させるためのプログラム又はデータ等を読み出し、例えばＲＡＭ１０３に格納する。ＣＤ−ＲＯＭの代わりに記録媒体として書き換え可能なＣＤ−Ｒ、ＣＤ−ＲＷを用いることもできる。その場合には、ＣＤ−ＲＯＭドライブ１０８の代わりにＣＤ−Ｒ又はＣＤ−ＲＷ用ドライブを設ける。また、上記媒体の他に、ＤＶＤ、ＭＯとそれらの媒体を用い、それに対応するドライブを備える構成としてもよい。
【００２３】
ＱＵＩＳＣＡは、例えばＣ言語で書くことができ、そしてクロスプラットフォームに対応できるように設計されている。従って、このソフトウエアはＷｉｎｄｏｗｓ（登録商標）９５／９８／２０００、Ｌｉｎｕｘ、ＵＮＩＸ（登録商標）で作動させることが可能である。ＱＵＩＳＣＡｖｉｅｗもまた、例えばｐｅｒｌ（ｐｅｒｌ５又はその後のバージョン）及びＰｅｒｌ／Ｔｋモジュールをインストールさせておけば、これらのオペレーティングシステムのもとで作動することができる。
２．データ収集及びインプットファイルの作製ステップ
本発明の解析に使用されるデータは、電気泳動システムによって得られたデータからＱＵＩＳＣＡ用インプットファイルを抽出することにより得ることができる（図２、Ｓ０１，Ｓ０２）。ＱＵＩＳＣＡのインプットファイルは、遺伝子解析データのトレースファイルとして処理される（図２、Ｓ０３）。「トレースファイル」とは、ＡＳＣＩＩ形式の多数行多数列からなる蛍光強度表であり、キャピラリーアレイの各レーンに対して１つのトレースファイルを作製する。このトレースファイルの行は予め定められた波長範囲を、列はデータ収集のタイムポイントを表わす。
【００２４】
ＡＢＩＰＲＩＳＭ^ＴＭ３１００ＧｅｎｅｔｉｃＡｎａｌｙｚｅｒ又は３７００ＤＮＡＡｎａｌｙｚｅｒ（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，ＦｏｓｔｅｒＣｉｔｙ，ＣＡ）から得られたＰＬＡＣＥ−ＳＳＣＰの蛍光データファイルは、ＡＢＩＴｏｏｌＫｉｔを用いてトレースファイルに変換することが可能である。また、ＭｅｇａＢＡＣＥ^ＴＭ−１０００ＤＮＡＡｎａｌｙｓｉｓＳｙｓｔｅｍ（ＡｍｅｒｓｈａｍＰｈａｒｍａｃｉａＢｉｏｔｅｃｈ）由来のデータはＭｅｇａＢＡＣＥ^ＴＭＳｅｑｕｅｎｃｅＡｎａｌｙｓｉｓＳｏｆｔｗａｒｅを用いてトレースファイルに変換することができる。
３．パラメータ
本発明において、ユーザーがＱＵＩＳＣＡの処理能力をモジュレートすることができるパラメータは、高周波数カットオフの決定子（Ｄ）、バックグラウンドの推定におけるウインドウサイズ（Ｎ）、ブロック同定におけるブロックマージン及び検索範囲（それぞれｒ及びＲ）、並びにピーク検出における高さ及び幅の閾値（それぞれｈ及びｗ）である。これらのパラメータのデフォルト設定は、種々の条件下で種々の装置を用いて得られる多数のデータに対して最適化されている（Ｋｕｋｉｔａ，Ｙ．，ｅｔａｌ．，２００２．Ｅｌｅｃｔｒｏｐｈｏｒｅｓｉｓ２３：２２５９−２２６６．）。４．アルゴリズム概要
ＱＵＩＳＣＡを用いたデータ処理のフローチャートを図２に示す。ＱＵＩＳＣＡに実装されている機能は、ノイズフィルタリングを実行するステップ（Ｓ１１）、ベースラインサブトラクションを実行するステップ（Ｓ１２）、カラーセパレーションを実行するステップ（Ｓ１３）、ピークを検出するステップ（Ｓ１４又はＳ１５）、グローバルなデータポイントのアラインメントを実行するステップ（Ｓ１６）、及びカラーマトリックスの構築を実行するステップ（Ｓ１７）である。ＱＵＩＳＣＡの各ステップで処理されたデータは、インターフェースであるＱＵＩＳＣＡｖｉｅｗに送られ、可視化される。このインターフェースに実装されている他の機能は、ローカルピーク検出、ローカルピーク選択及びローカルアラインメントである。
【００２５】
（１）ノイズフィルタリング（Ｓ１１）
実際にキャピラリー電気泳動装置を稼動させると、検出器の熱ノイズ、検出光学系の振動など、操作環境に由来する他のノイズを含むいくつかのノイズが生じうる。本発明者は、数種類のノイズ除去手法を用いて実験を行い（Ｓａｖｉｔｓｋｙ，Ａ．ａｎｄＭ．Ｇｏｌａｙ，Ｊ．１９６４．Ａｎａｌ．Ｃｈｅｍ．３６：１６２７−１６３９．）、その結果、高周波ノイズを除去する高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：（ＦＦＴ））を用いると満足できるフィルタリングが得られることを見いだした（Ｐｒｅｓｓ，Ｗ．Ｈ．ｅｔａｌ．，１９８８．ＮｕｍｅｒｉｃａｌＲｅｃｉｐｉｅｓｉｎＣ．ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，Ｅｎｇｌａｎｄ．）。
【００２６】
このフィルタリングプロセスは、生データの各チャネルごとに以下のように進行する。まず、ＦＦＴによってデータを周波数ドメインに変換する。次に、得られた複雑なアレイにポイントごとに下記のフィルター関数を掛ける。そして最後に、周波数ドメインにあるフィルタリングされたデータを、逆ＦＦＴを適用して時間ドメインに逆変換する。フィルターは下記の式：
Ｆ（ｆ） ≧ ０の場合Ｆ（ｆ）＝１ − Ｄ^２ｆ^２，
Ｆ（ｆ）＜０の場合Ｆ（ｆ）＝０
（式中、ｆは周波数を、Ｄは高周波数カットオフの決定子を表わす）
によって表わされる二次関数である。パラメータＤは、総データポイント数及びノイズの量に基づいて選択される（後述）。
（２）ベースラインサブトラクション（Ｓ１２）
生データ中のバックグラウンドシグナルは、チャネル（波長範囲）間及びキャピラリー間で異なるのみならず、時間が経過するにつれてゆっくり変化する。そこで、電気泳動図の全トレースのバックグラウンドシグナルを差し引く。この操作をベースラインサブトラクションという。これは、ピークを正確に定量するために、さらにピークの特徴を視覚的に容易に同定できるようにするために必要なステップである。
【００２７】
ＱＵＩＳＣＡにおいては、ベースラインサブトラクションのために先ず、トレースをデータポイント数Ｎの連続的ウインドウに区切り、それらのウインドウ内における最小シグナル強度をサーチすることによりスタートする（Ｎはユーザーが選択できる）。ベースラインは隣接するウインドウでの最小シグナル強度間の線形補間として推定される。各データポイントのシグナル強度は、推定されたベースラインの対応する数値を差し引くことによって補正される。
（３）カラーセパレーション（Ｓ１３）
複数の色素を用いた多重蛍光キャピラリー電気泳動系に用いられる蛍光色素は個別の発光スペクトルを有する。一般的にこれらの発光スペクトルは、色素間でオーバーラップしている。カラーセパレーションとは、波長ごとに経時的にスキャンしたトレースデータを各蛍光色素によってラベルされたＤＮＡ量のトレースデータに換算することを意味する。
【００２８】
カラーセパレーションを実行するには、各データチャネルの標的色素から望ましくないシグナルを除去するためにスペクトルクロストークマトリックス（Ｍ）を用いる。この変換はｆ＝Ｍｄという式によって表わされる。式中、ｆは各波長範囲で測定された蛍光強度のベクトルを表わし（「蛍光スペースの」ベクトル）、ｄは「色素スペースの」ベクトルである。本発明においては、逆向きの操作を実施してｆをｄに変換する必要がある。そこで、Ｍを逆数にし（Ｐｒｅｓｓ，Ｗ．Ｈ．ｅｔａｌ．，１９８８．ＮｕｍｅｒｉｃａｌＲｅｃｉｐｉｅｓｉｎＣ．ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，Ｅｎｇｌａｎｄ．）、ｄ＝Ｍ^−１ｆという式を用いる。
【００２９】
デフォルト（所期設定）では、ＱＵＩＳＣＡは４色の色素を扱うように設定されている。４種類の色標準サンプルを別々に電気泳動し、あらかじめ定めた４つの波長範囲で蛍光強度を測定し、標準化することによって４ｘ４スペクトルのクロストークマトリックス（カラーマトリックス）を構築する（Ｓ１７）。但し、本発明においては処理する色素の数は４色に限定されるものではなく、例えば１色〜１０色の色素を扱うことが可能である。ＡＢＩ−３１００／３７００由来のトレースデータはＡＢＩＤａｔａＣｏｌｌｅｃｔｉｏｎＳｏｆｔｗａｒｅ内ですでにカラーセパレーションされており、そのため単位行列が用いられる。
【００３０】
（４）ピーク検出（Ｓ１４，Ｓ１５）
波形が凸状の領域、すなわちｐ’（ｔ）≧０かつｐ’（ｔ＋１）＜０の範囲を求めてトレースをスキャンすることによってピークを検索する。式中、ｐ’（ｔ）及びｐ’（ｔ＋１）は、それぞれタイムポイントｔ、ｔ＋１におけるトレースデータの一次導関数（ｆｉｒｓｔｄｅｒｉｖａｔｉｖｅ）である。次に、ピークの高さ（ｈ）及び幅（ｗ）の数値が閾値未満の場合は、そのピークは除かれる。なお、ピーク幅は、ｐ’（ｔ）≦０及びｐ’（ｔ＋１）＞０を満たす最も近い２つのタイムポイント間の距離によって規定される。
【００３１】
（５）アラインメント
このステップの目的は、▲１▼移動度におけるキャピラリーごと又は泳動ごとの変動を補正すること、並びに▲２▼ピークの同定及び定量を容易にすることである。このステップでは、サンプル標識用に用いた色素とは異なる色素で標識した内部標準マーカーのピークの高さ及び位置を評価する。そして移動度の変動が、全体的に、又はユーザーによって選択された特定の範囲内で局所的に、調整される。上記全体的に調整することをグローバルアラインメントといい（Ｓ１６）、局所的に調整することをローカルアラインメントという（Ｓ２０）。
【００３２】
▲１▼ グローバルアラインメント（Ｓ１６）
グローバルアラインメントは３つのプロセスからなる。すなわち、（ｉ）標準ピークを検出するステップ、（ｉｉ）各サンプル泳動により得られたピークを、予め選択したテンプレート泳動により得られたピークの対応部分に割当てること（帰属決定という）、及び（ｉｉｉ）サンプル泳動におけるサンプルピークのタイムポイントを較正することである。
【００３３】
ピーク検出のアルゴリズムは、Ｓ１４及びＳ１５のステップと同様である。
【００３４】
ピークの割当て（帰属決定）は、アラインメントプロセスの最も複雑な部分であり、各マーカーピークを同定するのに困難な作業となる。複数の同じサンプルを同一の条件で泳動しても、厳密には各泳動結果に種々の誤差、例えばピークの高さの変動、ノイズ、ピーク分解能の変動、ピーク間隔の変動等が生じる（例えば図３Ａ〜Ｃ）。各泳動間のデータを比較すると、個々のピークの高さ及び位置は必ずしも一貫しているとは限らないが、それらの相対値（すなわちピークパターン）は通常類似している。そこで、ＱＵＩＳＣＡにおいては、各サンプル泳動のデータを、２つの隣接するピークによって範囲が定められる領域に分割する。（図３Ａ〜Ｃの枠囲み部分）。この１つの領域をブロックという。
【００３５】
次に、テンプレート泳動におけるｎ番目のブロックの最も可能性の高い（最も妥当と思われる）開始位置（ｔ_ｎ）を、最初のブロック（ｎ＝１）から逐次的に（ａｄａｐｔｉｖｅｌｙ）決定する。これは下記の式によって与えられるＱ（ｔ）（タイムポイントｔにおけるブロック領域内のシグナル強度の差の絶対値の和）を評価することによって行われる：
【００３６】
【数１】

【００３７】
式中、Ｔ（ｔ）及びＳ（ｓ）は、それぞれ、テンプレート泳動及びサンプル泳動のタイムポイントｔ、ｓにおけるトレースの蛍光強度をそれぞれ表わす。Ｂ_ｎはｎ番目のブロックの幅を、Ｓ_ｎは各サンプルの泳動におけるｎ番目のブロックの開始位置を、ｒは検索を最適化するのに必要なブロックマージンを（図３）、そしてＲは検索範囲を表わす。
【００３８】
次に、下記の式を満たすｔの値としてｔ_ｎを得る：
Ｑ（ｔ_ｎ）＝ｍｉｎＱ（ｔ）
式中、ｍｉｎは最小値を表す。
【００３９】
類似するパターンの相対的位置関係を特定した後は、適切なブロック内のピーク位置の類似性によって、サンプル泳動のピークに対応するテンプレート泳動のピークが同定される。
【００４０】
最後に、サンプル泳動における全データポイントが、２つのアルゴリズム、すなわち（ｉ）キュービックスプライン（ｃｕｂｉｃｓｐｌｉｎｅ）（Ｐｒｅｓｓ，Ｗ．Ｈ．，ｅｔａｌ．，１９８８．ＮｕｍｅｒｉｃａｌＲｅｃｉｐｉｅｓｉｎＣ．ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，Ｅｎｇｌａｎｄ．）及び（ｉｉ）ローカルサザン（Ｓｏｕｔｈｅｒｎ，Ｅ．Ｍ．１９７９．Ａｎａｌ．Ｂｉｏｃｈｅｍ．１００：３１９−３２３．）補間法のどちらかによって較正され、ピークの同定／定量を行なう（Ｓ２１）。
【００４１】
▲２▼ ローカルアラインメント
ローカルアラインメントは、ＱＵＩＳＣＡｖｉｅｗによって実施される。ＱＵＩＳＣＡｖｉｅｗのプログラムでは、まず、ＱＵＩＳＣＡにより処理されたカラーセパレーション（Ｓ１３）後のデータを組み込み、ローカルピークの検出を行なう（Ｓ１８）。その後、ローカルピークの選択を行ない（Ｓ１９）、ローカルアラインメント処理を行なう（Ｓ２０）。ローカルアラインメント（Ｓ２０）は、（ｉ）目的の範囲の定義、（ｉｉ）ピーク検出のためのパラメータの設定、及び（ｉｉｉ）標準ピークの選択を含む操作からなる。
【００４２】
次に、ＱＵＩＳＣＡについて記載したグローバルアラインメントと同じアルゴリズムによってサンプルピークの移動度が較正される。
（６）ピークの同定／定量（Ｓ２１）
ユーザーによって選択されたピークは、その高さによって定量する（Ｓ２１）。選択されたピークの高さ及び位置に関する情報は、ＱＵＩＳＣＡｖｉｅｗから外部ファイルへ表計算形式でアウトプットされる（Ｓ２２）。
【００４３】
ユーザーはＱＵＩＳＣＡを操作するためのいくつかのパラメータをコマンドラインオプションとして設定することができる（ユーザーインターフェースという）。本発明においては、このプログラム（ＱＵＩＳＣＡ）に示される殆どのデータに対してうまく機能するパラメータの標準（デフォルト）セットを使用することができる。標準（デフォルト）セットとは、ＳＳＣＰに最適化された各々の処理のパラメータセットを意味し、上記Ｄ、Ｎ、ｒ、Ｒ、ｈ及びｗの６種類により構成される。
５．コンピュータプログラム
本発明は、コンピュータを、遺伝子の解析データの処理方法として機能させるためのプログラムをも提供する。本発明のコンピュータプログラムＱＵＩＳＣＡは、以下の手段：
（ａ）遺伝子解析データのノイズをフィルタリングする手段、
（ｂ）ベースラインサブトラクションを実行する手段、
（ｃ）カラーセパレーションを実行する手段、
（ｄ）解析データ曲線のピークを検出する手段、及び
（ｅ）グローバルアラインメントを実行する手段
を含むものである。
【００４４】
さらに、本発明においては、ＱＵＩＳＣＡＶｉｅｗプログラムも含まれる。ＱＵＩＳＣＡＶｉｅｗプログラムは、ＱＵＩＳＣＡにより処理されたカラーセパレーション後のデータを処理するプログラムであり、
（ｆ）ローカルピークを検出する手段
（ｇ）ローカルピークを選択する手段、及び
（ｈ）ローカルアラインメントを実行する手段
を含むものである。
【００４５】
本発明のＱＵＩＳＣＡプログラムは、一般には、本発明のシステムにおいて使用するコンピュータ上で、又はネットワーク上で機能しうるプログラム言語、例えばＰｅｒｌ／Ｔｋ、Ｃ＋＋、Ｊａｖａ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ等で作動する。ＱＵＩＳＣＡプログラムは、蛍光式キャピラリーアレイ電気泳動装置で収集した多重スペクトルトレースデータを受け入れるように設計されている。ＱＵＩＳＣＡプログラムは１組のプロセシングアルゴリズムによってデータを処理し、次にこれらのデータを保存させる。また、前記パラメータをさらに最適化して、任意の特定装置に由来するデータに対する処理能力を増大させることが可能である。処理されたデータの各セットはグラフィカルユーザーインターフェースＱＵＩＳＣＡｖｉｅｗを用いて検査される。
【００４６】
ＱＵＩＳＣＡｖｉｅｗプログラムは、処理されたデータの全体像を提供し、またユーザーがアレルコーリング（ａｌｌｅｌｅｃａｌｌｉｎｇ）のためにローカルアラインメントを実施するのを可能とする、ＱＵＩＳＣＡプログラムのグラフィカルユーザーインターフェースである。ＱＵＩＳＣＡｖｉｅｗプログラムは、例えばｐｅｒｌ／Ｔｋを備えたコンピュータで作動する。ＱＵＩＳＣＡＶｉｅｗプログラムは、通常は上記ＱＵＩＳＣＡとともに機能させる。さらに、ＱＵＩＳＣＡｖｉｅｗプログラムには、ローカルアラインメント及びピークコーリングを含む機能も実装されている。
６．コンピュータ用記録媒体
本発明のＱＵＩＳＣＡ及びＱＵＩＳＣＡｖｉｅｗプログラムは、コンピュータ読み取り可能な記録媒体又はコンピュータに接続しうる記憶手段に保存することができる。本発明のプログラムを含有するコンピュータ用記録媒体又は記憶手段も本発明に含まれる。記録媒体又は記憶手段としては、磁気的媒体（フレキシブルディスク、ハードディスクなど）、光学的媒体（ＣＤ、ＤＶＤなど）、磁気光学的媒体（ＭＯ、ＭＤ）などが挙げられる。
【００４７】
【実施例】
以下、実施例により本発明をさらに具体的に説明する。但し、本発明はこれら実施例に限定されるものではない。
【００４８】
〔実施例１〕ＰＣＲ−ＳＳＣＰデータ処理
本実施例では、ＭｅｇａＢＡＣＥ、ＡＢＩ３１００及びＡＢＩ３７００により得られたデータの処理を行なった。
（１）ＰＬＡＣＥ−ＳＳＣＰ
まず、２人の日本人及び２つのプール化ＤＮＡ（日本人プール及びＣＥＰＨプール）から、フォワードプライマー（５’−ａｔｔＣＡＴＴＧＣＣＣＴＡＴＴＴＣＡＡ−３’：配列番号１）及びリバースプライマー（５’−ｇｔｔＡＧＣＡＡＡＧＧＡＴＴＧＡＡＴＧ−３’：配列番号２）を用いて、ＳＮＰ（ｒｓ４６０７５２）を含む配列タグ部位（ＳＴＳ）を増幅し、ＰＬＡＣＥ−ＳＳＣＰ分析を実施した。ＡＢＩＰＲＩＳＭ^ＴＭ３１００ＧｅｎｅｔｉｃＡｎａｌｙｚｅｒを用いたキャピラリー電気泳動を２ｘＴＭＥ（６０ｍＭＴｒｉｓ，７０ｍＭＭＥＳ及び２ｍＭＮａ_２ＥＤＴＡ，ｐＨ６．８）で緩衝化した１２％ｌｉｎｅａｒポリジメチルアクリルアミド中で３０℃で実施した（Ｋｕｋｉｔａ，Ｙ．ｅｔａｌ．，２００２．Ｅｌｅｃｔｒｏｐｈｏｒｅｓｉｓ２３：２２５９−２２６６．）。
【００４９】
ＰＬＡＣＥ−ＳＳＣＰによる定量的アレル検出は混合実験によって試験した（Ｓａｓａｋｉ，Ｔ．ｅｔａｌ．，２００１．Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．６８：２１４−２１８．）。本発明者は、ＱＵＩＳＣＡによって処理されたデータと、ＧｅｎｅＳｃａｎ^ＴＭＡｎａｌｙｓｉｓＳｏｆｔｗａｒｅ（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）によって処理されたデータとを、Ｓａｓａｋｉら（Ｓａｓａｋｉ，Ｔ．ｅｔａｌ．，２００１．Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．６８：２１４−２１８．）に記述されているものと同一のデータ及び方法を用いて比較した。すなわち、１つのＳＮＰについてアレルがホモ接合性である２人のヒトのゲノムＤＮＡを種々の比（０：１０から１０：０）で混合し、ＰＬＡＣＥ−ＳＳＣＰによって分析した。ピークの高さを定量し、そして比が１：１の場合のピークの高さを用いて標準化し、ＰＣＲバイアスを補正した。
（２）ノイズフィルタリング
フィルタリングにおいては、ユーザーは有用なシグナル情報が過剰なフィルタリングによって失われないように周波数カットオフのためのパラメータを選択することができる。本発明者は、パラメータＤを１／ｍから２０／ｍに設定することによってノイズフィルタリングにおけるレベルの効果を試験した。ｍは、当該泳動の全タイムポイントより大きい、２の最小整数べき乗を意味する（Ｐｒｅｓｓ，Ｗ．Ｈ．，ｅｔａｌ．，１９８８．ＮｕｍｅｒｉｃａｌＲｅｃｉｐｉｅｓｉｎＣ．ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，Ｅｎｇｌａｎｄ．）。ｍの典型的な値は、どの機器を使う場合も１６３８４であった。本発明においては、ピークの不正確な分割、又はベースラインノイズの過剰推定がない正確なピーク定量に最も適切な脱ノイズ化データは、経験的にはＤ＝９／ｍと設定した時に得られた。図４Ｇ、４Ｈ及び４Ｉは、フィルタリングされたシグナルと元のシグナルとの差が、ピーク又はピーク近辺において均一でないことを示している。特に、ＭｅｇａＢＡＣＥ由来のデータにおいて不均一が顕著であった。これは、異分散性のノイズ（Ｍｉｔｔｅｒｍａｙｒ，Ｃ．Ｒ．ｅｔａｌ．，１９９７．Ａｎａｌ．Ｃｏｍｍｕｎ．３４：７３−７５．）が除去されたこと、あるいはシグナル構成要素が若干損傷されたことを示している。但し、ピークに関連するこれらの差異はピークの高さの２〜３％を超えるものではなく、ピークの定量に影響はなかった。
（３）ベースラインサブトラクション
ＦＴＴによる脱ノイズ化後も、ベースラインの低周波数変異型は残る。今回用いたベースライン補正法では、ウインドウサイズＮが最適化の可能な唯一のパラメータである。Ｎは、ピークの高さを過度に小さくするのを避けるため予測されるいずれのピークの幅よりも大きく、しかしベースライン変動（ｄｒｉｆｔ）の特徴を補足するのに十分なだけ小さく設定される必要がある。
【００５０】
本発明者は、Ｎ＝５００と設定した場合に、図４Ｊ、４Ｋ及び４Ｌに示すように、試験した全ての機器に由来する広範なデータセットに対してこの方法がうまく機能することを見いだした。
（４）アラインメント（泳動間つまりキャピラリー間のピーク位置の較正）
内部マーカーのピークを正確に割当てる（帰属を決める）ことは、各泳動の移動度較正にとって極めて重大である。ピーク帰属法を評価するため、本発明者はＡＢＩ３１００を用いてＧＳ５００ＴＡＭＲＡサイズ標準品（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）を１６８回泳動させて得た４７８３個のピークを含むピークセットを作製した。帰属を決めるためのパラメータは、ｒ＝１５０及びＲ＝１００を選択したときに満足できる結果が達成された。このように設定した場合、本発明者はピークの９８．１％（４６９０個）がグローバルアラインメントモードで正しく同定されることを見いだした。ＱＵＩＳＣＡｖｉｅｗを用いたローカルアラインメントモードでは、標準ピークを帰属決定し、そしてそのアラインメントは常に満足できるものであった（図５）。図５において、ＡはＡＢＩ３１００を用いたときの結果であり、Ｂは本発明のプログラムを用いて処理したときの結果である。緑色（点線）及び青色（実線）のピークは、２種類の蛍光染料（Ｒ１１０及びＲ６Ｇ）でそれぞれ示差的に標識した、ＰＣＲ産物の２本の相補鎖に由来するものである。標準ピークは黒色である（図中、矢印（▲）が付されていないピーク）。矢印（▲）はアレルのピーク位置を示す。本発明のプログラムを使用すると、ピークの位置のずれを補正することができる。
（５）定量
表１に示すように、計算されたアレル組成は全範囲にわたって混合比と極めてよく一致した。ＱＵＩＳＣＡ及びＧｅｎｅＳｃａｎ^ＴＭによって処理された混合データの測定係数（ｒ^２）は、それぞれ０．９９９８０３及び０．９９９７２９であった。このようにＱＵＩＳＣＡによる推定値は、従来の推定値よりも改善することができた。
【００５１】
【表１】

【００５２】
^ａこれらのデータはＳａｓａｋｉら（Ｓａｓａｋｉ，Ｔ．ｅｔａｌ．，２００１．Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．６８：２１４−２１８．）から取ったものである。
^ｂ恣意的に選択されたユニットにおけるピークの高さ。
^ｃ生データのピークの高さから推定されるアレル１の割合（％）。
^ｄ補正されたデータのピークの高さから推定されるアレル１の割合（％）。
【００５３】
補正方法の詳細はＳａｓａｋｉら（Ｓａｓａｋｉ，Ｔ．ｅｔａｌ．，２００１．Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．６８：２１４−２１８．）に記述されている。
【００５４】
【発明の効果】
本発明により、遺伝子の解析データを処理する方法及びそのプログラムが提供される。本発明のプログラムは、ＳＳＣＰデータをバッチごとに処理することが可能であり、標準ピークは高い精度で帰属決定され、そしてアレルは正確に定量される。
【００５５】
【配列表】

【００５６】
【配列表フリーテキスト】
配列番号１：合成ＤＮＡ
配列番号２：合成ＤＮＡ
【図面の簡単な説明】
【図１】本発明の解析システムを示すブロック図である。
【図２】ＱＵＩＳＣＡ／ＱＵＩＳＣＡｖｉｅｗのフローチャートの図である。
【図３】サンプル泳動のデータについて、２つの隣接するピークのブロック分割を示す図である。
【図４】ノイズのフィルタリング及びベースラインの調整を示す図である。パネルＡからＣは３つの装置、すなわちＭｅｇａＢＡＣＥ（左）、ＡＢＩ３１００（中央）及びＡＢＩ３７００（右）に由来する元のシグナルを示す。パネルＤからＦはフィルタリング後の再構築されたシグナルを示す。パネルＧからＩはフィルタリングされたシグナルと元のシグナルとの差のベクトルを示す。パネルＪからＬはフィルタリング及びベースライン除去後の処理されたシグナルを示す。パネルＡからＦ中の横棒の領域について、拡大したトレースの領域を挿入パネル中に示す。
【図５】アラインメントの前（パネルＡ）及び後（パネルＢ）のＰＬＡＣＥ−ＳＳＣＰデータのクロマトグラムである。
【符号の説明】
１０１：ＣＰＵ、１０２：ＲＯＭ、１０３：ＲＡＭ、１０４：入力部、１０５：送信／受信部、
１０６：出力部、１０７：ＨＤＤ、１０８：ＣＤ−ＲＯＭドライブ、１０９：ネットワーク回線

Claims

遺伝子解析データの処理方法であって、以下のステップ：
（ａ）遺伝子解析データのノイズをフィルタリングするステップ、
（ｂ）ベースラインサブトラクションを実行するステップ、
（ｃ）カラーセパレーションを実行するステップ、
（ｄ）解析データ曲線のピークを検出するステップ、及び
（ｅ）グローバルアラインメントを実行するステップ
を含む方法。
請求項１記載のカラーセパレーション実行ステップ後のデータの処理方法であって、
（ｆ）ローカルピークを検出するステップ
（ｇ）ローカルピークを選択するステップ、及び
（ｈ）ローカルアラインメントを実行するステップ
を含む方法。
さらに、（ｉ）ピーク定量ステップを含む請求項１又は２記載の方法。
遺伝子解析データの処理システムであって、以下の手段：
（ａ）遺伝子解析データのノイズをフィルタリングする手段、
（ｂ）ベースラインサブトラクションを実行する手段、
（ｃ）カラーセパレーションを実行する手段、
（ｄ）解析データ曲線のピークを検出する手段、
（ｅ）グローバルアラインメントを実行する手段
を含むシステム。
請求項４記載のカラーセパレーション実行手段後のデータの処理システムであって、
（ｆ）ローカルピークを検出する手段
（ｇ）ローカルピークを選択する手段、及び
（ｈ）ローカルアラインメントを実行する手段
を含むシステム。
さらに、（ｉ）ピーク定量手段を含む請求項３又は４記載のシステム。
コンピュータを、遺伝子解析データの処理システムとして機能させるためのプログラムであって、以下の手段：
（ａ）遺伝子解析データのノイズをフィルタリングする手段、
（ｂ）ベースラインサブトラクションを実行する手段、
（ｃ）カラーセパレーションを実行する手段、
（ｄ）解析データ曲線のピークを検出する手段、
（ｅ）グローバルアラインメントを実行する手段
を含むプログラム。
コンピュータを、請求項７記載のカラーセパレーション実行手段後のデータの処理システムとして機能させるためのプログラムであって、以下の手段：
（ｆ）ローカルピークを検出する手段
（ｇ）ローカルピークを選択する手段、及び
（ｈ）ローカルアラインメントを実行する手段
を含むプログラム。
さらに、（ｉ）ピーク定量手段を含む請求項７又は８記載のプログラム。
請求項７、８又は９記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。