JP2002508546A - 生体分子配列を解析するためのシステムおよび方法 - Google Patents
生体分子配列を解析するためのシステムおよび方法Info
- Publication number
- JP2002508546A JP2002508546A JP2000538305A JP2000538305A JP2002508546A JP 2002508546 A JP2002508546 A JP 2002508546A JP 2000538305 A JP2000538305 A JP 2000538305A JP 2000538305 A JP2000538305 A JP 2000538305A JP 2002508546 A JP2002508546 A JP 2002508546A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- sequences
- pool
- polymer
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
(57)【要約】
ポリマー配列がプール中にアッセンブルされる。ポリマー配列を最初の数のプールに配置する。夫々のプール中のポリマー配列がプールのポリマー配列を代表する一つ以上の共通配列にアッセンブルされる。プールの共通配列が比較され、共通配列の関係(存在する場合)を決定する。該プールが共通配列の関係に基いて修正される。ポリマー配列は修正プール中で再アッセンブルされて修正プールの代表の夫々のプールについて一つ以上の修正共通配列を生じる。本発明の別の局面において、配列類似性及び非類似性がポリマー配列のセットで分析される。対間整列データがポリマー配列の対について生じられる。対間整列データは境界によってポリマー配列の対間の類似性領域を特定する。特定のポリマー配列中の付加的な境界は、ポリマー配列の一つの対に関する少なくとも一つの対間整列からの少なくとも一つの境界を、その特定のポリマー配列の一つを含むポリマー配列の別の対に関する少なくとも一つのその他の対間整列に適用することにより決定される。類似性の付加的な領域が境界に基いて生成される。
Description
【0001】 (技術分野) 本件出願は1998年3月26日に出願された米国仮特許出願第60/079,469号、発明
の名称“関連生物分子配列情報を記憶し、比較し、表示するためのデータベース
及びシステム”(これは全ての目的のために参考として本明細書に含まれる)の
優先権を主張する。 本発明は一般にバイオインフォーマティックス、特に生物分子配列を分析する
ためのシステム及び方法に関する。
の名称“関連生物分子配列情報を記憶し、比較し、表示するためのデータベース
及びシステム”(これは全ての目的のために参考として本明細書に含まれる)の
優先権を主張する。 本発明は一般にバイオインフォーマティックス、特に生物分子配列を分析する
ためのシステム及び方法に関する。
【0002】 (背景技術) インフォーマティックスは情報の管理についてのコンピュータ及び統計技術の
研究及び適用である。ゲノムプロジェクトにおいて、バイオインフォーマティッ
クスはデータベースを迅速に検索し、核酸配列情報を分析し、またDNA配列デー タからタンパク質配列及び構造を予想する方法の開発を含む。次第に、分子生物
学は実験ベンチからコンピュータデスクトップにシフトしている。最新の定量分
析、データベース比較、及び計算アルゴリズムが配列と表現型の関係を研究する
のに必要とされる。 図1に示されるように、遺伝子30はDNA配列のセットから構成される遺伝子情 報の基本単位である。遺伝子30はRNA一次転写産物に転写される。この一次転写 産物は典型的にはスプライシングされて成熟mRNAを生じ、次いでこれがポリペプ
チド(タンパク質)に翻訳され、これが細胞中で或る機能を奏する。エキソン32
は遺伝子30のコーディング領域であり、一方、イントロン34は遺伝子30の調節領
域又は非コーディング領域である。遺伝子30の最も完全な代表は遺伝子30のコー
ディング領域、調節領域及び非コーディング領域を完全にカバーするゲノムDNA 配列である。遺伝子30がmRNAに転写された後に、遺伝子30がタンパク質に翻訳さ
れる前に、遺伝子30がイントロンを除去し、残っているエキソンと一緒にスプラ
イシングすることにより修正される。幾つかの遺伝子30について、転写産物が夫
々のイントロン又はエキソンの任意のとり込み又は排除によりスプライシングさ
れる幾つかの別法がある。生じる種々の配置がスプライス変異体と称される。
研究及び適用である。ゲノムプロジェクトにおいて、バイオインフォーマティッ
クスはデータベースを迅速に検索し、核酸配列情報を分析し、またDNA配列デー タからタンパク質配列及び構造を予想する方法の開発を含む。次第に、分子生物
学は実験ベンチからコンピュータデスクトップにシフトしている。最新の定量分
析、データベース比較、及び計算アルゴリズムが配列と表現型の関係を研究する
のに必要とされる。 図1に示されるように、遺伝子30はDNA配列のセットから構成される遺伝子情 報の基本単位である。遺伝子30はRNA一次転写産物に転写される。この一次転写 産物は典型的にはスプライシングされて成熟mRNAを生じ、次いでこれがポリペプ
チド(タンパク質)に翻訳され、これが細胞中で或る機能を奏する。エキソン32
は遺伝子30のコーディング領域であり、一方、イントロン34は遺伝子30の調節領
域又は非コーディング領域である。遺伝子30の最も完全な代表は遺伝子30のコー
ディング領域、調節領域及び非コーディング領域を完全にカバーするゲノムDNA 配列である。遺伝子30がmRNAに転写された後に、遺伝子30がタンパク質に翻訳さ
れる前に、遺伝子30がイントロンを除去し、残っているエキソンと一緒にスプラ
イシングすることにより修正される。幾つかの遺伝子30について、転写産物が夫
々のイントロン又はエキソンの任意のとり込み又は排除によりスプライシングさ
れる幾つかの別法がある。生じる種々の配置がスプライス変異体と称される。
【0003】 図1中で、エキソンが1、2、3及び4と標識されている。例えば、同じ遺伝
子30は夫々健康な組織及び疾病組織、42及び44について異なるmRNA配列を生じ得
る。疾病組織42はエキソン1、2及び4からの配列を含み、一方、健康な組織44
はエキソン1、2、3及び4からの配列を含む。 更に、図2はmRNA(mRNA1及びmRNA2)並びにゲノム配列についての発現配列
タグ(EST)46の関係を示す。スプライス変異体を形成するために、遺伝子はmRNA の多重コピーに転写されてもよい。夫々のmRNAが異なるcDNA配列に転写される。 EST46はcDNA配列のサンプリングである。EST46は、クローニング及び配列決定
戦略に応じて、遺伝子の一種以上のmRNAの異なる部分をカバーし得る部分転写産
物配列である。 研究者らは遺伝子配列を同定しようと試みて多量のデータを生じる。ゲノム研
究において、DNA分子、mRNA分子、及びcDNA分子がフラグメントに分解され、フ ラグメントのヌクレオチド配列が同定され、フラグメントに関する配列データが
データベースに入力され、コンピュータプログラムが配列フラグメントを電子的
に再アッセンブルしようと試みる。このデータに関するアッセンブリプロセスの
二つの型がある。ゲノムデータに関して、一つ以上の個体からのDNAが分解され 、DNAの個々の部分又は配列が同定され、次いでコンピュータに基く方法を使用 して配列が再アッセンブルされる。ゲノム配列のあらゆる所定のフラグメントが
ほぼ同じレベルで表示されるべきであり、理論的にはこれらのフラグメントを初
期のゲノムDNAに相当する線状配列に再アッセンブルする一つの正確な方法があ る。
子30は夫々健康な組織及び疾病組織、42及び44について異なるmRNA配列を生じ得
る。疾病組織42はエキソン1、2及び4からの配列を含み、一方、健康な組織44
はエキソン1、2、3及び4からの配列を含む。 更に、図2はmRNA(mRNA1及びmRNA2)並びにゲノム配列についての発現配列
タグ(EST)46の関係を示す。スプライス変異体を形成するために、遺伝子はmRNA の多重コピーに転写されてもよい。夫々のmRNAが異なるcDNA配列に転写される。 EST46はcDNA配列のサンプリングである。EST46は、クローニング及び配列決定
戦略に応じて、遺伝子の一種以上のmRNAの異なる部分をカバーし得る部分転写産
物配列である。 研究者らは遺伝子配列を同定しようと試みて多量のデータを生じる。ゲノム研
究において、DNA分子、mRNA分子、及びcDNA分子がフラグメントに分解され、フ ラグメントのヌクレオチド配列が同定され、フラグメントに関する配列データが
データベースに入力され、コンピュータプログラムが配列フラグメントを電子的
に再アッセンブルしようと試みる。このデータに関するアッセンブリプロセスの
二つの型がある。ゲノムデータに関して、一つ以上の個体からのDNAが分解され 、DNAの個々の部分又は配列が同定され、次いでコンピュータに基く方法を使用 して配列が再アッセンブルされる。ゲノム配列のあらゆる所定のフラグメントが
ほぼ同じレベルで表示されるべきであり、理論的にはこれらのフラグメントを初
期のゲノムDNAに相当する線状配列に再アッセンブルする一つの正確な方法があ る。
【0004】 対照的に、発現配列タグ(EST)に基くアッセンブリプロセスについて、cDNAの 実験バッチがフラグメントに分解され、フラグメントのヌクレオチド配列が同定
される。cDNAを生じるのに使用されるインプットmRNAは存在量で広く変化するの
で、配列の所定のフラグメントは再アッセンブルされるセット中で1回から数千
回までのいずれかで存在し得る。更に、スプライス変異のために、これらのフラ
グメントは理論的には夫々のゲノムについて単一の線状配列に再アッセンブルし
得ない。
される。cDNAを生じるのに使用されるインプットmRNAは存在量で広く変化するの
で、配列の所定のフラグメントは再アッセンブルされるセット中で1回から数千
回までのいずれかで存在し得る。更に、スプライス変異のために、これらのフラ
グメントは理論的には夫々のゲノムについて単一の線状配列に再アッセンブルし
得ない。
【0005】 図3はESTデータに関する典型的なコンピュータに基くアッセンブリプロセス のフローチャートである。工程52において、クラスターがESTデータから生じら れる。クラスタリングプロセスはESTを構成する配列の対の類似性(対間(pairwi
se)類似性)に基いてESTをグルーピングする。例えば、BLASTの如きコンピュー タプログラムが二つのESTからESTデータを受け取り、ESTを構成する塩基の類似 性に基いてスコアーを生じる。スコアーが所定の閾値を越える場合、ESTが同じ クラスターにグルーピングされる。 工程54において、夫々のクラスター内で、ESTが配列データにアッセンブルさ れる。典型的には、単一クラスターが多くの連続配列を生じるであろう。理想的
には、夫々のクラスターについて、その目標は全クラスターに相当する共通配列
を生じることである。 この従来技術方法は二つの問題を有する。第一に、クラスタリング技術はEST をオーバークラスターする傾向がある。換言すれば、その方法は夫々のクラスタ
ー中にあまりにも多いESTを含むあまりにも少ないクラスターを生じる。第二に 、アッセンブリプロセスがあまりにも多い共通配列を生じる。これらの問題を解
決するために、一つの従来技術方法はESTをクラスターし、クラスターに相当す る単一共通配列を選択する。多重共通配列を有するこれらのクラスターについて
、別の従来技術方法は夫々の共通配列を異なる遺伝子として指定する。
se)類似性)に基いてESTをグルーピングする。例えば、BLASTの如きコンピュー タプログラムが二つのESTからESTデータを受け取り、ESTを構成する塩基の類似 性に基いてスコアーを生じる。スコアーが所定の閾値を越える場合、ESTが同じ クラスターにグルーピングされる。 工程54において、夫々のクラスター内で、ESTが配列データにアッセンブルさ れる。典型的には、単一クラスターが多くの連続配列を生じるであろう。理想的
には、夫々のクラスターについて、その目標は全クラスターに相当する共通配列
を生じることである。 この従来技術方法は二つの問題を有する。第一に、クラスタリング技術はEST をオーバークラスターする傾向がある。換言すれば、その方法は夫々のクラスタ
ー中にあまりにも多いESTを含むあまりにも少ないクラスターを生じる。第二に 、アッセンブリプロセスがあまりにも多い共通配列を生じる。これらの問題を解
決するために、一つの従来技術方法はESTをクラスターし、クラスターに相当す る単一共通配列を選択する。多重共通配列を有するこれらのクラスターについて
、別の従来技術方法は夫々の共通配列を異なる遺伝子として指定する。
【0006】 しかしながら、先に説明したように、同じ遺伝子が多重cDNA配列を生じ得る。
それ故、その従来技術方法はスプライス変異体を異なる遺伝子として表示するこ
とがある。個体は長い配列にわたる同じ遺伝子の発現において変化し得るので、
長い配列にわたって相違を寛容するクラスタリング方法に対する要望がある。逆
に、異なる遺伝子からのcDNA配列は全く類似していてもよい。それ故、クラスタ
リング方法は異なる遺伝子からの共通配列を同じ遺伝子のスプライス変異体から
区別する必要がある。
それ故、その従来技術方法はスプライス変異体を異なる遺伝子として表示するこ
とがある。個体は長い配列にわたる同じ遺伝子の発現において変化し得るので、
長い配列にわたって相違を寛容するクラスタリング方法に対する要望がある。逆
に、異なる遺伝子からのcDNA配列は全く類似していてもよい。それ故、クラスタ
リング方法は異なる遺伝子からの共通配列を同じ遺伝子のスプライス変異体から
区別する必要がある。
【0007】 別の問題は既存のクラスタリング技術が擬陽性、ひいてはオーバークラスター
を生じる傾向があることである。擬陽性は所定の閾値を越える類似性スコアーで
あるが、実際には、ESTが遺伝子の異なる部分又は異なる遺伝子からのものであ る。擬陽性を回避するために、厳密な閾値が類似性スコアーについて定められる
。逆に、あまりにも高い閾値はクラスターをあまりにも多く分解し、それ故、ア
ンダークラスターする傾向がある。それ故、アンダークラスタリング問題及びオ
ーバークラスタリング問題を回避する方法が必要とされる。 加えて、新しいESTデータが生じられ、既存のデータベースに加えられ続ける 。それ故、その方法は新しいESTデータの増分追加により既存のESTを適当にクラ
スタリングし、アッセンブルすることができる必要がある。 データがクラスターされた後に、或るクラスターが多重共通配列を生じ得る。
同じ遺伝子のスプライス変異体である共通配列を同定し、表示する方法が必要と
される。
を生じる傾向があることである。擬陽性は所定の閾値を越える類似性スコアーで
あるが、実際には、ESTが遺伝子の異なる部分又は異なる遺伝子からのものであ る。擬陽性を回避するために、厳密な閾値が類似性スコアーについて定められる
。逆に、あまりにも高い閾値はクラスターをあまりにも多く分解し、それ故、ア
ンダークラスターする傾向がある。それ故、アンダークラスタリング問題及びオ
ーバークラスタリング問題を回避する方法が必要とされる。 加えて、新しいESTデータが生じられ、既存のデータベースに加えられ続ける 。それ故、その方法は新しいESTデータの増分追加により既存のESTを適当にクラ
スタリングし、アッセンブルすることができる必要がある。 データがクラスターされた後に、或るクラスターが多重共通配列を生じ得る。
同じ遺伝子のスプライス変異体である共通配列を同定し、表示する方法が必要と
される。
【0008】 (発明の概要) ポリマー配列がプール中にアッセンブルされる。ポリマー配列は最初の数のプ
ールに配置(populate)される。夫々のプール中のポリマー配列はプールのポリマ
ー配列を代表する一つ以上の共通配列にアッセンブルされる。プールの共通配列
が比較され、共通配列の関係(存在する場合)を決定する。プールは共通配列の
関係に基いて修正される。ポリマー配列は修正プール中で再アッセンブルされて
修正プールの代表の夫々のプールについて一つ以上の修正共通配列を生じる。 本発明の別の局面において、配列類似性及び非類似性がポリマー配列のセット
で分析される。対間整列データがポリマー配列の対について生じられる。対間整
列データは境界によってポリマー配列の対間の類似性領域を特定する。特定のポ
リマー配列中の付加的な境界は、ポリマー配列の一つの対に関する少なくとも一
つの対間整列からの少なくとも一つの境界を、その特定のポリマー配列の一つを
含むポリマー配列の別の対に関する少なくとも一つのその他の対間整列に適用す
ることにより決定される。類似性の付加的な領域が境界に基いて生成される。 本発明の付加的な目的及び特徴は図面と一緒にされる場合の以下の詳細な説明
及び特許請求の範囲から容易に明らかになるであろう。
ールに配置(populate)される。夫々のプール中のポリマー配列はプールのポリマ
ー配列を代表する一つ以上の共通配列にアッセンブルされる。プールの共通配列
が比較され、共通配列の関係(存在する場合)を決定する。プールは共通配列の
関係に基いて修正される。ポリマー配列は修正プール中で再アッセンブルされて
修正プールの代表の夫々のプールについて一つ以上の修正共通配列を生じる。 本発明の別の局面において、配列類似性及び非類似性がポリマー配列のセット
で分析される。対間整列データがポリマー配列の対について生じられる。対間整
列データは境界によってポリマー配列の対間の類似性領域を特定する。特定のポ
リマー配列中の付加的な境界は、ポリマー配列の一つの対に関する少なくとも一
つの対間整列からの少なくとも一つの境界を、その特定のポリマー配列の一つを
含むポリマー配列の別の対に関する少なくとも一つのその他の対間整列に適用す
ることにより決定される。類似性の付加的な領域が境界に基いて生成される。 本発明の付加的な目的及び特徴は図面と一緒にされる場合の以下の詳細な説明
及び特許請求の範囲から容易に明らかになるであろう。
【0009】 (発明を実施するための最良の形態) 図4Aにおいて、ネットワークシステムが本発明の生物分子発現情報処理システ
ム中に記憶された情報を検索するのに使用される。主要なネットワークシステム
構成装置は ・少なくとも一つのクライアントコンピュータ60、62、 ・少なくとも一つのネットワークサーバー64、 ・遺伝子プールデータベース68を記憶する記憶装置66、及び ・インターネット72に接続して外部データベース74にアクセスするファイアウォ
ールゲートウェイサーバー70 である。 図4Aは夫々クライアントコンピュータ60、62の記憶装置80、82を示す。クライ
アントコンピュータシステム60で、ユーザーがUNIXの如きオペレーティングシス
テム84及びネットスケープの如きウェブブラウザ86を実行する。
ム中に記憶された情報を検索するのに使用される。主要なネットワークシステム
構成装置は ・少なくとも一つのクライアントコンピュータ60、62、 ・少なくとも一つのネットワークサーバー64、 ・遺伝子プールデータベース68を記憶する記憶装置66、及び ・インターネット72に接続して外部データベース74にアクセスするファイアウォ
ールゲートウェイサーバー70 である。 図4Aは夫々クライアントコンピュータ60、62の記憶装置80、82を示す。クライ
アントコンピュータシステム60で、ユーザーがUNIXの如きオペレーティングシス
テム84及びネットスケープの如きウェブブラウザ86を実行する。
【0010】 ネットワークサーバー64はUNIXオペレーティングシステム84、アプリケーショ
ンソフトウェアモジュール88及びリレーショナルデータベース管理システム(RDB
MS)90、例えば、オラクル(Oracle)を有する。ユーザーが最初にウェブブラウザ8
6を介してアプリケーションモジュール88にアクセスする場合、アプリケーショ ンモジュール88がJAVAクラス92をサーバー64からクライアントシステム80にアッ
プロードする。JAVAクラス92は以下に説明される類似性境界ファインダー94及び
テンプレートビュアー96を含む。ウェブブラウザ86がアップロードされたJAVAク
ラス98を実行し、これらはJAVAオブジェクト100を使用してグラフィカルユーザ ーインターフェース102をユーザー用のアプリケーションモジュール88に与える 。開始時に、JAVAオブジェクト100のサブセットがデータベース68からのデータ でロードされる。
ンソフトウェアモジュール88及びリレーショナルデータベース管理システム(RDB
MS)90、例えば、オラクル(Oracle)を有する。ユーザーが最初にウェブブラウザ8
6を介してアプリケーションモジュール88にアクセスする場合、アプリケーショ ンモジュール88がJAVAクラス92をサーバー64からクライアントシステム80にアッ
プロードする。JAVAクラス92は以下に説明される類似性境界ファインダー94及び
テンプレートビュアー96を含む。ウェブブラウザ86がアップロードされたJAVAク
ラス98を実行し、これらはJAVAオブジェクト100を使用してグラフィカルユーザ ーインターフェース102をユーザー用のアプリケーションモジュール88に与える 。開始時に、JAVAオブジェクト100のサブセットがデータベース68からのデータ でロードされる。
【0011】 遺伝子プールデータベース68からのデータを検索するために、クライアント80
のJAVAクラス98内の方法がユーザー特定の基準に基いてSQLステートメントを構 築し、これがネットワークサーバー64のCGI 104に通される。次いでCGI 104がSQ
LステートメントをRDBMS 90に通す。RDBMS 90がSQLステートメントを実行し、検
索されたデータをCGI 104に戻し、これが次にデータをクライアント80にもどす 。JAVAクラス98が検索されたデータをJAVAオブジェクト100に配置し、結果がク ライアントコンピュータ80に表示される。 データをデータベースから検索する別法において、JAVAクラス98内の方法がパ
ラメーターをCGIスクリプト104に通し、これがSQL照会ゼネレーター106を使用し
てSQLステートメントを構築する。SQLステートメントがRDBMS 90に通される。 遺伝子プールデータベース68がディスクドライブの如き記憶装置66中の記憶媒
体に記憶される。特に、遺伝子プールデータベース68がデータをテーブル108中 に記憶する。
のJAVAクラス98内の方法がユーザー特定の基準に基いてSQLステートメントを構 築し、これがネットワークサーバー64のCGI 104に通される。次いでCGI 104がSQ
LステートメントをRDBMS 90に通す。RDBMS 90がSQLステートメントを実行し、検
索されたデータをCGI 104に戻し、これが次にデータをクライアント80にもどす 。JAVAクラス98が検索されたデータをJAVAオブジェクト100に配置し、結果がク ライアントコンピュータ80に表示される。 データをデータベースから検索する別法において、JAVAクラス98内の方法がパ
ラメーターをCGIスクリプト104に通し、これがSQL照会ゼネレーター106を使用し
てSQLステートメントを構築する。SQLステートメントがRDBMS 90に通される。 遺伝子プールデータベース68がディスクドライブの如き記憶装置66中の記憶媒
体に記憶される。特に、遺伝子プールデータベース68がデータをテーブル108中 に記憶する。
【0012】 クライアントシステム80、82がファイアウォールゲートウェーサーバー68を介
してインターネット72でパブリックドメイン資源にアクセスする。クライアント
システム80、82、ネットワークサーバー64及びファイアウォールゲートウェーサ
ーバー64がTCP/IPプロトコルを使用してイントラネット109を介してネットワー クされる。 クライアントシステムの一つ82が遺伝子プールデータベース68にロードされる
データを生じる。遺伝子プール生成プロシージャー(Generate_gene_bins)110が 本発明の方法を使用して発現データ112を処理して遺伝子プール及び遺伝子プー ルデータベース114を生じ、これが以下に説明される。遺伝子プールデータベー ス114を生じた後に、クライアントシステム82がデータベースをネットワークサ ーバー64の記憶装置66の一つにコピーし、そこでコピーされた遺伝子プールデー
タベース66が全てのユーザーに利用可能にされる。別の実施態様において、ネッ
トワークサーバー64が遺伝子プールデータベース68を生じる。
してインターネット72でパブリックドメイン資源にアクセスする。クライアント
システム80、82、ネットワークサーバー64及びファイアウォールゲートウェーサ
ーバー64がTCP/IPプロトコルを使用してイントラネット109を介してネットワー クされる。 クライアントシステムの一つ82が遺伝子プールデータベース68にロードされる
データを生じる。遺伝子プール生成プロシージャー(Generate_gene_bins)110が 本発明の方法を使用して発現データ112を処理して遺伝子プール及び遺伝子プー ルデータベース114を生じ、これが以下に説明される。遺伝子プールデータベー ス114を生じた後に、クライアントシステム82がデータベースをネットワークサ ーバー64の記憶装置66の一つにコピーし、そこでコピーされた遺伝子プールデー
タベース66が全てのユーザーに利用可能にされる。別の実施態様において、ネッ
トワークサーバー64が遺伝子プールデータベース68を生じる。
【0013】 グラフィカルユーザーインターフェース98はユーザーが遺伝子プールデータベ
ース68のテーブル108からデータを検索したいとの検索依頼をグラフィックで構 築することを可能にする。検索依頼のコマンドが照会と称される。上記のように
、JAVAクラス又はCGIスクリプトがデータベース照会を生じる。 遺伝子プールデータベース68は遺伝子プール、共通配列及びESTを含む情報を 記憶する多くのテーブル108を有する。 図4Bにおいて、例示ネットワークサーバーコンピュータシステム120が例示プ ロシージャー及び本発明のデータを記憶装置122中に記憶する。記憶装置122は半
導体記憶装置及びディスク記憶装置の両方を含む。システムバス124はプロセッ サー126、ディスプレイ128、キーボード130、マウス132、イントラネットに接続
するネットワークインターフェース134、ディスクドライブ136及び半導体記憶装
置122を接続する。また、プロシージャー及びデータがディスクドライブ66に記 憶し得る。記憶装置122中で、プロシージャーは ・UNIXの如きオペレーティングシステム84; ・ネットスケープの如きウェブブラウザ86;及び ・アプリケーションモジュール136のセット を含む。
ース68のテーブル108からデータを検索したいとの検索依頼をグラフィックで構 築することを可能にする。検索依頼のコマンドが照会と称される。上記のように
、JAVAクラス又はCGIスクリプトがデータベース照会を生じる。 遺伝子プールデータベース68は遺伝子プール、共通配列及びESTを含む情報を 記憶する多くのテーブル108を有する。 図4Bにおいて、例示ネットワークサーバーコンピュータシステム120が例示プ ロシージャー及び本発明のデータを記憶装置122中に記憶する。記憶装置122は半
導体記憶装置及びディスク記憶装置の両方を含む。システムバス124はプロセッ サー126、ディスプレイ128、キーボード130、マウス132、イントラネットに接続
するネットワークインターフェース134、ディスクドライブ136及び半導体記憶装
置122を接続する。また、プロシージャー及びデータがディスクドライブ66に記 憶し得る。記憶装置122中で、プロシージャーは ・UNIXの如きオペレーティングシステム84; ・ネットスケープの如きウェブブラウザ86;及び ・アプリケーションモジュール136のセット を含む。
【0014】 アプリケーションモジュール136のセットは下記のことを含む。 ・遺伝子プール生成プロシージャー110が本発明の遺伝子プールを生じる。 ・私用データベース及び公共データベースの両方からのESTデータ112は生のEST データ及び処理されたESTデータの両方を含む。 ・ブロック1配列調製プロシージャー138は遺伝子プールデータベースについて 生のESTデータ及びアウトプットの処理されたESTデータを受け取る。 ・集団プールプロシージャー140は遺伝子プールの初期のセットを集団化する。 ・基本局所整列検索ツール(BLAST)142は所定の照会配列にマッチする非ギャップ
配列をデータベース中で検出する。BLASTが普通使用され、Karlin及びAltschul
(1993)により開発された根拠の十分な統計理論を使用して、国立バイオテクノロ
ジー情報センター(NCBI)で書かれたものである。マッチはハイスコアリングセグ
メントペアー(HPS)に基く。二つの配列はギャップにより分離される多重ハイス コアリングセグメントペアーを有し得る。
配列をデータベース中で検出する。BLASTが普通使用され、Karlin及びAltschul
(1993)により開発された根拠の十分な統計理論を使用して、国立バイオテクノロ
ジー情報センター(NCBI)で書かれたものである。マッチはハイスコアリングセグ
メントペアー(HPS)に基く。二つの配列はギャップにより分離される多重ハイス コアリングセグメントペアーを有し得る。
【0015】 ・“フラグメント”アッセンブルプログラム(PHRAP)144はショットガンDNA配列 データ、例えば、処理されたESTデータをアッセンブルする。 ・代表的なESTフィルター146はPHRAP144により処理されるEST配列の代表的なセ ットを生じる。 ・IDおよびプール除去プロシージャー(ID&Remove Bins porcecure) 148がプール
の所定のサブセットを本発明の結合及び分割プロセスから排除するのに使用され
る。 ・クロスマッチ(Cross_Match)150はワシントン大学のPhil Greenにより開発され
たSmith-Waterman-Gotohアルゴリズムに基く迅速なタンパク質及び核酸配列比較
並びにデータベース検索のためのコンピュータプログラムである。本発明におい
て、クロスマッチはインプット配列が比較される順序とは独立である配列整列比
較結果を得るように改良された。 ・プール注釈プロシージャー(Annotate_bins_procedure)152は或る種の共通配列
に関する注釈データをデータベースに加える。 ・プール比較プロシージャー(Compare_bins_procedure)154は遺伝子プールの共 通配列を比較する。
の所定のサブセットを本発明の結合及び分割プロセスから排除するのに使用され
る。 ・クロスマッチ(Cross_Match)150はワシントン大学のPhil Greenにより開発され
たSmith-Waterman-Gotohアルゴリズムに基く迅速なタンパク質及び核酸配列比較
並びにデータベース検索のためのコンピュータプログラムである。本発明におい
て、クロスマッチはインプット配列が比較される順序とは独立である配列整列比
較結果を得るように改良された。 ・プール注釈プロシージャー(Annotate_bins_procedure)152は或る種の共通配列
に関する注釈データをデータベースに加える。 ・プール比較プロシージャー(Compare_bins_procedure)154は遺伝子プールの共 通配列を比較する。
【0016】 ・プール結合プロシージャー(Join_bins procedure)156は遺伝子プールを結合す
る。 ・プール分割プロシージャー(Split_bins procedure)158は遺伝子プールを分割 する。 ・FASTXプロシージャー160はヌクレオチド配列をペプチド配列データベースと比
較するのに使用されるデータベース検索ツールである。そのプロシージャーはLi
pman及びPearson(1988)により記載された迅速配列アルゴリズムに基く。 ・マップ継続プールidプロシージャー(Map_persistent_bin_id procedure)162は
遺伝子プールデータベースの古いバージョン及び新しいバージョンの間のプール
識別子をマッピングする。 ・テンプレートビュアープロシージャー96は遺伝子プールの共通配列をそれらの
アッセンブルESTとともに表示する。 ・遺伝子プールデータベース68はメモリー122中に記憶される。 ・類似性境界ファインダー94はインプット配列にわたって同様の境界及びセグメ
ントを見つけるとともにギャップを収容する。類似性境界ファインダー94は任意
の多数のインプット配列の間で共通セグメントを同定し、配列し、表示する。 ・RDBMS90がまたメモリー122中に記憶される。
る。 ・プール分割プロシージャー(Split_bins procedure)158は遺伝子プールを分割 する。 ・FASTXプロシージャー160はヌクレオチド配列をペプチド配列データベースと比
較するのに使用されるデータベース検索ツールである。そのプロシージャーはLi
pman及びPearson(1988)により記載された迅速配列アルゴリズムに基く。 ・マップ継続プールidプロシージャー(Map_persistent_bin_id procedure)162は
遺伝子プールデータベースの古いバージョン及び新しいバージョンの間のプール
識別子をマッピングする。 ・テンプレートビュアープロシージャー96は遺伝子プールの共通配列をそれらの
アッセンブルESTとともに表示する。 ・遺伝子プールデータベース68はメモリー122中に記憶される。 ・類似性境界ファインダー94はインプット配列にわたって同様の境界及びセグメ
ントを見つけるとともにギャップを収容する。類似性境界ファインダー94は任意
の多数のインプット配列の間で共通セグメントを同定し、配列し、表示する。 ・RDBMS90がまたメモリー122中に記憶される。
【0017】 類似性境界ファインダー94はプロシージャー及びデータ構造のセットを含む。
そのプロシージャーは ・異なる配列間及び配列内の類似性の共有領域を同定するid類似領域プロシージ
ャー(id_similar_region procedure)166; ・異なる配列間の類似性の共有領域を空間上配列された様式で表示する結果表示
プロシージャー(display_con_sequece procedure)168;及び ・インプット配列のセグメントマップを表示するセグメントマップ表示プロシー
ジャー(display_segment_map)170 を含む。
そのプロシージャーは ・異なる配列間及び配列内の類似性の共有領域を同定するid類似領域プロシージ
ャー(id_similar_region procedure)166; ・異なる配列間の類似性の共有領域を空間上配列された様式で表示する結果表示
プロシージャー(display_con_sequece procedure)168;及び ・インプット配列のセグメントマップを表示するセグメントマップ表示プロシー
ジャー(display_segment_map)170 を含む。
【0018】 データ構造は ・インプット配列ストリングス172; ・クロスマッチ出力(Crossmatch Output)174; ・境界リスト176; ・等価境界リスト178; ・誘導グラフアレイ180;及び ・トポロジーオーダリングリスト を含む。
【0019】 上記データ構造が以下に記載される。 図5A中で、例示遺伝子プール200がアッセンブルESTデータ204に相当する単一 共通配列202を有する。“遺伝子”という用語は遺伝子の部分又は完全コーディ ング配列を表す。遺伝子プール200は一緒にグルーピングされた配列決定に基く クラスターである。遺伝子プール200は特定の単一遺伝子について全てのEST配列
204を会合又は貯蔵するように設計される。EST204は唯一の遺伝子プール200に属
する。夫々の遺伝子プール200が特別な単一遺伝子についてコンポーネント配列2
04と会合される。PHRAPアッセンブルプログラムがプール200のEST204を使用して
運転されて少なくとも一つの共通配列202を生じる。共通配列202がその遺伝子の
鋳型として作用する。アッセンブルされた配列の夫々の塩基がその位置で配列さ
れたコンポーネント配列204中の塩基コールの共通に相当する。 図5Bに示されるように、別の遺伝子プール210中で、コンポーネント配列212が
多重共通配列214、216、218を生じる。一つより多い共通配列214、216、218を生
じるこれらの遺伝子プール210について、夫々の共通配列214、216、218が遺伝子
プール210と会合された遺伝子の鋳型として作用する。多重鋳型又は共通配列214
、216、218を含む遺伝子プール210は別のスプライシング又は有意な多形性を有 する遺伝子を表し、又は代表することがある。
204を会合又は貯蔵するように設計される。EST204は唯一の遺伝子プール200に属
する。夫々の遺伝子プール200が特別な単一遺伝子についてコンポーネント配列2
04と会合される。PHRAPアッセンブルプログラムがプール200のEST204を使用して
運転されて少なくとも一つの共通配列202を生じる。共通配列202がその遺伝子の
鋳型として作用する。アッセンブルされた配列の夫々の塩基がその位置で配列さ
れたコンポーネント配列204中の塩基コールの共通に相当する。 図5Bに示されるように、別の遺伝子プール210中で、コンポーネント配列212が
多重共通配列214、216、218を生じる。一つより多い共通配列214、216、218を生
じるこれらの遺伝子プール210について、夫々の共通配列214、216、218が遺伝子
プール210と会合された遺伝子の鋳型として作用する。多重鋳型又は共通配列214
、216、218を含む遺伝子プール210は別のスプライシング又は有意な多形性を有 する遺伝子を表し、又は代表することがある。
【0020】 遺伝子プールはリレーショナルデータベースのテーブル中に実装される。夫々
の遺伝子プールは遺伝子プール識別子を有し、夫々の共通配列は共通配列識別子
を有し、また夫々のESTは識別子を有する。データベース中のテーブルは夫々遺 伝子プール識別子、共通配列識別子及びEST識別子を使用して遺伝子プールを共 通配列及びESTと会合する。その他のテーブルはEST識別子及び共通配列識別子を
使用してESTデータを共通配列と関連付ける。 コンポーネント配列又はESTデータは公共データベース及び私用データベース から得られる。
の遺伝子プールは遺伝子プール識別子を有し、夫々の共通配列は共通配列識別子
を有し、また夫々のESTは識別子を有する。データベース中のテーブルは夫々遺 伝子プール識別子、共通配列識別子及びEST識別子を使用して遺伝子プールを共 通配列及びESTと会合する。その他のテーブルはEST識別子及び共通配列識別子を
使用してESTデータを共通配列と関連付ける。 コンポーネント配列又はESTデータは公共データベース及び私用データベース から得られる。
【0021】 図6は図4Bの遺伝子プール生成(generate_gene_bin)110プロシージャーに使用
される本発明の遺伝子プールを生成する方法のフローチャートである。このフロ
ーチャートは一般的に記載され、続いて夫々の工程の詳細な説明が記載される。 一般に、工程222において、新しい生の配列又はESTデータが受け取られ、ブロ
ック1プロシージャーのセット(138、図4B)で処理される。工程224はポピュレ
ートプールプロシージャー(140、図4B)を使用してESTデータを遺伝子プールの
初期セットに配置する。工程226において、フィルター(146、図4B)が遺伝子プ
ール中のESTに適用されてESTの代表的なセットを決定し、これがPHRAPを使用し てアッセンブルされるであろう。別の実施態様において、フィルターが使用され
ない。工程228において、夫々のプール内で、PHRAPアッセンブラー(144、図4B )がプール中のESTをアッセンブルして一つ以上の共通配列を生じるのに使用さ れる。工程230において、IDおよびプール除去プロシージャー(ID&Remove Bins p
rocedure)(148、図4B)がプールの所定のセットを同定し、それらを更なるプロ
セスから除去する。工程232において、プール比較プロシージャー(154、図4B)
がプールの共通配列を比較してプールの共通間の関係(存在する場合)を決定す
る。工程234において、プール結合プロシージャー(Join_bins procedure)(156 、図4B)が共通配列の関係に基いてプールを結合して修正プールを生じる。
される本発明の遺伝子プールを生成する方法のフローチャートである。このフロ
ーチャートは一般的に記載され、続いて夫々の工程の詳細な説明が記載される。 一般に、工程222において、新しい生の配列又はESTデータが受け取られ、ブロ
ック1プロシージャーのセット(138、図4B)で処理される。工程224はポピュレ
ートプールプロシージャー(140、図4B)を使用してESTデータを遺伝子プールの
初期セットに配置する。工程226において、フィルター(146、図4B)が遺伝子プ
ール中のESTに適用されてESTの代表的なセットを決定し、これがPHRAPを使用し てアッセンブルされるであろう。別の実施態様において、フィルターが使用され
ない。工程228において、夫々のプール内で、PHRAPアッセンブラー(144、図4B )がプール中のESTをアッセンブルして一つ以上の共通配列を生じるのに使用さ れる。工程230において、IDおよびプール除去プロシージャー(ID&Remove Bins p
rocedure)(148、図4B)がプールの所定のセットを同定し、それらを更なるプロ
セスから除去する。工程232において、プール比較プロシージャー(154、図4B)
がプールの共通配列を比較してプールの共通間の関係(存在する場合)を決定す
る。工程234において、プール結合プロシージャー(Join_bins procedure)(156 、図4B)が共通配列の関係に基いてプールを結合して修正プールを生じる。
【0022】 工程236において、フィルター(146、図4B)が修正プールのESTデータに適用 される。別の実施態様において、フィルターは使用されない。工程238において 、夫々の修正プール内で、PHRAPアッセンブラー(144、図4B)が修正プール中で
ESTを再アッセンブルして一つ以上の共通配列を生じるのに使用される。工程240
において、修正プール中の共通配列が比較されて共通配列間の関係(存在する場
合)を決定する。工程242において、修正プールが分割プールプロシージャー(1
58、図4B)を使用して共通配列の関係に基いて分割される。工程244において、 その方法は比較、結合及び分割プロセスが反復すべきか否かを決める。そうであ
る場合、プロセスが工程232で続行する。そうでない場合、工程246において、プ
ールがクローン情報に基いて結合されてもよい。工程248において、フィルター (146、図4B)が修正プールのESTデータに適用される。別の実施態様において、
フィルターは使用されない。工程250において、夫々の修正プール内で、PHRAPア
ッセンブラー(144、図4B)が修正プール中でESTを再アッセンブルして一つ以上
の共通配列を生じるのに使用される。工程252において、プールが注釈される。 工程254において、テンプレートビュアープロシージャー(96、図4B)がアッセ ンブルされたEST配列と空間上配列されたプールの少なくとも一つの共通配列を 表示する。
ESTを再アッセンブルして一つ以上の共通配列を生じるのに使用される。工程240
において、修正プール中の共通配列が比較されて共通配列間の関係(存在する場
合)を決定する。工程242において、修正プールが分割プールプロシージャー(1
58、図4B)を使用して共通配列の関係に基いて分割される。工程244において、 その方法は比較、結合及び分割プロセスが反復すべきか否かを決める。そうであ
る場合、プロセスが工程232で続行する。そうでない場合、工程246において、プ
ールがクローン情報に基いて結合されてもよい。工程248において、フィルター (146、図4B)が修正プールのESTデータに適用される。別の実施態様において、
フィルターは使用されない。工程250において、夫々の修正プール内で、PHRAPア
ッセンブラー(144、図4B)が修正プール中でESTを再アッセンブルして一つ以上
の共通配列を生じるのに使用される。工程252において、プールが注釈される。 工程254において、テンプレートビュアープロシージャー(96、図4B)がアッセ ンブルされたEST配列と空間上配列されたプールの少なくとも一つの共通配列を 表示する。
【0023】 この方法で、共通配列を反復比較し、共通配列に基いてプールを修正すること
により、本発明の方法は従来技術のオーバークラスタリング及びアンダークラス
タリングを回避し、同じ遺伝子のスプライス変異体をグルーピングする傾向があ
る遺伝子プールのセットを提供する。 次に、図6の夫々の工程が詳しく記載される。 ブロック1配列調製 工程222において、ブロック1配列調製が行なわれる。生の配列データが配列 決定クロマトグラムから抽出された後、生の配列データが一連のフィルターを通
過する。最初に、低品質配列及びシーケンシング人工物を含む配列が品質スコア
ーに基いてクリップされる。次に、認識された5'及び3'ベクター配列が動的プロ
グラミングに基く方法を使用してクリップされる。次いで3'PolyA(又は5'PolyT
)パターンにマッチするレギュラー発現がmRNAテールをクリップするのに使用さ
れる。
により、本発明の方法は従来技術のオーバークラスタリング及びアンダークラス
タリングを回避し、同じ遺伝子のスプライス変異体をグルーピングする傾向があ
る遺伝子プールのセットを提供する。 次に、図6の夫々の工程が詳しく記載される。 ブロック1配列調製 工程222において、ブロック1配列調製が行なわれる。生の配列データが配列 決定クロマトグラムから抽出された後、生の配列データが一連のフィルターを通
過する。最初に、低品質配列及びシーケンシング人工物を含む配列が品質スコア
ーに基いてクリップされる。次に、認識された5'及び3'ベクター配列が動的プロ
グラミングに基く方法を使用してクリップされる。次いで3'PolyA(又は5'PolyT
)パターンにマッチするレギュラー発現がmRNAテールをクリップするのに使用さ
れる。
【0024】 次に、一連のBLAST比較が行なわれて配列データを更にフィルターする。BLAST
類似性スコアーが150以上である場合、低情報セグメント、例えば、ジヌクレオ チド繰返し配列がマスクされて(“n”により置換されて)その後の偽のマッチ
を防止する。“n”は配列決定中に見られる不明瞭さを表すのに使用される“N
”とは異なる。BLAST類似性スコアーが130以上である場合、認識されたコンタミ
配列を含む生の配列が更なるバイオアナリシスから除去される。BLAST類似性ス コアーが150以上である場合、分散された反復要素、例えば、Alu、LINE及びMIR がマスクされる。既知の反復要素がゲノム中で多コピー存在する。それらの機能
関連性は非常に低く、それらが含まれる場合にはアッセンブル問題を生じるであ
ろう。最後に、認識されたミトコンドリア配列及びリボソームRNA配列が150以上
のBLAST類似性スコアーに基いて除去される。 ブロック1中の修正後に、工程224において、初期プールセットが少なくとも5
0の塩基を有するこれらの配列のクラスターで配置される。
類似性スコアーが150以上である場合、低情報セグメント、例えば、ジヌクレオ チド繰返し配列がマスクされて(“n”により置換されて)その後の偽のマッチ
を防止する。“n”は配列決定中に見られる不明瞭さを表すのに使用される“N
”とは異なる。BLAST類似性スコアーが130以上である場合、認識されたコンタミ
配列を含む生の配列が更なるバイオアナリシスから除去される。BLAST類似性ス コアーが150以上である場合、分散された反復要素、例えば、Alu、LINE及びMIR がマスクされる。既知の反復要素がゲノム中で多コピー存在する。それらの機能
関連性は非常に低く、それらが含まれる場合にはアッセンブル問題を生じるであ
ろう。最後に、認識されたミトコンドリア配列及びリボソームRNA配列が150以上
のBLAST類似性スコアーに基いて除去される。 ブロック1中の修正後に、工程224において、初期プールセットが少なくとも5
0の塩基を有するこれらの配列のクラスターで配置される。
【0025】 フィルター フィルタリング工程226、236及び248が図8を参照して以下に記載される。 アッセンブリ 工程228において、PHRAPアッセンブルプログラムが夫々の遺伝子プールについ
て少なくとも一つの共通配列を生じる。この方法に使用されるPHRAPのバージョ ンが私用配列識別子規則のセットを解読するように改良された。別の実施態様に
おいて、その他のアッセンブルプログラム、例えば、Eugene W.Myersにより開発
されたFAKIIが使用される。全てのプールが少なくとも一つの共通配列を有する 場合、別のプロシージャー、例えば、クロスマッチ(Cross_match))150(図4B) がSmith-Watermanに基くアルゴリズムを使用して全ての未帰属ESTを全ての共通 配列と比較する。未帰属EST配列が最高のSmith-Watermanスコアーを生じる共通 配列とともにプールに加えられる。新しいプールが非マッチング未帰属EST配列 について作られる。 PHRAPは塩基品質価値をアッセンブリプロセスにとり込むことができるという 利点を有する。この特別なデータがESTアッセンブルに必要とされる感度及び精 度を得るのに必須である。
て少なくとも一つの共通配列を生じる。この方法に使用されるPHRAPのバージョ ンが私用配列識別子規則のセットを解読するように改良された。別の実施態様に
おいて、その他のアッセンブルプログラム、例えば、Eugene W.Myersにより開発
されたFAKIIが使用される。全てのプールが少なくとも一つの共通配列を有する 場合、別のプロシージャー、例えば、クロスマッチ(Cross_match))150(図4B) がSmith-Watermanに基くアルゴリズムを使用して全ての未帰属ESTを全ての共通 配列と比較する。未帰属EST配列が最高のSmith-Watermanスコアーを生じる共通 配列とともにプールに加えられる。新しいプールが非マッチング未帰属EST配列 について作られる。 PHRAPは塩基品質価値をアッセンブリプロセスにとり込むことができるという 利点を有する。この特別なデータがESTアッセンブルに必要とされる感度及び精 度を得るのに必須である。
【0026】 共通配列の比較 工程232において、プールが全てのプール中の共通配列間の関係に基いて修正 される。全てのプール中の全ての共通配列がBLAST2を使用して互いに比較される
。高いBLAST2スコアーは高い配列オーバーラップ及び同一性を示す。 別の実施態様において、プレスクリーニング操作において、全てのプール中の
全ての共通配列がBLASTを使用して互いに比較される。BLASTスコアーが一対の共
通配列について150を超える場合、クロスマッチが共通配列のその対を使用して 実行されてBLASTスコアーを確認し、局所同一性を生じる。 別の実施態様において、クロスマッチを使用してBLASTスコアーを確認するこ とに代えて、Smith-Watermanアルゴリズムが使用されて局所同一性を生じる。
。高いBLAST2スコアーは高い配列オーバーラップ及び同一性を示す。 別の実施態様において、プレスクリーニング操作において、全てのプール中の
全ての共通配列がBLASTを使用して互いに比較される。BLASTスコアーが一対の共
通配列について150を超える場合、クロスマッチが共通配列のその対を使用して 実行されてBLASTスコアーを確認し、局所同一性を生じる。 別の実施態様において、クロスマッチを使用してBLASTスコアーを確認するこ とに代えて、Smith-Watermanアルゴリズムが使用されて局所同一性を生じる。
【0027】 プールの結合 工程234において、少なくとも一つの共通配列がBLAST2に従って少なくとも82 %の局所同一性で別のプール中の共通配列と重なる場合、プールが結合される。
別の実施態様において、局所同一性が少なくとも92%である場合、プールが結合
される。別の実施態様において、局所同一性が少なくとも85%である場合、プー
ルが結合される。
別の実施態様において、局所同一性が少なくとも92%である場合、プールが結合
される。別の実施態様において、局所同一性が少なくとも85%である場合、プー
ルが結合される。
【0028】 再アッセンブル 工程238及び250において、PHRAPアッセンブルプログラムが夫々の遺伝子プー ルについて少なくとも一つの共通配列を生じる。 分割のための共通配列の再比較 工程240において、一つより多い共通配列を有するこれらのプールについて、 クロスマッチ(Cross_match)が使用されて再アッセンブルプールの共通配列を比 較する。 別の実施態様において、Smith-Watermanアルゴリズムがクロスマッチに代えて
使用される。
使用される。
【0029】 プールの分割 工程242において、クロスマッチ(Cross_match)スコアーを使用して、共通配列
間のオーバーラップが95%未満の同一性を生じ、又は整列長が50未満の塩基対で
ある場合、プールが分割される。不十分なオーバーラップ又は整列を有する共通
配列が分割されて新しいプールを生成する。 工程244において、全ての共通配列を全てのプールにわたって比較し、プール を結合し、プールを再アッセンブルし、プールを再比較し、プールを分割するプ
ロセスはデータベースの収束が得られるまで反復する。データベースの収束は、
プール組成が反復の間に有意に変化しない場合に得られる。 別の実施態様において、全ての共通配列を全てのプールにわたって比較し、プ
ールを結合し、プールを再アッセンブルし、プールを再比較し、プールを分割す
るプロセスは所定の回数の反復にわたって反復する。
間のオーバーラップが95%未満の同一性を生じ、又は整列長が50未満の塩基対で
ある場合、プールが分割される。不十分なオーバーラップ又は整列を有する共通
配列が分割されて新しいプールを生成する。 工程244において、全ての共通配列を全てのプールにわたって比較し、プール を結合し、プールを再アッセンブルし、プールを再比較し、プールを分割するプ
ロセスはデータベースの収束が得られるまで反復する。データベースの収束は、
プール組成が反復の間に有意に変化しない場合に得られる。 別の実施態様において、全ての共通配列を全てのプールにわたって比較し、プ
ールを結合し、プールを再アッセンブルし、プールを再比較し、プールを分割す
るプロセスは所定の回数の反復にわたって反復する。
【0030】 クローン結合 単一のESTクローンが実験室で複数回のシーケンシング反応に使用されること がある。従って、一つのクローンが複数の配列と関連していることがある。例え
ば、単一のクローンが5'第1パス配列と関連していることも、5'長距離読取り配
列と関連していることも、および、3'第1パス配列と関連していることもある。 工程246において、その共通配列に基づく何回かのプールの結合と分割の後に 、プールはクローン情報に基づいて結合される。一つのプール中の一つのクロー
ンの5'配列と同じクローンの3'配列が異なるプール中に存在する場合、おそらく
その2つのプールは実際には共に単一のプールに属するであろう。単一のクロー
ンがキメラである可能性もあるため、結合される各プール中に一つの5'および3'
配列を有する少なくとも2つの異なるクローンが存在する場合に、プールはこの
段階で結合される。 もし、得られるプールが非常に大きく、5000以上のESTを含む場合にはプール は結合されない。加えて、クローン結合は共通遺伝子に注釈的にヒット(annotat
ion hit)するプールには適用されず、不活性プールに対してもクローン結合は行
われない。
ば、単一のクローンが5'第1パス配列と関連していることも、5'長距離読取り配
列と関連していることも、および、3'第1パス配列と関連していることもある。 工程246において、その共通配列に基づく何回かのプールの結合と分割の後に 、プールはクローン情報に基づいて結合される。一つのプール中の一つのクロー
ンの5'配列と同じクローンの3'配列が異なるプール中に存在する場合、おそらく
その2つのプールは実際には共に単一のプールに属するであろう。単一のクロー
ンがキメラである可能性もあるため、結合される各プール中に一つの5'および3'
配列を有する少なくとも2つの異なるクローンが存在する場合に、プールはこの
段階で結合される。 もし、得られるプールが非常に大きく、5000以上のESTを含む場合にはプール は結合されない。加えて、クローン結合は共通遺伝子に注釈的にヒット(annotat
ion hit)するプールには適用されず、不活性プールに対してもクローン結合は行
われない。
【0031】 注釈付け(Annotation) 工程252では、BLAST2およびFASTXを用いて、各共通配列はインターネット上で
利用できる外部ベータベースの一つであるGenBankデーダベース中の配列と比較 される。遺伝子プールデータベース中の正確なヒットが付注され、ホモログが記
録される。遺伝子の共通配列に関してマッチングするものが見つからない場合は
、その遺伝子はその遺伝子プールデータベースにおいて固有のものとして同定さ
れる。 GbpriおよびgbpeptはGenBankデータベースの区分である。BLAST2検索を用いて
、gbpriに対してヒットしたものが集めらる。以下のように、パーセント同一性 が200塩基対の整列長で95%以上である場合から少なくとも100塩基対の整列 長で100%の同一性である場合に正確なヒットが付注され記録される。 パーセント同一性≧95% 整列長≧200塩基対 パーセント同一性≧96% 整列長≧180塩基対 パーセント同一性≧97% 整列長≧160塩基対 パーセント同一性≧98% 整列長≧140塩基対 パーセント同一性≧99% 整列長≧120塩基対 パーセント同一性≧100% 整列長≧100塩基対
利用できる外部ベータベースの一つであるGenBankデーダベース中の配列と比較 される。遺伝子プールデータベース中の正確なヒットが付注され、ホモログが記
録される。遺伝子の共通配列に関してマッチングするものが見つからない場合は
、その遺伝子はその遺伝子プールデータベースにおいて固有のものとして同定さ
れる。 GbpriおよびgbpeptはGenBankデータベースの区分である。BLAST2検索を用いて
、gbpriに対してヒットしたものが集めらる。以下のように、パーセント同一性 が200塩基対の整列長で95%以上である場合から少なくとも100塩基対の整列 長で100%の同一性である場合に正確なヒットが付注され記録される。 パーセント同一性≧95% 整列長≧200塩基対 パーセント同一性≧96% 整列長≧180塩基対 パーセント同一性≧97% 整列長≧160塩基対 パーセント同一性≧98% 整列長≧140塩基対 パーセント同一性≧99% 整列長≧120塩基対 パーセント同一性≧100% 整列長≧100塩基対
【0032】 ヒットが1x10-8以下の期待値(E-値)を有する場合にホモログが記録され る。期待値とは、2つの配列間の整列が偶然に起こると期待される度数をいう。
E-値が0とは正確なマッチングを意味し、E-値が1であるとは有意なマッチン
グが見いだされなかったことを示す。 BLAST2検索を用いて、gbpriデータベースに対してヒットが集められる。パー セント同一性が少なくとも50塩基対の整列長で100%以上の場合で、マッチング の前の両方のテンプレート部分が10塩基対以下であり、マッチングの後のテンプ
レート部分が10塩基対以下である場合に正確なマッチングとして配列が付注され
る。 FASTXを用いて、genpeptデータベースに対してヒットが集められる。FASTX比 較の結果はE-値を生成する。E-値が1x10-8よりも低いとき配列は付注されホモロ
グ状態が割り当てられる。
E-値が0とは正確なマッチングを意味し、E-値が1であるとは有意なマッチン
グが見いだされなかったことを示す。 BLAST2検索を用いて、gbpriデータベースに対してヒットが集められる。パー セント同一性が少なくとも50塩基対の整列長で100%以上の場合で、マッチング の前の両方のテンプレート部分が10塩基対以下であり、マッチングの後のテンプ
レート部分が10塩基対以下である場合に正確なマッチングとして配列が付注され
る。 FASTXを用いて、genpeptデータベースに対してヒットが集められる。FASTX比 較の結果はE-値を生成する。E-値が1x10-8よりも低いとき配列は付注されホモロ
グ状態が割り当てられる。
【0033】 不活性プール 不活性遺伝子プールは工程232-244の反復再アッセンブリ過程にかけられない 、小さなサブセットを形成する。工程230はアッセンブリ過程でこの不活性プー ルを同定し除去する。不活性プールは非常に深く、典型的には2,000以上のEST配
列を有している。本発明者らは、この不活性プール再アッセンブリは存在してい
るアッセンブルされた共通配列に重要な影響を与えないことを見いだした。従っ
て、不活性プールについては、不活性プールに帰属される新しいEST配列は存在 している共通配列に整列されるが、新たなEST配列はアッセンブリ過程で共通配 列を生成するためには使用されない。 不活性プールは予め決定されており、典型的にはアクチンやEF-1aのようによ く知られ、よく特徴づけられている。
列を有している。本発明者らは、この不活性プール再アッセンブリは存在してい
るアッセンブルされた共通配列に重要な影響を与えないことを見いだした。従っ
て、不活性プールについては、不活性プールに帰属される新しいEST配列は存在 している共通配列に整列されるが、新たなEST配列はアッセンブリ過程で共通配 列を生成するためには使用されない。 不活性プールは予め決定されており、典型的にはアクチンやEF-1aのようによ く知られ、よく特徴づけられている。
【0034】 増分ESTデータのプールの初期セットへの配置 工程224において、プールの初期セットは以下の手順を用いて新たなESTデータ
で更新される:BLAST比較に基づいて配列をプールに帰属させ、マッチングを確 認しEST配列を将来のアッセンブリのためにプールに追加する。 特に、Block 1過程を用いてフィルタリングした後、新たな配列は新たなEST 配列と共通配列の現在のセットとのBLAST比較に基づいてあるプールに帰属され る。有意なマッチングは、整列過程に塩基呼び出し信頼性スコア(base-call con
fidence score)も取り入れている、Smith-Watermanに基づくツールであるクロス
マッチ(Cross_match)を用いて確認される。各配列は、最も高いスコアでマッ チングするプールに追加される。
で更新される:BLAST比較に基づいて配列をプールに帰属させ、マッチングを確 認しEST配列を将来のアッセンブリのためにプールに追加する。 特に、Block 1過程を用いてフィルタリングした後、新たな配列は新たなEST 配列と共通配列の現在のセットとのBLAST比較に基づいてあるプールに帰属され る。有意なマッチングは、整列過程に塩基呼び出し信頼性スコア(base-call con
fidence score)も取り入れている、Smith-Watermanに基づくツールであるクロス
マッチ(Cross_match)を用いて確認される。各配列は、最も高いスコアでマッ チングするプールに追加される。
【0035】 プール表示 工程254において、テンプレートビューアープロシージャーは、アッセンブル されたESTによる少なくとも一つの共通配列を表示する。共通配列はディスプレ イの上端に表示され、ESTは最左端のESTより左から右の順に、共通配列の下に1
行に1つのESTとして表示される。 図7Aにおいて、例示のEST272はプール274中に置かれ、2つの共通配列276、27
8を有するプール272を生成する。図7Bにおいて、2つの例示的プール282および
284が結合され、ESTは単一のプール286に関連付けられる。図7Cにおいて、図7A のアッセンブルされたプール274は2つのプール292および294に分割されている 。
行に1つのESTとして表示される。 図7Aにおいて、例示のEST272はプール274中に置かれ、2つの共通配列276、27
8を有するプール272を生成する。図7Bにおいて、2つの例示的プール282および
284が結合され、ESTは単一のプール286に関連付けられる。図7Cにおいて、図7A のアッセンブルされたプール274は2つのプール292および294に分割されている 。
【0036】 フィルター 図8において、工程226および236の任意的なフィルタリングプロシージャー14
6(図4B)が示されている。PHRAPアッセンブリプログラムはプール中のESTが非 常に大きい局所的深度(local depth)を有している場合は実行できないか非常に 長い時間がかかる。局所的深度とは、最終的なアッセンブリにおける特定の位置
について、整列がその特定の位置にわたるESTの数を言う。アッセンブリの操作 および速度を改善するために、フィルターはPHRAPアッセンブラーに入力する遺 伝子プールについての代表的ESTセットを生成する。局所的深度は問題であるた め、フィルターは最大の局所的深度領域に位置するESTを効率的に除去し、一方 、浅い局所的深度を有するESTを維持する。いくつかのプールは非常に多数のEST
配列、例えば30,000以上を有するため、フィルターはアッセンブリ過程で使用さ
れるESTの数を低減させ、それによってアッセンブリ過程の操作速度を上げる。
6(図4B)が示されている。PHRAPアッセンブリプログラムはプール中のESTが非 常に大きい局所的深度(local depth)を有している場合は実行できないか非常に 長い時間がかかる。局所的深度とは、最終的なアッセンブリにおける特定の位置
について、整列がその特定の位置にわたるESTの数を言う。アッセンブリの操作 および速度を改善するために、フィルターはPHRAPアッセンブラーに入力する遺 伝子プールについての代表的ESTセットを生成する。局所的深度は問題であるた め、フィルターは最大の局所的深度領域に位置するESTを効率的に除去し、一方 、浅い局所的深度を有するESTを維持する。いくつかのプールは非常に多数のEST
配列、例えば30,000以上を有するため、フィルターはアッセンブリ過程で使用さ
れるESTの数を低減させ、それによってアッセンブリ過程の操作速度を上げる。
【0037】 工程302において、最初の遺伝子プールから開始して各遺伝子プールについて 、ESTセットが初期化される。ブロック304における一組の工程が各遺伝子プール
について実行される。工程306において、遺伝子プール中のESTについて冗長度ス
コアが計算される。冗長度スコアを計算するために、ESTセットについてクロス マッチ(Cross-match)が走らされ、ESTの対整列が得られる。この対整列に基づ
くと、ESTに関する冗長度スコアは、ESTの塩基全体にわたって、遺伝子プール中
の他のESTに関する各塩基の合致数の最小値に等しい。工程308では、最も高い冗
長度スコアを有するESTが同定される。工程308において、同定されたESTはESTの
代表的セットから除去される。複数のESTが最高冗長度を有する場合は、最も高 い冗長度スコア有するESTの極小局所深度を同定し、同定された極小局所深度を 有する最少の塩基数をもつESTを除去する。このようにして、最も浅い領域を覆 うESTが代表的ESTとして残る傾向があり、一方、より深い領域にあるESTは除去 される。加えて、より短い配列を有するESTも除去される傾向にある。
について実行される。工程306において、遺伝子プール中のESTについて冗長度ス
コアが計算される。冗長度スコアを計算するために、ESTセットについてクロス マッチ(Cross-match)が走らされ、ESTの対整列が得られる。この対整列に基づ
くと、ESTに関する冗長度スコアは、ESTの塩基全体にわたって、遺伝子プール中
の他のESTに関する各塩基の合致数の最小値に等しい。工程308では、最も高い冗
長度スコアを有するESTが同定される。工程308において、同定されたESTはESTの
代表的セットから除去される。複数のESTが最高冗長度を有する場合は、最も高 い冗長度スコア有するESTの極小局所深度を同定し、同定された極小局所深度を 有する最少の塩基数をもつESTを除去する。このようにして、最も浅い領域を覆 うESTが代表的ESTとして残る傾向があり、一方、より深い領域にあるESTは除去 される。加えて、より短い配列を有するESTも除去される傾向にある。
【0038】 工程312において、ESTを除去した後、その遺伝子プールに残っている代表的ES
Tの深度が所定の閾値よりも大きい場合は、本方法は工程306から310を繰り返し 、除去すべき次のESTを決定する。その遺伝子プールに残っている代表的ESTの深
度が所定の閾値に等しいかそれより小さい場合は、その遺伝子プールについては
処理が終了する。 クロスマッチ(Cross_match)はメモリーの問題を抱えており、多数のESTを含
むプールについては実行時間が長くなる。従って、別の実施態様においては、多
数のESTを含むプールについては、ESTバッチに分割され、各バッチは図8につい
て上述したような方法を用いて別々に処理される。アッセンプリに先立ち、残っ
ているESTはそのプールに関するESTの代表的セットの中へ一緒にされ、アッセン
ブリ工程にかけられる。
Tの深度が所定の閾値よりも大きい場合は、本方法は工程306から310を繰り返し 、除去すべき次のESTを決定する。その遺伝子プールに残っている代表的ESTの深
度が所定の閾値に等しいかそれより小さい場合は、その遺伝子プールについては
処理が終了する。 クロスマッチ(Cross_match)はメモリーの問題を抱えており、多数のESTを含
むプールについては実行時間が長くなる。従って、別の実施態様においては、多
数のESTを含むプールについては、ESTバッチに分割され、各バッチは図8につい
て上述したような方法を用いて別々に処理される。アッセンプリに先立ち、残っ
ているESTはそのプールに関するESTの代表的セットの中へ一緒にされ、アッセン
ブリ工程にかけられる。
【0039】 継続プール識別子のマッピング プール識別子はデーダベースバージョン間で継続的であり得ることに注意すべ
きである。継続的プール識別子は、データベースの新しいバージョン中のどのプ
ールがデータベースのより古いバージョンのどのプールと実質的に同じであるか
を決定することにより、プール識別子の固有性を遡及的に監視することを必然的
に伴っている。図9はマップ継続プールid(Map_persistent_bin_id))プロシージ
ャー162を用いて継続的プール識別子のマッピング方法を提供する。この方法に おいて、プール識別子は、古いデーダベースの古いプールのセットから新しいベ
ータベスの新しいプールのセットへマッピングされる。この方法はプールを生成
させた処理とは独立である。この方法を用いると、図6の多数の処理工程を通し
てプール識別子を追跡する必要がなく、解釈可能な圧縮形態で処理履歴を生成お
よび圧縮する必要がない。
きである。継続的プール識別子は、データベースの新しいバージョン中のどのプ
ールがデータベースのより古いバージョンのどのプールと実質的に同じであるか
を決定することにより、プール識別子の固有性を遡及的に監視することを必然的
に伴っている。図9はマップ継続プールid(Map_persistent_bin_id))プロシージ
ャー162を用いて継続的プール識別子のマッピング方法を提供する。この方法に おいて、プール識別子は、古いデーダベースの古いプールのセットから新しいベ
ータベスの新しいプールのセットへマッピングされる。この方法はプールを生成
させた処理とは独立である。この方法を用いると、図6の多数の処理工程を通し
てプール識別子を追跡する必要がなく、解釈可能な圧縮形態で処理履歴を生成お
よび圧縮する必要がない。
【0040】 工程322において、プールの全ての対に関して、古いデータベースから一つの プールと新しいデータベースから一つのプールを有し、フォワードスコアおよび
リバーススコアを含む二面性スコアが以下のように決定される: フォワードスコア=#プール対中の古いプールと新しいプール間に共通のEST 古いプールセットから新しいプール中へ受継がれたESTの総# リバーススコア=#プール対中の古いプールと新しいプール間に共通のEST 古いプール中の受継ぎ可能なESTの総# 各プール対について、フォワードスコアおよびリバーススコアはいずれも同じ
分子を有している。フォワードスコアの分母は新しいプール中の受け継がれたES
Tの総数である。言い換えると、古いプールセット中に存在していた、新しいプ ールセット中のESTの総数である。リバーススコアの分母は古いプール中のESTの
総数である。
リバーススコアを含む二面性スコアが以下のように決定される: フォワードスコア=#プール対中の古いプールと新しいプール間に共通のEST 古いプールセットから新しいプール中へ受継がれたESTの総# リバーススコア=#プール対中の古いプールと新しいプール間に共通のEST 古いプール中の受継ぎ可能なESTの総# 各プール対について、フォワードスコアおよびリバーススコアはいずれも同じ
分子を有している。フォワードスコアの分母は新しいプール中の受け継がれたES
Tの総数である。言い換えると、古いプールセット中に存在していた、新しいプ ールセット中のESTの総数である。リバーススコアの分母は古いプール中のESTの
総数である。
【0041】 工程324において、各々の新しいプールに関して、(90%のように)所定のリ バーススコア閾値以上の全てのリバーススコアが同定され、潜在的に受け継ぎ可
能なプール識別子のサブセットが同定され、全てのフォワードスコアが等級付け
られる。 工程326において、それぞれの新しいプールについて、新しいプール識別子は 、最も高いフォワードスコアを有する潜在的に受け継ぎ可能なプール識別子のサ
ブセット中の古いプール識別子へマッピングされる。図10において、データベ
ース中の表328は古い識別子の新しい識別子へのマッピングを保存している。
能なプール識別子のサブセットが同定され、全てのフォワードスコアが等級付け
られる。 工程326において、それぞれの新しいプールについて、新しいプール識別子は 、最も高いフォワードスコアを有する潜在的に受け継ぎ可能なプール識別子のサ
ブセット中の古いプール識別子へマッピングされる。図10において、データベ
ース中の表328は古い識別子の新しい識別子へのマッピングを保存している。
【0042】 遺伝子プールの初期セットを埋める別の方法 図11は図6の工程224の遺伝子プールの初期セットを埋める別の実施態様のフ ローチャートである。工程332において、各EST配列は、それぞれのESTが共通配 列となるようにそれぞれのプール中に置かれる。工程334において、プールの共 通配列が比較され、そのプール間の関係が、もしあるならば、決定される。図11
の工程334は図6の工程232と同じである。工程336において、プールはこの共通 配列の関係に基づいて結合される。図11の工程336は図6の工程234と同じである 。
の工程334は図6の工程232と同じである。工程336において、プールはこの共通 配列の関係に基づいて結合される。図11の工程336は図6の工程234と同じである 。
【0043】 種間遺伝子リンク 遺伝子プールセットはヒト配列データについてのみアッセンブルできるだけで
なく、他の生物種についても可能である。これらの遺伝子プールにおいて、同じ
遺伝子は複数の種にわたって現れることがある。アッセンブリ過程によって一緒
にグループ化される、与えられた種についてのライブラリに捕らえられるほど充
分に共通な遺伝子は、1以上の遺伝子プールからの1以上の共通配列によって代表
されるデータベース中に配列レベルで現れるであろう。 多数の生物からのプールを結合させてそれらが同じ遺伝子を表すことを示すた
め、図12の工程338では各々の種からのアッセンブルされたプールの共通配列 がBLASTを用いて比較される。工程340において、所定の閾値を越えた比較結果に
ついて、第1の種識別子、第1の種遺伝子プール識別子、最初の種共通配列識別 子、および第2の種遺伝子プール識別子をもつ第2の種識別子、第2の種共通配列 がデータベース中の表に保存され種間の共通遺伝子の相互参照を提供する。
なく、他の生物種についても可能である。これらの遺伝子プールにおいて、同じ
遺伝子は複数の種にわたって現れることがある。アッセンブリ過程によって一緒
にグループ化される、与えられた種についてのライブラリに捕らえられるほど充
分に共通な遺伝子は、1以上の遺伝子プールからの1以上の共通配列によって代表
されるデータベース中に配列レベルで現れるであろう。 多数の生物からのプールを結合させてそれらが同じ遺伝子を表すことを示すた
め、図12の工程338では各々の種からのアッセンブルされたプールの共通配列 がBLASTを用いて比較される。工程340において、所定の閾値を越えた比較結果に
ついて、第1の種識別子、第1の種遺伝子プール識別子、最初の種共通配列識別 子、および第2の種遺伝子プール識別子をもつ第2の種識別子、第2の種共通配列 がデータベース中の表に保存され種間の共通遺伝子の相互参照を提供する。
【0044】 類似性境界ファインダ 類似性境界ファインダの目的は、入力配列間の類似性の領域及びユニークな領
域についての情報を識別及び抽出することである。類似性領域は、少なくとも一
度、2以上の入力配列において生じる、又は少なくとも二度、単一の入力配列に
おいて生じるパターンである。セグメントとは、類似性領域であるか、又は、異
なる入力配列からのパターン間の相違が生物学的に重要でないとみなされる場合
にそのように称される。入力配列は、少なくとも1つのセグメント、典型的には
多くのセグメントを有する。
域についての情報を識別及び抽出することである。類似性領域は、少なくとも一
度、2以上の入力配列において生じる、又は少なくとも二度、単一の入力配列に
おいて生じるパターンである。セグメントとは、類似性領域であるか、又は、異
なる入力配列からのパターン間の相違が生物学的に重要でないとみなされる場合
にそのように称される。入力配列は、少なくとも1つのセグメント、典型的には
多くのセグメントを有する。
【0045】 図13に、類似性境界ファインダ94(図4B)により使用される入力配列174に わたる保存領域を決定する一般的方法のフローチャートを示す。工程352では、 初期対整列基準が設定される。対整列手段がクロスマッチ(Cross match)である ので、その基準は、類似性の相同配列又は領域が識別されるスコア閾値及び最短
の長さを含む。工程354では、対整列データ176(図4B)が、クロスマッチを用
いて入力配列の対の全てについて生成される。工程356では、対整列データに基 づき、整列配列部分の境界が同定される。全ての整列配列部分の全ての境界が、
全ての決定した境界を先に決定した整列配列部分に繰り返し適用することにより
決定される。工程358では、入力配列あたりの境界の平均数を測定する。工程360
では、境界の平均数が所定の閾値より高いか等しい場合、その処理は工程362に 進む。工程362では、対整列基準が修正され、対整列についての要求が、整列配 列部分の数が減少するように増大され、その処理が工程354で繰り返される。平 均値が所定の閾値より低い場合、工程364は、整列配列部分と共に入力配列及び 境界を表示する。ある実施態様では、ユーザーは、平均と比較されるべき配列数
の所定の閾値をセットする。
の長さを含む。工程354では、対整列データ176(図4B)が、クロスマッチを用
いて入力配列の対の全てについて生成される。工程356では、対整列データに基 づき、整列配列部分の境界が同定される。全ての整列配列部分の全ての境界が、
全ての決定した境界を先に決定した整列配列部分に繰り返し適用することにより
決定される。工程358では、入力配列あたりの境界の平均数を測定する。工程360
では、境界の平均数が所定の閾値より高いか等しい場合、その処理は工程362に 進む。工程362では、対整列基準が修正され、対整列についての要求が、整列配 列部分の数が減少するように増大され、その処理が工程354で繰り返される。平 均値が所定の閾値より低い場合、工程364は、整列配列部分と共に入力配列及び 境界を表示する。ある実施態様では、ユーザーは、平均と比較されるべき配列数
の所定の閾値をセットする。
【0046】 図14は、図13の類似性境界ファインダの一般方法の別の態様である。図14は、
その対整列データが一度のみもたらされる点で図13と異なる。図13のように、工
程352では対整列基準が設定される;及び工程354では入力配列の対について対整
列データがもたらされる。この点で、別の態様である図14は図13に示されるもの
と異なる。工程365では、対整列データは、短いセグメントを生成する可能性に 従ってオーダリングされる。対整列は、関与する配列の整列領域が他の対整列に
含まれる程度に従って、短いセグメントを生じさせる傾向があると考えられる。
また、同じ2つの配列を包含し、かつ、整列領域の大部分又は全範囲を含む他の
対整列が存在する場合、その可能性が特に高いとされる。
その対整列データが一度のみもたらされる点で図13と異なる。図13のように、工
程352では対整列基準が設定される;及び工程354では入力配列の対について対整
列データがもたらされる。この点で、別の態様である図14は図13に示されるもの
と異なる。工程365では、対整列データは、短いセグメントを生成する可能性に 従ってオーダリングされる。対整列は、関与する配列の整列領域が他の対整列に
含まれる程度に従って、短いセグメントを生じさせる傾向があると考えられる。
また、同じ2つの配列を包含し、かつ、整列領域の大部分又は全範囲を含む他の
対整列が存在する場合、その可能性が特に高いとされる。
【0047】 工程367では、それまでに処理された対整列データに含まれる、順序づけられ た対整列データに基づいて、整列配列部分の境界が決定され、全ての共有(share
d)配列部分の全ての境界が、決定された全ての境界を整列配列部分に繰り返し適
用することにより決定される。 工程368では、入力配列における境界間の平均距離が決定される。工程369では
、その平均値が所定の閾値より高いか等しい場合、および、さらに処理すべき対
整列が存在する場合、この処理は工程370に進み、次の対整列を得、その処理を 工程367で繰り返す。境界間の平均距離が所定の閾値より低い場合、及び処理す べき対整列がもはや存在しない場合、工程364において、入力配列がそれらの境 界と共に表示される。
d)配列部分の全ての境界が、決定された全ての境界を整列配列部分に繰り返し適
用することにより決定される。 工程368では、入力配列における境界間の平均距離が決定される。工程369では
、その平均値が所定の閾値より高いか等しい場合、および、さらに処理すべき対
整列が存在する場合、この処理は工程370に進み、次の対整列を得、その処理を 工程367で繰り返す。境界間の平均距離が所定の閾値より低い場合、及び処理す べき対整列がもはや存在しない場合、工程364において、入力配列がそれらの境 界と共に表示される。
【0048】 工程364は、図13と図14で同一である。その実施態様に依存して、入力配列を それらの境界と共に表示するために、図4BのID類似領域プロシージャー(id si
milar regions procedure)166は、図13の工程352-362又は図13の工程352、354、
365-370のいずれかを実施する。図4の結果表示プロシージャー(display con se
quence procedure)168及びセグメントマップ表示プロシージャー(display segme
nt map procedure)170が、図13及び14の工程364を実施する。 図15に、3つの典型的な配列を示す−配列1、配列2及び配列3。配列1及び
2は、境界1及び境界2の境界で類似性の第1の領域を有する。配列2及び配列
3は、境界3及び境界4の境界で類似性の第2の領域を有する。境界3は類似性
も第1の領域の中間部に位置するので、本発明では、境界3を配列1に適用し、
それにより、類似性の第1の領域を2つの部分に分割する。境界2は、類似性の
第2の領域の中間部に位置するので、境界2を配列3に適用して、類似性の第2
の領域を2つの部分に分割する。
milar regions procedure)166は、図13の工程352-362又は図13の工程352、354、
365-370のいずれかを実施する。図4の結果表示プロシージャー(display con se
quence procedure)168及びセグメントマップ表示プロシージャー(display segme
nt map procedure)170が、図13及び14の工程364を実施する。 図15に、3つの典型的な配列を示す−配列1、配列2及び配列3。配列1及び
2は、境界1及び境界2の境界で類似性の第1の領域を有する。配列2及び配列
3は、境界3及び境界4の境界で類似性の第2の領域を有する。境界3は類似性
も第1の領域の中間部に位置するので、本発明では、境界3を配列1に適用し、
それにより、類似性の第1の領域を2つの部分に分割する。境界2は、類似性の
第2の領域の中間部に位置するので、境界2を配列3に適用して、類似性の第2
の領域を2つの部分に分割する。
【0049】 図16A及び16Bは、図13の方法のより詳細なフローチャートである。工程372 では、入力配列が受け取られる。好ましくは、入力配列は、ESTアッセンブルの 共通配列である。あるいは、他の配列、例えばゲノム配列データを受け取ること
もできる。入力配列について、アッセンブリ深さ、ベースコール質スコア(base
call quality score)、及び組織又は病状分類等の補助的データを受け取ること もできる。工程374では、上述したように、初期対整列基準が設定される。工程3
76では、入力配列間の対整列が決定される。加えて、入力配列とそれらの逆方向
相補鎖配列との間の対整列が同定される。工程378では、各対整列について、各 配列の整列の境界、整列における全ての挿入及び削除位置及び各配列の方向が同
定される。工程380では、対整列が大きなギャップで分割される。大きなギャッ プとは、対整列において所定の閾値ギャップ長さを越えるギャップである。ユー
ザーは、所定のギャップ長を設定することができる。各々の大きなギャップにつ
いて、対整列を、大きなギャップで細分して、2つの新たなより短い対整列を形
成する。ギャップの端が境界である。工程382では、整列が主としてそれらの逆 方向相補鎖配列であるような配列を、それらの逆相補鎖配列で置換する。この工
程を行って、表示を単純化する。工程384では、対整列データに基づいて、整列 配列部分の境界が同定される。配列間の全ての類似性領域の全ての境界は、全て
の識別された境界を全ての整列配列部分に繰り返し適用することにより決定され
る。工程358、360及び362は、上述したように同一であり、その記載は省略する 。
もできる。入力配列について、アッセンブリ深さ、ベースコール質スコア(base
call quality score)、及び組織又は病状分類等の補助的データを受け取ること もできる。工程374では、上述したように、初期対整列基準が設定される。工程3
76では、入力配列間の対整列が決定される。加えて、入力配列とそれらの逆方向
相補鎖配列との間の対整列が同定される。工程378では、各対整列について、各 配列の整列の境界、整列における全ての挿入及び削除位置及び各配列の方向が同
定される。工程380では、対整列が大きなギャップで分割される。大きなギャッ プとは、対整列において所定の閾値ギャップ長さを越えるギャップである。ユー
ザーは、所定のギャップ長を設定することができる。各々の大きなギャップにつ
いて、対整列を、大きなギャップで細分して、2つの新たなより短い対整列を形
成する。ギャップの端が境界である。工程382では、整列が主としてそれらの逆 方向相補鎖配列であるような配列を、それらの逆相補鎖配列で置換する。この工
程を行って、表示を単純化する。工程384では、対整列データに基づいて、整列 配列部分の境界が同定される。配列間の全ての類似性領域の全ての境界は、全て
の識別された境界を全ての整列配列部分に繰り返し適用することにより決定され
る。工程358、360及び362は、上述したように同一であり、その記載は省略する 。
【0050】 工程360の後、工程390において、対整列データ及び境界に基づいて、セグメン
ト例が同定される。セグメント例は、隣接する類似性境界対の間の配列領域であ
る。工程392では、類似セグメント例(例えば異なる入力配列からのもの)が、 セグメントグループにクラスタリングされる。 工程394では、セグメント例は、セグメントグループに多重整列される。ある 実施態様では、ツリー(tree)法に従った整列が使用されるが、但し、2つの多重
整列の整列において、その指針としてプロフィールを用いる代わりに、各多重整
列からのセグメントを有する、生成された対整列の1つにより特定されるギャッ
ピングが使用される。ツリーの構造は、配列対整列の順序づけにより決定される
。セグメント例は、各対配列について、整列中に含まれる2つのセグメント例を
含むツリーの対を併合することにより繰り返しクラスタリングされて2分木にさ
れる。対整列は、2つの整列領域の長さの合計が増大する順序で処理される。な
ぜなら、そのような順序づけは、非類似のセグメントより類似のセグメントを結
合する傾向にあるとされるからである。しかしながら、他のオーダリングを用い
てもよい。対整列は、その2つの整列セグメント例が既に同一ツリーに存在する
場合には無視される。この方法により得られる多重整列は最適なものではないか
もしれないが、この方法は、それが、新たな対整列の計算を必要としないために
速いものである。
ト例が同定される。セグメント例は、隣接する類似性境界対の間の配列領域であ
る。工程392では、類似セグメント例(例えば異なる入力配列からのもの)が、 セグメントグループにクラスタリングされる。 工程394では、セグメント例は、セグメントグループに多重整列される。ある 実施態様では、ツリー(tree)法に従った整列が使用されるが、但し、2つの多重
整列の整列において、その指針としてプロフィールを用いる代わりに、各多重整
列からのセグメントを有する、生成された対整列の1つにより特定されるギャッ
ピングが使用される。ツリーの構造は、配列対整列の順序づけにより決定される
。セグメント例は、各対配列について、整列中に含まれる2つのセグメント例を
含むツリーの対を併合することにより繰り返しクラスタリングされて2分木にさ
れる。対整列は、2つの整列領域の長さの合計が増大する順序で処理される。な
ぜなら、そのような順序づけは、非類似のセグメントより類似のセグメントを結
合する傾向にあるとされるからである。しかしながら、他のオーダリングを用い
てもよい。対整列は、その2つの整列セグメント例が既に同一ツリーに存在する
場合には無視される。この方法により得られる多重整列は最適なものではないか
もしれないが、この方法は、それが、新たな対整列の計算を必要としないために
速いものである。
【0051】 工程396では、各セグメントグループについての共通配列を、多重整列におけ る各位置について、そのベースコールのうちから最も高い質スコアを有するベー
スコールをセグメント例における対応位置に選択することにより決定する。ギャ
ップ質スコア(gap quality score)は、ギャップ端の2つの塩基の平均スコアに 等しくなるように割り当てられる。結びめ(ties)は、最の高い質スコアにおいて
最多数のセグメント例に生じるベースコールを選択することにより解決される。
依然として結びめが存在する場合には、非アンビギュアス (unambiguous)ベース
コールがギャップの変わりに選択され、ギャップはアンビギュアスベースコール
にわたって選択される。非アンビギュアスベースコール間に依然として結びめが
存在する場合、共通セグメントにおけるその位置へ“N”を割り当る。共通配列
における各位置について、質スコアは、その位置でセグメント例の間の最高スコ
アとして定義される。アッセンブリの深さ及び組織カウントは、セグメント例に
ついて等価な量の合計である。
スコールをセグメント例における対応位置に選択することにより決定する。ギャ
ップ質スコア(gap quality score)は、ギャップ端の2つの塩基の平均スコアに 等しくなるように割り当てられる。結びめ(ties)は、最の高い質スコアにおいて
最多数のセグメント例に生じるベースコールを選択することにより解決される。
依然として結びめが存在する場合には、非アンビギュアス (unambiguous)ベース
コールがギャップの変わりに選択され、ギャップはアンビギュアスベースコール
にわたって選択される。非アンビギュアスベースコール間に依然として結びめが
存在する場合、共通セグメントにおけるその位置へ“N”を割り当る。共通配列
における各位置について、質スコアは、その位置でセグメント例の間の最高スコ
アとして定義される。アッセンブリの深さ及び組織カウントは、セグメント例に
ついて等価な量の合計である。
【0052】 工程398では、セグメントグループ間の結合が同定される。結合は、2つのセ グメント例、各グループからの1つが任意の配列において隣接するときに起こる
。工程400では、核酸入力配列及びそれらの共通配列について、スプライス結合 配列らしきものが同定される。工程402では、入力配列がその境界と共に表示さ れる。 図17は、図16A及び16Bの工程386の受け取られた入力配列間の多重配列により セグメントを識別及び決定する方法の詳細なフローチャートである。工程422で は、各配列について、境界リスト178(図4B)が形成され、そのリストは配列 の左及び右端点で埋められる(populate)。工程424では、その配列を含む全ての 対整列の左及び右端点をその配列境界リストに加える。等価境界リスト180(図 4B)は、入力配列間の対整列の等境界を関連付ける。工程426では、処理すべ き境界のキューが生成される。最初は、そのキューは、上述の配列及び整列端点
の全てを含む。キューは他のリストとして実装されてもよい。工程428では、そ のキューにおける各境界について、対応する配列における境界位置にまたがる全
ての対整列のスパニング(spanning)リストをもたらす。工程430では、スパニン グリストにおける各対整列について、境界リストがこの位置で境界を既に含んで
いない場合にその対整列に関連した入力配列の境界リストへその境界を加えるこ
とによって対整列が細分化され、この境界は処理のためキューに加えられる。
。工程400では、核酸入力配列及びそれらの共通配列について、スプライス結合 配列らしきものが同定される。工程402では、入力配列がその境界と共に表示さ れる。 図17は、図16A及び16Bの工程386の受け取られた入力配列間の多重配列により セグメントを識別及び決定する方法の詳細なフローチャートである。工程422で は、各配列について、境界リスト178(図4B)が形成され、そのリストは配列 の左及び右端点で埋められる(populate)。工程424では、その配列を含む全ての 対整列の左及び右端点をその配列境界リストに加える。等価境界リスト180(図 4B)は、入力配列間の対整列の等境界を関連付ける。工程426では、処理すべ き境界のキューが生成される。最初は、そのキューは、上述の配列及び整列端点
の全てを含む。キューは他のリストとして実装されてもよい。工程428では、そ のキューにおける各境界について、対応する配列における境界位置にまたがる全
ての対整列のスパニング(spanning)リストをもたらす。工程430では、スパニン グリストにおける各対整列について、境界リストがこの位置で境界を既に含んで
いない場合にその対整列に関連した入力配列の境界リストへその境界を加えるこ
とによって対整列が細分化され、この境界は処理のためキューに加えられる。
【0053】 図18は、図15の例示的配列、整列及び境界を表した、図17の方法で使用される
データ構造を示す。最初、各配列は、出発点S1、S2及びS3、並びに終点E
1、E2及びE3のそれぞれを有する境界リストを有している。各初期境界リス
トは、また、対整列データからの境界を有する。図18では、境界は、“Bx”(
ここで、xは境界ナンバーを意味する)として固有的に示されている。配列1及
び2の境界B1及びB2が整列される。実際には、境界B1は、配列1中で配列
2における境界B1(例えば70)とは異なる位置(例えば50)で最も生じや
すいであろう。しかしながら、単純性のために、両境界をB1として示す。配列
2及び3の境界B3及びB4もまた整列される。図15について、図15の境界1、
2、3及び4は、図18のB1、B2、B3及びB4と同一である。 図18では、他のデータ構造(例えばリスト)が、配列間の等価境界(配列1の
B1及び配列2のB1等)を関連付けするために使用される。 各配列についての境界リストは、上記図13、14及び17の方法を適用した後に示
される。境界B3は、配列1についてのリストに加えられ、境界B2は配列3に
ついてのリストに加えられていることに注意されたい。 他のリスト、例えば境界位置にわたって広がる対整列のリスト等もまた使用さ
れる。
データ構造を示す。最初、各配列は、出発点S1、S2及びS3、並びに終点E
1、E2及びE3のそれぞれを有する境界リストを有している。各初期境界リス
トは、また、対整列データからの境界を有する。図18では、境界は、“Bx”(
ここで、xは境界ナンバーを意味する)として固有的に示されている。配列1及
び2の境界B1及びB2が整列される。実際には、境界B1は、配列1中で配列
2における境界B1(例えば70)とは異なる位置(例えば50)で最も生じや
すいであろう。しかしながら、単純性のために、両境界をB1として示す。配列
2及び3の境界B3及びB4もまた整列される。図15について、図15の境界1、
2、3及び4は、図18のB1、B2、B3及びB4と同一である。 図18では、他のデータ構造(例えばリスト)が、配列間の等価境界(配列1の
B1及び配列2のB1等)を関連付けするために使用される。 各配列についての境界リストは、上記図13、14及び17の方法を適用した後に示
される。境界B3は、配列1についてのリストに加えられ、境界B2は配列3に
ついてのリストに加えられていることに注意されたい。 他のリスト、例えば境界位置にわたって広がる対整列のリスト等もまた使用さ
れる。
【0054】 図19に、入力配列及びそれらのセグメントが示されている。具体例としての
表示440は、整列させた共通セグメント443と共に入力配列AA、BB.c、CCを
表示する上方の部分442を有する。その共通セグメントの全てを含む一つの入
力配列は、水平方向に一直線上に示されている。簡単のため、セグメントに番号
を付けた。実際には、類似する各セグメントはそれぞれ独自の色を有している。
入力配列BB.cは、拡張子“.c”で示される逆方向相補鎖である。 各入力配列のうち類似する塩基対の数に基づいて、より類似している配列の対
を、類似していない対よりも近くに置く順序で入力配列の行が表示される。 セグメント間の線444は結合を示す。結合は、セグメントが接する終点に描
かれている。一つの配列とその逆方向相補鎖の領域間の整列を図形“X”で表示
した。
表示440は、整列させた共通セグメント443と共に入力配列AA、BB.c、CCを
表示する上方の部分442を有する。その共通セグメントの全てを含む一つの入
力配列は、水平方向に一直線上に示されている。簡単のため、セグメントに番号
を付けた。実際には、類似する各セグメントはそれぞれ独自の色を有している。
入力配列BB.cは、拡張子“.c”で示される逆方向相補鎖である。 各入力配列のうち類似する塩基対の数に基づいて、より類似している配列の対
を、類似していない対よりも近くに置く順序で入力配列の行が表示される。 セグメント間の線444は結合を示す。結合は、セグメントが接する終点に描
かれている。一つの配列とその逆方向相補鎖の領域間の整列を図形“X”で表示
した。
【0055】 下方の表示444において、セグメントグラフは整列セグメント間の関係を示
す。セグメントは1〜14まで番号付けられ、各セグメントが一度に示されてい
る。ここでも、線はセグメント間の結合を示す。入力配列AAはセグメント6を
含む一方、セグメント5とセグメント7とを結ぶ曲線により示されるように入力
配列BB.cはセグメント6を含まないので、セグメント6は、おそらく選択的
スプライシングされたエクソンであることに留意されたい。セグメントグラフの
セグメントはまた、上方の表示中の入力配列のセグメントについて垂直方向に整
列されている。セグメント8及びセグメント9は反復配列である。本発明の方法
は、一の入力配列内及び2以上の入力配列間のいずれにおいても識別される反復
配列を生じる。 好ましい態様において、入力配列は遺伝子プール由来の共通配列である。
す。セグメントは1〜14まで番号付けられ、各セグメントが一度に示されてい
る。ここでも、線はセグメント間の結合を示す。入力配列AAはセグメント6を
含む一方、セグメント5とセグメント7とを結ぶ曲線により示されるように入力
配列BB.cはセグメント6を含まないので、セグメント6は、おそらく選択的
スプライシングされたエクソンであることに留意されたい。セグメントグラフの
セグメントはまた、上方の表示中の入力配列のセグメントについて垂直方向に整
列されている。セグメント8及びセグメント9は反復配列である。本発明の方法
は、一の入力配列内及び2以上の入力配列間のいずれにおいても識別される反復
配列を生じる。 好ましい態様において、入力配列は遺伝子プール由来の共通配列である。
【0056】 図20A及び20Bは、入力配列間でスプライス変異体を識別するための、図
19の入力配列及びセグメントグラフを表示する方法のフローチャートである。
ステップ452において、入力又は共通配列及びそれらのセグメントが受け取ら
れる。ステップ454において、セグメントグループ内のセグメント例を同じ水
平位置を共有するサブセットへクラスタリングすることによって、表示中のセグ
メントの相対的な水平方向順序づけが決定される。ステップ456において、非
環式指向グラフ182(図4B)を使用してセグメント例の相対的な水平方向順
序を表す。非環式指向グラフの頂点はセグメントサブセットを表し、端はセグメ
ントサブセットの水平方向の隣接位置を示す。ここで端方向は、2つのサブセッ
トセグメントの左−右オーダリングにより書き取られる。非環式指向グラフは、
非接続指向パスのセットとして初期化され、各パスは一つの入力配列内でのセグ
メント例のオーダリングを表す。
19の入力配列及びセグメントグラフを表示する方法のフローチャートである。
ステップ452において、入力又は共通配列及びそれらのセグメントが受け取ら
れる。ステップ454において、セグメントグループ内のセグメント例を同じ水
平位置を共有するサブセットへクラスタリングすることによって、表示中のセグ
メントの相対的な水平方向順序づけが決定される。ステップ456において、非
環式指向グラフ182(図4B)を使用してセグメント例の相対的な水平方向順
序を表す。非環式指向グラフの頂点はセグメントサブセットを表し、端はセグメ
ントサブセットの水平方向の隣接位置を示す。ここで端方向は、2つのサブセッ
トセグメントの左−右オーダリングにより書き取られる。非環式指向グラフは、
非接続指向パスのセットとして初期化され、各パスは一つの入力配列内でのセグ
メント例のオーダリングを表す。
【0057】 ステップ458において、類似セグメント例の全ての対のリストが生成され、
そのリストがソートされる。リストは、まず各対の入力配列長さで降順にソート
され、次に該対が同じ配向を有するかによりソートされ、さらに各対応する入力
配列内での2つのセグメント例の平均位置で昇順にソートされる。 ステップ460において、ソートされたリスト中の各セグメント例の対につい
て、リストの最初から始めて、対におけるセグメント例がセグメントの異なるサ
ブセットに属する場合には、2つのセグメントが属するサブセットを併合するよ
う試みられる。換言すれば、併合が行なわれるとき、非環式指向グラフにおいて
2つのサブセットに対応する2つの頂点を識別し、併合することで、対応するグ
ラフの頂点が併合されるときに非環式指向グラフに環が加えられないならばサブ
セットを併合する。
そのリストがソートされる。リストは、まず各対の入力配列長さで降順にソート
され、次に該対が同じ配向を有するかによりソートされ、さらに各対応する入力
配列内での2つのセグメント例の平均位置で昇順にソートされる。 ステップ460において、ソートされたリスト中の各セグメント例の対につい
て、リストの最初から始めて、対におけるセグメント例がセグメントの異なるサ
ブセットに属する場合には、2つのセグメントが属するサブセットを併合するよ
う試みられる。換言すれば、併合が行なわれるとき、非環式指向グラフにおいて
2つのサブセットに対応する2つの頂点を識別し、併合することで、対応するグ
ラフの頂点が併合されるときに非環式指向グラフに環が加えられないならばサブ
セットを併合する。
【0058】 ステップ462において、表示におけるセグメントサブセットの絶対位置は、
以下により決定される: (a)全てのセグメントサブセット184(図4B)のトポロジーオーダリング
、即ち、個々の相対的な順序づけに一致するように左から右に並べたサブセット
のリストを生成する; (b)各々がそのルートから左方向に延長する接続セグメントサブセットの指向
ツリー(directed tree)を生成する; (c)トポロジーオーダリングから最も左のセグメントサブセットを除去して新
しい指向ツリーのルートを形成する; (i)各セグメントサブセットについて、トポロジーオーダリングにおいて左
から右へ、もし、その左端がそのツリーにおいて既にセグメントサブセットの右
端への結合を有する場合には、それをトポロジーオーダリングから除去してそれ
を新しいツリーに加え、それを最も右の端を有する左のサブセットの子ノードと
し、その左端をその親の右端の右から特定の最小分離距離に位置決めする; 及び (ii)前に生成されたツリーの全てについて、このツリーにおいてセグメント
サブセットの右端と前のツリーにおけるセグメントサブセットの左端との間に結
合がある場合には、このツリーを前のツリーに対して、このような全ての結合に
含まれるセグメントサブセットが少なくとも最小分離距離だけ分離され、且つ、
少なくともこのような一つの結合に含まれるセグメントサブセットが正確にその
最小分離距離だけ分離されるように位置決めする;及び (d)トポロジーオーダリングにサブセットが残らなくなるまで、トポロジーオ
ーダリングにある最も左のサブセットを除去して別の新しい指向ツリーのルート
を形成し、この新しい指向ツリーについてステップ(c)(i)及び(c)(ii
)を繰り返す。
以下により決定される: (a)全てのセグメントサブセット184(図4B)のトポロジーオーダリング
、即ち、個々の相対的な順序づけに一致するように左から右に並べたサブセット
のリストを生成する; (b)各々がそのルートから左方向に延長する接続セグメントサブセットの指向
ツリー(directed tree)を生成する; (c)トポロジーオーダリングから最も左のセグメントサブセットを除去して新
しい指向ツリーのルートを形成する; (i)各セグメントサブセットについて、トポロジーオーダリングにおいて左
から右へ、もし、その左端がそのツリーにおいて既にセグメントサブセットの右
端への結合を有する場合には、それをトポロジーオーダリングから除去してそれ
を新しいツリーに加え、それを最も右の端を有する左のサブセットの子ノードと
し、その左端をその親の右端の右から特定の最小分離距離に位置決めする; 及び (ii)前に生成されたツリーの全てについて、このツリーにおいてセグメント
サブセットの右端と前のツリーにおけるセグメントサブセットの左端との間に結
合がある場合には、このツリーを前のツリーに対して、このような全ての結合に
含まれるセグメントサブセットが少なくとも最小分離距離だけ分離され、且つ、
少なくともこのような一つの結合に含まれるセグメントサブセットが正確にその
最小分離距離だけ分離されるように位置決めする;及び (d)トポロジーオーダリングにサブセットが残らなくなるまで、トポロジーオ
ーダリングにある最も左のサブセットを除去して別の新しい指向ツリーのルート
を形成し、この新しい指向ツリーについてステップ(c)(i)及び(c)(ii
)を繰り返す。
【0059】 上述のツリーの相対的な位置決めにより、接続セグメントサブセットの一以上
のクラスターが規定される。各クラスター内のセグメントサブセットは、それら
の結合部を介して接続したグラフを形成し、異なるクラスターにおけるセグメン
トサブセットは互いに左から右への結合部を有しない。そのようなすべてのクラ
スターは、各クラスターにおける最も左のセグメントサブセットの左端がゼロの
位置になるように並べられる。 ステップ464において、入力配列は垂直的に次によって並べられる: 各入力配列対の間の全ての対整列の全長が減少していく順番にソートされた入
力配列の全ての対の順序づけを行う; 垂直的に順序づけされた入力配列のリストを、以下のとおり、入力配列の対を
順に処理することにより生成する; 各配列が各々の1配列リスト中にあるとして、次に前のステップで生成した順 序中にあるとして開始し、一つの対における2つの入力配列が異なるリストに属
する場合には、一つのリストを他のリストに付加する;及び 最後に、2つ以上のリストがある場合には、そのリストを垂直的に、共通配列
の数が減少する順番に整理する。
のクラスターが規定される。各クラスター内のセグメントサブセットは、それら
の結合部を介して接続したグラフを形成し、異なるクラスターにおけるセグメン
トサブセットは互いに左から右への結合部を有しない。そのようなすべてのクラ
スターは、各クラスターにおける最も左のセグメントサブセットの左端がゼロの
位置になるように並べられる。 ステップ464において、入力配列は垂直的に次によって並べられる: 各入力配列対の間の全ての対整列の全長が減少していく順番にソートされた入
力配列の全ての対の順序づけを行う; 垂直的に順序づけされた入力配列のリストを、以下のとおり、入力配列の対を
順に処理することにより生成する; 各配列が各々の1配列リスト中にあるとして、次に前のステップで生成した順 序中にあるとして開始し、一つの対における2つの入力配列が異なるリストに属
する場合には、一つのリストを他のリストに付加する;及び 最後に、2つ以上のリストがある場合には、そのリストを垂直的に、共通配列
の数が減少する順番に整理する。
【0060】 別の態様において、多数のリストについて、表示するための最も上のリストは
、入力配列の長さに基づいて決定される。 ステップ466において、セグメントグラフにおける共通配列セグメントの垂
直(行)位置を次により決定する; 全てのセグメント例を、対応する配列の長さが減少する順番にソートする; 空行のみを有するセグメントグラフから開始し、ソートリスト中の各セグメン
ト例について、対応するセグメントサブセットがそのグラフに位置を有していな
い場合には、対応する共通配列セグメントを、その共通セグメントがそのセグメ
ントサブセットの水平位置に位置決めされ得、且つその行に既に位置決めされた
全ての他の共通セグメントから少なくとも最小分離距離となり得るようなグラフ
の最上行へ加える。
、入力配列の長さに基づいて決定される。 ステップ466において、セグメントグラフにおける共通配列セグメントの垂
直(行)位置を次により決定する; 全てのセグメント例を、対応する配列の長さが減少する順番にソートする; 空行のみを有するセグメントグラフから開始し、ソートリスト中の各セグメン
ト例について、対応するセグメントサブセットがそのグラフに位置を有していな
い場合には、対応する共通配列セグメントを、その共通セグメントがそのセグメ
ントサブセットの水平位置に位置決めされ得、且つその行に既に位置決めされた
全ての他の共通セグメントから少なくとも最小分離距離となり得るようなグラフ
の最上行へ加える。
【0061】 別の態様において、それが適合し、且つ第一のセグメントサブセットと左から
右への結合部を共有する第二のセグメントサブセットの共通セグメントを含む共
通セグメントが最上行へ加えられる。そのような行が存在しない場合、共通セグ
メントは、それが適合する最上行へ加えられる。 このようにして、類似性境界ファインダーは、対整列の出力を処理して、どん
なに複雑であっても、対整列データの全てと一致するように、保存領域を確実に
識別する。それ故、推定上の変異体、すなわち、推定上の選択的スプライシング
されたエクソン又はエクソンのグループに対応し得るセグメントを表示すること
により遺伝子の選択的スプライシングを決定するのに類似性境界ファインダーを
補助的に使用することができる。 類似性境界ファインダーに対する入力配列は遺伝子プールの共通配列に限定さ
れない。類似性境界ファインダーを使用して、ゲノム及びcDNA配列データを
上述の入力又は共通配列として処理することにより、cDNAに対するゲノムの
整列を決定することができる。類似性境界ファインダーはまた、2つの異なる種
からの配列データを上述の入力又は共通配列として処理することにより、種間ホ
モログを含む相同配列の類似領域を識別するのに使用することができる。
右への結合部を共有する第二のセグメントサブセットの共通セグメントを含む共
通セグメントが最上行へ加えられる。そのような行が存在しない場合、共通セグ
メントは、それが適合する最上行へ加えられる。 このようにして、類似性境界ファインダーは、対整列の出力を処理して、どん
なに複雑であっても、対整列データの全てと一致するように、保存領域を確実に
識別する。それ故、推定上の変異体、すなわち、推定上の選択的スプライシング
されたエクソン又はエクソンのグループに対応し得るセグメントを表示すること
により遺伝子の選択的スプライシングを決定するのに類似性境界ファインダーを
補助的に使用することができる。 類似性境界ファインダーに対する入力配列は遺伝子プールの共通配列に限定さ
れない。類似性境界ファインダーを使用して、ゲノム及びcDNA配列データを
上述の入力又は共通配列として処理することにより、cDNAに対するゲノムの
整列を決定することができる。類似性境界ファインダーはまた、2つの異なる種
からの配列データを上述の入力又は共通配列として処理することにより、種間ホ
モログを含む相同配列の類似領域を識別するのに使用することができる。
【0062】 また、類似性境界ファインダーを使用して、置換、挿入及び欠失を含む単一ヌ
クレオチド多型等の配列多型を決定することができる。これは、整列においてS
NPをギャップとして出現させるためのギャップ開始ペナルティーの大きさの2
倍より大きいミスマッチペナルティーを設定し、及びSNPに個々のシングル塩
基セグメントを形成させるためにセグメント内で最小ギャップ長さをゼロに設定
することにより、クロスマッチ(Cross_match)対整列において置換を許さないよ うにすることにより行うことができる。 類似性境界ファインダーを使用して、共通配列においてセグメント間で組織分
化を決定することもできる。類似及び非類似セグメントは組織カテゴリーと相関
しており、共通の組織カテゴリーを有するサブセットを形成する。各サブセット
は類似及び非類似セグメントの両方を含むことができる。ポリマー配列は図19
に示されるように表示される。セグメントの各サブセットは、発現が一つの組織
カテゴリーに特有のものである領域をセグメントの色が示す様、独自の色で表示
される。
クレオチド多型等の配列多型を決定することができる。これは、整列においてS
NPをギャップとして出現させるためのギャップ開始ペナルティーの大きさの2
倍より大きいミスマッチペナルティーを設定し、及びSNPに個々のシングル塩
基セグメントを形成させるためにセグメント内で最小ギャップ長さをゼロに設定
することにより、クロスマッチ(Cross_match)対整列において置換を許さないよ うにすることにより行うことができる。 類似性境界ファインダーを使用して、共通配列においてセグメント間で組織分
化を決定することもできる。類似及び非類似セグメントは組織カテゴリーと相関
しており、共通の組織カテゴリーを有するサブセットを形成する。各サブセット
は類似及び非類似セグメントの両方を含むことができる。ポリマー配列は図19
に示されるように表示される。セグメントの各サブセットは、発現が一つの組織
カテゴリーに特有のものである領域をセグメントの色が示す様、独自の色で表示
される。
【0063】 別の態様において、組織カテゴリーを相関させ及び識別する代わりに、セグメ
ントは疾病状態と相関しており、各疾病状態は表示上で固有に同定される。 また別の態様において、セグメントは発生段階と相関しており、各発生段階が
表示上で固有的に同定される。 本発明は、沢山の不均一配列から遺伝子を同定する多くの課題を解決する。本
発明により、キメラクローンが除去され、構成人工産物が除去され、繰り返し要
素がマスクされ、近接する相同体が分離され、明らかなスプライス変異を含む遺
伝子プールが併合されて単一遺伝子プールとなり、精度の低い末部が刈り込まれ
る。本発明はまた、スプライス変異体を識別するための遺伝子プールの共通配列
の表示装置を提供する。 本発明を2、3の特定の態様について説明してきたが、その記載は本発明を具
体的に説明するものであって、本発明を限定して解釈すべきではない。添付の請
求の範囲により規定される本発明の真の趣旨及び範囲から離れることなく、当業
者には種々の変更が可能である。
ントは疾病状態と相関しており、各疾病状態は表示上で固有に同定される。 また別の態様において、セグメントは発生段階と相関しており、各発生段階が
表示上で固有的に同定される。 本発明は、沢山の不均一配列から遺伝子を同定する多くの課題を解決する。本
発明により、キメラクローンが除去され、構成人工産物が除去され、繰り返し要
素がマスクされ、近接する相同体が分離され、明らかなスプライス変異を含む遺
伝子プールが併合されて単一遺伝子プールとなり、精度の低い末部が刈り込まれ
る。本発明はまた、スプライス変異体を識別するための遺伝子プールの共通配列
の表示装置を提供する。 本発明を2、3の特定の態様について説明してきたが、その記載は本発明を具
体的に説明するものであって、本発明を限定して解釈すべきではない。添付の請
求の範囲により規定される本発明の真の趣旨及び範囲から離れることなく、当業
者には種々の変更が可能である。
【図1】 遺伝子発現の例である。
【図2】 ESTとmRNA配列及びゲノム配列の関係を示す。
【図3】 従来技術のクラスタリング及びアッセンブリプロセスのフローチャートである
。
。
【図4A】 本発明を使用するクライアント−サーバーシステムの図である。
【図4B】 本発明の例示プロシージャー及びデータを記憶する記憶装置を有するコンピュ
ータシステムの図である。
ータシステムの図である。
【図5A】 単一コンセンサス配列及びESTデータを含む例示遺伝子プールである。
【図5B】 多数の共通配列及びESTデータを含む別の例示遺伝子プールである。
【図6】 本発明の遺伝子プールを生じる方法のフローチャートである。
【図7A】 遺伝子プール中のESTの集団及び集合を示す。
【図7B】 二つの例示遺伝子ビプールの結合を示す。
【図7C】 図7Aの遺伝子プールの分割を示す。
【図8】 アッセンブリ又は再アッセンブリプロセスの前に適用されるフィルターのフロ
ーチャートである。
ーチャートである。
【図9】 新しいESTデータがデータベースに加えられる場合の継続プール識別子のマッ ピングの方法のフローチャートである。
【図10】 図10の方法とともに使用される古い遺伝子プール識別子から新しいビンアイ
デンティファイアーへの遺伝を追跡するのに使用されるテーブルである。
デンティファイアーへの遺伝を追跡するのに使用されるテーブルである。
【図11】 遺伝子プールの初期セットを埋める別の実施態様のフローチャートである。
【図12】 種間遺伝子リンクの同定の方法のフローチャートである。
【図13】 インプット配列にわたる保存領域を決定する一般方法のフローチャートである
。
。
【図14】 図13の方法の別の実施態様である。
【図15】 類似性の領域及び境界を示す三つの配列の図である。
【図16】 図13の方法の更に詳しいフローチャートである。
【図17】 図16の受け取られたインプット配列の中で多重整列を有するセグメントを同
定し、決定する方法の詳細なフローチャートである。
定し、決定する方法の詳細なフローチャートである。
【図18】 図17の方法とともに使用されるデータ構造を示す。
【図19】 多重共通配列の例示的表示及びセグメントグラフである。
【図20A】 共通配列の表示方法のフローチャート及び図19に示された共通配列中のスプ
ライス変異体の同定のためのセグメントグラフである。
ライス変異体の同定のためのセグメントグラフである。
【図20B】 共通配列の表示方法のフローチャート及び図19に示された共通配列中のスプ
ライス変異体の同定のためのセグメントグラフである。
ライス変異体の同定のためのセグメントグラフである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GD,G E,GH,GM,HR,HU,ID,IL,IN,IS ,JP,KE,KG,KP,KR,KZ,LC,LK, LR,LS,LT,LU,LV,MD,MG,MK,M N,MW,MX,NO,NZ,PL,PT,RO,RU ,SD,SE,SG,SI,SK,SL,TJ,TM, TR,TT,UA,UG,UZ,VN,YU,ZA,Z W (72)発明者 ホッジソン ディヴィッド エム アメリカ合衆国 カリフォルニア州 94301 パロ アルト アディッソン ア ベニュー 567 (72)発明者 スピロ ピーター エイ アメリカ合衆国 カリフォルニア州 94306 パロ アルト レッドウッド サ ークル 3776 (72)発明者 ルッソー フランク ディー アメリカ合衆国 カリフォルニア州 94086 サニーヴェイル ローゼット コ ート 939 (72)発明者 エイカーブロム イングリッド イー アメリカ合衆国 カリフォルニア州 94061 レッドウッド シティー ジョン ソン ストリート 1234 (72)発明者 ヒルマン ジェニファー エル アメリカ合衆国 カリフォルニア州 94040 マウンテン ヴィュー モンロウ ドライヴ 230−#17 (72)発明者 ジョーンズ アニッサ リー アメリカ合衆国 カリフォルニア州 94122 サン フランシスコ セヴンティ ーンス アベニュー 1322 (72)発明者 ブレッチャー ショウン ロバート アメリカ合衆国 カリフォルニア州 94040 マウンテン ヴィュー オーテガ アベニュー 550−#ビー321 (72)発明者 コーエン ハワード ジェローム アメリカ合衆国 カリフォルニア州 94306 パロ アルト クーパー ストリ ート 3272 (72)発明者 デュフォアー ジェラード アメリカ合衆国 カリフォルニア州 94552 カストロ ヴァリー グリーンリ ッジ ロード 5327 (72)発明者 ウッド マイケル ピーター アメリカ合衆国 カリフォルニア州 94107 サン フランシスコ ウィスコン シン ストリート 710 (72)発明者 コレッザー アレクサンダー ジョージ アメリカ合衆国 カリフォルニア州 94560 ニューアーク リンコナーダ コ ート 8260 (72)発明者 バンヴィル スティーヴン シー アメリカ合衆国 カリフォルニア州 94306 パロ アルト モンロー ドライ ヴ 365 (72)発明者 ケイス クラウディア オルデン アメリカ合衆国 カリフォルニア州 94070 サン カーロス ベルモント ア ベニュー 2035 Fターム(参考) 4B024 AA20 CA01 CA12 HA20 4B065 BD50 CA60 5B075 ND20 PQ02 PQ13 PR06 PR08 QM08 QT06 UU19
Claims (67)
- 【請求項1】 ポリマー配列をアッセンブルする方法であって、 ポリマー配列を第1の数のプールに配置する工程、 各プール中の前記ポリマー配列を、前記プールのポリマー配列を代表する1つ
以上の共通配列へアッセンブルする工程、 前記プールの共通配列を比較して、前記プールの共通配列間に関係があるかど
うかを決定する工程、 前記プールの共通配列間の関係に基づいて前記プールを修正する工程、及び、 前記修正プール中のポリマー配列をアッセンブルし直して、前記修正プールを
代表する各プールについて1つ以上の修正共通配列を生成する工程、 を含むことを特徴とする方法。 - 【請求項2】 前記修正工程が、前記プールのうちの2つにおける共通配列
が予め定義されたオーバーラップ基準を満たすときに、前記2つのプールを接合
する工程を含む、請求項1に記載の方法。 - 【請求項3】 前記修正工程が、前記プールのうちの1つにおける共通配列
が予め定義された区別基準を満たすときに、前記1つのプールを2つのプールに
分割する工程を含む、請求項1に記載の方法。 - 【請求項4】 更に、前記比較工程、修正工程及び修正プールをアッセンブ
ルし直す工程を繰り返す工程を含む、請求項1に記載の方法。 - 【請求項5】 前記繰り返し工程を予め決められた回数行う、請求項4に記
載の方法。 - 【請求項6】 前記比較工程、修正工程及びアッセンブルし直す工程の各繰
り返しが反復として示され、前記修正プールが修正プールのセットを形成し、前
記繰り返し工程の前に、下記の工程: 前の反復において既に修正されているプールを同定する工程、及び、 前記同定されたプールを前記修正プールのセットから除去する工程、 を行う、請求項4に記載の方法。 - 【請求項7】 前記繰り返し工程を、前記修正プールのセットが空になるま
で行う、請求項6に記載の方法。 - 【請求項8】 更に、下記の工程: 前記アッセンブルし直す工程の前に、フィルターを各プール中の前記ポリマー
配列に適用して、ポリマー配列の代表的サブセットを同定する工程、 を含み、 前記アッセンブルし直す工程で前記ポリマー配列の代表的サブセットをアッセ
ンブルし直して、前記修正共通配列を生成する請求項1に記載の方法。 - 【請求項9】 更に、下記の工程: 前記アッセンブル工程の前に、フィルターを各プール中の前記ポリマー配列に
適用して、ポリマー配列の代表的サブセットを同定する工程、 を含み、 前記アッセンブル工程で前記ポリマー配列の代表的サブセットをアッセンブル
して、前記修正共通配列を生成する請求項1に記載の方法。 - 【請求項10】 前記ポリマー配列が発現配列タグを含み、前記プールが発
現した遺伝子の全部又は一部を代表する遺伝子プールである、請求項1に記載の
方法。 - 【請求項11】 少なくとも1つの遺伝子プールが少なくとも2つの共通配
列を有するとき、前記少なくとも2つの共通配列が前記発現遺伝子の少なくとも
一部のスプライス変異体を代表している、請求項10に記載の方法。 - 【請求項12】 更に、下記の工程: 前記共通配列の少なくとも1つと外部データーベースとの間の1つ以上のホモ
ログを同定する工程、及び、 前記同定した少なくとも1つの共通配列を外部データーベース識別子で注釈を
つける工程、 を含む、請求項1に記載の方法。 - 【請求項13】 前記比較工程及び修正工程が下記の工程: 同一のクローンからの3’及び5’ポリマー配列を有するプールのサブセット
を同定する工程、及び、 前記同定されたプールのサブセットを結合する工程、 を含む、請求項1に記載の方法。 - 【請求項14】 ポリマー配列をアッセンブルする方法であって、 ポリマー配列を第1の数のプールに配置する工程、 各プール中の前記ポリマー配列を、前記プールのポリマー配列を代表する1つ
以上の共通配列へアッセンブルする工程、 前記プールの1つ以上の共通配列間の類似性に基づき、前記プールを結合する
工程、 前記プールの共通配列間の非類似性に基づき、前記プールのうちの1つを2つ
以上の分割プールへ分割する工程、 前記修正プール中のポリマー配列をアッセンブルし直して、前記修正プールを
代表する各プールについて1つ以上の修正共通配列を生成する工程、及び、 前記接合されたプール及び分割されたプールを使用して、前記結合、分割及び
アッセンブルし直す工程を繰り返す工程、 を含むことを特徴とする方法。 - 【請求項15】 更に、下記の工程: 前記アッセンブルし直す工程の前に、フィルターを各プール中の前記ポリマー
配列に適用して、ポリマー配列の代表的サブセットを同定する工程、 を含み、 前記アッセンブルし直す工程で前記ポリマー配列の代表的サブセットを再アッ
センブルし、前記修正共通配列を生成する請求項14に記載の方法。 - 【請求項16】 前記ポリマー配列が発現配列タグを含み、前記プールが発
現した遺伝子の少なくとも一部を代表する遺伝子プールである、請求項14に記
載の方法。 - 【請求項17】 少なくとも1つの遺伝子プールが少なくとも2つの共通配
列を有するとき、前記少なくとも2つの共通配列が前記発現遺伝子の少なくとも
一部の少なくとも2つのスプライス変異体を代表している、請求項14に記載の
方法。 - 【請求項18】 更に、下記の工程: 前記アッセンブル工程の前に、フィルターを各プール中の前記ポリマー配列に
適用して、ポリマー配列の代表的サブセットを同定する工程、 を含み、 前記アッセンブル工程で前記ポリマー配列の代表的サブセットをアッセンブル
して、前記共通配列を生成する請求項14に記載の方法。 - 【請求項19】 生体分子情報を提供するためのコンピュータシステムであ
って、 プロセッサ及び、 下記の命令: ポリマー配列を第1の数のプールに配置する命令、 各プール中の前記ポリマー配列を、前記プールのポリマー配列を代表する1つ
以上の共通配列へアッセンブルする命令、 前記プールの共通配列を比較して、前記プールの共通配列間に関係がある場合
に、それを決定する命令、 前記プールの共通配列間の関係に基づいて前記プールを修正する命令、及び、 前記修正プール中のポリマー配列をアッセンブルし直して、前記修正プールを
代表する各プールについて1つ以上の修正共通配列を生成する命令、 を格納するための、前記プロセッサと結合したメモリー、 を含むことを特徴とするコンピュータシステム。 - 【請求項20】 前記修正命令が、下記の命令: 前記プールのうちの2つにおける共通配列が予め定義されたオーバーラップ基
準を満たすときに、前記2つのプールを結合する命令、 を含む、請求項19に記載のコンピュータシステム。 - 【請求項21】 前記修正命令が、下記の命令: 前記プールのうちの1つにおける共通配列が予め定義された区別基準を満たす
ときに、前記1つのプールを2つのプールに分割する命令、 を含む、請求項19に記載のコンピュータシステム。 - 【請求項22】 更に、下記の命令: 前記比較命令、修正命令及び前記修正プールをアッセンブルし直す命令を繰り
返す命令、 を含む、請求項19に記載のコンピュータシステム。 - 【請求項23】 前記比較命令、修正命令及びアッセンブルし直す命令を予
め決められた回数繰り返す、請求項22に記載のコンピュータシステム。 - 【請求項24】 前記比較命令、修正命令及びアッセンブルし直す命令の各
繰り返しが反復として示され、前記修正プールが修正プールのセットを形成し、
前記繰り返し命令の前に、更に下記の命令: 先の反復において既に修正されているプールを同定する命令、及び、 前記同定プールを前記修正プールのセットから除去する命令、 を含んでいる、請求項22に記載のコンピュータシステム。 - 【請求項25】 ポリマー配列をアッセンブルするためのコンピュータプロ
グラム製品であって、 前記コンピュータプログラム製品はコンピュータシステムと共に使用されるも
のであり、 前記コンピュータプログラム製品はコンピュータ読み取り可能な記憶媒体及び
そこに埋め込まれたコンピュータプログラムメカニズムを含み、 前記コンピュータプログラムメカニズムが、下記の命令: ポリマー配列を第1の数のプールに配置する第1の命令セット、 前記プール中のポリマー配列を、前記プールのポリマー配列を代表する1つ以
上の共通配列へアッセンブルするアセンブラ、 前記配置された第1の数のプールを使用して、前記アセンブラを実行する第2
の命令セット、 前記プールの共通配列を比較して、前記プールの共通配列間に関係があるなら
ば、それを決定する第3の命令セット、 前記プールの共通配列間の関係に基づいて前記プールを修正する第4の命令セ
ット、及び、 前記修正プールを使用して前記アセンブラを実行して、前記修正プールについ
ての共通配列の新たなセットを生成する第5の命令セット、 を含むことを特徴とするコンピュータプログラム製品。 - 【請求項26】 前記第4の命令セットが、下記の命令: 前記プールのうちの2つにおいて共通配列が予め定義されたオーバーラップ基
準を満たすときに、前記2つのプールを結合する命令、 を含む、請求項25に記載のコンピュータプログラム製品。 - 【請求項27】 前記第4の命令セットが、下記の命令: 前記プールのうちの1つにおいて共通配列が予め定義された区別基準を満たす
ときに、前記1つのプールを2つのプールに分割する命令、 を含む、請求項25に記載のコンピュータプログラム製品。 - 【請求項28】 更に、下記の命令: 前記比較する第3の命令セット、修正する第4の命令セット及びアッセンブル
し直す第5の命令セットを繰り返す命令、 を含む、請求項25に記載のコンピュータプログラム製品。 - 【請求項29】 前記比較する第3の命令セット、修正する第4の命令セッ
ト及び修正プールをアッセンブルし直す第5の命令セットを予め決められた回数
繰り返す、請求項25に記載のコンピュータプログラム製品。 - 【請求項30】 ポリマー配列のセットにおける配列類似性及び配列相違性
を分析する方法であって、 前記ポリマー配列の対についての対整列データを生成する工程であって、前記
対整列データが境界を用いて前記ポリマー配列対間の類似性領域を定義している
工程、 特定のポリマー配列における追加の境界を決定する工程であって、ポリマー配
列の1つの対についての少なくとも1つの対整列に由来する少なくとも1つの境
界を、前記特定のポリマー配列のうちの1つを含む別のポリマー配列の対につい
ての少なくとも1つのその他の対整列に適用することにより決定する命令、及び
、 前記境界に基づいて追加の類似性領域を生成する工程、 を含むことを特徴とする方法。 - 【請求項31】 前記ポリマー配列が第1配列及び第2配列を含み、生成し
た前記第1配列及び第2配列間の対整列データが第1の類似性領域を含み、前記
つい整列データがギャップを含み、更に、下記の工程: 前記第1の類似性領域中の少なくとも2つの異なる類似性領域を前記対整列デ
ータから識別する工程、 を含み、介在配列部分が異なっている、請求項30に記載の方法。 - 【請求項32】 前記介在配列分中の隣接するポリマーの数が予め決められ
たギャップしきい値を超えるときに、前記介在配列分が異なるとする、請求項3
0に記載の方法。 - 【請求項33】 前記類似性領域がセグメントを形成し、更に相違性領域が
セグメントを形成し、更に下記の工程: セグメントの数が予め決められたしきい値よりも大きいか又は等しいときに、
基準のセットを修正して、対整列データを生成する工程、及び、 前記対整列データを生成する工程を繰り返して、全ての境界を決定し、追加の
類似性領域を生成して、セグメントの総数を減少させる工程、 を含む、請求項30に記載の方法。 - 【請求項34】 前記類似性領域がセグメントを形成し、更に相違性領域が
セグメントを形成し、更に下記の工程: セグメントの長さが予め決められたしきい値よりも大きいか又は等しいときに
、基準のセットを修正して、対整列データを生成する工程、及び、 前記対整列データを生成する工程を繰り返して、全ての境界を決定し、追加の
類似性領域を生成して、セグメントの全数を減少させる工程、 を含む、請求項30に記載の方法。 - 【請求項35】 更に、下記の工程: 互いに空間的に整列した前記類似性領域を有する前記ポリマー配列を表示する
工程、 を含む、請求項30に記載の方法。 - 【請求項36】 前記表示工程が、前記ポリマー配列における配列の差異及
び類似性を表示し、更に下記の工程: 前記ポリマー配列を表示する工程であって、前記ポリマー配列が非類似性領域
を有しているものである工程、 を含み、 各ポリマー配列について、前記類似性及び非類似性領域が、前記ポリマー配列
中の各領域の位置に基づいて水平方向に整列しており、 異なるポリマー配列間の類似性領域が垂直的に整列している、請求項35に記
載の方法。 - 【請求項37】 追加の類似性領域を生成する工程が、下記の工程: 前記境界を使用して、前記類似性領域を細分する工程、 を含む、請求項30に記載の方法。
- 【請求項38】 更に、前記細分工程を繰り返す工程を含む、請求項37に
記載の方法。 - 【請求項39】 更に下記の工程: 前記対整列データを生成する工程、追加の境界を決定する工程及び追加の類似
性領域を生成する工程を繰り返す工程、及び、 対整列基準を修正して、各繰り返し工程において前記対整列データを生成する
工程、 を含む、請求項30に記載の方法。 - 【請求項40】 更に、下記の工程: 特定配列内の反復配列を同定する工程、 を含む、請求項40に記載の方法。
- 【請求項41】 更に、下記の工程: 前記同定反復配列を固有の表示を用いて表示する工程、 を含む、請求項39に記載の方法。
- 【請求項42】 前記ポリマー配列が更に非類似性領域を含み、更に下記の
工程: 前記類似性及び非類似性領域を同定する工程、及び、 前記類似性及び非類似性領域を生物学的特性に相関させる工程、 を含む、請求項30に記載の方法。 - 【請求項43】 更に下記の工程: 配列の多型性を同定する工程、及び、 前記配列の多型性を生物学的特性に相関させる工程、 を含む、請求項30に記載の方法。
- 【請求項44】 更に下記の工程: 前記類似性領域を有するポリマー配列を代表する各類似性領域についての共通
配列を演繹する工程、 を含む、請求項30に記載の方法。 - 【請求項45】 前記類似性領域がエキソンを表す、請求項30に記載の方
法。 - 【請求項46】 前記ポリマー配列のセットが、転写された核酸配列の少な
くとも一部のスプライス変異体を表す少なくとも2つの共通配列を含み、前記類
似性領域がエキソン及びエキソン部分を含む、請求項30に記載の方法。 - 【請求項47】 前記類似性領域がエキソンを表し、前記表示工程を使用し
てスプライス変異体を検出する、請求項34に記載の方法。 - 【請求項48】 前記ポリマー配列が、少なくとも1つのゲノム配列及び少
なくとも1つの転写された核酸配列を含み、前記類似性領域エキソン及びエキソ
ンの一部分を含む、請求項30に記載の方法。 - 【請求項49】 前記ポリマー配列が共通配列である、請求項30に記載の
方法。 - 【請求項50】 下記の工程: 前記ポリマー配列間に共通の類似性領域を表す共通セグメントを生成する工程
であって、前記相違性領域が固有セグメントと称される工程、 を含み、更に下記の工程: 前記共通セグメント及び固有セグメントをセグメントグラフ中に表示する工程
であって、前記セグメントグラフが、前記ポリマー配列中の共通セグメント及び
固有セグメントの位置に基づいて各共通セグメント及び各唯一のセグメントを同
時に表示するものである前記工程、 を含む、請求項30に記載の方法。 - 【請求項51】 前記ポリマー配列が、異なる組織カテゴリーに由来する少
なくとも2つの転写された核酸配列を含み、更に下記の工程: 前記非類似性領域と前記組織カテゴリーとを相関させる工程、 を含む、請求項41に記載の方法。 - 【請求項52】 前記ポリマー配列が少なくとも2つの関連遺伝子配列を含
み、前記類似性領域が前記少なくとも2つの関連遺伝子配列間の保存領域を含む
、請求項41に記載の方法。 - 【請求項53】 前記ポリマー配列が少なくとも2つの関連遺伝子配列を含
み、前記類似性領域が前記少なくとも2つの関連遺伝子配列間の保存領域を含む
、請求項30に記載の方法。 - 【請求項54】 前記ポリマー配列が、異なる疾患状態に由来する少なくと
も2つの転写された核酸配列を含み、更に下記の工程: 前記相違性領域と前記疾患状態とを相関させる工程、 を含む、請求項30に記載の方法。 - 【請求項55】 前記ポリマー配列が、異なる発達段階に由来する少なくと
も2つの転写された核酸配列を含み、更に下記の工程: 前記相違性領域と前記発達段階とを相関させる工程、 を含む、請求項30に記載の方法。 - 【請求項56】 ポリマー配列のセットにおける配列類似性及び配列非類似
性を分析するためのコンピュータシステムであって、 プロセッサ、及び、 下記の命令: 前記ポリマー配列の対についての対整列データを生成する命令であって、前記
対整列データが境界を用いて前記ポリマー配列対間の類似性の領域を定義してい
る命令、 特定のポリマー配列における追加の境界を決定する命令であって、ポリマー配
列の1つの対についての少なくとも1つの対整列に由来する少なくとも1つの境
界を、前記特定のポリマー配列のうちの1つを含む別のポリマー配列の対につい
ての少なくとも1つのその他の対整列に適用することにより決定する工程、及び
、 前記境界に基づいて追加の類似性領域を生成する命令、 を記憶するための、前記プロセッサと結合したメモリー、 を含むことを特徴とするコンピュータシステム。 - 【請求項57】 更に、メモリーが下記の命令: 互いに空間的に整列した前記類似性領域を有する前記ポリマー配列を表示する
命令、 を含む、請求項56に記載のコンピュータシステム。 - 【請求項58】 更に前記ポリマー配列が非類似性領域を含み、前記表示命
令が下記の命令: 前記類似性及び非類似性領域を、前記ポリマー配列中の各領域の位置に基づい
て水平方向に整列する命令、及び、 異なるポリマー配列間の類似性領域を垂直的に整列する命令、 を含む、請求項57に記載のコンピュータシステム。 - 【請求項59】 更に、前記メモリーが下記の命令: 特定配列内の反復部分配列を同定する命令、 を含む、請求項56に記載のコンピュータシステム。
- 【請求項60】 前記ポリマー配列が更に非類似性領域を含み、更に前記メ
モリーが下記の命令: 前記類似性及び非類似性領域を同定する命令、及び、 前記類似性及び非類似領域を生物学的特性に相関させる命令、 を含む、請求項56に記載のコンピュータシステム。 - 【請求項61】 更に、メモリーが下記の命令: 配列の多型性を同定する命令、及び、 前記配列の多型性を生物学的特性に相関させる命令、 を含む、請求項56に記載のコンピュータシステム。
- 【請求項62】 ポリマー配列をアッセンブルするためのコンピュータプロ
グラム製品であって、 前記コンピュータプログラム製品はコンピュータシステムと共に使用されるも
のであり、 前記コンピュータプログラム製品はコンピュータ読み取り可能な記憶媒体及び
そこに埋め込まれたコンピュータプログラムメカニズムを含み、 前記コンピュータプログラムメカニズムが、下記の命令: 前記ポリマー配列の対についての対整列データを生成する第1の命令セットで
あって、前記対整列データが境界を用いて前記ポリマー配列対間の類似性の領域
を定義するものである命令セット、及び、 特定のポリマー配列における追加の境界を決定する第2の命令セットであって
、ポリマー配列の1つの対についての少なくとも1つの対整列に由来する少なく
とも1つの境界を、前記特定のポリマー配列の1つを含む別のポリマー配列対に
ついての少なくとも1つのその他の対整列に適用することにより決定し、かつ前
記境界に基づいて追加の類似性領域を生成する第2の命令セット、 を含むことを特徴とするコンピュータプログラム製品。 - 【請求項63】 更に、前記コンピュータプログラムメカニズムが下記の命
令: 互いに空間的に整列した類似性領域を有する前記ポリマー配列を表示する第3
の命令セット、 を含む、請求項62に記載のコンピュータプログラム製品。 - 【請求項64】 更に前記ポリマー配列が類似性領域を含み、前記第3の命
令セットが下記の命令: 前記類似性及び非類似性領域を、前記ポリマー配列中の各領域の位置に基づい
て水平方向に整列する命令、及び、 異なるポリマー配列間の類似性領域を垂直的に整列する命令、 を含む、請求項63に記載のコンピュータプログラム製品。 - 【請求項65】 更に、前記第2の命令セットが下記の命令: 特定配列内の反復部分配列を同定する命令、 を含む、請求項62に記載のコンピュータプログラム製品。
- 【請求項66】 前記ポリマー配列が更に非類似性領域を含み、更に前記コ
ンピュータプログラムメカニズムが下記の命令: 前記類似性及び非類似性領域を同定し、かつ前記類似性及び非類似性領域を生
物学的特性に相関させる第3の命令セット、 を含む、請求項62に記載のコンピュータプログラム製品。 - 【請求項67】 更に前記コンピュータプログラムメカニズムが下記の命令
: 配列の多型性を同定し、かつ前記配列の多型性を生物学的特性に相関させる第
3の命令セット、 を含む、請求項62に記載のコンピュータプログラム製品。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US7946998P | 1998-03-26 | 1998-03-26 | |
| US60/079,469 | 1998-03-26 | ||
| PCT/US1999/006575 WO1999049403A1 (en) | 1998-03-26 | 1999-03-25 | System and methods for analyzing biomolecular sequences |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002508546A true JP2002508546A (ja) | 2002-03-19 |
Family
ID=22150762
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000538305A Pending JP2002508546A (ja) | 1998-03-26 | 1999-03-25 | 生体分子配列を解析するためのシステムおよび方法 |
Country Status (5)
| Country | Link |
|---|---|
| EP (1) | EP1066576A1 (ja) |
| JP (1) | JP2002508546A (ja) |
| AU (1) | AU771877B2 (ja) |
| CA (1) | CA2325469A1 (ja) |
| WO (1) | WO1999049403A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012096015A1 (ja) * | 2011-01-11 | 2012-07-19 | 日本ソフトウェアマネジメント株式会社 | 核酸情報処理装置およびその処理方法 |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2001283299A1 (en) * | 2000-08-14 | 2002-02-25 | Incyte Genomics, Inc. | Basecalling system and protocol |
| US20030177143A1 (en) * | 2002-01-28 | 2003-09-18 | Steve Gardner | Modular bioinformatics platform |
| US7957908B2 (en) * | 2003-11-17 | 2011-06-07 | New York University | System, method and software arrangement utilizing a multi-strip procedure that can be applied to gene characterization using DNA-array data |
| US10255409B2 (en) * | 2013-08-15 | 2019-04-09 | Zymeworks Inc. | Systems and methods for in silico evaluation of polymers |
| EP3879012A1 (en) * | 2013-08-19 | 2021-09-15 | Abbott Molecular Inc. | Next-generation sequencing libraries |
| US20160340722A1 (en) * | 2014-01-22 | 2016-11-24 | Adam Platt | Methods And Systems For Detecting Genetic Mutations |
| US9618474B2 (en) | 2014-12-18 | 2017-04-11 | Edico Genome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
| US10006910B2 (en) | 2014-12-18 | 2018-06-26 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same |
| US9859394B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
| US9857328B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same |
| EP3235010A4 (en) | 2014-12-18 | 2018-08-29 | Agilome, Inc. | Chemically-sensitive field effect transistor |
| US10020300B2 (en) | 2014-12-18 | 2018-07-10 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
| US10811539B2 (en) | 2016-05-16 | 2020-10-20 | Nanomedical Diagnostics, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3776728B2 (ja) * | 1997-07-25 | 2006-05-17 | アフィメトリックス インコーポレイテッド | 遺伝子発現および評価システム |
| US6047109A (en) * | 1998-07-29 | 2000-04-04 | Smithkline Beecham P.L.C. | Methods and systems for re-evaluating assembly consensus sequences |
-
1999
- 1999-03-25 JP JP2000538305A patent/JP2002508546A/ja active Pending
- 1999-03-25 WO PCT/US1999/006575 patent/WO1999049403A1/en active IP Right Grant
- 1999-03-25 EP EP99916165A patent/EP1066576A1/en not_active Withdrawn
- 1999-03-25 AU AU34537/99A patent/AU771877B2/en not_active Ceased
- 1999-03-25 CA CA002325469A patent/CA2325469A1/en not_active Abandoned
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012096015A1 (ja) * | 2011-01-11 | 2012-07-19 | 日本ソフトウェアマネジメント株式会社 | 核酸情報処理装置およびその処理方法 |
| JP2012146066A (ja) * | 2011-01-11 | 2012-08-02 | Nippon Software Management Kk | 核酸情報処理装置およびその処理方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| AU771877B2 (en) | 2004-04-01 |
| WO1999049403A1 (en) | 1999-09-30 |
| AU3453799A (en) | 1999-10-18 |
| EP1066576A1 (en) | 2001-01-10 |
| CA2325469A1 (en) | 1999-09-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3304383B1 (en) | De novo diploid genome assembly and haplotype sequence reconstruction | |
| US6553317B1 (en) | Relational database and system for storing information relating to biomolecular sequences and reagents | |
| Brendel et al. | Gene structure prediction from consensus spliced alignment of multiple ESTs matching the same genomic locus | |
| US20200098445A1 (en) | Ancestral human genomes | |
| AU2006258264B2 (en) | Method of processing and/or genome mapping of ditag sequences | |
| US6714874B1 (en) | Method and system for the assembly of a whole genome using a shot-gun data set | |
| JP2002508546A (ja) | 生体分子配列を解析するためのシステムおよび方法 | |
| WO2017143585A1 (zh) | 对分隔长片段序列进行组装的方法和装置 | |
| WO2009155443A2 (en) | Method and apparatus for sequencing data samples | |
| CA2400890A1 (en) | Method and system for the assembly of a whole genome using a shot-gun data set | |
| CN111161797A (zh) | 一种基于三代测序检测多样本量比较转录组分析方法 | |
| CN111180013A (zh) | 检测血液病融合基因的装置 | |
| US20180060480A1 (en) | Systems and methods for detecting recombination | |
| CN112086128B (zh) | 一种适用于Sequel测序的三代全长转录组测序结果分析方法 | |
| Yee et al. | Automated clustering and assembly of large EST collections. | |
| Tammi et al. | TRAP: Tandem Repeat Assembly Program produces improved shotgun assemblies of repetitive sequences | |
| US20040005610A1 (en) | Computational determination of alternative splicing | |
| Morris et al. | Read Alignment and Transcriptome Assembly | |
| Audano et al. | Large complex structural rearrangements in human genomes harbor cryptic structures | |
| Milanesi et al. | ESTMAP: a system for expressed sequence tags mapping on genomic sequences | |
| Wang et al. | SNP discovery through EST Data Mining | |
| Xie et al. | Bridging expressed sequence alignments through targeted cDNA sequencing | |
| Kucherov | YASS: Similarity search in DNA sequences | |
| Wagner et al. | Data Model | |
| Jain et al. | A Hybrid, Recursive Algorithm for Clustering Expressed Sequence Tags in Chlamydomonas reinhardtii |