JP2002508546A

JP2002508546A - 生体分子配列を解析するためのシステムおよび方法

Info

Publication number: JP2002508546A
Application number: JP2000538305A
Authority: JP
Inventors: スティーヴンイーリンカーン; ディヴィッドエムホッジソン; ピーターエイスピロ; フランクディールッソー; イングリッドイーエイカーブロム; ジェニファーエルヒルマン; アニッサリージョーンズ; ショウンロバートブレッチャー; ハワードジェロームコーエン; ジェラードデュフォアー; マイケルピーターウッド; アレクサンダージョージコレッザー; スティーヴンシーバンヴィル; クラウディアオルデンケイス
Original assignee: インサイトファーマシューティカルズインコーポレイテッド
Priority date: 1998-03-26
Filing date: 1999-03-25
Publication date: 2002-03-19
Also published as: AU771877B2; WO1999049403A1; AU3453799A; EP1066576A1; CA2325469A1

Abstract

(57)【要約】ポリマー配列がプール中にアッセンブルされる。ポリマー配列を最初の数のプールに配置する。夫々のプール中のポリマー配列がプールのポリマー配列を代表する一つ以上の共通配列にアッセンブルされる。プールの共通配列が比較され、共通配列の関係（存在する場合）を決定する。該プールが共通配列の関係に基いて修正される。ポリマー配列は修正プール中で再アッセンブルされて修正プールの代表の夫々のプールについて一つ以上の修正共通配列を生じる。本発明の別の局面において、配列類似性及び非類似性がポリマー配列のセットで分析される。対間整列データがポリマー配列の対について生じられる。対間整列データは境界によってポリマー配列の対間の類似性領域を特定する。特定のポリマー配列中の付加的な境界は、ポリマー配列の一つの対に関する少なくとも一つの対間整列からの少なくとも一つの境界を、その特定のポリマー配列の一つを含むポリマー配列の別の対に関する少なくとも一つのその他の対間整列に適用することにより決定される。類似性の付加的な領域が境界に基いて生成される。

Description

【発明の詳細な説明】

【０００１】（技術分野）本件出願は1998年３月26日に出願された米国仮特許出願第60/079,469号、発明
の名称“関連生物分子配列情報を記憶し、比較し、表示するためのデータベース
及びシステム”（これは全ての目的のために参考として本明細書に含まれる）の
優先権を主張する。本発明は一般にバイオインフォーマティックス、特に生物分子配列を分析する
ためのシステム及び方法に関する。

【０００２】（背景技術）インフォーマティックスは情報の管理についてのコンピュータ及び統計技術の
研究及び適用である。ゲノムプロジェクトにおいて、バイオインフォーマティッ
クスはデータベースを迅速に検索し、核酸配列情報を分析し、またDNA配列データからタンパク質配列及び構造を予想する方法の開発を含む。次第に、分子生物
学は実験ベンチからコンピュータデスクトップにシフトしている。最新の定量分
析、データベース比較、及び計算アルゴリズムが配列と表現型の関係を研究する
のに必要とされる。図１に示されるように、遺伝子30はDNA配列のセットから構成される遺伝子情報の基本単位である。遺伝子30はRNA一次転写産物に転写される。この一次転写産物は典型的にはスプライシングされて成熟mRNAを生じ、次いでこれがポリペプ
チド（タンパク質）に翻訳され、これが細胞中で或る機能を奏する。エキソン32
は遺伝子30のコーディング領域であり、一方、イントロン34は遺伝子30の調節領
域又は非コーディング領域である。遺伝子30の最も完全な代表は遺伝子30のコー
ディング領域、調節領域及び非コーディング領域を完全にカバーするゲノムDNA 配列である。遺伝子30がmRNAに転写された後に、遺伝子30がタンパク質に翻訳さ
れる前に、遺伝子30がイントロンを除去し、残っているエキソンと一緒にスプラ
イシングすることにより修正される。幾つかの遺伝子30について、転写産物が夫
々のイントロン又はエキソンの任意のとり込み又は排除によりスプライシングさ
れる幾つかの別法がある。生じる種々の配置がスプライス変異体と称される。

【０００３】図１中で、エキソンが１、２、３及び４と標識されている。例えば、同じ遺伝
子30は夫々健康な組織及び疾病組織、42及び44について異なるmRNA配列を生じ得
る。疾病組織42はエキソン１、２及び４からの配列を含み、一方、健康な組織44
はエキソン１、２、３及び４からの配列を含む。更に、図２はmRNA（mRNA１及びmRNA２）並びにゲノム配列についての発現配列
タグ(EST)46の関係を示す。スプライス変異体を形成するために、遺伝子はmRNA の多重コピーに転写されてもよい。夫々のmRNAが異なるcDNA配列に転写される。 EST46はcDNA配列のサンプリングである。EST46は、クローニング及び配列決定
戦略に応じて、遺伝子の一種以上のmRNAの異なる部分をカバーし得る部分転写産
物配列である。研究者らは遺伝子配列を同定しようと試みて多量のデータを生じる。ゲノム研
究において、DNA分子、mRNA分子、及びcDNA分子がフラグメントに分解され、フラグメントのヌクレオチド配列が同定され、フラグメントに関する配列データが
データベースに入力され、コンピュータプログラムが配列フラグメントを電子的
に再アッセンブルしようと試みる。このデータに関するアッセンブリプロセスの
二つの型がある。ゲノムデータに関して、一つ以上の個体からのDNAが分解され、DNAの個々の部分又は配列が同定され、次いでコンピュータに基く方法を使用して配列が再アッセンブルされる。ゲノム配列のあらゆる所定のフラグメントが
ほぼ同じレベルで表示されるべきであり、理論的にはこれらのフラグメントを初
期のゲノムDNAに相当する線状配列に再アッセンブルする一つの正確な方法がある。

【０００４】対照的に、発現配列タグ(EST)に基くアッセンブリプロセスについて、cDNAの実験バッチがフラグメントに分解され、フラグメントのヌクレオチド配列が同定
される。cDNAを生じるのに使用されるインプットmRNAは存在量で広く変化するの
で、配列の所定のフラグメントは再アッセンブルされるセット中で１回から数千
回までのいずれかで存在し得る。更に、スプライス変異のために、これらのフラ
グメントは理論的には夫々のゲノムについて単一の線状配列に再アッセンブルし
得ない。

【０００５】図３はESTデータに関する典型的なコンピュータに基くアッセンブリプロセスのフローチャートである。工程52において、クラスターがESTデータから生じられる。クラスタリングプロセスはESTを構成する配列の対の類似性（対間(pairwi
se)類似性）に基いてESTをグルーピングする。例えば、BLASTの如きコンピュータプログラムが二つのESTからESTデータを受け取り、ESTを構成する塩基の類似性に基いてスコアーを生じる。スコアーが所定の閾値を越える場合、ESTが同じクラスターにグルーピングされる。工程54において、夫々のクラスター内で、ESTが配列データにアッセンブルされる。典型的には、単一クラスターが多くの連続配列を生じるであろう。理想的
には、夫々のクラスターについて、その目標は全クラスターに相当する共通配列
を生じることである。この従来技術方法は二つの問題を有する。第一に、クラスタリング技術はEST をオーバークラスターする傾向がある。換言すれば、その方法は夫々のクラスタ
ー中にあまりにも多いESTを含むあまりにも少ないクラスターを生じる。第二に、アッセンブリプロセスがあまりにも多い共通配列を生じる。これらの問題を解
決するために、一つの従来技術方法はESTをクラスターし、クラスターに相当する単一共通配列を選択する。多重共通配列を有するこれらのクラスターについて
、別の従来技術方法は夫々の共通配列を異なる遺伝子として指定する。

【０００６】しかしながら、先に説明したように、同じ遺伝子が多重cDNA配列を生じ得る。
それ故、その従来技術方法はスプライス変異体を異なる遺伝子として表示するこ
とがある。個体は長い配列にわたる同じ遺伝子の発現において変化し得るので、
長い配列にわたって相違を寛容するクラスタリング方法に対する要望がある。逆
に、異なる遺伝子からのcDNA配列は全く類似していてもよい。それ故、クラスタ
リング方法は異なる遺伝子からの共通配列を同じ遺伝子のスプライス変異体から
区別する必要がある。

【０００７】別の問題は既存のクラスタリング技術が擬陽性、ひいてはオーバークラスター
を生じる傾向があることである。擬陽性は所定の閾値を越える類似性スコアーで
あるが、実際には、ESTが遺伝子の異なる部分又は異なる遺伝子からのものである。擬陽性を回避するために、厳密な閾値が類似性スコアーについて定められる
。逆に、あまりにも高い閾値はクラスターをあまりにも多く分解し、それ故、ア
ンダークラスターする傾向がある。それ故、アンダークラスタリング問題及びオ
ーバークラスタリング問題を回避する方法が必要とされる。加えて、新しいESTデータが生じられ、既存のデータベースに加えられ続ける。それ故、その方法は新しいESTデータの増分追加により既存のESTを適当にクラ
スタリングし、アッセンブルすることができる必要がある。データがクラスターされた後に、或るクラスターが多重共通配列を生じ得る。
同じ遺伝子のスプライス変異体である共通配列を同定し、表示する方法が必要と
される。

【０００８】（発明の概要）ポリマー配列がプール中にアッセンブルされる。ポリマー配列は最初の数のプ
ールに配置(populate)される。夫々のプール中のポリマー配列はプールのポリマ
ー配列を代表する一つ以上の共通配列にアッセンブルされる。プールの共通配列
が比較され、共通配列の関係（存在する場合）を決定する。プールは共通配列の
関係に基いて修正される。ポリマー配列は修正プール中で再アッセンブルされて
修正プールの代表の夫々のプールについて一つ以上の修正共通配列を生じる。本発明の別の局面において、配列類似性及び非類似性がポリマー配列のセット
で分析される。対間整列データがポリマー配列の対について生じられる。対間整
列データは境界によってポリマー配列の対間の類似性領域を特定する。特定のポ
リマー配列中の付加的な境界は、ポリマー配列の一つの対に関する少なくとも一
つの対間整列からの少なくとも一つの境界を、その特定のポリマー配列の一つを
含むポリマー配列の別の対に関する少なくとも一つのその他の対間整列に適用す
ることにより決定される。類似性の付加的な領域が境界に基いて生成される。本発明の付加的な目的及び特徴は図面と一緒にされる場合の以下の詳細な説明
及び特許請求の範囲から容易に明らかになるであろう。

【０００９】（発明を実施するための最良の形態）図4Aにおいて、ネットワークシステムが本発明の生物分子発現情報処理システ
ム中に記憶された情報を検索するのに使用される。主要なネットワークシステム
構成装置は・少なくとも一つのクライアントコンピュータ60、62、・少なくとも一つのネットワークサーバー64、・遺伝子プールデータベース68を記憶する記憶装置66、及び・インターネット72に接続して外部データベース74にアクセスするファイアウォ
ールゲートウェイサーバー70 である。図4Aは夫々クライアントコンピュータ60、62の記憶装置80、82を示す。クライ
アントコンピュータシステム60で、ユーザーがUNIXの如きオペレーティングシス
テム84及びネットスケープの如きウェブブラウザ86を実行する。

【００１０】ネットワークサーバー64はUNIXオペレーティングシステム84、アプリケーショ
ンソフトウェアモジュール88及びリレーショナルデータベース管理システム(RDB
MS)90、例えば、オラクル(Oracle)を有する。ユーザーが最初にウェブブラウザ8
6を介してアプリケーションモジュール88にアクセスする場合、アプリケーションモジュール88がJAVAクラス92をサーバー64からクライアントシステム80にアッ
プロードする。JAVAクラス92は以下に説明される類似性境界ファインダー94及び
テンプレートビュアー96を含む。ウェブブラウザ86がアップロードされたJAVAク
ラス98を実行し、これらはJAVAオブジェクト100を使用してグラフィカルユーザーインターフェース102をユーザー用のアプリケーションモジュール88に与える。開始時に、JAVAオブジェクト100のサブセットがデータベース68からのデータでロードされる。

【００１１】遺伝子プールデータベース68からのデータを検索するために、クライアント80
のJAVAクラス98内の方法がユーザー特定の基準に基いてSQLステートメントを構築し、これがネットワークサーバー64のCGI 104に通される。次いでCGI 104がSQ
LステートメントをRDBMS 90に通す。RDBMS 90がSQLステートメントを実行し、検
索されたデータをCGI 104に戻し、これが次にデータをクライアント80にもどす。JAVAクラス98が検索されたデータをJAVAオブジェクト100に配置し、結果がクライアントコンピュータ80に表示される。データをデータベースから検索する別法において、JAVAクラス98内の方法がパ
ラメーターをCGIスクリプト104に通し、これがSQL照会ゼネレーター106を使用し
てSQLステートメントを構築する。SQLステートメントがRDBMS 90に通される。遺伝子プールデータベース68がディスクドライブの如き記憶装置66中の記憶媒
体に記憶される。特に、遺伝子プールデータベース68がデータをテーブル108中に記憶する。

【００１２】クライアントシステム80、82がファイアウォールゲートウェーサーバー68を介
してインターネット72でパブリックドメイン資源にアクセスする。クライアント
システム80、82、ネットワークサーバー64及びファイアウォールゲートウェーサ
ーバー64がTCP/IPプロトコルを使用してイントラネット109を介してネットワークされる。クライアントシステムの一つ82が遺伝子プールデータベース68にロードされる
データを生じる。遺伝子プール生成プロシージャー(Generate_gene_bins)110が本発明の方法を使用して発現データ112を処理して遺伝子プール及び遺伝子プールデータベース114を生じ、これが以下に説明される。遺伝子プールデータベース114を生じた後に、クライアントシステム82がデータベースをネットワークサーバー64の記憶装置66の一つにコピーし、そこでコピーされた遺伝子プールデー
タベース66が全てのユーザーに利用可能にされる。別の実施態様において、ネッ
トワークサーバー64が遺伝子プールデータベース68を生じる。

【００１３】グラフィカルユーザーインターフェース98はユーザーが遺伝子プールデータベ
ース68のテーブル108からデータを検索したいとの検索依頼をグラフィックで構築することを可能にする。検索依頼のコマンドが照会と称される。上記のように
、JAVAクラス又はCGIスクリプトがデータベース照会を生じる。遺伝子プールデータベース68は遺伝子プール、共通配列及びESTを含む情報を記憶する多くのテーブル108を有する。図4Bにおいて、例示ネットワークサーバーコンピュータシステム120が例示プロシージャー及び本発明のデータを記憶装置122中に記憶する。記憶装置122は半
導体記憶装置及びディスク記憶装置の両方を含む。システムバス124はプロセッサー126、ディスプレイ128、キーボード130、マウス132、イントラネットに接続
するネットワークインターフェース134、ディスクドライブ136及び半導体記憶装
置122を接続する。また、プロシージャー及びデータがディスクドライブ66に記憶し得る。記憶装置122中で、プロシージャーは・UNIXの如きオペレーティングシステム84；・ネットスケープの如きウェブブラウザ86；及び・アプリケーションモジュール136のセットを含む。

【００１４】アプリケーションモジュール136のセットは下記のことを含む。・遺伝子プール生成プロシージャー110が本発明の遺伝子プールを生じる。・私用データベース及び公共データベースの両方からのESTデータ112は生のEST データ及び処理されたESTデータの両方を含む。・ブロック１配列調製プロシージャー138は遺伝子プールデータベースについて生のESTデータ及びアウトプットの処理されたESTデータを受け取る。・集団プールプロシージャー140は遺伝子プールの初期のセットを集団化する。・基本局所整列検索ツール(BLAST)142は所定の照会配列にマッチする非ギャップ
配列をデータベース中で検出する。BLASTが普通使用され、Karlin及びAltschul
(1993)により開発された根拠の十分な統計理論を使用して、国立バイオテクノロ
ジー情報センター(NCBI)で書かれたものである。マッチはハイスコアリングセグ
メントペアー(HPS)に基く。二つの配列はギャップにより分離される多重ハイスコアリングセグメントペアーを有し得る。

【００１５】・“フラグメント”アッセンブルプログラム(PHRAP)144はショットガンDNA配列データ、例えば、処理されたESTデータをアッセンブルする。・代表的なESTフィルター146はPHRAP144により処理されるEST配列の代表的なセットを生じる。・IDおよびプール除去プロシージャー(ID&Remove Bins porcecure) 148がプール
の所定のサブセットを本発明の結合及び分割プロセスから排除するのに使用され
る。・クロスマッチ(Cross_Match)150はワシントン大学のPhil Greenにより開発され
たSmith-Waterman-Gotohアルゴリズムに基く迅速なタンパク質及び核酸配列比較
並びにデータベース検索のためのコンピュータプログラムである。本発明におい
て、クロスマッチはインプット配列が比較される順序とは独立である配列整列比
較結果を得るように改良された。・プール注釈プロシージャー(Annotate_bins_procedure)152は或る種の共通配列
に関する注釈データをデータベースに加える。・プール比較プロシージャー(Compare_bins_procedure)154は遺伝子プールの共通配列を比較する。

【００１６】・プール結合プロシージャー(Join_bins procedure)156は遺伝子プールを結合す
る。・プール分割プロシージャー(Split_bins procedure)158は遺伝子プールを分割する。・FASTXプロシージャー160はヌクレオチド配列をペプチド配列データベースと比
較するのに使用されるデータベース検索ツールである。そのプロシージャーはLi
pman及びPearson(1988)により記載された迅速配列アルゴリズムに基く。・マップ継続プールidプロシージャー(Map_persistent_bin_id procedure)162は
遺伝子プールデータベースの古いバージョン及び新しいバージョンの間のプール
識別子をマッピングする。・テンプレートビュアープロシージャー96は遺伝子プールの共通配列をそれらの
アッセンブルESTとともに表示する。・遺伝子プールデータベース68はメモリー122中に記憶される。・類似性境界ファインダー94はインプット配列にわたって同様の境界及びセグメ
ントを見つけるとともにギャップを収容する。類似性境界ファインダー94は任意
の多数のインプット配列の間で共通セグメントを同定し、配列し、表示する。・RDBMS90がまたメモリー122中に記憶される。

【００１７】類似性境界ファインダー94はプロシージャー及びデータ構造のセットを含む。
そのプロシージャーは・異なる配列間及び配列内の類似性の共有領域を同定するid類似領域プロシージ
ャー(id_similar_region procedure)166；・異なる配列間の類似性の共有領域を空間上配列された様式で表示する結果表示
プロシージャー(display_con_sequece procedure)168；及び・インプット配列のセグメントマップを表示するセグメントマップ表示プロシー
ジャー（display_segment_map）170 を含む。

【００１８】データ構造は・インプット配列ストリングス172；・クロスマッチ出力(Crossmatch Output)174；・境界リスト176；・等価境界リスト178；・誘導グラフアレイ180；及び・トポロジーオーダリングリストを含む。

【００１９】上記データ構造が以下に記載される。図5A中で、例示遺伝子プール200がアッセンブルESTデータ204に相当する単一共通配列202を有する。“遺伝子”という用語は遺伝子の部分又は完全コーディング配列を表す。遺伝子プール200は一緒にグルーピングされた配列決定に基くクラスターである。遺伝子プール200は特定の単一遺伝子について全てのEST配列
204を会合又は貯蔵するように設計される。EST204は唯一の遺伝子プール200に属
する。夫々の遺伝子プール200が特別な単一遺伝子についてコンポーネント配列2
04と会合される。PHRAPアッセンブルプログラムがプール200のEST204を使用して
運転されて少なくとも一つの共通配列202を生じる。共通配列202がその遺伝子の
鋳型として作用する。アッセンブルされた配列の夫々の塩基がその位置で配列さ
れたコンポーネント配列204中の塩基コールの共通に相当する。図5Bに示されるように、別の遺伝子プール210中で、コンポーネント配列212が
多重共通配列214、216、218を生じる。一つより多い共通配列214、216、218を生
じるこれらの遺伝子プール210について、夫々の共通配列214、216、218が遺伝子
プール210と会合された遺伝子の鋳型として作用する。多重鋳型又は共通配列214
、216、218を含む遺伝子プール210は別のスプライシング又は有意な多形性を有する遺伝子を表し、又は代表することがある。

【００２０】遺伝子プールはリレーショナルデータベースのテーブル中に実装される。夫々
の遺伝子プールは遺伝子プール識別子を有し、夫々の共通配列は共通配列識別子
を有し、また夫々のESTは識別子を有する。データベース中のテーブルは夫々遺伝子プール識別子、共通配列識別子及びEST識別子を使用して遺伝子プールを共通配列及びESTと会合する。その他のテーブルはEST識別子及び共通配列識別子を
使用してESTデータを共通配列と関連付ける。コンポーネント配列又はESTデータは公共データベース及び私用データベースから得られる。

【００２１】図６は図4Bの遺伝子プール生成(generate_gene_bin)110プロシージャーに使用
される本発明の遺伝子プールを生成する方法のフローチャートである。このフロ
ーチャートは一般的に記載され、続いて夫々の工程の詳細な説明が記載される。一般に、工程222において、新しい生の配列又はESTデータが受け取られ、ブロ
ック１プロシージャーのセット（138、図4B）で処理される。工程224はポピュレ
ートプールプロシージャー（140、図4B）を使用してESTデータを遺伝子プールの
初期セットに配置する。工程226において、フィルター（146、図4B）が遺伝子プ
ール中のESTに適用されてESTの代表的なセットを決定し、これがPHRAPを使用してアッセンブルされるであろう。別の実施態様において、フィルターが使用され
ない。工程228において、夫々のプール内で、PHRAPアッセンブラー（144、図4B ）がプール中のESTをアッセンブルして一つ以上の共通配列を生じるのに使用される。工程230において、IDおよびプール除去プロシージャー(ID&Remove Bins p
rocedure)（148、図4B）がプールの所定のセットを同定し、それらを更なるプロ
セスから除去する。工程232において、プール比較プロシージャー（154、図4B）
がプールの共通配列を比較してプールの共通間の関係（存在する場合）を決定す
る。工程234において、プール結合プロシージャー(Join_bins procedure)（156 、図4B）が共通配列の関係に基いてプールを結合して修正プールを生じる。

【００２２】工程236において、フィルター（146、図4B）が修正プールのESTデータに適用される。別の実施態様において、フィルターは使用されない。工程238において、夫々の修正プール内で、PHRAPアッセンブラー（144、図4B）が修正プール中で
ESTを再アッセンブルして一つ以上の共通配列を生じるのに使用される。工程240
において、修正プール中の共通配列が比較されて共通配列間の関係（存在する場
合）を決定する。工程242において、修正プールが分割プールプロシージャー（1
58、図4B）を使用して共通配列の関係に基いて分割される。工程244において、その方法は比較、結合及び分割プロセスが反復すべきか否かを決める。そうであ
る場合、プロセスが工程232で続行する。そうでない場合、工程246において、プ
ールがクローン情報に基いて結合されてもよい。工程248において、フィルター（146、図4B）が修正プールのESTデータに適用される。別の実施態様において、
フィルターは使用されない。工程250において、夫々の修正プール内で、PHRAPア
ッセンブラー（144、図4B）が修正プール中でESTを再アッセンブルして一つ以上
の共通配列を生じるのに使用される。工程252において、プールが注釈される。工程254において、テンプレートビュアープロシージャー（96、図4B）がアッセンブルされたEST配列と空間上配列されたプールの少なくとも一つの共通配列を表示する。

【００２３】この方法で、共通配列を反復比較し、共通配列に基いてプールを修正すること
により、本発明の方法は従来技術のオーバークラスタリング及びアンダークラス
タリングを回避し、同じ遺伝子のスプライス変異体をグルーピングする傾向があ
る遺伝子プールのセットを提供する。次に、図６の夫々の工程が詳しく記載される。ブロック１配列調製工程222において、ブロック１配列調製が行なわれる。生の配列データが配列決定クロマトグラムから抽出された後、生の配列データが一連のフィルターを通
過する。最初に、低品質配列及びシーケンシング人工物を含む配列が品質スコア
ーに基いてクリップされる。次に、認識された5'及び3'ベクター配列が動的プロ
グラミングに基く方法を使用してクリップされる。次いで3'PolyA（又は5'PolyT
）パターンにマッチするレギュラー発現がmRNAテールをクリップするのに使用さ
れる。

【００２４】次に、一連のBLAST比較が行なわれて配列データを更にフィルターする。BLAST
類似性スコアーが150以上である場合、低情報セグメント、例えば、ジヌクレオチド繰返し配列がマスクされて（“ｎ”により置換されて）その後の偽のマッチ
を防止する。“ｎ”は配列決定中に見られる不明瞭さを表すのに使用される“Ｎ
”とは異なる。BLAST類似性スコアーが130以上である場合、認識されたコンタミ
配列を含む生の配列が更なるバイオアナリシスから除去される。BLAST類似性スコアーが150以上である場合、分散された反復要素、例えば、Alu、LINE及びMIR がマスクされる。既知の反復要素がゲノム中で多コピー存在する。それらの機能
関連性は非常に低く、それらが含まれる場合にはアッセンブル問題を生じるであ
ろう。最後に、認識されたミトコンドリア配列及びリボソームRNA配列が150以上
のBLAST類似性スコアーに基いて除去される。ブロック１中の修正後に、工程224において、初期プールセットが少なくとも5
0の塩基を有するこれらの配列のクラスターで配置される。

【００２５】フィルターフィルタリング工程226、236及び248が図８を参照して以下に記載される。アッセンブリ工程228において、PHRAPアッセンブルプログラムが夫々の遺伝子プールについ
て少なくとも一つの共通配列を生じる。この方法に使用されるPHRAPのバージョンが私用配列識別子規則のセットを解読するように改良された。別の実施態様に
おいて、その他のアッセンブルプログラム、例えば、Eugene W.Myersにより開発
されたFAKIIが使用される。全てのプールが少なくとも一つの共通配列を有する場合、別のプロシージャー、例えば、クロスマッチ(Cross_match))150（図4B）がSmith-Watermanに基くアルゴリズムを使用して全ての未帰属ESTを全ての共通配列と比較する。未帰属EST配列が最高のSmith-Watermanスコアーを生じる共通配列とともにプールに加えられる。新しいプールが非マッチング未帰属EST配列について作られる。 PHRAPは塩基品質価値をアッセンブリプロセスにとり込むことができるという利点を有する。この特別なデータがESTアッセンブルに必要とされる感度及び精度を得るのに必須である。

【００２６】共通配列の比較工程232において、プールが全てのプール中の共通配列間の関係に基いて修正される。全てのプール中の全ての共通配列がBLAST2を使用して互いに比較される
。高いBLAST2スコアーは高い配列オーバーラップ及び同一性を示す。別の実施態様において、プレスクリーニング操作において、全てのプール中の
全ての共通配列がBLASTを使用して互いに比較される。BLASTスコアーが一対の共
通配列について150を超える場合、クロスマッチが共通配列のその対を使用して実行されてBLASTスコアーを確認し、局所同一性を生じる。別の実施態様において、クロスマッチを使用してBLASTスコアーを確認することに代えて、Smith-Watermanアルゴリズムが使用されて局所同一性を生じる。

【００２７】プールの結合工程234において、少なくとも一つの共通配列がBLAST2に従って少なくとも82 ％の局所同一性で別のプール中の共通配列と重なる場合、プールが結合される。
別の実施態様において、局所同一性が少なくとも92％である場合、プールが結合
される。別の実施態様において、局所同一性が少なくとも85％である場合、プー
ルが結合される。

【００２８】再アッセンブル工程238及び250において、PHRAPアッセンブルプログラムが夫々の遺伝子プールについて少なくとも一つの共通配列を生じる。分割のための共通配列の再比較工程240において、一つより多い共通配列を有するこれらのプールについて、クロスマッチ(Cross_match)が使用されて再アッセンブルプールの共通配列を比較する。別の実施態様において、Smith-Watermanアルゴリズムがクロスマッチに代えて
使用される。

【００２９】プールの分割工程242において、クロスマッチ(Cross_match)スコアーを使用して、共通配列
間のオーバーラップが95％未満の同一性を生じ、又は整列長が50未満の塩基対で
ある場合、プールが分割される。不十分なオーバーラップ又は整列を有する共通
配列が分割されて新しいプールを生成する。工程244において、全ての共通配列を全てのプールにわたって比較し、プールを結合し、プールを再アッセンブルし、プールを再比較し、プールを分割するプ
ロセスはデータベースの収束が得られるまで反復する。データベースの収束は、
プール組成が反復の間に有意に変化しない場合に得られる。別の実施態様において、全ての共通配列を全てのプールにわたって比較し、プ
ールを結合し、プールを再アッセンブルし、プールを再比較し、プールを分割す
るプロセスは所定の回数の反復にわたって反復する。

【００３０】クローン結合単一のESTクローンが実験室で複数回のシーケンシング反応に使用されることがある。従って、一つのクローンが複数の配列と関連していることがある。例え
ば、単一のクローンが5'第１パス配列と関連していることも、5'長距離読取り配
列と関連していることも、および、3'第１パス配列と関連していることもある。工程246において、その共通配列に基づく何回かのプールの結合と分割の後に、プールはクローン情報に基づいて結合される。一つのプール中の一つのクロー
ンの5'配列と同じクローンの3'配列が異なるプール中に存在する場合、おそらく
その２つのプールは実際には共に単一のプールに属するであろう。単一のクロー
ンがキメラである可能性もあるため、結合される各プール中に一つの5'および3'
配列を有する少なくとも２つの異なるクローンが存在する場合に、プールはこの
段階で結合される。もし、得られるプールが非常に大きく、5000以上のESTを含む場合にはプールは結合されない。加えて、クローン結合は共通遺伝子に注釈的にヒット(annotat
ion hit)するプールには適用されず、不活性プールに対してもクローン結合は行
われない。

【００３１】注釈付け（Annotation）工程252では、BLAST2およびFASTXを用いて、各共通配列はインターネット上で
利用できる外部ベータベースの一つであるGenBankデーダベース中の配列と比較される。遺伝子プールデータベース中の正確なヒットが付注され、ホモログが記
録される。遺伝子の共通配列に関してマッチングするものが見つからない場合は
、その遺伝子はその遺伝子プールデータベースにおいて固有のものとして同定さ
れる。 GbpriおよびgbpeptはGenBankデータベースの区分である。BLAST2検索を用いて
、gbpriに対してヒットしたものが集めらる。以下のように、パーセント同一性が２００塩基対の整列長で95％以上である場合から少なくとも100塩基対の整列長で100％の同一性である場合に正確なヒットが付注され記録される。パーセント同一性≧９５％整列長≧200塩基対パーセント同一性≧９６％整列長≧180塩基対パーセント同一性≧９７％整列長≧160塩基対パーセント同一性≧９８％整列長≧140塩基対パーセント同一性≧９９％整列長≧120塩基対パーセント同一性≧１００％整列長≧100塩基対

【００３２】ヒットが１ｘ10^-8以下の期待値（Ｅ-値）を有する場合にホモログが記録される。期待値とは、２つの配列間の整列が偶然に起こると期待される度数をいう。
Ｅ-値が０とは正確なマッチングを意味し、Ｅ-値が１であるとは有意なマッチン
グが見いだされなかったことを示す。 BLAST2検索を用いて、gbpriデータベースに対してヒットが集められる。パーセント同一性が少なくとも50塩基対の整列長で100％以上の場合で、マッチングの前の両方のテンプレート部分が10塩基対以下であり、マッチングの後のテンプ
レート部分が10塩基対以下である場合に正確なマッチングとして配列が付注され
る。 FASTXを用いて、genpeptデータベースに対してヒットが集められる。FASTX比較の結果はE-値を生成する。E-値が1x10^-8よりも低いとき配列は付注されホモロ
グ状態が割り当てられる。

【００３３】不活性プール不活性遺伝子プールは工程232-244の反復再アッセンブリ過程にかけられない、小さなサブセットを形成する。工程230はアッセンブリ過程でこの不活性プールを同定し除去する。不活性プールは非常に深く、典型的には2,000以上のEST配
列を有している。本発明者らは、この不活性プール再アッセンブリは存在してい
るアッセンブルされた共通配列に重要な影響を与えないことを見いだした。従っ
て、不活性プールについては、不活性プールに帰属される新しいEST配列は存在している共通配列に整列されるが、新たなEST配列はアッセンブリ過程で共通配列を生成するためには使用されない。不活性プールは予め決定されており、典型的にはアクチンやEF-1aのようによく知られ、よく特徴づけられている。

【００３４】増分ESTデータのプールの初期セットへの配置工程224において、プールの初期セットは以下の手順を用いて新たなESTデータ
で更新される：BLAST比較に基づいて配列をプールに帰属させ、マッチングを確認しEST配列を将来のアッセンブリのためにプールに追加する。特に、Block １過程を用いてフィルタリングした後、新たな配列は新たなEST 配列と共通配列の現在のセットとのBLAST比較に基づいてあるプールに帰属される。有意なマッチングは、整列過程に塩基呼び出し信頼性スコア(base-call con
fidence score)も取り入れている、Smith-Watermanに基づくツールであるクロス
マッチ（Cross_match）を用いて確認される。各配列は、最も高いスコアでマッチングするプールに追加される。

【００３５】プール表示工程254において、テンプレートビューアープロシージャーは、アッセンブルされたESTによる少なくとも一つの共通配列を表示する。共通配列はディスプレイの上端に表示され、ESTは最左端のESTより左から右の順に、共通配列の下に１
行に１つのESTとして表示される。図7Aにおいて、例示のEST272はプール274中に置かれ、２つの共通配列276、27
8を有するプール272を生成する。図７Bにおいて、２つの例示的プール282および
284が結合され、ESTは単一のプール286に関連付けられる。図7Cにおいて、図7A のアッセンブルされたプール274は２つのプール292および294に分割されている。

【００３６】フィルター図８において、工程226および236の任意的なフィルタリングプロシージャー14
6（図4B）が示されている。PHRAPアッセンブリプログラムはプール中のESTが非常に大きい局所的深度(local depth)を有している場合は実行できないか非常に長い時間がかかる。局所的深度とは、最終的なアッセンブリにおける特定の位置
について、整列がその特定の位置にわたるESTの数を言う。アッセンブリの操作および速度を改善するために、フィルターはPHRAPアッセンブラーに入力する遺伝子プールについての代表的ESTセットを生成する。局所的深度は問題であるため、フィルターは最大の局所的深度領域に位置するESTを効率的に除去し、一方、浅い局所的深度を有するESTを維持する。いくつかのプールは非常に多数のEST
配列、例えば30,000以上を有するため、フィルターはアッセンブリ過程で使用さ
れるESTの数を低減させ、それによってアッセンブリ過程の操作速度を上げる。

【００３７】工程302において、最初の遺伝子プールから開始して各遺伝子プールについて、ESTセットが初期化される。ブロック304における一組の工程が各遺伝子プール
について実行される。工程306において、遺伝子プール中のESTについて冗長度ス
コアが計算される。冗長度スコアを計算するために、ESTセットについてクロスマッチ（Cross-match）が走らされ、ESTの対整列が得られる。この対整列に基づ
くと、ESTに関する冗長度スコアは、ESTの塩基全体にわたって、遺伝子プール中
の他のESTに関する各塩基の合致数の最小値に等しい。工程308では、最も高い冗
長度スコアを有するESTが同定される。工程308において、同定されたESTはESTの
代表的セットから除去される。複数のESTが最高冗長度を有する場合は、最も高い冗長度スコア有するESTの極小局所深度を同定し、同定された極小局所深度を有する最少の塩基数をもつESTを除去する。このようにして、最も浅い領域を覆うESTが代表的ESTとして残る傾向があり、一方、より深い領域にあるESTは除去される。加えて、より短い配列を有するESTも除去される傾向にある。

【００３８】工程312において、ESTを除去した後、その遺伝子プールに残っている代表的ES
Tの深度が所定の閾値よりも大きい場合は、本方法は工程306から310を繰り返し、除去すべき次のESTを決定する。その遺伝子プールに残っている代表的ESTの深
度が所定の閾値に等しいかそれより小さい場合は、その遺伝子プールについては
処理が終了する。クロスマッチ（Cross_match）はメモリーの問題を抱えており、多数のESTを含
むプールについては実行時間が長くなる。従って、別の実施態様においては、多
数のESTを含むプールについては、ESTバッチに分割され、各バッチは図８につい
て上述したような方法を用いて別々に処理される。アッセンプリに先立ち、残っ
ているESTはそのプールに関するESTの代表的セットの中へ一緒にされ、アッセン
ブリ工程にかけられる。

【００３９】継続プール識別子のマッピングプール識別子はデーダベースバージョン間で継続的であり得ることに注意すべ
きである。継続的プール識別子は、データベースの新しいバージョン中のどのプ
ールがデータベースのより古いバージョンのどのプールと実質的に同じであるか
を決定することにより、プール識別子の固有性を遡及的に監視することを必然的
に伴っている。図９はマップ継続プールid(Map_persistent_bin_id))プロシージ
ャー162を用いて継続的プール識別子のマッピング方法を提供する。この方法において、プール識別子は、古いデーダベースの古いプールのセットから新しいベ
ータベスの新しいプールのセットへマッピングされる。この方法はプールを生成
させた処理とは独立である。この方法を用いると、図６の多数の処理工程を通し
てプール識別子を追跡する必要がなく、解釈可能な圧縮形態で処理履歴を生成お
よび圧縮する必要がない。

【００４０】工程322において、プールの全ての対に関して、古いデータベースから一つのプールと新しいデータベースから一つのプールを有し、フォワードスコアおよび
リバーススコアを含む二面性スコアが以下のように決定される：フォワードスコア＝＃プール対中の古いプールと新しいプール間に共通のEST 古いプールセットから新しいプール中へ受継がれたESTの総＃リバーススコア＝＃プール対中の古いプールと新しいプール間に共通のEST 古いプール中の受継ぎ可能なESTの総＃各プール対について、フォワードスコアおよびリバーススコアはいずれも同じ
分子を有している。フォワードスコアの分母は新しいプール中の受け継がれたES
Tの総数である。言い換えると、古いプールセット中に存在していた、新しいプールセット中のESTの総数である。リバーススコアの分母は古いプール中のESTの
総数である。

【００４１】工程324において、各々の新しいプールに関して、（90％のように）所定のリバーススコア閾値以上の全てのリバーススコアが同定され、潜在的に受け継ぎ可
能なプール識別子のサブセットが同定され、全てのフォワードスコアが等級付け
られる。工程326において、それぞれの新しいプールについて、新しいプール識別子は、最も高いフォワードスコアを有する潜在的に受け継ぎ可能なプール識別子のサ
ブセット中の古いプール識別子へマッピングされる。図１０において、データベ
ース中の表328は古い識別子の新しい識別子へのマッピングを保存している。

【００４２】遺伝子プールの初期セットを埋める別の方法図11は図６の工程224の遺伝子プールの初期セットを埋める別の実施態様のフローチャートである。工程332において、各EST配列は、それぞれのESTが共通配列となるようにそれぞれのプール中に置かれる。工程334において、プールの共通配列が比較され、そのプール間の関係が、もしあるならば、決定される。図11
の工程334は図６の工程232と同じである。工程336において、プールはこの共通配列の関係に基づいて結合される。図11の工程336は図6の工程234と同じである。

【００４３】種間遺伝子リンク遺伝子プールセットはヒト配列データについてのみアッセンブルできるだけで
なく、他の生物種についても可能である。これらの遺伝子プールにおいて、同じ
遺伝子は複数の種にわたって現れることがある。アッセンブリ過程によって一緒
にグループ化される、与えられた種についてのライブラリに捕らえられるほど充
分に共通な遺伝子は、1以上の遺伝子プールからの1以上の共通配列によって代表
されるデータベース中に配列レベルで現れるであろう。多数の生物からのプールを結合させてそれらが同じ遺伝子を表すことを示すた
め、図１２の工程338では各々の種からのアッセンブルされたプールの共通配列がBLASTを用いて比較される。工程340において、所定の閾値を越えた比較結果に
ついて、第１の種識別子、第1の種遺伝子プール識別子、最初の種共通配列識別子、および第2の種遺伝子プール識別子をもつ第2の種識別子、第2の種共通配列がデータベース中の表に保存され種間の共通遺伝子の相互参照を提供する。

【００４４】類似性境界ファインダ類似性境界ファインダの目的は、入力配列間の類似性の領域及びユニークな領
域についての情報を識別及び抽出することである。類似性領域は、少なくとも一
度、２以上の入力配列において生じる、又は少なくとも二度、単一の入力配列に
おいて生じるパターンである。セグメントとは、類似性領域であるか、又は、異
なる入力配列からのパターン間の相違が生物学的に重要でないとみなされる場合
にそのように称される。入力配列は、少なくとも１つのセグメント、典型的には
多くのセグメントを有する。

【００４５】図13に、類似性境界ファインダ94（図４Ｂ）により使用される入力配列174にわたる保存領域を決定する一般的方法のフローチャートを示す。工程352では、初期対整列基準が設定される。対整列手段がクロスマッチ(Cross match)であるので、その基準は、類似性の相同配列又は領域が識別されるスコア閾値及び最短
の長さを含む。工程354では、対整列データ176（図４Ｂ）が、クロスマッチを用
いて入力配列の対の全てについて生成される。工程356では、対整列データに基づき、整列配列部分の境界が同定される。全ての整列配列部分の全ての境界が、
全ての決定した境界を先に決定した整列配列部分に繰り返し適用することにより
決定される。工程358では、入力配列あたりの境界の平均数を測定する。工程360
では、境界の平均数が所定の閾値より高いか等しい場合、その処理は工程362に進む。工程362では、対整列基準が修正され、対整列についての要求が、整列配列部分の数が減少するように増大され、その処理が工程354で繰り返される。平均値が所定の閾値より低い場合、工程364は、整列配列部分と共に入力配列及び境界を表示する。ある実施態様では、ユーザーは、平均と比較されるべき配列数
の所定の閾値をセットする。

【００４６】図14は、図13の類似性境界ファインダの一般方法の別の態様である。図14は、
その対整列データが一度のみもたらされる点で図13と異なる。図13のように、工
程352では対整列基準が設定される；及び工程354では入力配列の対について対整
列データがもたらされる。この点で、別の態様である図14は図13に示されるもの
と異なる。工程365では、対整列データは、短いセグメントを生成する可能性に従ってオーダリングされる。対整列は、関与する配列の整列領域が他の対整列に
含まれる程度に従って、短いセグメントを生じさせる傾向があると考えられる。
また、同じ２つの配列を包含し、かつ、整列領域の大部分又は全範囲を含む他の
対整列が存在する場合、その可能性が特に高いとされる。

【００４７】工程367では、それまでに処理された対整列データに含まれる、順序づけられた対整列データに基づいて、整列配列部分の境界が決定され、全ての共有(share
d)配列部分の全ての境界が、決定された全ての境界を整列配列部分に繰り返し適
用することにより決定される。工程368では、入力配列における境界間の平均距離が決定される。工程369では
、その平均値が所定の閾値より高いか等しい場合、および、さらに処理すべき対
整列が存在する場合、この処理は工程370に進み、次の対整列を得、その処理を工程367で繰り返す。境界間の平均距離が所定の閾値より低い場合、及び処理すべき対整列がもはや存在しない場合、工程364において、入力配列がそれらの境界と共に表示される。

【００４８】工程364は、図13と図14で同一である。その実施態様に依存して、入力配列をそれらの境界と共に表示するために、図４ＢのID類似領域プロシージャー(id si
milar regions procedure)166は、図13の工程352-362又は図13の工程352、354、
365-370のいずれかを実施する。図４の結果表示プロシージャー(display con se
quence procedure)168及びセグメントマップ表示プロシージャー(display segme
nt map procedure)170が、図13及び14の工程364を実施する。図15に、３つの典型的な配列を示す−配列１、配列２及び配列３。配列１及び
２は、境界１及び境界２の境界で類似性の第１の領域を有する。配列２及び配列
３は、境界３及び境界４の境界で類似性の第２の領域を有する。境界３は類似性
も第１の領域の中間部に位置するので、本発明では、境界３を配列１に適用し、
それにより、類似性の第１の領域を２つの部分に分割する。境界２は、類似性の
第２の領域の中間部に位置するので、境界２を配列３に適用して、類似性の第２
の領域を２つの部分に分割する。

【００４９】図16Ａ及び16Ｂは、図13の方法のより詳細なフローチャートである。工程372 では、入力配列が受け取られる。好ましくは、入力配列は、ESTアッセンブルの共通配列である。あるいは、他の配列、例えばゲノム配列データを受け取ること
もできる。入力配列について、アッセンブリ深さ、ベースコール質スコア(base
call quality score)、及び組織又は病状分類等の補助的データを受け取ることもできる。工程374では、上述したように、初期対整列基準が設定される。工程3
76では、入力配列間の対整列が決定される。加えて、入力配列とそれらの逆方向
相補鎖配列との間の対整列が同定される。工程378では、各対整列について、各配列の整列の境界、整列における全ての挿入及び削除位置及び各配列の方向が同
定される。工程380では、対整列が大きなギャップで分割される。大きなギャップとは、対整列において所定の閾値ギャップ長さを越えるギャップである。ユー
ザーは、所定のギャップ長を設定することができる。各々の大きなギャップにつ
いて、対整列を、大きなギャップで細分して、２つの新たなより短い対整列を形
成する。ギャップの端が境界である。工程382では、整列が主としてそれらの逆方向相補鎖配列であるような配列を、それらの逆相補鎖配列で置換する。この工
程を行って、表示を単純化する。工程384では、対整列データに基づいて、整列配列部分の境界が同定される。配列間の全ての類似性領域の全ての境界は、全て
の識別された境界を全ての整列配列部分に繰り返し適用することにより決定され
る。工程358、360及び362は、上述したように同一であり、その記載は省略する。

【００５０】工程360の後、工程390において、対整列データ及び境界に基づいて、セグメン
ト例が同定される。セグメント例は、隣接する類似性境界対の間の配列領域であ
る。工程392では、類似セグメント例（例えば異なる入力配列からのもの）が、セグメントグループにクラスタリングされる。工程394では、セグメント例は、セグメントグループに多重整列される。ある実施態様では、ツリー(tree)法に従った整列が使用されるが、但し、２つの多重
整列の整列において、その指針としてプロフィールを用いる代わりに、各多重整
列からのセグメントを有する、生成された対整列の１つにより特定されるギャッ
ピングが使用される。ツリーの構造は、配列対整列の順序づけにより決定される
。セグメント例は、各対配列について、整列中に含まれる２つのセグメント例を
含むツリーの対を併合することにより繰り返しクラスタリングされて２分木にさ
れる。対整列は、２つの整列領域の長さの合計が増大する順序で処理される。な
ぜなら、そのような順序づけは、非類似のセグメントより類似のセグメントを結
合する傾向にあるとされるからである。しかしながら、他のオーダリングを用い
てもよい。対整列は、その２つの整列セグメント例が既に同一ツリーに存在する
場合には無視される。この方法により得られる多重整列は最適なものではないか
もしれないが、この方法は、それが、新たな対整列の計算を必要としないために
速いものである。

【００５１】工程396では、各セグメントグループについての共通配列を、多重整列における各位置について、そのベースコールのうちから最も高い質スコアを有するベー
スコールをセグメント例における対応位置に選択することにより決定する。ギャ
ップ質スコア(gap quality score)は、ギャップ端の２つの塩基の平均スコアに等しくなるように割り当てられる。結びめ(ties)は、最の高い質スコアにおいて
最多数のセグメント例に生じるベースコールを選択することにより解決される。
依然として結びめが存在する場合には、非アンビギュアス (unambiguous)ベース
コールがギャップの変わりに選択され、ギャップはアンビギュアスベースコール
にわたって選択される。非アンビギュアスベースコール間に依然として結びめが
存在する場合、共通セグメントにおけるその位置へ“Ｎ”を割り当る。共通配列
における各位置について、質スコアは、その位置でセグメント例の間の最高スコ
アとして定義される。アッセンブリの深さ及び組織カウントは、セグメント例に
ついて等価な量の合計である。

【００５２】工程398では、セグメントグループ間の結合が同定される。結合は、２つのセグメント例、各グループからの１つが任意の配列において隣接するときに起こる
。工程400では、核酸入力配列及びそれらの共通配列について、スプライス結合配列らしきものが同定される。工程402では、入力配列がその境界と共に表示される。図17は、図16A及び16Bの工程386の受け取られた入力配列間の多重配列によりセグメントを識別及び決定する方法の詳細なフローチャートである。工程422では、各配列について、境界リスト178（図４Ｂ）が形成され、そのリストは配列の左及び右端点で埋められる(populate)。工程424では、その配列を含む全ての対整列の左及び右端点をその配列境界リストに加える。等価境界リスト180（図４Ｂ）は、入力配列間の対整列の等境界を関連付ける。工程426では、処理すべき境界のキューが生成される。最初は、そのキューは、上述の配列及び整列端点
の全てを含む。キューは他のリストとして実装されてもよい。工程428では、そのキューにおける各境界について、対応する配列における境界位置にまたがる全
ての対整列のスパニング(spanning)リストをもたらす。工程430では、スパニングリストにおける各対整列について、境界リストがこの位置で境界を既に含んで
いない場合にその対整列に関連した入力配列の境界リストへその境界を加えるこ
とによって対整列が細分化され、この境界は処理のためキューに加えられる。

【００５３】図18は、図15の例示的配列、整列及び境界を表した、図17の方法で使用される
データ構造を示す。最初、各配列は、出発点Ｓ１、Ｓ２及びＳ３、並びに終点Ｅ
１、Ｅ２及びＥ３のそれぞれを有する境界リストを有している。各初期境界リス
トは、また、対整列データからの境界を有する。図18では、境界は、“Ｂｘ”（
ここで、ｘは境界ナンバーを意味する）として固有的に示されている。配列１及
び２の境界Ｂ１及びＢ２が整列される。実際には、境界Ｂ１は、配列１中で配列
２における境界Ｂ１（例えば７０）とは異なる位置（例えば５０）で最も生じや
すいであろう。しかしながら、単純性のために、両境界をＢ１として示す。配列
２及び３の境界Ｂ３及びＢ４もまた整列される。図15について、図15の境界１、
２、３及び４は、図18のＢ１、Ｂ２、Ｂ３及びＢ４と同一である。図18では、他のデータ構造（例えばリスト）が、配列間の等価境界（配列１の
Ｂ１及び配列２のＢ１等）を関連付けするために使用される。各配列についての境界リストは、上記図13、14及び17の方法を適用した後に示
される。境界Ｂ３は、配列１についてのリストに加えられ、境界Ｂ２は配列３に
ついてのリストに加えられていることに注意されたい。他のリスト、例えば境界位置にわたって広がる対整列のリスト等もまた使用さ
れる。

【００５４】図１９に、入力配列及びそれらのセグメントが示されている。具体例としての
表示４４０は、整列させた共通セグメント４４３と共に入力配列AA、BB.c、CCを
表示する上方の部分４４２を有する。その共通セグメントの全てを含む一つの入
力配列は、水平方向に一直線上に示されている。簡単のため、セグメントに番号
を付けた。実際には、類似する各セグメントはそれぞれ独自の色を有している。
入力配列BB.cは、拡張子“.c”で示される逆方向相補鎖である。各入力配列のうち類似する塩基対の数に基づいて、より類似している配列の対
を、類似していない対よりも近くに置く順序で入力配列の行が表示される。セグメント間の線４４４は結合を示す。結合は、セグメントが接する終点に描
かれている。一つの配列とその逆方向相補鎖の領域間の整列を図形“Ｘ”で表示
した。

【００５５】下方の表示４４４において、セグメントグラフは整列セグメント間の関係を示
す。セグメントは１〜１４まで番号付けられ、各セグメントが一度に示されてい
る。ここでも、線はセグメント間の結合を示す。入力配列ＡＡはセグメント６を
含む一方、セグメント５とセグメント７とを結ぶ曲線により示されるように入力
配列ＢＢ．ｃはセグメント６を含まないので、セグメント６は、おそらく選択的
スプライシングされたエクソンであることに留意されたい。セグメントグラフの
セグメントはまた、上方の表示中の入力配列のセグメントについて垂直方向に整
列されている。セグメント８及びセグメント９は反復配列である。本発明の方法
は、一の入力配列内及び２以上の入力配列間のいずれにおいても識別される反復
配列を生じる。好ましい態様において、入力配列は遺伝子プール由来の共通配列である。

【００５６】図２０Ａ及び２０Ｂは、入力配列間でスプライス変異体を識別するための、図
１９の入力配列及びセグメントグラフを表示する方法のフローチャートである。
ステップ４５２において、入力又は共通配列及びそれらのセグメントが受け取ら
れる。ステップ４５４において、セグメントグループ内のセグメント例を同じ水
平位置を共有するサブセットへクラスタリングすることによって、表示中のセグ
メントの相対的な水平方向順序づけが決定される。ステップ４５６において、非
環式指向グラフ１８２（図４Ｂ）を使用してセグメント例の相対的な水平方向順
序を表す。非環式指向グラフの頂点はセグメントサブセットを表し、端はセグメ
ントサブセットの水平方向の隣接位置を示す。ここで端方向は、２つのサブセッ
トセグメントの左−右オーダリングにより書き取られる。非環式指向グラフは、
非接続指向パスのセットとして初期化され、各パスは一つの入力配列内でのセグ
メント例のオーダリングを表す。

【００５７】ステップ４５８において、類似セグメント例の全ての対のリストが生成され、
そのリストがソートされる。リストは、まず各対の入力配列長さで降順にソート
され、次に該対が同じ配向を有するかによりソートされ、さらに各対応する入力
配列内での２つのセグメント例の平均位置で昇順にソートされる。ステップ４６０において、ソートされたリスト中の各セグメント例の対につい
て、リストの最初から始めて、対におけるセグメント例がセグメントの異なるサ
ブセットに属する場合には、２つのセグメントが属するサブセットを併合するよ
う試みられる。換言すれば、併合が行なわれるとき、非環式指向グラフにおいて
２つのサブセットに対応する２つの頂点を識別し、併合することで、対応するグ
ラフの頂点が併合されるときに非環式指向グラフに環が加えられないならばサブ
セットを併合する。

【００５８】ステップ４６２において、表示におけるセグメントサブセットの絶対位置は、
以下により決定される：（ａ）全てのセグメントサブセット１８４（図４Ｂ）のトポロジーオーダリング
、即ち、個々の相対的な順序づけに一致するように左から右に並べたサブセット
のリストを生成する；（ｂ）各々がそのルートから左方向に延長する接続セグメントサブセットの指向
ツリー(directed tree)を生成する；（ｃ）トポロジーオーダリングから最も左のセグメントサブセットを除去して新
しい指向ツリーのルートを形成する；（ｉ）各セグメントサブセットについて、トポロジーオーダリングにおいて左
から右へ、もし、その左端がそのツリーにおいて既にセグメントサブセットの右
端への結合を有する場合には、それをトポロジーオーダリングから除去してそれ
を新しいツリーに加え、それを最も右の端を有する左のサブセットの子ノードと
し、その左端をその親の右端の右から特定の最小分離距離に位置決めする；及び（ii）前に生成されたツリーの全てについて、このツリーにおいてセグメント
サブセットの右端と前のツリーにおけるセグメントサブセットの左端との間に結
合がある場合には、このツリーを前のツリーに対して、このような全ての結合に
含まれるセグメントサブセットが少なくとも最小分離距離だけ分離され、且つ、
少なくともこのような一つの結合に含まれるセグメントサブセットが正確にその
最小分離距離だけ分離されるように位置決めする；及び（ｄ）トポロジーオーダリングにサブセットが残らなくなるまで、トポロジーオ
ーダリングにある最も左のサブセットを除去して別の新しい指向ツリーのルート
を形成し、この新しい指向ツリーについてステップ（ｃ）（ｉ）及び（ｃ）（ii
）を繰り返す。

【００５９】上述のツリーの相対的な位置決めにより、接続セグメントサブセットの一以上
のクラスターが規定される。各クラスター内のセグメントサブセットは、それら
の結合部を介して接続したグラフを形成し、異なるクラスターにおけるセグメン
トサブセットは互いに左から右への結合部を有しない。そのようなすべてのクラ
スターは、各クラスターにおける最も左のセグメントサブセットの左端がゼロの
位置になるように並べられる。ステップ４６４において、入力配列は垂直的に次によって並べられる：各入力配列対の間の全ての対整列の全長が減少していく順番にソートされた入
力配列の全ての対の順序づけを行う；垂直的に順序づけされた入力配列のリストを、以下のとおり、入力配列の対を
順に処理することにより生成する；各配列が各々の1配列リスト中にあるとして、次に前のステップで生成した順序中にあるとして開始し、一つの対における２つの入力配列が異なるリストに属
する場合には、一つのリストを他のリストに付加する；及び最後に、２つ以上のリストがある場合には、そのリストを垂直的に、共通配列
の数が減少する順番に整理する。

【００６０】別の態様において、多数のリストについて、表示するための最も上のリストは
、入力配列の長さに基づいて決定される。ステップ４６６において、セグメントグラフにおける共通配列セグメントの垂
直（行）位置を次により決定する；全てのセグメント例を、対応する配列の長さが減少する順番にソートする；空行のみを有するセグメントグラフから開始し、ソートリスト中の各セグメン
ト例について、対応するセグメントサブセットがそのグラフに位置を有していな
い場合には、対応する共通配列セグメントを、その共通セグメントがそのセグメ
ントサブセットの水平位置に位置決めされ得、且つその行に既に位置決めされた
全ての他の共通セグメントから少なくとも最小分離距離となり得るようなグラフ
の最上行へ加える。

【００６１】別の態様において、それが適合し、且つ第一のセグメントサブセットと左から
右への結合部を共有する第二のセグメントサブセットの共通セグメントを含む共
通セグメントが最上行へ加えられる。そのような行が存在しない場合、共通セグ
メントは、それが適合する最上行へ加えられる。このようにして、類似性境界ファインダーは、対整列の出力を処理して、どん
なに複雑であっても、対整列データの全てと一致するように、保存領域を確実に
識別する。それ故、推定上の変異体、すなわち、推定上の選択的スプライシング
されたエクソン又はエクソンのグループに対応し得るセグメントを表示すること
により遺伝子の選択的スプライシングを決定するのに類似性境界ファインダーを
補助的に使用することができる。類似性境界ファインダーに対する入力配列は遺伝子プールの共通配列に限定さ
れない。類似性境界ファインダーを使用して、ゲノム及びｃＤＮＡ配列データを
上述の入力又は共通配列として処理することにより、ｃＤＮＡに対するゲノムの
整列を決定することができる。類似性境界ファインダーはまた、２つの異なる種
からの配列データを上述の入力又は共通配列として処理することにより、種間ホ
モログを含む相同配列の類似領域を識別するのに使用することができる。

【００６２】また、類似性境界ファインダーを使用して、置換、挿入及び欠失を含む単一ヌ
クレオチド多型等の配列多型を決定することができる。これは、整列においてＳ
ＮＰをギャップとして出現させるためのギャップ開始ペナルティーの大きさの２
倍より大きいミスマッチペナルティーを設定し、及びＳＮＰに個々のシングル塩
基セグメントを形成させるためにセグメント内で最小ギャップ長さをゼロに設定
することにより、クロスマッチ(Cross_match)対整列において置換を許さないようにすることにより行うことができる。類似性境界ファインダーを使用して、共通配列においてセグメント間で組織分
化を決定することもできる。類似及び非類似セグメントは組織カテゴリーと相関
しており、共通の組織カテゴリーを有するサブセットを形成する。各サブセット
は類似及び非類似セグメントの両方を含むことができる。ポリマー配列は図１９
に示されるように表示される。セグメントの各サブセットは、発現が一つの組織
カテゴリーに特有のものである領域をセグメントの色が示す様、独自の色で表示
される。

【００６３】別の態様において、組織カテゴリーを相関させ及び識別する代わりに、セグメ
ントは疾病状態と相関しており、各疾病状態は表示上で固有に同定される。また別の態様において、セグメントは発生段階と相関しており、各発生段階が
表示上で固有的に同定される。本発明は、沢山の不均一配列から遺伝子を同定する多くの課題を解決する。本
発明により、キメラクローンが除去され、構成人工産物が除去され、繰り返し要
素がマスクされ、近接する相同体が分離され、明らかなスプライス変異を含む遺
伝子プールが併合されて単一遺伝子プールとなり、精度の低い末部が刈り込まれ
る。本発明はまた、スプライス変異体を識別するための遺伝子プールの共通配列
の表示装置を提供する。本発明を２、３の特定の態様について説明してきたが、その記載は本発明を具
体的に説明するものであって、本発明を限定して解釈すべきではない。添付の請
求の範囲により規定される本発明の真の趣旨及び範囲から離れることなく、当業
者には種々の変更が可能である。

【図面の簡単な説明】

【図１】遺伝子発現の例である。

【図２】 ESTとmRNA配列及びゲノム配列の関係を示す。

【図３】従来技術のクラスタリング及びアッセンブリプロセスのフローチャートである
。

【図４Ａ】本発明を使用するクライアント−サーバーシステムの図である。

【図４Ｂ】本発明の例示プロシージャー及びデータを記憶する記憶装置を有するコンピュ
ータシステムの図である。

【図５Ａ】単一コンセンサス配列及びESTデータを含む例示遺伝子プールである。

【図５Ｂ】多数の共通配列及びESTデータを含む別の例示遺伝子プールである。

【図６】本発明の遺伝子プールを生じる方法のフローチャートである。

【図７Ａ】遺伝子プール中のESTの集団及び集合を示す。

【図７Ｂ】二つの例示遺伝子ビプールの結合を示す。

【図７Ｃ】図７Ａの遺伝子プールの分割を示す。

【図８】アッセンブリ又は再アッセンブリプロセスの前に適用されるフィルターのフロ
ーチャートである。

【図９】新しいESTデータがデータベースに加えられる場合の継続プール識別子のマッピングの方法のフローチャートである。

【図１０】図１０の方法とともに使用される古い遺伝子プール識別子から新しいビンアイ
デンティファイアーへの遺伝を追跡するのに使用されるテーブルである。

【図１１】遺伝子プールの初期セットを埋める別の実施態様のフローチャートである。

【図１２】種間遺伝子リンクの同定の方法のフローチャートである。

【図１３】インプット配列にわたる保存領域を決定する一般方法のフローチャートである
。

【図１４】図１３の方法の別の実施態様である。

【図１５】類似性の領域及び境界を示す三つの配列の図である。

【図１６】図１３の方法の更に詳しいフローチャートである。

【図１７】図１６の受け取られたインプット配列の中で多重整列を有するセグメントを同
定し、決定する方法の詳細なフローチャートである。

【図１８】図１７の方法とともに使用されるデータ構造を示す。

【図１９】多重共通配列の例示的表示及びセグメントグラフである。

【図２０Ａ】共通配列の表示方法のフローチャート及び図１９に示された共通配列中のスプ
ライス変異体の同定のためのセグメントグラフである。

【図２０Ｂ】共通配列の表示方法のフローチャート及び図１９に示された共通配列中のスプ
ライス変異体の同定のためのセグメントグラフである。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ホッジソンディヴィッドエムアメリカ合衆国カリフォルニア州 94301 パロアルトアディッソンアベニュー 567 (72)発明者スピロピーターエイアメリカ合衆国カリフォルニア州 94306 パロアルトレッドウッドサークル 3776 (72)発明者ルッソーフランクディーアメリカ合衆国カリフォルニア州 94086 サニーヴェイルローゼットコート 939 (72)発明者エイカーブロムイングリッドイーアメリカ合衆国カリフォルニア州 94061 レッドウッドシティージョンソンストリート 1234 (72)発明者ヒルマンジェニファーエルアメリカ合衆国カリフォルニア州 94040 マウンテンヴィューモンロウドライヴ 230−＃17 (72)発明者ジョーンズアニッサリーアメリカ合衆国カリフォルニア州 94122 サンフランシスコセヴンティーンスアベニュー 1322 (72)発明者ブレッチャーショウンロバートアメリカ合衆国カリフォルニア州 94040 マウンテンヴィューオーテガアベニュー 550−＃ビー321 (72)発明者コーエンハワードジェロームアメリカ合衆国カリフォルニア州 94306 パロアルトクーパーストリート 3272 (72)発明者デュフォアージェラードアメリカ合衆国カリフォルニア州 94552 カストロヴァリーグリーンリッジロード 5327 (72)発明者ウッドマイケルピーターアメリカ合衆国カリフォルニア州 94107 サンフランシスコウィスコンシンストリート 710 (72)発明者コレッザーアレクサンダージョージアメリカ合衆国カリフォルニア州 94560 ニューアークリンコナーダコート 8260 (72)発明者バンヴィルスティーヴンシーアメリカ合衆国カリフォルニア州 94306 パロアルトモンロードライヴ 365 (72)発明者ケイスクラウディアオルデンアメリカ合衆国カリフォルニア州 94070 サンカーロスベルモントアベニュー 2035 Ｆターム(参考） 4B024 AA20 CA01 CA12 HA20 4B065 BD50 CA60 5B075 ND20 PQ02 PQ13 PR06 PR08 QM08 QT06 UU19

Claims

【特許請求の範囲】

【請求項１】ポリマー配列をアッセンブルする方法であって、ポリマー配列を第１の数のプールに配置する工程、各プール中の前記ポリマー配列を、前記プールのポリマー配列を代表する１つ
以上の共通配列へアッセンブルする工程、前記プールの共通配列を比較して、前記プールの共通配列間に関係があるかど
うかを決定する工程、前記プールの共通配列間の関係に基づいて前記プールを修正する工程、及び、前記修正プール中のポリマー配列をアッセンブルし直して、前記修正プールを
代表する各プールについて１つ以上の修正共通配列を生成する工程、を含むことを特徴とする方法。
【請求項２】前記修正工程が、前記プールのうちの２つにおける共通配列
が予め定義されたオーバーラップ基準を満たすときに、前記２つのプールを接合
する工程を含む、請求項１に記載の方法。
【請求項３】前記修正工程が、前記プールのうちの１つにおける共通配列
が予め定義された区別基準を満たすときに、前記１つのプールを２つのプールに
分割する工程を含む、請求項１に記載の方法。
【請求項４】更に、前記比較工程、修正工程及び修正プールをアッセンブ
ルし直す工程を繰り返す工程を含む、請求項１に記載の方法。
【請求項５】前記繰り返し工程を予め決められた回数行う、請求項４に記
載の方法。
【請求項６】前記比較工程、修正工程及びアッセンブルし直す工程の各繰
り返しが反復として示され、前記修正プールが修正プールのセットを形成し、前
記繰り返し工程の前に、下記の工程：前の反復において既に修正されているプールを同定する工程、及び、前記同定されたプールを前記修正プールのセットから除去する工程、を行う、請求項４に記載の方法。
【請求項７】前記繰り返し工程を、前記修正プールのセットが空になるま
で行う、請求項６に記載の方法。
【請求項８】更に、下記の工程：前記アッセンブルし直す工程の前に、フィルターを各プール中の前記ポリマー
配列に適用して、ポリマー配列の代表的サブセットを同定する工程、を含み、前記アッセンブルし直す工程で前記ポリマー配列の代表的サブセットをアッセ
ンブルし直して、前記修正共通配列を生成する請求項１に記載の方法。
【請求項９】更に、下記の工程：前記アッセンブル工程の前に、フィルターを各プール中の前記ポリマー配列に
適用して、ポリマー配列の代表的サブセットを同定する工程、を含み、前記アッセンブル工程で前記ポリマー配列の代表的サブセットをアッセンブル
して、前記修正共通配列を生成する請求項１に記載の方法。
【請求項１０】前記ポリマー配列が発現配列タグを含み、前記プールが発
現した遺伝子の全部又は一部を代表する遺伝子プールである、請求項１に記載の
方法。
【請求項１１】少なくとも１つの遺伝子プールが少なくとも２つの共通配
列を有するとき、前記少なくとも２つの共通配列が前記発現遺伝子の少なくとも
一部のスプライス変異体を代表している、請求項１０に記載の方法。
【請求項１２】更に、下記の工程：前記共通配列の少なくとも１つと外部データーベースとの間の１つ以上のホモ
ログを同定する工程、及び、前記同定した少なくとも１つの共通配列を外部データーベース識別子で注釈を
つける工程、を含む、請求項１に記載の方法。
【請求項１３】前記比較工程及び修正工程が下記の工程：同一のクローンからの３’及び５’ポリマー配列を有するプールのサブセット
を同定する工程、及び、前記同定されたプールのサブセットを結合する工程、を含む、請求項１に記載の方法。
【請求項１４】ポリマー配列をアッセンブルする方法であって、ポリマー配列を第１の数のプールに配置する工程、各プール中の前記ポリマー配列を、前記プールのポリマー配列を代表する１つ
以上の共通配列へアッセンブルする工程、前記プールの１つ以上の共通配列間の類似性に基づき、前記プールを結合する
工程、前記プールの共通配列間の非類似性に基づき、前記プールのうちの１つを２つ
以上の分割プールへ分割する工程、前記修正プール中のポリマー配列をアッセンブルし直して、前記修正プールを
代表する各プールについて１つ以上の修正共通配列を生成する工程、及び、前記接合されたプール及び分割されたプールを使用して、前記結合、分割及び
アッセンブルし直す工程を繰り返す工程、を含むことを特徴とする方法。
【請求項１５】更に、下記の工程：前記アッセンブルし直す工程の前に、フィルターを各プール中の前記ポリマー
配列に適用して、ポリマー配列の代表的サブセットを同定する工程、を含み、前記アッセンブルし直す工程で前記ポリマー配列の代表的サブセットを再アッ
センブルし、前記修正共通配列を生成する請求項１４に記載の方法。
【請求項１６】前記ポリマー配列が発現配列タグを含み、前記プールが発
現した遺伝子の少なくとも一部を代表する遺伝子プールである、請求項１４に記
載の方法。
【請求項１７】少なくとも１つの遺伝子プールが少なくとも２つの共通配
列を有するとき、前記少なくとも２つの共通配列が前記発現遺伝子の少なくとも
一部の少なくとも２つのスプライス変異体を代表している、請求項１４に記載の
方法。
【請求項１８】更に、下記の工程：前記アッセンブル工程の前に、フィルターを各プール中の前記ポリマー配列に
適用して、ポリマー配列の代表的サブセットを同定する工程、を含み、前記アッセンブル工程で前記ポリマー配列の代表的サブセットをアッセンブル
して、前記共通配列を生成する請求項１４に記載の方法。
【請求項１９】生体分子情報を提供するためのコンピュータシステムであ
って、プロセッサ及び、下記の命令：ポリマー配列を第１の数のプールに配置する命令、各プール中の前記ポリマー配列を、前記プールのポリマー配列を代表する１つ
以上の共通配列へアッセンブルする命令、前記プールの共通配列を比較して、前記プールの共通配列間に関係がある場合
に、それを決定する命令、前記プールの共通配列間の関係に基づいて前記プールを修正する命令、及び、前記修正プール中のポリマー配列をアッセンブルし直して、前記修正プールを
代表する各プールについて１つ以上の修正共通配列を生成する命令、を格納するための、前記プロセッサと結合したメモリー、を含むことを特徴とするコンピュータシステム。
【請求項２０】前記修正命令が、下記の命令：前記プールのうちの２つにおける共通配列が予め定義されたオーバーラップ基
準を満たすときに、前記２つのプールを結合する命令、を含む、請求項１９に記載のコンピュータシステム。
【請求項２１】前記修正命令が、下記の命令：前記プールのうちの１つにおける共通配列が予め定義された区別基準を満たす
ときに、前記１つのプールを２つのプールに分割する命令、を含む、請求項１９に記載のコンピュータシステム。
【請求項２２】更に、下記の命令：前記比較命令、修正命令及び前記修正プールをアッセンブルし直す命令を繰り
返す命令、を含む、請求項１９に記載のコンピュータシステム。
【請求項２３】前記比較命令、修正命令及びアッセンブルし直す命令を予
め決められた回数繰り返す、請求項２２に記載のコンピュータシステム。
【請求項２４】前記比較命令、修正命令及びアッセンブルし直す命令の各
繰り返しが反復として示され、前記修正プールが修正プールのセットを形成し、
前記繰り返し命令の前に、更に下記の命令：先の反復において既に修正されているプールを同定する命令、及び、前記同定プールを前記修正プールのセットから除去する命令、を含んでいる、請求項２２に記載のコンピュータシステム。
【請求項２５】ポリマー配列をアッセンブルするためのコンピュータプロ
グラム製品であって、前記コンピュータプログラム製品はコンピュータシステムと共に使用されるも
のであり、前記コンピュータプログラム製品はコンピュータ読み取り可能な記憶媒体及び
そこに埋め込まれたコンピュータプログラムメカニズムを含み、前記コンピュータプログラムメカニズムが、下記の命令：ポリマー配列を第１の数のプールに配置する第１の命令セット、前記プール中のポリマー配列を、前記プールのポリマー配列を代表する１つ以
上の共通配列へアッセンブルするアセンブラ、前記配置された第１の数のプールを使用して、前記アセンブラを実行する第２
の命令セット、前記プールの共通配列を比較して、前記プールの共通配列間に関係があるなら
ば、それを決定する第３の命令セット、前記プールの共通配列間の関係に基づいて前記プールを修正する第４の命令セ
ット、及び、前記修正プールを使用して前記アセンブラを実行して、前記修正プールについ
ての共通配列の新たなセットを生成する第５の命令セット、を含むことを特徴とするコンピュータプログラム製品。
【請求項２６】前記第４の命令セットが、下記の命令：前記プールのうちの２つにおいて共通配列が予め定義されたオーバーラップ基
準を満たすときに、前記２つのプールを結合する命令、を含む、請求項２５に記載のコンピュータプログラム製品。
【請求項２７】前記第４の命令セットが、下記の命令：前記プールのうちの１つにおいて共通配列が予め定義された区別基準を満たす
ときに、前記１つのプールを２つのプールに分割する命令、を含む、請求項２５に記載のコンピュータプログラム製品。
【請求項２８】更に、下記の命令：前記比較する第３の命令セット、修正する第４の命令セット及びアッセンブル
し直す第５の命令セットを繰り返す命令、を含む、請求項２５に記載のコンピュータプログラム製品。
【請求項２９】前記比較する第３の命令セット、修正する第４の命令セッ
ト及び修正プールをアッセンブルし直す第５の命令セットを予め決められた回数
繰り返す、請求項２５に記載のコンピュータプログラム製品。
【請求項３０】ポリマー配列のセットにおける配列類似性及び配列相違性
を分析する方法であって、前記ポリマー配列の対についての対整列データを生成する工程であって、前記
対整列データが境界を用いて前記ポリマー配列対間の類似性領域を定義している
工程、特定のポリマー配列における追加の境界を決定する工程であって、ポリマー配
列の１つの対についての少なくとも１つの対整列に由来する少なくとも１つの境
界を、前記特定のポリマー配列のうちの１つを含む別のポリマー配列の対につい
ての少なくとも１つのその他の対整列に適用することにより決定する命令、及び
、前記境界に基づいて追加の類似性領域を生成する工程、を含むことを特徴とする方法。
【請求項３１】前記ポリマー配列が第１配列及び第２配列を含み、生成し
た前記第１配列及び第２配列間の対整列データが第１の類似性領域を含み、前記
つい整列データがギャップを含み、更に、下記の工程：前記第１の類似性領域中の少なくとも２つの異なる類似性領域を前記対整列デ
ータから識別する工程、を含み、介在配列部分が異なっている、請求項３０に記載の方法。
【請求項３２】前記介在配列分中の隣接するポリマーの数が予め決められ
たギャップしきい値を超えるときに、前記介在配列分が異なるとする、請求項３
０に記載の方法。
【請求項３３】前記類似性領域がセグメントを形成し、更に相違性領域が
セグメントを形成し、更に下記の工程：セグメントの数が予め決められたしきい値よりも大きいか又は等しいときに、
基準のセットを修正して、対整列データを生成する工程、及び、前記対整列データを生成する工程を繰り返して、全ての境界を決定し、追加の
類似性領域を生成して、セグメントの総数を減少させる工程、を含む、請求項３０に記載の方法。
【請求項３４】前記類似性領域がセグメントを形成し、更に相違性領域が
セグメントを形成し、更に下記の工程：セグメントの長さが予め決められたしきい値よりも大きいか又は等しいときに
、基準のセットを修正して、対整列データを生成する工程、及び、前記対整列データを生成する工程を繰り返して、全ての境界を決定し、追加の
類似性領域を生成して、セグメントの全数を減少させる工程、を含む、請求項３０に記載の方法。
【請求項３５】更に、下記の工程：互いに空間的に整列した前記類似性領域を有する前記ポリマー配列を表示する
工程、を含む、請求項３０に記載の方法。
【請求項３６】前記表示工程が、前記ポリマー配列における配列の差異及
び類似性を表示し、更に下記の工程：前記ポリマー配列を表示する工程であって、前記ポリマー配列が非類似性領域
を有しているものである工程、を含み、各ポリマー配列について、前記類似性及び非類似性領域が、前記ポリマー配列
中の各領域の位置に基づいて水平方向に整列しており、異なるポリマー配列間の類似性領域が垂直的に整列している、請求項３５に記
載の方法。
【請求項３７】追加の類似性領域を生成する工程が、下記の工程：前記境界を使用して、前記類似性領域を細分する工程、を含む、請求項３０に記載の方法。
【請求項３８】更に、前記細分工程を繰り返す工程を含む、請求項３７に
記載の方法。
【請求項３９】更に下記の工程：前記対整列データを生成する工程、追加の境界を決定する工程及び追加の類似
性領域を生成する工程を繰り返す工程、及び、対整列基準を修正して、各繰り返し工程において前記対整列データを生成する
工程、を含む、請求項３０に記載の方法。
【請求項４０】更に、下記の工程：特定配列内の反復配列を同定する工程、を含む、請求項４０に記載の方法。
【請求項４１】更に、下記の工程：前記同定反復配列を固有の表示を用いて表示する工程、を含む、請求項３９に記載の方法。
【請求項４２】前記ポリマー配列が更に非類似性領域を含み、更に下記の
工程：前記類似性及び非類似性領域を同定する工程、及び、前記類似性及び非類似性領域を生物学的特性に相関させる工程、を含む、請求項３０に記載の方法。
【請求項４３】更に下記の工程：配列の多型性を同定する工程、及び、前記配列の多型性を生物学的特性に相関させる工程、を含む、請求項３０に記載の方法。
【請求項４４】更に下記の工程：前記類似性領域を有するポリマー配列を代表する各類似性領域についての共通
配列を演繹する工程、を含む、請求項３０に記載の方法。
【請求項４５】前記類似性領域がエキソンを表す、請求項３０に記載の方
法。
【請求項４６】前記ポリマー配列のセットが、転写された核酸配列の少な
くとも一部のスプライス変異体を表す少なくとも２つの共通配列を含み、前記類
似性領域がエキソン及びエキソン部分を含む、請求項３０に記載の方法。
【請求項４７】前記類似性領域がエキソンを表し、前記表示工程を使用し
てスプライス変異体を検出する、請求項３４に記載の方法。
【請求項４８】前記ポリマー配列が、少なくとも１つのゲノム配列及び少
なくとも１つの転写された核酸配列を含み、前記類似性領域エキソン及びエキソ
ンの一部分を含む、請求項３０に記載の方法。
【請求項４９】前記ポリマー配列が共通配列である、請求項３０に記載の
方法。
【請求項５０】下記の工程：前記ポリマー配列間に共通の類似性領域を表す共通セグメントを生成する工程
であって、前記相違性領域が固有セグメントと称される工程、を含み、更に下記の工程：前記共通セグメント及び固有セグメントをセグメントグラフ中に表示する工程
であって、前記セグメントグラフが、前記ポリマー配列中の共通セグメント及び
固有セグメントの位置に基づいて各共通セグメント及び各唯一のセグメントを同
時に表示するものである前記工程、を含む、請求項３０に記載の方法。
【請求項５１】前記ポリマー配列が、異なる組織カテゴリーに由来する少
なくとも２つの転写された核酸配列を含み、更に下記の工程：前記非類似性領域と前記組織カテゴリーとを相関させる工程、を含む、請求項４１に記載の方法。
【請求項５２】前記ポリマー配列が少なくとも２つの関連遺伝子配列を含
み、前記類似性領域が前記少なくとも２つの関連遺伝子配列間の保存領域を含む
、請求項４１に記載の方法。
【請求項５３】前記ポリマー配列が少なくとも２つの関連遺伝子配列を含
み、前記類似性領域が前記少なくとも２つの関連遺伝子配列間の保存領域を含む
、請求項３０に記載の方法。
【請求項５４】前記ポリマー配列が、異なる疾患状態に由来する少なくと
も２つの転写された核酸配列を含み、更に下記の工程：前記相違性領域と前記疾患状態とを相関させる工程、を含む、請求項３０に記載の方法。
【請求項５５】前記ポリマー配列が、異なる発達段階に由来する少なくと
も２つの転写された核酸配列を含み、更に下記の工程：前記相違性領域と前記発達段階とを相関させる工程、を含む、請求項３０に記載の方法。
【請求項５６】ポリマー配列のセットにおける配列類似性及び配列非類似
性を分析するためのコンピュータシステムであって、プロセッサ、及び、下記の命令：前記ポリマー配列の対についての対整列データを生成する命令であって、前記
対整列データが境界を用いて前記ポリマー配列対間の類似性の領域を定義してい
る命令、特定のポリマー配列における追加の境界を決定する命令であって、ポリマー配
列の１つの対についての少なくとも１つの対整列に由来する少なくとも１つの境
界を、前記特定のポリマー配列のうちの１つを含む別のポリマー配列の対につい
ての少なくとも１つのその他の対整列に適用することにより決定する工程、及び
、前記境界に基づいて追加の類似性領域を生成する命令、を記憶するための、前記プロセッサと結合したメモリー、を含むことを特徴とするコンピュータシステム。
【請求項５７】更に、メモリーが下記の命令：互いに空間的に整列した前記類似性領域を有する前記ポリマー配列を表示する
命令、を含む、請求項５６に記載のコンピュータシステム。
【請求項５８】更に前記ポリマー配列が非類似性領域を含み、前記表示命
令が下記の命令：前記類似性及び非類似性領域を、前記ポリマー配列中の各領域の位置に基づい
て水平方向に整列する命令、及び、異なるポリマー配列間の類似性領域を垂直的に整列する命令、を含む、請求項５７に記載のコンピュータシステム。
【請求項５９】更に、前記メモリーが下記の命令：特定配列内の反復部分配列を同定する命令、を含む、請求項５６に記載のコンピュータシステム。
【請求項６０】前記ポリマー配列が更に非類似性領域を含み、更に前記メ
モリーが下記の命令：前記類似性及び非類似性領域を同定する命令、及び、前記類似性及び非類似領域を生物学的特性に相関させる命令、を含む、請求項５６に記載のコンピュータシステム。
【請求項６１】更に、メモリーが下記の命令：配列の多型性を同定する命令、及び、前記配列の多型性を生物学的特性に相関させる命令、を含む、請求項５６に記載のコンピュータシステム。
【請求項６２】ポリマー配列をアッセンブルするためのコンピュータプロ
グラム製品であって、前記コンピュータプログラム製品はコンピュータシステムと共に使用されるも
のであり、前記コンピュータプログラム製品はコンピュータ読み取り可能な記憶媒体及び
そこに埋め込まれたコンピュータプログラムメカニズムを含み、前記コンピュータプログラムメカニズムが、下記の命令：前記ポリマー配列の対についての対整列データを生成する第１の命令セットで
あって、前記対整列データが境界を用いて前記ポリマー配列対間の類似性の領域
を定義するものである命令セット、及び、特定のポリマー配列における追加の境界を決定する第２の命令セットであって
、ポリマー配列の１つの対についての少なくとも１つの対整列に由来する少なく
とも１つの境界を、前記特定のポリマー配列の１つを含む別のポリマー配列対に
ついての少なくとも１つのその他の対整列に適用することにより決定し、かつ前
記境界に基づいて追加の類似性領域を生成する第２の命令セット、を含むことを特徴とするコンピュータプログラム製品。
【請求項６３】更に、前記コンピュータプログラムメカニズムが下記の命
令：互いに空間的に整列した類似性領域を有する前記ポリマー配列を表示する第３
の命令セット、を含む、請求項６２に記載のコンピュータプログラム製品。
【請求項６４】更に前記ポリマー配列が類似性領域を含み、前記第３の命
令セットが下記の命令：前記類似性及び非類似性領域を、前記ポリマー配列中の各領域の位置に基づい
て水平方向に整列する命令、及び、異なるポリマー配列間の類似性領域を垂直的に整列する命令、を含む、請求項６３に記載のコンピュータプログラム製品。
【請求項６５】更に、前記第２の命令セットが下記の命令：特定配列内の反復部分配列を同定する命令、を含む、請求項６２に記載のコンピュータプログラム製品。
【請求項６６】前記ポリマー配列が更に非類似性領域を含み、更に前記コ
ンピュータプログラムメカニズムが下記の命令：前記類似性及び非類似性領域を同定し、かつ前記類似性及び非類似性領域を生
物学的特性に相関させる第３の命令セット、を含む、請求項６２に記載のコンピュータプログラム製品。
【請求項６７】更に前記コンピュータプログラムメカニズムが下記の命令
：配列の多型性を同定し、かつ前記配列の多型性を生物学的特性に相関させる第
３の命令セット、を含む、請求項６２に記載のコンピュータプログラム製品。