[go: up one dir, main page]

CN118871994A - 核苷酸测序的校准序列 - Google Patents

核苷酸测序的校准序列 Download PDF

Info

Publication number
CN118871994A
CN118871994A CN202380023184.0A CN202380023184A CN118871994A CN 118871994 A CN118871994 A CN 118871994A CN 202380023184 A CN202380023184 A CN 202380023184A CN 118871994 A CN118871994 A CN 118871994A
Authority
CN
China
Prior art keywords
calibration
sequence
sequencing
nucleobase
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380023184.0A
Other languages
English (en)
Inventor
J·S·维切利
B·陆
J·S·费希尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN118871994A publication Critical patent/CN118871994A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本公开描述了可将短校准序列引入到测序设备中并运行校准循环以调整或以其他方式确定对应于该测序设备的测序参数的方法、非暂态计算机可读介质和系统。例如,所公开的系统可检测具有被掺入到样本库片段中或被掺入到样本核苷酸载玻片表面上的校准序列的流通池(或其他样本核苷酸载玻片)。通过运行一个或多个校准循环以在对应于校准序列的寡核苷酸上掺入核碱基并捕获与样本基因组序列的基因组测序循环分开的校准序列的对应图像,所公开的系统可确定对应于该测序设备的测序参数。

Description

核苷酸测序的校准序列
相关申请的交叉引用
本申请要求于2022年2月25日提交的名称为“核苷酸测序的校准序列(CALIBRATION SEQUENCES FOR NUCELOTIDE SEQUENCING)”的美国临时申请63/268,547号的权益和优先权。上述申请全文据此以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已经改进了用于测序仪和测序数据分析软件两者的硬件和软件,这些测序仪确定基因组样本(或其他核酸聚合物)的核苷酸片段读段,该测序数据分析软件分析此类核苷酸片段读段的核碱基检出。为了生成并分析基因组样本的核碱基检出,一些现有的测序仪、设备上软件和测序数据分析软件(统称“现有的测序系统”)配置了测序参数,这些测序参数界定边界,设置基线信号或噪声,或以其他方式指导或计算确定核碱基检出。现有的测序系统可针对特定的测序仪或流水线离线确定一些此类测序参数,诸如均衡器系数或其他预先确定的测序参数,或者在测序仪上的测序运行期间确定其他测序参数,诸如偏移校正参数。为了校准某些测序参数,现有的测序系统通常运行从明确定义的基因组样本诸如Phi-X提取的寡核苷酸的基因组测序循环,并且基于明确定义的基因组样本的已知序列来确定或调整参数。但是现有的测序系统的常规校准可能导致测序失败并且核碱基检出不准确,以及消耗用于基因组测序循环校准的计算资源和其他资源。
正如所表明的,预先确定用于测序仪或测序流水线的测序参数的现有测序参数可能引入错误。例如,尽管不同的测序仪使用类似的硬件和类似的消耗品,但是针对一个测序仪离线预先确定的测序参数可能无法很好地适用于另一测序仪、流通池或试剂组的环境。此外,即使最初(例如,在装运时)为测序仪很好地配置了预先确定的测序参数,但是测序仪的硬件或软件可能随着时间的推移而改变,并且不再反映在预先确定测序参数诸如用于提取强度值的均衡器系数时使用的硬件或软件的状态。
除了由预先确定的测序参数引起的错误之外,当在实验室中使用基因组测序循环进行校准时,现有的测序系统在测序仪上的部分(或全部)常规测序运行期间通常出现随机失败。例如,现有的测序系统通常依赖于在初始基因组测序循环(或初始基因组测序循环集)期间捕获的度量来配置测序参数。但是早期基因组测序循环中的随机失败可能影响剩余基因组测序循环并在剩余基因组测序循环中引入错误。例如,在初始基因组测序循环中,测序仪可掺入核苷酸并从受核苷酸样本载玻片上气泡影响的寡核苷酸簇捕获图像,使用失焦相机或已错误地自动定心在簇上的相机捕获此类簇的图像,或者在不表示后续循环的温度的初始温度下捕获图像。随着时间的推移,当测序仪和核苷酸样本载玻片的环境改变时,根据前基因组测序循环配置的测序参数可能错误地表示后续基因组测序循环中的条件并使核碱基检出的测序参数偏斜。在一些情况下,早期前基因组测序循环中的随机失败可能导致整个测序运行完全失败,诸如当现有的测序系统在前基因组测序循环中错误估计超分辨率仪器的畸变系数或相位偏移时。
除了测序仪或样本核苷酸载玻片的随机条件之外,在一些情况下,未知基因组样本或明确定义的基因组样本的核苷酸片段读段中的核碱基类型的分布可能使测序参数偏斜或出现偏差。例如,在一些基因组测序循环中,寡核苷酸簇可掺入不成比例地表示一种核碱基类型的核碱基,而不是另一种核碱基类型的核碱基。例如,当从早期基因组测序循环获知测序参数时,现有的测序系统可收敛于来自具有低核碱基类型多样性区域的基因组样本的不准确的测序参数。在最近的一项研究中,研究人员发现基因组测序循环,其中测序仪在Phi-X的初始循环期间掺入100%的单个核碱基类型。当测序仪基于不成比例分布的核碱基类型的基因组测序循环来配置测序参数时,测序仪对核碱基检出的准确性可能受到影响。实际上,在没有Phi-X掺入的情况下,根据100%的单个核碱基的循环配置的测序参数导致核碱基检出的错误率高出两倍。
与准确性问题无关,在一些情况下,现有的测序系统使用消耗计算资源和测序仪资源的常规校准方法,否则这些计算资源和测序仪资源可用于确定未知样本的基因组序列。例如,现有的测序系统通常将寡核苷酸簇专用于明确定义的基因组样本,以便于校准测序参数。然而,通过将样本核苷酸载玻片的孔或其他部分专用于对照样本,现有的测序系统缩小了可用于确定未知基因组样本的样本核苷酸载玻片和基因组测序循环的部分。
这些问题和难题,连同附加的问题和难题存在于现有的测序系统中。
发明内容
本公开描述了解决一个或多个上述问题或提供优于现有技术的其他优点的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。具体地,所公开的系统可将短校准序列引入到测序设备中并运行校准循环以调整或以其他方式确定对应于该测序设备的测序参数。例如,所公开的系统可检测具有被掺入到样本库片段中或被掺入到样本核苷酸载玻片表面上的校准序列的流通池(或其他样本核苷酸载玻片)。通过运行一个或多个校准循环以在对应于校准序列的寡核苷酸上掺入核碱基并捕获与样本基因组序列的基因组测序循环分开的校准序列的对应图像,所公开的系统可确定对应于该测序设备的测序参数。例如,所公开的系统可直接估计在校准循环期间或之后检测到的一些测序参数,根据在多个校准循环期间检测到的初始测序参数来确定测序参数,以及/或者基于(i)校准序列的互补链的核碱基检出与(ii)校准序列的已知互补核碱基之间的碱基检出差异来调整初始测序参数。
本公开的一个或多个实施方案的附加的特征和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
详细描述参考以下简要描述的附图。
图1例示了根据本公开的一个或多个实施方案的校准测序系统可在其中操作的环境。
图2A例示了根据本公开的一个或多个实施方案的校准测序系统的示意图,该校准测序系统接收包括校准序列的核苷酸样本载玻片并且基于该校准序列来确定对应于测序设备的一个或多个测序参数。
图2B例示了根据本公开的一个或多个实施方案的校准测序系统的示意图,该校准测序系统执行不同类型的校准循环以确定对应于测序设备的一个或多个测序参数。
图2C例示了根据本公开的一个或多个实施方案的使用来自基因组测序循环或索引循环期间的校准循环的测序参数的校准测序系统的示意图。
图3A至图3B例示了根据本公开的一个或多个实施方案的整合在样本库片段内的校准序列。
图4例示了根据本公开的一个或多个实施方案的校准测序系统的示例校准循环。
图5A至图5E例示了根据本公开的一个或多个实施方案的整合在样本库片段内的校准序列和分布在核苷酸样本载玻片内的寡核苷酸簇中的样本库片段。
图6例示了根据本公开的一个或多个实施方案的基于来自校准序列的随机检出的核碱基或已知核碱基的对应于不同核碱基类型的不同通道的强度值分布。
图7A至图7B例示了根据本公开的一个或多个实施方案的基于校准序列的对应于不同通道的不同核碱基类型的强度值的散点图。
图8A至图8B例示了根据本公开的一个或多个实施方案的对应于具有未校准的测序参数和校准的测序参数的循环的强度值的散点图。
图9例示了根据本公开的一个或多个实施方案的用于接收包括校准序列的核苷酸样本载玻片并且基于该校准序列来确定对应于测序设备的一个或多个测序参数的一系列动作。
图10例示了根据本公开的一个或多个实施方案的用于接收包括校准核碱基的核苷酸样本载玻片并且基于该校准核碱基来确定对应于测序设备的一个或多个测序参数的一系列动作。
图11例示了根据本公开的一个或多个实施方案的示例计算设备的框图。
具体实施方式
本公开描述了校准测序系统的一个或多个实施方案,该校准测序系统可检测与沉积在样本核苷酸载玻片上的库片段相关联的短校准序列,并且运行校准循环以基于该短校准序列来确定对应于测序设备的测序参数。例如,校准测序系统可检测流通池(或其他样本核苷酸载玻片),该流通池包括被掺入到(i)一个或多个基因组样本的库片段或(ii)样本核苷酸载玻片的基板中的校准序列。随后,校准测序系统可运行一个或多个校准循环以将核碱基掺入到对应于校准序列的寡核苷酸中并且基于校准序列的核碱基来确定一个或多个测序参数(例如,强度值、强度值边界、均衡器系数)。此类校准循环可在基因组测序循环之前运行,这些基因组测序循环随后对来自库片段的样本基因组序列或互补脱氧核糖核酸(cDNA)进行测序。
如上文所提出的,校准测序系统可使用一个或多个校准循环以多种方式确定测序参数。例如,在一些情况下,校准测序系统运行一个或多个校准循环以直接检测对应于校准序列中某些已知核碱基类型的测序参数,诸如通过检测核碱基信号的强度值、强度值的核碱基质心、核碱基的强度值边界或其他测序参数。附加地或另选地,校准测序系统可根据在多个校准循环期间或之后检测的初始测序参数来确定测序参数。此外,在某些具体实施中,校准测序系统运行校准循环以确定校准序列的核碱基检出,并且基于校准序列的互补链/寡核苷酸的核碱基检出与校准序列的已知互补核碱基之间的碱基检出差异(或其他检测到的测序度量差异)来调整一个或多个测序参数。
通过运行具有校准序列的校准循环,校准测序系统可确定对应于测序设备或测序流水线的各种类型的测序参数。例如,在一些情况下,校准测序系统使用校准序列来确定先前已离线确定并且作为预先配置的参数(诸如均衡器系数)提供的一个或多个测序参数。又如,在某些实施方案中,校准测序系统使用校准序列来确定在测序设备上的测序运行期间获知的一个或多个测序参数,诸如非线性光学畸变参数、结构照明显微镜(SIM)参数、每簇归一化参数或特定通道的偏移校正参数。
当运行校准循环时,校准测序系统可以各种方式排列或排序校准循环。例如,在某些具体实施中,校准测序系统在执行基因组测序循环或索引循环之前和/或在不执行基因组测序循环或索引循环的情况下执行校准循环。在给定的校准循环期间,校准测序系统可将一种或多种核碱基类型的核碱基掺入到反映一个或多个校准序列的增长的寡核苷酸的校准序列位置中,从而反映校准序列集可在给定的校准序列位置处具有单一的核碱基类型或不同的核碱基类型。在一些此类校准循环中,校准测序系统将按比例分布的两种核碱基类型、三种核碱基类型或四种核碱基类型掺入到反映一个或多个校准序列的增长的寡核苷酸的给定的校准序列位置中,从而反映校准序列集可在给定的校准序列位置处具有大致相等分布的两种核碱基类型、三种核碱基类型或四种核碱基类型。
实际上,给定的校准序列集可包括相同顺序的单个核碱基序列(例如,ACGTAC)、不同顺序的核碱基序列(例如,一个顺序为ACGTAC和不同顺序为CGTACA等)、在给定的校准序列位置处具有按比例分布的核碱基类型的不同核碱基序列(例如,在第一位置处50%/50%的G/C的2-plex、在第二位置处50%/50%的G/T的2-plex等),或下文所述的各种其他序列顺序或排列。
不管校准循环的排列或顺序如何,校准测序系统可接收或确定校准序列的内容物,这些校准序列(i)放置在从基因组样本制备的样本库片段内(或结合样本库片段)的不同位置,或者(ii)附着在样本核苷酸载玻片的表面上。例如,校准序列可以是样本库片段内的非基因组序列和/或非转录组序列的一部分或全部。在一些此类情况下,校准序列位于结合接头序列与索引序列之间、索引序列与读取引物序列之间或读取引物序列与样本基因组序列之间。相比之下,校准序列可以是非随机唯一分子标识符(UMI)序列、唯一双重索引(UDI)序列、索引序列或结合接头序列的一部分或全部。
除了校准序列的各种不同位置之外,校准测序系统可在核苷酸样本载玻片的不同位置诸如流通池处接收或放置校准序列(或包括校准序列的样本库片段)。例如,校准测序系统可接收或检测具有以下校准序列的核苷酸样本载玻片:(i)每个孔中的校准序列,用于在每个孔内接种每个寡核苷酸簇;或者(ii)孔子集中的校准序列,用于在该孔子集内接种每个簇,或者用于在该孔子集内接种寡核苷酸簇子集。另选地,在一些实施方案中,校准测序系统接收或检测具有(i)孔子集或该孔子集内的寡核苷酸簇子集中的校准序列的核苷酸样本载玻片,以及不具有(ii)另一孔子集或另一寡核苷酸簇子集中的校准序列的核苷酸样本载玻片。如下所述,用于校准序列的此类不同孔放置可与和样本库片段相关联的校准序列的不同位置组合。
如上文所指示的,校准测序系统相对于现有的测序系统具有若干技术优势,诸如通过相对于现有的测序系统提高测序参数和核苷酸测序的准确性、速度和效率。例如,在一些实施方案中,校准测序系统提高了用于特定测序设备、图像分析和对应核碱基检出的一个或多个测序参数的准确性。如上所述,一些现有的测序系统通过从未知或熟知的基因组样本(例如,Phi-X)估计此类参数而使测序参数偏斜,这些未知或熟知的基因组样本在给定的基因组测序循环中或跨基因组测序循环不成比例地表示某些核碱基类型。相比之下,校准测序系统接收或检测具有核碱基的校准序列的核苷酸样本载玻片,这些校准序列可平衡给定的校准循环中或跨校准循环的核碱基类型的分布,从而表现出核碱基类型的更成比例的表示。通过执行校准循环以掺入校准序列集的一个或多个核碱基,校准测序系统可确定对应于测序设备的更准确的测序参数。与使用用于类似硬件和类似耗材的流水线的测序参数的现有系统不同,校准测序系统可在特定的测序设备上运行校准循环以生成强度值、强度值边界、均衡器系数或特定于该测序设备的其他测序参数。校准测序系统可相应地使用校准序列和校准循环来确定具有针对特定测序设备定制的准确性的测序参数。作为此类改进的测序参数的结果,校准测序系统同样提高了测序设备在测序循环期间捕获寡核苷酸簇的图像、分析那些图像并基于此类分析来确定核碱基检出的准确性。
除了提高准确性之外,在某些具体实施中,校准测序系统还临时调整对应于测序设备的一个或多个测序参数,以实时校正异常或错误,从而引入现有的测序系统中不存在的一种临时灵活性。如上所述,一些现有的测序系统通过使用早期基因组测序循环(有时存在错误)来确定测序参数以使测序参数偏斜或过时,并且随后无法调整此类参数,这是因为软件或硬件可能随着时间的推移而改变。与现有系统相比,在一些实施方案中,校准测序系统接收包括校准序列的核苷酸样本载玻片,并且使用这些校准序列来运行校准循环以临时确定对应于测序设备的当前状态的测序参数。校准测序系统可利用每个包括校准序列和/或跨校准循环的核苷酸样本载玻片相应地确定(或调整)一个或多个测序参数。当测序设备的相机改变焦点或定心时,当测序设备中的温度改变时,或者当其他硬件或软件组件改变时,校准测序系统可确定反映测序设备或对应软件的当前或最近状态的一个或多个测序参数。
除了提高的参数准确性和及时调整之外,在一些实施方案中,校准测序系统通过保留测序设备的空间和计算资源以及对应的测序循环来提高核苷酸测序的计算效率。如上所述,一些现有的测序系统消耗具有用于校准测序参数的专用簇的未知或熟知的基因组样本(例如,Phi-X)上的基因组测序循环。实际上,一些现有的测序系统将核苷酸样本载玻片的整个测序运行或特定簇专用于基因组序列进行校准。与现有系统相比,在某些具体实施中,校准测序系统使用相对较短的校准序列和校准循环,这些相对较短的校准序列可被嵌入(或附着在)样本库片段内,这些校准循环可在与基因组测序循环相同的测序运行期间执行,用于确定样本库片段内的样本基因组序列。通过运行具有相对较短的校准序列的校准周期,校准测序系统可在测序运行期间确定(或调整)对应于测序设备的测序参数,该测序设备还执行基因组测序循环,从而保留用于未知样本的基因组测序的核苷酸样本载玻片上的计算资源和空间,否则将专用于进行校准。
如上述讨论所示,本公开利用多种术语来描述校准测序系统的特征和优点。如本文使用的,例如,术语“校准序列”是指表示便于校准测序设备或对应软件的一个或多个测序参数的核碱基类型的两个或更多个核碱基的序列。例如,校准序列包括人工、非基因组和/或非转录组核碱基序列,其具有靶向分布的用于确定或调整测序参数的核碱基类型。因此,此类非基因组和/或非转录组序列不是来自样本的gDNA片段、cDNA片段或RNA片段(例如,mRNA片段)的一部分。核碱基类型的此类靶向分布可包括跨校准序列集的位置按比例分布的不同核碱基类型、在给定的校准序列位置按比例分布的不同核碱基类型的组合、跨校准序列集的位置的代表性分布的核碱基类型(例如,平均或其他代表性分布的分类门、纲、目、科、属或种)或核碱基类型的另一预先确定的分布。例如,给定的校准序列集可包括相同顺序的具有靶向分布的核碱基类型的单个核碱基序列(例如,ACTGCGC)、不同顺序的具有靶向分布的核碱基类型的核碱基序列(例如,一个顺序为ACGT和不同顺序为CGTA等),或者在给定的校准序列位置处具有靶向分布的核碱基类型的不同核碱基序列(例如,在第一位置处25%/25%/25%/25%的A/C/G/T的4-plex,在第二位置处25%/25%/25%/25%的A/C/G/T的另一4-plex等)。在一些情况下,校准序列相对较短,诸如长度为4-8个核碱基。校准序列可连接到样本库片段的一个或多个核苷酸序列(或其一部分),或者连接到核苷酸样本载玻片的表面。
相关地,术语“校准核碱基”是指便于校准测序设备或对应软件的一个或多个测序参数的核碱基。例如,校准核碱基组包括人工、非基因组和/或非转录组核碱基集,其具有用于确定或调整测序参数的核碱基类型的靶向分布。因此,此类非基因组和/或非转录组核碱基集不是gDNA片段或cDNA片段的一部分,或者不是从gDNA片段或cDNA片段提取的。核碱基类型的此类靶向分布可包括跨不同样本库片段集按比例分布的不同核碱基类型、跨不同样本库片段集的代表性分布的核碱基类型(例如,平均或其他代表性分布的分类门、纲、目、科、属或种)或核碱基类型的另一预先确定的分布。与校准序列类似,校准核碱基可连接到样本库片段的一个或多个核苷酸序列(或其一部分),或者连接到核苷酸样本载玻片的表面。
如本文进一步使用的,术语“样本库片段”是指满足以下要求的样本基因组序列(或cDNA序列):被连接以包括便于检测或分离样本基因组序列或cDNA序列的一个或多个接头序列或引物序列。例如,样本库片段可包括但不限于样本基因组序列(或cDNA序列),其是从样本中提取的并且被连接以直接或间接与结合接头序列、索引序列或读取引物序列中的一者或多者结合。
相关地,术语“样本基因组序列”是指从样本的染色体提取或拷贝的核苷酸序列。例如,样本基因组序列包括已经从样本的染色体DNA分离或拷贝的核苷酸序列。因此,样本基因组序列包括特定未知样本的基因组DNA(gDNA)。如本文所述,在一些实施方案中,校准测序系统可在样本库片段中使用包括cDNA的样本互补序列,而不是包括gDNA的样本基因组序列,或者如本领域技术人员所理解的,任何合适的cDNA可替换gDNA。
相比之下,“索引序列”是指满足以下要求的唯一人工核苷酸序列:鉴定样本的核苷酸片段读段并且被连接到样本的核苷酸序列(例如,gDNA片段或cDNA片段)或被连接到样本库片段内的另一序列。如上文所指示的,索引序列可以是样本库片段的一部分。类似地,索引序列可用于按样本或不同文件等对核苷酸片段读段进行排序。在一些情况下,样本库片段包括满足以下要求的索引引物序列:不同于读取引物序列并且指示用于确定索引序列的核碱基的起始点或起始核碱基。
如本文进一步使用的,术语“结合接头序列”是指满足以下要求的核苷酸序列:与核苷酸样本载玻片的表面(例如,孔)上的寡核苷酸结合并且被连接到样本的核苷酸序列(例如,gDNA片段或cDNA片段)或被连接到样本库片段内的另一序列。在一些情况下,结合接头序列包括满足以下要求的核苷酸序列:被连接到样本库片段的末端(例如,5'末端或3'末端)并且与来自样本核苷酸载玻片的寡核苷酸菌苔的寡核苷酸结合。
如本文另外使用的,术语“读取引物序列”是指满足以下要求的核苷酸序列:指示用于确定样本的核苷酸序列(例如,gDNA片段或cDNA片段)的核碱基的起始点或起始核碱基并且被连接到样本的核苷酸序列。在测序期间,在一些情况下,测序引物结合或退火来自样本库片段的读取引物序列,并且聚合酶或其他酶掺入添加到测序引物并且与样本基因组序列(和/或来自样本库片段的其他核苷酸序列)互补的核碱基以对核苷酸片段读段进行测序。如上文所指示的,读取引物序列可以是样本库片段的一部分。
相关地,如本文使用的,术语“测序引物”是指满足以下要求的核苷酸片段:与读取引物序列(或其他引物位点)结合,作为核苷酸片段读段的起始部分。具体地,测序引物包括满足以下要求的核苷酸片段:在测序循环(例如,基因组测序循环、校准循环)期间与读取引物序列(或其他引物位点)结合并且形成用于核苷酸片段读段的新生序列。如上文所提出的,在测序循环期间,酶将核碱基逐个添加或掺入到测序引物中,以增长或测序核苷酸片段读段。
如上进一步所述,校准测序系统可执行或运行一个或多个校准循环。术语“校准循环”是指反复将一个或多个核碱基添加或掺入到一个或多个寡核苷酸,该一个或多个寡核苷酸表示或对应于寡核苷酸簇或寡核苷酸簇集的一个或多个校准序列。具体地,校准循环可包括反复捕获并分析寡核苷酸簇的一个或多个图像,该一个或多个图像指示被添加或掺入到寡核苷酸中(或并行地被添加或掺入到寡核苷酸中)的表示或对应于一个或多个校准序列的一个或多个核碱基。由于一些寡核苷酸簇或对应孔可包括校准序列,而其他寡核苷酸簇或对应孔可不包括校准序列,因此在一些情况下,校准循环对于寡核苷酸簇或寡核苷酸簇集是特异性的。校准循环与索引循环或基因组测序循环的不同之处在于,校准循环包括对来自一个或多个校准序列的至少一个核碱基(或大多数核碱基)进行测序。由于在分布校准序列时各簇之间的潜在差异,在一些实施方案中,校准测序系统可同时(i)通过掺入对应于一个或多个校准序列的一个或多个核碱基对一个寡核苷酸簇(或一个寡核苷酸簇子集)执行校准循环,并且(ii)通过掺入对应于一个或多个样本基因组序列或一个或多个索引序列的一个或多个核碱基对另一寡核苷酸簇(或另一寡核苷酸簇子集)执行基因组测序循环或索引循环。
相比之下,术语“索引循环”是指反复将核碱基添加或掺入到表示或对应于索引序列的寡核苷酸,或反复将核碱基并行地添加或掺入到表示或对应于索引序列的寡核苷酸。具体地,索引循环可包括反复捕获并分析寡核苷酸簇的一个或多个图像,该一个或多个图像指示被添加或掺入到寡核苷酸中(或并行地被添加或掺入到寡核苷酸中)的表示或对应于一个或多个索引序列的一个或多个核碱基。索引循环与校准循环或基因组测序循环的不同之处在于,索引循环包括对来自鉴定或编码一个或多个样本库片段的一个或多个索引序列的至少一个核碱基(或大多数核碱基)进行测序。由于校准循环可以对一个或多个寡核苷酸簇是特异性的,因此一个寡核苷酸簇的索引循环可与另一寡核苷酸簇的校准循环同时执行。
如本文进一步使用的,术语“基因组测序循环”是指反复将核碱基添加或掺入到表示或对应于样本基因组序列(或cDNA序列)的寡核苷酸,或反复将核碱基并行地添加或掺入到表示或对应于样本基因组序列(或cDNA序列)的寡核苷酸。具体地,基因组测序循环可包括反复捕获并分析一个或多个图像,该一个或多个图像具有指示被添加或掺入到表示或对应于一个或多个样本基因组序列的寡核苷酸或被(并行地)添加或掺入到表示或对应于一个或多个样本基因组序列的寡核碱基的各个核碱基的数据。例如,在一个或多个实施方案中,每个基因组测序循环涉及捕获并分析图像,以确定表示基因组样本的一部分(或来自基因组样本的转录序列)的DNA(或RNA)链的单个读段。然而,如上文所提出的,在一些情况下,基因组测序循环对寡核苷酸簇或寡核苷酸簇集是特异性的。由于在分布校准序列时各簇之间的潜在差异,在一些实施方案中,校准测序系统可同时(i)对一个寡核苷酸簇(或一个寡核苷酸簇子集)执行校准循环,并且(ii)对另一寡核苷酸簇(或另一寡核苷酸簇子集)执行基因组测序循环或索引循环。
在一些情况下,校准循环、索引循环和基因组测序循环中的每一者涉及相机捕获核苷酸样本载玻片的图像或该核苷酸样本载玻片的多个切片(例如,片)的图像,以生成被添加或掺入到特定寡核苷酸中的特定核碱基的图像数据,这些特定寡核苷酸通常被分组成簇。在图像捕获阶段之后,校准测序系统可从所掺入的核碱基中移除某些荧光标记,并且执行另一循环,直到校准序列、索引序列或样本基因组序列已经被完全测序。
如本文进一步使用的,术语“测序运行”是指在测序设备上确定来自样本(例如,基因组样本)的核苷酸序列的一级结构的迭代过程。具体地,测序运行包括通过测序设备执行的测序化学和成像的循环,该测序设备将核碱基掺入到增长的寡核苷酸中以确定来自核苷酸序列的核苷酸片段读段,这些核苷酸序列提取自样本(或库片段内的其他序列)并接种在整个核苷酸样本载玻片上。在一些情况下,测序运行包括复制来自一个或多个基因组样本的核苷酸序列,该一个或多个基因组样本在整个核苷酸样本载玻片(例如,流通池)中以簇的形式接种。在完成测序运行后,测序设备可在文件中生成碱基检出数据。
正如所表明的,术语“碱基检出数据”是指表示核苷酸片段读段的核碱基检出和/或对应测序度量的数据。例如,碱基检出数据包括将核苷酸片段读段的核碱基检出表示为文本的文本数据(例如,A、C、G、T)以及对应的碱基检出质量度量、深度度量和/或其他测序度量。在一些情况下,碱基检出数据在文本文件(诸如二进制碱基检出(BCL)序列文件或快速全部质量(FASTQ)文件)中被格式化。
如本文进一步使用的,术语“测序参数”是指标准化或缩放的因子、度量或值,该标准化或缩放的因子、度量或值量化或表示(i)其中特定核碱基类型的核碱基可使用测序设备来准确地检测、量化或分析的设置、边界或环境,或者(ii)可使用测序设备来准确地检测、量化或分析的核碱基类型的特定信号(或与之相关的噪声或化学物质)。例如,测序参数包括但不限于均衡器系数、卷积核系数、强度值的核碱基质心、核碱基特异性背景强度值、强度归一化系数、高斯协方差矩阵、非线性光学畸变参数、结构照明显微镜(SIM)参数、特定通道的每簇归一化参数、通道特异性归一化参数(例如,特定通道的偏移校正参数、特定通道的每簇强度参数、特定通道的每簇亮度参数)、簇特异性信号归一化参数(例如,测序设备簇扩增效率参数、测序设备簇杂交效率参数)、颜色通道到颜色通道串扰参数或多克隆性参数中的一者或多者。
如本文进一步使用的,术语“核苷酸样本载玻片”是指包括用于对来自基因组样本或其他样本核酸聚合物的核苷酸序列进行测序的寡核苷酸的板或载玻片。具体地,核苷酸样本载玻片可以是指含有流体通道的载玻片,试剂和缓冲液可作为测序的一部分通过该流体通道行进。例如,在一个或多个实施方案中,核苷酸样本载玻片包括流通池(例如,图案化流通池或未图案化流通池),该流通池包括小流体通道和与结合接头序列互补的短寡核苷酸。如上文所指示的,核苷酸样本载玻片可包括含有寡核苷酸簇的孔(例如,纳米孔)。
如上文所提出的,流通池或其他核苷酸样本载玻片可(i)包括具有封盖的设备,该封盖在反应结构上方延伸以在其间形成与反应结构的多个反应位点连通的流动通道,并且可(ii)包括被配置为检测在反应位点处或附近发生的指定反应的检测设备。流通池或其他核苷酸样本载玻片可包括固态光检测或成像设备,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)(光)检测设备。作为一个具体示例,流通池可被配置为流体耦接和电耦接到盒(具有集成泵),该盒可被配置为流体耦接和/或电耦接到生物测定系统。盒和/或生物测定系统可根据预先确定的方案(例如,边合成边测序)将反应溶液递送到流通池的反应位点,并且执行多个成像事件。例如,盒和/或生物测定系统可引导一种或多种反应溶液通过流通池的流动通道,从而沿着反应位点流动。反应溶液中的至少一种可包含四种类型的具有相同或不同荧光标记的核苷酸。核苷酸可结合至流通池的反应位点,诸如结合至反应位点处的对应寡核苷酸。然后,盒和/或生物测定系统使用激发光源(例如,固态光源,诸如发光二极管(LED))照亮反应位点。激发光可提供可由流通池的光传感器检测的发射信号(例如,与激发光不同并且可能彼此不同的一个或多个波长的光)。
如本文进一步使用的,术语“核苷酸片段读段”(或简称“读段”)是指从样本核苷酸序列(例如,样本基因组序列,cDNA)的全部或部分推断的一个或多个核碱基(或核碱基对)的序列。具体地,核苷酸片段读段包括核苷酸序列(或单克隆核苷酸序列组)的核碱基检出的根据对应于基因组样本的样本库片段确定或预测的序列。例如,在一些情况下,测序设备通过生成穿过核苷酸样本载玻片的纳米孔的核碱基的核碱基检出来确定核苷酸片段读段,经由加荧光标签来确定,或根据流通池中的簇来确定。
如本文进一步使用的,术语“核碱基检出”(或简称“碱基检出”)是指确定或预测测序循环期间寡核苷酸(例如,读段)或样本基因组的基因组坐标的特定核碱基(或核碱基对)。具体地,核碱基检出可指示:(i)确定或预测已被掺入在核苷酸样本载玻片上的寡核苷酸内的核碱基的类型(例如,基于读段的核碱基检出);或者(ii)确定或预测存在于基因组内的基因组坐标或区域处的核碱基的类型,包括数字输出文件中的变体检出或非变体检出。在一些情况下,对于核苷酸片段读段,核碱基检出包括基于由被添加到核苷酸样本载玻片(例如,流通池的簇中)的寡核苷酸的带荧光标签的核苷酸产生的强度值来确定或预测核碱基。另选地,核碱基检出包括根据色谱峰或电流变化来确定或预测核碱基,这些色谱峰或电流变化是由穿过核苷酸样本载玻片的纳米孔的核苷酸产生的。相比之下,基于对应于基因组坐标的核苷酸片段读段,核碱基检出还可包括最终预测变体检出文件(VCF)或其他碱基检出输出文件的样本基因组的基因组坐标处的核碱基。因此,核碱基检出可包括对应于基因组学坐标和参考基因组的碱基检出,诸如对应于参考基因组的特定位置处的变体或非变体的指示。实际上,核碱基检出可以是指变体检出,包括但不限于单核苷酸变体(SNV)、插入或缺失(indel)或作为结构变体的一部分的碱基检出。如上文所提出的,单个核碱基检出可以是腺嘌呤(A)检出、胞嘧啶(C)检出、鸟嘌呤(G)检出或胸腺嘧啶(T)检出。
相关地,术语“核碱基类型”是指特定类型或种类的含氮碱基。例如,基因组或核苷酸序列可包括五种不同的核碱基类型,包括腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)或胸腺嘧啶(T)或尿嘧啶(U)。
以下段落结合描绘示例实施方案和具体实施的说明性附图来描述校准测序系统。例如,图1例示了根据一个或多个实施方案的校准测序系统106在其中操作的系统环境(或“环境”)100的示意图。如图所示,环境100包括经由网络116的服务器设备102、测序设备112和用户客户端设备108。虽然图1示出了校准测序系统106的实施方案,但本公开描述了以下另选实施方案和配置。如图1所示,测序设备112、服务器设备102和用户客户端设备108可经由网络116彼此通信。网络116包括计算设备可在其上通信的任何合适的网络。下文结合图11更详细地讨论了示例网络。
如图1所示,测序设备112包括计算设备、测序设备系统114和校准测序系统106,该校准测序系统用于对基因组样本或其他核酸聚合物进行测序并运行校准循环。在一些实施方案中,通过执行测序设备系统114或校准测序系统106,测序设备112分析从基因组样本提取的核酸片段或寡核苷酸,以利用(本文所述的)计算机实现的方法和系统在测序设备112上直接或间接生成核苷酸片段读段或其他数据。更具体地,测序设备112接收包括从样本提取的核苷酸序列的核苷酸样本载玻片(例如,流通池),然后拷贝并确定此类提取的核苷酸序列的核碱基序列。
如上文所提出的,通过执行测序设备系统114或校准测序系统106,测序设备112可运行一个或多个校准循环、索引循环或基因组测序循环作为测序运行的一部分。通过执行校准测序系统106,例如,测序设备112可检测与沉积在样本核苷酸载玻片上的库片段相关联的校准序列,并且运行校准循环以基于该校准序列来确定对应于测序设备112的测序参数。在一个或多个实施方案中,测序设备112利用边合成边测序(SBS)以将核酸聚合物测序成核苷酸片段读段。作为跨网络116进行通信的补充或另选方案,在一些实施方案中,测序设备112绕过网络116并且直接与服务器设备102或用户客户端设备108通信。
在一些情况下,服务器设备102位于或接近测序设备112的相同物理位置或远离测序设备112。实际上,在一些实施方案中,服务器设备102和测序设备112被集成到同一计算设备中。服务器设备102可运行测序系统104或校准测序系统106以生成、接收、分析、存储和发送数字数据,诸如通过接收到碱基检出数据或基于分析此类碱基检出数据来确定变体检出。如图1所提出的,测序设备112可传送(并且服务器设备102可接收)在测序设备112的测序运行期间生成的碱基检出数据。通过执行采用测序系统104或校准测序系统106的形式的软件,服务器设备102可将核苷酸片段读段与参考基因组比对,并且基于所比对的核苷酸片段读段来确定遗传变异。服务器设备102还可与用户客户端设备108通信。具体地,服务器设备102可向用户客户端设备108传送数据,该数据包括变体检出文件(VCF)或指示核碱基检出、测序度量、错误数据或其他度量的其他信息。
在一些实施方案中,服务器设备102包括分布式服务器集合,其中服务器设备102包括跨网络116分布并且位于相同或不同物理位置中的许多服务器设备。此外,服务器设备102可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如图1中进一步所示和指示,用户客户端设备108可生成、存储、接收和传送数字数据。具体地,用户客户端设备108可从服务器设备102接收变体检出和对应的测序度量,或者从测序设备112接收碱基检出数据(例如,BCL或FASTQ)和对应的测序度量。此外,用户客户端设备108可与服务器设备102或服务器设备102通信以接收VCF,该VCF包括核碱基检出和/或其他度量,诸如碱基检出质量度量或通过过滤器度量。用户客户端设备108可相应地在图形用户界面内向与用户客户端设备108相关联的用户呈现或显示与变体检出或其他核碱基检出有关的信息。
尽管图1将用户客户端设备108描绘为台式计算机或膝上型计算机,但是用户客户端设备108可包括各种类型的客户端设备。例如,在一些实施方案中,用户客户端设备108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在又一些实施方案中,用户客户端设备108包括移动设备,诸如膝上型电脑、平板电脑、移动电话或智能电话。下文结合图11讨论关于用户客户端设备108的附加细节。
如图1进一步所示,用户客户端设备108包括测序应用程序110。测序应用程序110可以是在用户客户端设备108上存储和执行的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序)。测序应用程序110可包括指令,这些指令(在被执行时)使用户客户端设备108从校准测序系统106接收数据并呈现(例如,来自BCL的)碱基检出数据或来自VCF的数据以供在用户客户端设备108处显示。
如图1进一步所示,校准测序系统106的版本可作为测序应用程序110的一部分位于用户客户端设备108上或者位于服务器设备102上。因此,在一些实施方案中,校准测序系统106通过(例如,完全或部分地位于)在用户客户端设备108上实现。在又一些实施方案中,校准测序系统106由环境100的一个或多个其他组件诸如服务器设备102来实现。具体地,校准测序系统106可以多种不同的方式跨测序设备112、用户客户端设备108和服务器设备102实现。例如,校准测序系统106可从服务器设备102下载到测序设备112和/或用户客户端设备108,其中校准测序系统106的全部或部分功能在环境100内的每个相应设备处执行。
如上文所指示的,校准测序系统106可检测包括校准序列的核苷酸样本载玻片,并且运行校准循环以调整或以其他方式确定对应于测序设备的测序参数。根据一个或多个实施方案,图2A例示了校准测序系统106的示例:(i)接收包括校准序列和与该样本库片段相关联的样本库片段的核苷酸样本载玻片;(ii)运行校准循环以将核碱基掺入到对应于该校准序列的寡核苷酸中,以及基于该校准循环和该校准序列来确定对应于测序设备的测序参数。
如图2A所示,例如,校准测序系统106接收或检测包括与样本库片段205a-205n相关联的校准序列204a-204n的核苷酸样本载玻片202。如所描绘的,在一些情况下,校准序列204a-204n相对较短,诸如长度为4-8个核碱基。核苷酸样本载玻片202包括孔206a-206n(例如,纳米孔)内的样本库片段205a-205n,并且校准序列204a-204n是样本库片段205a-205n的一部分。因此,校准序列204a-204n已经沉积在孔206a-206a内(或者,在一些情况下,沉积在缺少孔的未图案化的核苷酸样本载玻片的表面上),作为用样本库片段205a-205n接种寡核苷酸簇的一部分。下面参考图3A至图3B以及图5A至图5E描述校准序列的其他实施方案。
如图2A进一步所示,校准测序系统106使用测序设备112来执行一个或多个校准循环208。在校准循环期间,例如,校准测序系统106使用测序设备112将一种或多种核碱基类型的核碱基掺入到对应于校准序列204a-204n的增长的寡核苷酸中,诸如通过添加与校准序列204a-204n的核碱基互补的核碱基类型的核碱基(例如,掺入与T互补的A)。在一些情况下,通过将核碱基添加到在单个核苷酸片段读段或配对末端核苷酸片段读段内补充或遵循校准序列204a-204n的增长的寡核碱基中,校准测序系统106生成反映核碱基类型在校准序列204a-204n内的靶向分布的寡核苷酸簇。
如上文所提出的,校准测序系统106在校准循环208期间确定或不确定校准序列204a-204n的核碱基检出。因此,在给定的校准循环期间,校准测序系统106可捕获并分析寡核苷酸簇的图像,该寡核苷酸簇已经掺入具有与校准序列204a-204n互补或镜像的标签(例如,荧光标签)的核碱基。但是校准测序系统106不一定在给定的校准循环期间确定所掺入的具有标签的核碱基的核碱基检出。
在校准循环208期间或之后,在一些实施方案中,校准测序系统106检测或以其他方式确定初始测序参数210。例如,校准测序系统106可通过确定对应于核碱基的信号的强度值、强度值边界、强度值的核碱基质心、噪声度量或在校准循环期间检测或输出的其他各种度量中的一者或多者来确定初始测序参数210中的一个或多个初始测序参数。如下面进一步解释的,初始测序参数210可直接或间接形成一个或多个测序参数的基础。
在具有或不具有初始测序参数210的情况下,校准测序系统106确定对应于测序设备112的测序参数212。为此,在一些情况下,校准测序系统106重新并直接从测序设备112估计或检测测序参数,调整对应于测序设备112的默认或预先配置的测序参数(例如,均衡器系数),或者基于来自多个校准循环的初始测序参数来估计测序参数(例如,作为初始测序参数的平均值)。不管采用何种方法,在一些情况下,校准测序系统106可直接或间接从测序设备112(或其环境)确定测序参数212,或者基于对应于校准序列204a-204n的核碱基检出来调整初始测序参数以生成测序参数212。
如上文所提出的,校准测序系统106可通过以下方式确定测序参数212:(i)确定通常离线确定并作为预先配置的参数(诸如,均衡器系数)提供的测序参数;或者(ii)确定在测序设备上的测序运行期间获知的测序参数,诸如非线性光学畸变参数、结构照明显微镜(SIM)参数、每簇归一化参数或特定通道的偏移校正参数。
如图2A进一步所示,除了校准循环208之外,校准测序系统106任选地执行基因组测序循环214和索引循环216。例如,在对校准序列204a-204n执行校准循环208并确定测序参数212之后,校准测序系统106任选地(i)通过掺入补充或遵循样本库片段205a-205n内的样本基因组序列的核碱基来执行基因组测序循环214,并确定此类掺入的核碱基的核碱基检出;以及(ii)通过掺入补充或遵循样本库片段205a-205n内的索引序列的核碱基来执行索引循环216,并确定对此类掺入的核碱基的核碱基检出。在一些情况下,校准测序系统106在基因组测序循环214之前或之后运行索引循环216。实际上,与一些现有的测序系统相反,根据校准序列204a-204n分别在样本库片段205a-205n内的位置,校准测序系统106有时在基因组测序循环214之前执行索引循环216。如上所述,在一些实施方案中,一个寡核苷酸簇的索引循环可与另一寡核苷酸簇的校准循环同时执行,因为校准循环可以特异于一个或多个寡核苷酸簇,如下面各种校准方案所概述的。
作为校准序列204a-204n的补充或另选方案,在一些实施方案中,校准测序系统106接收或检测包括与样本库片段相关联的校准核碱基的核苷酸样本载玻片(例如,核苷酸样本载玻片202)。例如,样本库片段集内的每个样本库片段可包括单个校准核碱基。然而,在该样本库片段集中,校准核碱基集可表现出不同核碱基类型的靶向分布,诸如跨校准核碱基的按比例分布的四种不同核碱基类型(例如,A、T、C、G)。本公开结合图4提供了下文的此类校准核碱基的其他示例。
类似于校准序列204a-204n,在某些具体实施中,校准测序系统106可使用校准核碱基来确定对应于测序设备112的测序参数。例如,在一些实施方案中,校准测序系统106使用测序设备112来执行校准循环,以将互补核碱基掺入到对应于校准核碱基的寡核苷酸中,并且基于校准循环和校准核碱基来确定测序参数。
如上所述,校准测序系统106可以多种方式确定对应于测序设备的测序参数。根据一个或多个实施方案,图2B描绘了校准测序系统106运行校准循环以:(i)直接确定在校准循环期间或之后从测序设备检测到的测序参数;(ii)基于在多个校准循环期间检测到的初始测序参数来确定测序参数;以及/或者(iii)基于校准序列的互补链的核碱基检出与校准序列的已知互补核碱基之间的碱基检出差异来调整初始测序参数。
如上所述,校准测序系统106可在一个或多个校准循环期间或之后直接从测序设备检测测序参数。如图2B所示,例如,校准测序系统106执行初始校准循环218,以将与一个或多个校准序列的已知核碱基互补或匹配的核碱基掺入到簇内的寡核苷酸中。在初始校准循环218期间或之后,校准测序系统106从相机、传感器或测序设备的其他组件检测初始测序参数222a。在一些情况下,校准测序系统106不调整初始测序参数222a,而是使用初始测序参数222a作为测序参数,以便于在后续基因组测序循环或索引循环期间确定核碱基检出。
作为在初始校准循环218期间或之后直接检测的示例,在一些情况下,校准测序系统106检测或测量对应于核苷酸样本载玻片内的特定寡核苷酸簇的特定通道的亮度参数(例如,特定荧光标记的图像)。附加地或另选地,校准测序系统106检测或测量在初始校准循环218期间未掺入到寡核苷酸中的特定核碱基的噪声或背景强度值。作为另一示例,校准测序系统106检测或测量颜色通道到颜色通道串扰参数,该颜色通道到颜色通道串扰参数指示在初始校准循环218期间一个或多个荧光标记的核碱基之间的光谱重叠。
如上进一步所述,校准测序系统106可基于在多个校准循环期间检测到的初始测序参数来确定测序参数。如图2B所示,在某些具体实施中,校准测序系统106执行初始校准循环218和后续校准循环220a两者。后续校准循环220a可在初始校准循环218之后立即发生,或者在初始校准循环218之后的一个或多个附加校准循环之后发生。
在初始校准循环218和后续校准循环220a中,校准测序系统106确定初始测序参数222a和初始测序参数222b。根据测序参数的类型,在某些具体实施中,初始测序参数222a和222b表示相同类型的测序参数,诸如通过针对初始测序参数222a和222b两者确定特定通道的初始每簇亮度参数或者针对初始测序参数222a和222b两者确定初始颜色通道到颜色通道串扰参数。根据初始测序参数222a和222b,在一些情况下,校准测序系统106在初始校准循环218和后续校准循环220a期间掺入相同核碱基类型的核碱基,以便于确定准确的测序参数。
如图2B进一步所示,在一些情况下,校准测序系统106基于初始测序参数222a和222b来确定测序参数224。例如,在某些实施方案中,校准测序系统106确定初始测序参数222a和222b的平均值或加权平均值以确定测序参数224。在一些此类情况下,校准测序系统106对较早或较晚的校准循环进行更重的加权。与求平均相反,在一些情况下,校准测序系统106基于初始测序参数222b来递增地调整初始测序参数222a(例如,通过将值增加或减少至阈值变化或在阈值变化内)以确定测序参数224。
作为对根据来自多个校准循环(例如,初始校准循环218和后续校准循环220a)的初始测序参数的组合来确定测序参数的补充或另选方案,校准测序系统106可基于校准序列(或与之互补)的核碱基检出与校准序列的已知核碱基之间的碱基检出差异来调整一个或多个初始测序参数。
如图2B所示,例如,校准测序系统106执行后续校准循环220b。在后续校准循环220b期间,校准测序系统106确定初始测序参数222c,并且确定掺入到对应于一个或多个校准序列的增长的寡核苷酸集中的核碱基的核碱基检出228。根据对应的校准序列,所掺入的核碱基可以是相同的核碱基类型或具有不同核碱基类型的靶向分布。
基于相关校准序列的已知互补核碱基226的比较,校准测序系统106确定碱基检出差异230。如图2B所示,例如,当相关校准序列的已知核碱基(或互补核碱基)是不同的核碱基类型(例如,A)时,碱基检出差异230可以是一种核碱基类型(例如,G)的核碱基检出。校准测序系统106还基于碱基检出差异230来调整初始测序参数222a和222c中的任一者或两者,以生成调整后的测序参数232。为了生成调整后的测序参数232,例如,校准测序系统106可调整强度值的核碱基质心或核碱基的强度值边界,以校正碱基检出差异230并反映基于相关校准序列应被检出的已知核碱基(或互补核碱基)。
例如,当对应于校准序列集的核碱基检出不同于该校准序列集所表现出的靶向分布时,校准测序系统106可依赖于碱基检出差异来调整测序参数。例如,在一些情况下,校准序列集可以在给定的校准序列位置处具有核碱基类型的靶向分布(例如,在给定的位置处25%/25%/25%/25%的A/C/G/T的4-plex)。当校准测序系统106确定不与核碱基类型的靶向分布互补的核碱基检出(例如,在给定的位置处23%/27%/25%/25%的T/G/C/A)时,校准测序系统106可将测序参数(例如,核碱基质心、强度值边界、颜色通道到颜色通道串扰参数)调整至将产生由已知校准序列所表现出的核碱基类型的靶向分布(或互补靶向分布)的程度或值。
在确定一个或多个测序参数之后,校准测序系统106可在索引循环或基因组测序循环期间的各个阶段应用此类测序参数。根据一个或多个实施方案,图2C例示了校准测序系统106或测序设备系统114应用在一个或多个校准循环期间确定的一个或多个测序参数以:(i)从寡核苷酸簇的图像中提取强度值;(iii)校正所提取的强度值;或者(iii)在基因组测序循环或索引循环期间确定掺入的核碱基的核碱基检出。
如图2C所示,校准测序系统106或测序设备系统114执行测序循环233,诸如通过执行基因组测序循环或索引循环。图2C描绘了在一个或多个校准循环之后执行的测序循环233的所选阶段。作为测序循环233的一部分,例如,校准测序系统106或测序设备系统114捕获核苷酸样本载玻片202的不同切片(例如,片)的图像234并将其输入到设备上软件诸如测序设备系统114中。在一些情况下,图像描绘了在测序循环233期间由掺入到寡核苷酸簇中的荧光标记的核碱基发射的荧光。
在输入图像234之后,校准测序系统106或测序设备系统114通过标识由图像234捕获的寡核苷酸簇的位置来生成位置模板236。校准测序系统106或测序设备系统114还通过使用坐标系(例如,X和Y位置)将寡核苷酸簇的所标识位置配准或映射到图像238来将位置配准到图像234。如图2C所示,校准测序系统106或测序设备系统114任选地使用现有方法根据测序循环233确定一个或多个测序参数248。因此,一个或多个测序参数248与来自校准循环的测序参数250显著不同,并且受到上述技术问题中的一个或多个技术问题的影响。
如图2C进一步所示,在配准簇位置之后,校准测序系统106或测序设备系统114从图像234中提取强度值240。例如,校准测序系统106或测序设备系统114将对应于簇的荧光转换为数字格式的强度值240。当提取强度值240时,校准测序系统106或测序设备系统114可应用来自校准循环的测序参数250中的一个或多个测序参数。例如,作为从图像234中提取强度值240的一部分,校准测序系统106或测序设备系统114可将在先前校准循环期间确定的均衡器系数应用于像素。在一些此类情况下,校准测序系统106或测序设备系统114应用如名称为“基于均衡的图像处理和空间串扰衰减器(Equalization-Based imageProcessing and Spatial Crosstalk Attenuator)”的美国专利11,188,778号(2021年11月30日授权)所述的均衡器系数,该美国专利据此全文以引用方式并入。
在从图像中提取强度值之后,校准测序系统106或测序设备系统114使用来自校准循环的一个或多个测序参数250来校正强度值242。例如,在一些情况下,作为校正(例如,信号校正功能)的一部分,校准测序系统106或测序设备系统114将归一化参数、噪声水平或信噪比度量应用于强度值240中的一个或多个强度值,或者将归一化参数、噪声水平或信噪比度量作为因子计入这些强度值中的一个或多个强度值。作为另一示例,在某些实施方案中,作为校正(例如,信号校正功能)的一部分,校准测序系统106或测序设备系统114将定相系数应用于强度值240中的一个或多个强度值。在一些此类情况下,校准测序系统106或测序设备系统114应用如名称为“生成用于确定核苷酸碱基检出的簇特异性信号校正(Generating Cluster-Specific-Signal Corrections for Determining Nucleotide-Base Calls)”的美国申请63/285,187号(2021年12月2日提交)所述的定相系数,该美国申请据此全文以引用方式并入。
如图2C进一步所示,在校正强度值之后,校准测序系统106或测序设备系统114检出碱基和质量度量244。例如,在一些情况下,校准测序系统106或测序设备系统114基于校正的强度值来确定在测序循环233期间掺入到成像的寡核苷酸簇中的一个或多个核碱基的核碱基检出。作为确定核碱基检出和质量度量244的一部分,校准测序系统106或测序设备系统114可应用或考虑来自校准循环的一个或多个测序参数250。例如,校准测序系统106或测序设备系统114可根据强度值的核碱基质心和/或特定核碱基的强度值边界基于校正的强度值来确定掺入的核碱基的核碱基检出。作为另一示例,在一些情况下,校准测序系统106或测序设备系统114可根据考虑特定通道的每簇强度参数或特定通道的每簇亮度参数的算法或函数来确定核碱基检出的质量度量,诸如碱基检出质量度量。
在检出碱基和质量度量244之后,如图2C进一步所示,校准测序系统106或测序设备系统114可生成输出246,诸如碱基检出和质量度量。在一些情况下,例如,校准测序系统106或测序设备系统114以BCL文件的形式生成测序循环233和测序运行中的其他测序循环的碱基检出数据。
如上文所指示的,校准序列可以是样本库片段或相关联的y型适配器内的非基因组序列和/或非转录组序列的一部分或全部。根据一个或多个实施方案,图3A至图3B描绘了校准测序系统106在非基因组和非转录组序列内(或作为其一部分)插入或连接校准序列,该非基因组和非转录组序列在样本库片段内或以其他方式与样本库片段相关联。具体地,图3A描绘了校准测序系统106在结合接头序列、索引序列、读取引物序列或样本基因组序列中的一者或多者之间添加校准序列(或检测包括校准序列的核苷酸样本载玻片)。图3B描绘了校准测序系统106添加校准序列(或检测包括校准序列的核苷酸样本载玻片)作为来自样本库片段的y型适配器的唯一分子标识符(UMI)序列或唯一双重索引(UDI)序列的一部分或全部。
如图3A所示,例如,将校准序列300插入或连接到样本库片段302中。如所描绘的,校准序列300相对较短(例如,长度为4-8个核碱基)。但是校准测序系统106可使用任何合适长度的校准序列。如图所示,样本库片段302包括样本基因组序列310诸如gDNA片段,或者另选地包括样本转录组序列诸如cDNA片段。但是校准序列300不被添加或插入到样本基因组序列310中,或者另选地不被添加或插入到样本转录组序列中。
如上文所提出的,校准测序系统106可检测或接收包括在各种非基因组和非转录组序列之间的校准序列300的核苷酸样本载玻片316。如图3A所提出的,在一些情况下,校准序列300位于(i)第一结合接头序列304a与第一索引序列306a之间;(ii)第二结合接头序列304b与第二索引序列306b之间;(iii)第一索引序列306a与第一读取引物序列308a之间;(iv)第二索引序列306b与第二读取引物序列308b之间;(v)第一读取引物序列308a与样本基因组序列310(或样本转录组序列)之间;或者(vi)第二读取引物序列308b与样本基因组序列310(或样本转录组序列)之间。
在一些情况下,其间插入校准序列的各种接头序列、引物序列和索引序列可采用市售的已知序列的形式。例如,在某些实施方案中,第一结合接头序列304a构成P7结合接头序列,第一索引序列306a构成i7索引序列,第一读取引物序列308a构成第一读取引物序列(例如,sbs12、B15ME),第二读取引物序列308b构成第二读取引物序列(例如,sbs3’、A14ME),第二索引序列306b构成i5索引序列,并且第二结合接头序列304b构成P5结合接头序列。如下所述,图3B描绘了接头结合序列(例如,UDI序列)的附加具体示例。
如上文进一步提出的,校准测序系统106可检测或接收包括作为某些非基因组和非转录组序列的一部分或全部的校准序列300的核苷酸样本载玻片316。如图3A所提出的,例如,校准序列300可以是形成第一结合接头序列304a、第一索引序列306a、第二结合接头序列304b、第二索引序列306b或表面结合的寡核苷酸312的核苷酸序列的一部分或全部。当表面结合的寡核苷酸312不是样本库片段302的一部分时,表面结合的寡核苷酸312附着在核苷酸样本载玻片316的表面(例如,孔)上,并且与第一结合接头序列304a或第二结合接头序列304b退火。
如图3A进一步所示,样本库片段302沉积在核苷酸样本载玻片316内的孔314中的一个孔内。如上文所提出的,包括校准序列或以其他方式与校准序列相关联的附加样本库片段同样沉积在核苷酸样本载玻片316的孔314内。随后,核苷酸样本载玻片316可被插入测序设备(例如,测序设备112)中并由该测序设备检测。
现在转向图3B,在该图中,校准序列324被插入或整合到样本库片段的y型适配器326中。例如,在使用y型适配器326制备样本库片段的期间或之后,校准测序系统106可将校准序列324插入或整合到唯一分子标识符(UMI)序列322a或UMI序列322b的一部分或全部中,该UMI序列分别显示在UMI接头序列320a和320b附近。在一些情况下,UMI序列322a和/或322b可以是非随机UMI序列。另选地,在一些实施方案中,校准测序系统106将校准序列324插入或整合到唯一双重索引(UDI)序列318a或UDI序列318b的一部分或全部中。
如上文所指示的,校准测序系统106可结合基因组测序循环和索引循环来执行校准循环,其中索引循环和对应的索引序列发生在基因组测序循环和对应的样本基因组序列之前或之后。当校准序列324是UDI序列318a或UDI序列318b的一部分或全部时,在一些实施方案中,校准测序系统106在来自样本库片段的样本基因组序列的基因组测序循环之前对索引序列执行索引循环。相反,当校准序列324是UMI序列322a或UMI序列322b的一部分或全部时,在某些具体实施中,校准测序系统106在来自样本库片段的索引序列的索引循环之前对样本基因组序列执行基因组测序循环。
关于图3A或图3B,当将校准序列插入或整合到结合接头序列(诸如UDI序列)中时,校准测序系统106可使用已经存在于结合接头序列中的核碱基(例如,gDNA的上游)作为校准序列,或者将合成的核碱基作为校准序列添加到结合接头序列中,该结合接头序列在文库制备过程中附着在样本基因组序列的末端。为了使用已经存在于结合接头序列中的核碱基,校准测序系统106可将读取引物序列缩短许多核碱基。因此,最初掺入的循环(例如,校准循环)的碱基对应于结合接头序列。为了将合成的核碱基作为校准序列添加到结合接头序列中,校准测序系统106可将合成的核碱基添加(或嵌入)到结合接头序列中(例如,通过用常见核碱基延长结合接头序列)。
无论是使用现有的核碱基还是将合成的核碱基添加到用于校准序列的结合接头序列,校准测序系统106可在核苷酸样本载玻片中的每个寡核苷酸簇的核苷酸片段读段开始时纳入相同的校准序列,而不需要用完索引序列的排列或组合。通过将结合接头序列用于校准序列,校准测序系统106可提供更准确的校准,因为已经存在的结合接头序列不会产生变化源(模板与引物的杂交效率),该变化源可通过使用每种不同的引物退火测序和模板杂交而改变。
不管校准序列相对于样本库片段的位置如何,校准测序系统106可以多种方式排列或排序构成校准序列的核碱基和在校准序列期间掺入到增长的寡核苷酸中的核碱基。根据一个或多个实施方案,图4描绘了具有核碱基类型的不同靶向分布的不同校准序列或校准核碱基的示例。如上所述,通过使用核碱基类型的靶向分布,校准测序系统106可通过消除(并平衡分布)不规则分布的基因组样本的偏斜分布来提高测序参数和对应的核碱基检出的准确性。
如图4所示,例如,校准测序系统106可使用核碱基的校准序列402,其具有跨校准循环的按比例分布的四种核碱基类型。具体地,校准序列402包括跨校准循环的按比例分布的A、C、G和T。在一些情况下,校准序列402跨越在四个校准序列位置处具有不同核碱基类型的四个核碱基。在其他情况下,校准序列402跨越在图4所示的八个校准序列位置(以及对应的校准循环)中的两个校准序列位置处具有四种不同核碱基类型中的一种核碱基类型的八个核碱基。校准序列402可表示校准测序系统106可用作核苷酸样本载玻片中的每个寡核苷酸簇或簇子集中的校准序列(例如,作为样本库片段的一部分)的单模板。在一些情况下,例如,校准测序系统106使用校准序列集,每个校准序列包括遵循校准序列402或类似单模板序列的相同或单个核碱基序列。无论是在寡核苷酸的单个簇中还是在多个簇中,如图4所示,校准测序系统106可执行校准循环1-8,以基于核碱基类型在校准序列402中的分布来确定一个或多个测序参数。
如图4进一步所示,在某些实施方案中,校准测序系统106使用校准序列集403a,该校准序列集具有两种核碱基类型(或两种核碱基类型的组合)在不同校准序列位置和对应的校准循环中的按比例分布。校准序列集403a表示2-plex模板校准序列集,在校准序列位置具有大约50%的一种核碱基类型,并且在相同的校准序列位置具有大约50%的另一种核碱基类型。因此,校准序列集403a内给定的校准序列具有在校准序列位置处包括两种不同核碱基类型中的一种核碱基类型的大约50%的概率。来自校准序列集403a的校准序列同样可分布到每个寡核苷酸簇或核苷酸样本载玻片中的簇子集。
如图4所示,校准序列集403a具有两种核碱基类型(例如,A和C)在对应于第一校准循环的第一校准序列位置处的按比例分布,并且具有两种不同核碱基类型(例如,G和T)在对应于第二校准循环的第二校准序列位置处的按比例分布。当校准序列位置和校准循环继续时,校准序列集403a具有两种核碱基类型(例如,A和T)的不同组合在对应于第三校准循环的第三校准序列位置处的按比例分布,并且具有两种核碱基类型(例如,G和C)的另一不同组合在对应于第四校准循环的第四校准序列位置处的按比例分布。在一些情况下,校准序列集403a继续具有校准序列集409a,后者表现出两种核碱基类型的组合在校准序列位置5-8和对应的校准循环5-8处的按比例分布。
如图4进一步所示,在一个或多个实施方案中,校准测序系统106使用校准序列集403b,该校准序列集具有四种核碱基类型(或四种核碱基类型的组合)在不同的校准序列位置和对应的校准循环处的按比例分布。校准序列集403b表示4-plex模板校准序列集,后者具有四种不同核碱基类型(例如,A、C、G、T)在给定的校准序列位置处的约25%的按比例分布。因此,校准序列集403b内给定的校准序列具有在校准序列位置处包括四种不同核碱基类型中的一种核碱基类型的大约25%的概率。来自校准序列403b的校准序列同样可分布到每个寡核苷酸簇或核苷酸样本载玻片中的簇子集。
如图4进一步所示,校准序列集403b具有四种核碱基类型(例如,A、C、G、T)在每个校准序列位置和每个对应的校准循环处的按比例分布。校准序列集403b同样可跨越各种校准序列位置和校准周期,诸如3-8个校准序列位置和3-8个对应的校准周期。如校准序列集406所示,在一些实施方案中,校准测序系统106可使用跨越三个校准序列位置的校准序列集403b(例如,每个校准序列跨越三个核碱基)来运行三个校准循环,并且由此有效地校准测序设备并确定一个或多个测序参数。
如上文所提出的,在一些实施方案中,校准测序系统106使用校准核碱基来校准测序设备并确定一个或多个测序参数。如图4所示,例如,校准核碱基集404具有四种不同的核碱基类型(例如,A、C、G、T)在单个校准序列位置和单个校准循环处的按比例分布。实际上,在一些实施方案中,校准测序系统106可在单个校准序列位置(例如,每个样本库片段内的一个校准核碱基)处使用校准核碱基集404来运行单个校准循环,并且由此有效地校准测序设备并确定一个或多个测序参数。
如图4进一步提出的,在一些实施方案中,校准测序系统106使用校准序列402、校准序列集403a和校准序列集403b的不同组合来进行测序运行。作为用于校准循环1-8的一个示例路径,在某些具体实施中,校准测序系统106(i)使用遵循来自校准序列402的单模板核苷酸序列408的校准序列集来执行校准循环1-4,并且(ii)随后使用具有2-plex模板校准序列集的校准序列集409a来执行校准循环4-8。作为用于校准循环1-8的另一示例路径,在某些具体实施中,校准测序系统106(i)使用遵循来自校准序列402的单模板核苷酸序列408的校准序列集来执行校准循环1-4,并且(ii)随后使用具有4-plex模板校准序列集的校准序列集409b来执行校准循环4-8。校准测序系统106同样可在校准循环期间组合本文所述的各种其他校准序列。
如上所述,校准测序系统106可检测或接收包括相对于样本库片段放置在各种位置并沉积在各种簇中的校准序列的核苷酸样本载玻片。根据一个或多个实施方案,图5A至图5E描绘了将校准序列整合在样本库片段内(或附近)并且将此类样本库片段分布在核苷酸样本载玻片中的不同寡核苷酸簇中的不同校准方案。如下文进一步所述,在一些情况下,校准测序系统106组合图5A至图5E中描绘的不同校准方案。
如图5A所示,在第一校准方案下,校准测序系统106接收包括校准序列集的核苷酸样本载玻片,该校准序列集在给定的校准循环内和跨校准循环具有良好多样化的核碱基类型集。在一些情况下,例如,校准测序系统106使用校准序列集,该校准序列集包括(i)根据第一顺序的核碱基(例如,序列中的有序A、C、G、T)包括不同核碱基类型的第一校准序列;(ii)根据第二顺序的核碱基(例如,序列中的有序C、G、T、A)包括不同核碱基类型的第二校准序列;(iii)根据第三顺序的核碱基(例如,序列中的有序G、T、A、C)包括不同核碱基类型的第三校准序列;和(iv)根据第四顺序的核碱基(例如,序列中的有序T、A、C、G)包括不同核碱基类型的第四校准序列。第一校准序列、第二校准序列、第三校准序列和第四校准序列中的每个校准序列同样可以是根据刚刚描述的不同顺序包括不同核碱基类型的第一校准序列子集、第二校准序列子集、第三校准序列子集和第四校准序列子集的一部分。
如上所述,一些现有的测序系统通过使用相对较低多样性的基因组样本(诸如重复单核苷酸、重复二核苷酸、高G/C重复或其他基序)校准测序设备来使测序参数出现偏差或偏斜。实际上,一些现有的校准方法基于一个错误的假设,即现有的测序系统可对良好多样化的基因组样本进行校准。然而,通过使用具有已知核碱基类型的良好多样化的校准序列集来运行校准循环,校准测序系统106可确定测序参数,诸如高斯协方差矩阵或特定核碱基的强度值边界,这些测序参数是一致先验已知的并且不受依赖于相对较低核碱基类型多样性的基因组样本的偏差的影响。
如下表1所示,例如,校准测序系统106可使用良好多样化的校准序列集来执行校准循环,该校准序列集包括四个不同的校准序列,该四个不同的校准序列在四个校准循环的每个校准循环中提供核碱基类型的均匀组成。在一些实施方案中,如下表1所示,此类良好多样化的校准序列集可采用4-plex模板校准序列集的形式,后者具有四种不同的核碱基类型(例如,A、C、G、T)在给定的校准序列位置处的约25%的按比例分布。
表1
校准循环1 校准循环2 校准循环3 校准循环4
校准序列1 A C G T
校准序列2 C G T A
校准序列3 G T A C
校准序列4 T A C G
如图5A所描绘的,在一些情况下,校准测序系统106从此类良好多样化的校准序列集中检测或接收包括给定的校准序列的核苷酸样本载玻片,该给定的校准序列已经在位置510a、510b或510c处整合在样本库片段500a内。例如,当被整合在位置510a处时,校准序列位于第二读取引物序列502b与索引序列506之间,或者另选地,被集成为第二读取引物序列502b或索引序列506的一部分或全部。
在一些情况下,索引序列是双链的(即被排列为核碱基对)并且跨越8个、10个或20个核碱基长。通过使用此类索引序列,校准测序系统106理论上具有分别用于索引的大约416、420或440个独特组合。在考虑汉明编辑距离要求之后,索引序列中可用于生物样本标记的排列的数量将减少,但仍应足以允许纳入校准循环。由于独特组合的数量,校准测序系统106可利用几个索引循环来变成校准循环。如上文所提出的,为了使用索引序列来执行校准循环,校准测序系统106可执行校准循环,随后执行索引循环,然后执行基因组测序循环。
当被整合在位置510b处时,校准序列位于索引序列506与结合接头序列508之间,或者另选地被整合为索引序列506或结合接头序列508的一部分或全部。例如,校准序列可以是非随机UMI序列的一部分或全部,如图3B所描绘的。在一些此类情况下,将非随机UMI序列连接到样本基因组序列的末端,随后进行聚合酶链反应(PCR)以添加或终止结合接头序列(例如,P7和P5)和索引序列。
当被整合在位置510c处时,校准序列位于第一读取引物序列502a与样本基因组序列504a之间,或者另选地被整合为第一读取引物序列502a的一部分或全部。如图5A所示,在一些实施方案中,测序引物501a与第一读取引物序列502a结合。在测序运行期间,酶将核碱基逐个添加或掺入到测序引物501a中,以生成与来自样本库片段500a的对应的核苷酸序列互补的核苷酸片段读段。因此,在一些情况下,校准测序系统106使用酶(例如,聚合酶)来掺入被添加到测序引物501a并且与位置510c处的校准序列互补的核碱基。虽然序列的排序和校准序列的位置可能不同,但是校准测序系统106同样可使用酶和测序引物在本公开所描述或描绘的其他位置处掺入与校准序列互补的核碱基。
如图5A进一步所示,来自根据第一校准方案的良好多样化的校准序列集的给定校准序列可被(i)整合在沉积于单克隆寡核苷酸簇512a中的样本库片段内(例如,在核苷酸样本载玻片的孔内)或(ii)整合在沉积于多克隆寡核苷酸簇512b中的不同样本库片段内(例如,在核苷酸样本载玻片的孔内)。为了比较,图5A还描绘了未被占据的孔514,其缺少校准序列或样本库片段,并且可用于通过将来自未被占据的孔的强度值与来自包括样本库片段和/或校准序列的孔的强度值进行比较来确定某些测序参数,诸如孔内背景强度值。与以上描述一致,校准测序系统106在第一校准循环期间将第一核碱基类型(例如,A)的核碱基掺入到单克隆寡核苷酸簇512a中;在第二校准循环期间将第二核碱基类型(例如,C)的核碱基掺入到单克隆寡核苷酸簇512a中;在第三校准循环期间将第三核碱基类型(例如,G)的核碱基掺入到单克隆寡核苷酸簇512a中。
例如,当将来自根据第一校准方案的良好多样化的校准序列集的给定校准序列整合在多克隆寡核苷酸簇512b中时,该给定校准序列可以是孔内所选已知位置的一部分。例如,当运行覆盖多克隆寡核苷酸簇512b的校准循环时,校准测序系统106在第一校准循环期间将第二核碱基类型和第四核碱基类型(例如,C和T)的核碱基掺入到多克隆寡核苷酸簇512b中;在第二校准循环期间将第一核碱基类型(例如,A)的核碱基掺入到多克隆寡核苷酸簇512b中;在第三校准循环期间将第四核碱基类型和第二核碱基类型(例如,T和C)的核碱基掺入到多克隆寡核苷酸簇512b中。
由于来自良好多样化的校准序列集的给定校准序列将跨校准循环具有多种核碱基类型,因此不可能在多克隆簇中经常一起发现两个相同的校准序列。在一些情况下,该良好多样化的校准序列集可具有被整合到每个样本库片段中(并且特定于每个样本库片段)的不同校准序列。因此,使用根据第一校准方案的良好多样化的校准序列集,单克隆簇各自包括掺入的核碱基,所掺入的核碱基在校准循环期间发射独特且纯粹的光信号。但是多克隆簇包括掺入的核碱基,由于特异性校准序列被整合到接种多克隆簇的不同样本库片段中,所掺入的核碱基很可能一起发射不同的信号。
如上表1所描绘的或以其他方式所描述的,通过使用根据第一校准方案的良好多样化的校准序列集来运行校准循环,校准测序系统106可更准确地确定在基因组测序循环的学习过程期间经常偏斜的测序参数。例如,校准测序系统106可在校准循环期间确定更准确的非线性光学畸变参数,而不是使用早期基因组测序循环来执行非线性映射函数,该非线性映射函数将孔的理论位置转换成在核苷酸样本载玻片切片的图像中观察到的实际位置。
作为进一步的示例,校准测序系统106可通过使用良好多样化的校准序列集来运行校准循环而不是在早期和不可预测的基因组测序循环期间学习此类参数来确定特定通道的更准确的结构照明显微镜(SIM)参数、每簇归一化参数或偏移校正参数。作为又一示例,校准测序系统106可通过根据第一校准方案运行校准循环来确定更准确的均衡器系数,而不是使用基因组测序数据针对每个测序设备在背景外和离线地估计此类均衡器系数。不是通过消耗受到相机的光学缺陷、基因组样本的低核碱基类型多样性、难以测序的基因组区域或流体缺陷影响的基因组测序循环来学习此类测序参数,校准测序系统106可避免这些技术障碍,以根据第一校准方案在具有良好多样化的校准序列集的校准循环期间确定相同的测序参数。
除了改进测序参数之外,通过使用根据第一校准方案的良好多样化的校准序列集来运行校准循环,校准测序系统106还可改进用于确定核苷酸样本载玻片的哪些孔未被寡核苷酸簇占据(诸如未被占据的孔514)的过程,或者确定对应于簇的核苷酸片段读段的核碱基检出通过质量过滤器。通过改进为核碱基检出提供标准的测序参数,诸如高斯协方差矩阵或特定核碱基的强度值边界,校准测序系统106提高了碱基检出质量度量的准确性和可靠性,并且因此确定哪些核碱基检出通过质量过滤器。
现在转向图5B,根据第二校准方案,校准测序系统106接收包括具有跨校准循环的不同核碱基类型的跨循环多样化校准序列的核苷酸样本载玻片。在一些情况下,校准测序系统106使用跨循环多样化校准序列集,其中每个校准序列遵循单模板校准序列。作为单模板校准序列的示例,在一些情况下,此类集合内的每个校准序列包括单个核碱基序列,其遵循相同顺序并且在该单个核碱基序列内具有四个核碱基类型。此类单模板校准序列可相对较短,诸如跨越两个、四个、六个或八个核碱基。
为了使用跨循环多样化校准序列集,在某些情况下,校准测序系统106使用校准序列集,该校准序列集(i)在第一校准序列位置处共同包括第一核碱基类型和第二核碱基类型(例如,G和C)的按比例分布;(ii)在第二校准序列位置处共同包括第一核碱基类型和第三核碱基类型(例如,G和T)的按比例分布;并且(iii)在第三校准序列位置处共同包括第一核碱基类型和第四核碱基类型(例如,G和A)的按比例分布。
如下表2所示,例如,校准测序系统106可通过遵循单模板校准序列使用跨循环多样化校准序列集来执行校准循环:
表2
校准循环1 校准循环2 校准循环3 校准循环4
单模板校准序列 T G A C
附加地或另选地,如下表3所示,校准测序系统106可使用跨循环多样化校准序列集来执行校准循环,该跨循环多样化校准序列具有不同核碱基类型的组合在对应于不同校准循环的不同校准序列位置处的按比例分布。例如,跨循环多样化校准序列集可遵循如表3所示的2-plex模板校准序列集:
表3
如图5B所描绘的,在一些情况下,校准测序系统106从跨循环多样化校准序列集中检测或接收包括给定的校准序列的核苷酸样本载玻片,该给定的校准序列已经在位置520a、520b或520c处整合在样本库片段500b内,或者在位置520d或520e处整合在样本库片段500c内。例如,当被整合在样本库片段500b的位置520a处时,校准序列被整合为结合接头序列522a的一部分或全部。当被整合在样本库片段500b的位置520b处时,校准序列被整合为第一读取引物序列524a的一部分或全部。相反,当被整合在样本库片段500b的位置520c处时,校准序列被整合为第二读取引物序列526a的一部分或全部。如上文所提出的,样本基因组序列504b不包括校准序列。
在校准序列的位置520a、520b或520c处,校准测序系统106可包括校准序列作为来自核苷酸样本载玻片制备试剂盒的样本库片段中的结合接头序列、索引序列或读取引物序列的一部分。在一些此类情况下,校准序列对于所有接种的样本库片段是共有的,因为在此类样本库片段的序列(例如,SBS序列)中已经存在共性。当被整合在位置520a、520b或520c中的一个位置处时,在一些实施方案中,校准测序系统106缩短对应的测序引物(例如,通过一个或多个核碱基缩短大约30个碱基对的测序引物),使得在对应的缩短的测序引物之后由校准测序系统106掺入的核碱基对应于校准序列。在一些此类情况下,所缩短的测序引物暴露校准序列用于通过酶进行测序。通过整合校准序列作为结合接头序列、索引序列或读取引物序列的一部分并缩短对应的测序引物,校准测序系统106可使校准序列与样本库片段制备试剂盒的组件相容,同时从核苷酸样本载玻片制备试剂盒改变测序引物。
如图5B所描绘的,例如,校准测序系统106可使用缩短的测序引物来便于对被整合在位置520a、520b或520c处的校准序列进行测序。例如,在一些情况下,校准序列被整合在结合接头序列522a的下游部分内(在位置520a处),使得校准测序系统106在测序引物501b之后掺入的核碱基与该校准序列互补。作为另一示例,在一些实施方案中,校准序列被整合在第一读取引物序列524a的下游部分内(在位置520b处),使得校准测序系统106在测序引物501c之后掺入的核碱基与该校准序列互补。作为又一示例,在一些实施方案中,校准序列被整合在第二读取引物序列526a的下游部分内(在位置520c处),使得校准测序系统106在测序引物501d之后掺入的核碱基与该校准序列互补。
通过整合单模板校准序列或来自2-plex校准序列集的校准序列作为读取引物序列或结合接头序列的一部分,校准测序系统106可在每个簇的核苷酸片段读段开始时使用相同的校准序列,而不需要消耗核碱基排列或索引序列的组合。通过这样使用部分读取引物序列或结合接头序列作为校准序列,校准测序系统106可更准确地确定测序参数,因为此类引物或接头方法去除了变化源(样本库片段到读取引物序列的杂交效率),该变化源可随着不同样本库片段和不同读取引物序列的每次不同杂交而改变。
与样本库片段500b内的位置相反,如图5B进一步所示,当被整合在样本库片段500c的位置520d处时,校准序列位于第二读取引物序列526b与索引序列528b之间。另选地,校准序列可被整合为索引序列528a或索引序列528b的一部分或全部。当被整合在样本库片段500c的位置520e处时,校准序列位于第一读取引物序列524b与样本基因组序列504c之间。如图5B所示,在一些实施方案中,测序引物501e与定位在位置520e处的校准序列上游的第一读取引物序列524b结合。在测序运行期间,酶将核碱基逐个添加或掺入到测序引物501e中,以生成与来自样本库片段500c的对应的核苷酸序列互补的核苷酸片段读段,包括与位置520e处的校准序列互补的核碱基。
当校准序列在位置520d或520e处被整合在样本库片段500c内时,在一些情况下,校准测序系统106改变样本库片段制备试剂盒,以包括用于放置在读取引物序列与索引序列之间或在读取引物序列与样本基因组序列之间的校准序列。然而,由于校准序列被放置在此类位置处并且作为改性的样本库片段制备试剂盒的一部分,校准测序系统106不需要改变来自核苷酸样本载玻片制备试剂盒的测序引物。
当单模板校准序列或来自2-plex校准序列集的校准序列被整合为索引序列528a或索引序列528b的一部分或全部时,在一些实施方案中,校准测序系统106在减少用于标记的样本基因组序列504c的可用核碱基方面可引起与使用索引序列时通常消耗的成本大致相同的成本。由于跨越8个、10个或20个核碱基的一些现有的双链索引序列具有大约416、420或440个独特组合,因此校准测序系统106在核碱基中具有足够的排列空间以使用部分索引序列作为校准序列。然而,由于索引引物序列和读取引物序列通常使用单独的生化杂交事件,因此当基于寡核苷酸簇中的此类校准序列来确定测序参数时,使用部分索引序列作为校准序列的校准测序系统106的校准循环可检测到额外的(但可能可忽略的)噪声。
如图5B进一步所示,来自具有不同核碱基类型的跨循环多样化校准序列集的给定校准序列可被(i)整合在沉积于单克隆寡核苷酸簇516a中的样本库片段内(例如,在核苷酸样本载玻片的孔内)或(ii)整合在沉积于多克隆寡核苷酸簇516b中的不同样本库片段内(例如,在核苷酸样本载玻片的孔内)。为了比较,图5B还描绘了未被占据的孔518,其缺少校准序列或样本库片段并且可用于确定某些测序参数,诸如孔内背景强度值。与以上对单模板校准序列的描述一致,校准测序系统106在第一校准循环期间将第一核碱基类型(例如,A)的核碱基掺入到单克隆寡核苷酸簇516a中;在第二校准循环期间将第二核碱基类型(例如,C)的核碱基掺入到单克隆寡核苷酸簇516a中;以及在第三校准循环期间将第三核碱基类型(例如,T)的核碱基掺入到单克隆寡核苷酸簇512a中。来自表3中示例的所掺入的核碱基将具有更多潜在的核碱基类型多样性。
当来自具有不同核碱基类型的跨循环多样化校准序列集的给定校准序列被整合在多克隆寡核苷酸簇516b中时,如上所述,该给定校准序列可以是孔内所选已知位置的一部分。在覆盖多克隆寡核苷酸簇516b的校准循环期间,校准测序系统106在第一校准循环期间将第一核碱基类型(例如,A)的核碱基掺入到多克隆寡核苷酸簇516b中;在第二校准循环期间将第二核碱基类型(例如,C)的核碱基掺入到多克隆寡核苷酸簇516b中;以及在第三校准循环期间将第三核碱基类型(例如,T)的核碱基掺入到多克隆寡核苷酸簇516b中。
当使用单模板校准序列时,可通过使用结合接头序列中的现有核苷酸序列(作为内源代码)或通过将新的核苷酸序列引入结合接头序列(作为外源代码)来读取共同校准序列。为了使用来自结合接头序列的内源代码,校准测序系统106可将读取引物序列缩短几个核碱基(例如,图5B中的位置520a、520b和520c),并且读取天然结合接头序列内的核碱基。此类天然结合接头序列将与所有样本文库片段制备试剂盒完全反相容,但需要定制读取引物序列。另选地,校准测序系统106可在上游(例如,图5B中的位置520d)、索引序列内的下游或恰好在基因组样本序列之前(例如,图5B中的位置520e)引入校准序列作为外源代码。在任何此类位置,校准测序系统106可通过改变读取引物序列或通过使用不捕获掺入的核碱基的图像的暗校准循环来从测序运行中排除校准循环。
通过使用根据第二校准方案的单模板校准序列,校准测序系统可利用先验已知的核苷酸序列来确定与使用具有以上关于图5A的示例的良好多样化的校准序列集确定的一个或多个测序参数互补的测序参数。例如,通过使用单模板校准序列,校准测序系统106可确定更准确的核碱基特异性背景强度值。由于每个校准循环的掺入的核碱基是已知的,因此校准测序系统106估计对应于单模板校准序列的每个核碱基类型的背景强度值。校准测序系统106可使用此类核碱基特异性背景强度值来提供反馈,以改进或优化表面化学或开发全功能核苷酸(ffN)核苷酸位置参数,从而改进化学和信噪比度量。
作为另一示例,通过使用根据第二校准方案的跨循环多样化校准序列(诸如单模板校准序列)集,校准测序系统106可确定更准确的强度归一化系数。为了确定此类强度归一化系数,校准测序系统106可估计校准循环中每种核碱基类型的最大强度和最小强度,并且基于最大强度和最小强度来确定强度归一化系数。
作为又一示例,通过使用根据第二校准方案的跨循环多样化校准序列(诸如单模板校准序列)集,校准测序系统106可确定用于高斯混合模型(GMM)的更准确的高斯协方差矩阵和高斯平均参数。通过仅掺入单模板校准序列的单个核碱基类型,校准测序系统106简化了高斯协方差矩阵和高斯平均参数的估计,而不需要拟合GMM或执行期望最大化(EM)。校准测序系统106可使用此类简化计算作为低核碱基类型多样性测序循环的种子,或者作为后续基因组测序循环中的实际GMM参数的初始估计,以提高调整测序参数或确定核碱基检出的稳健性和准确性。
此外,通过使用根据第二校准方案的跨循环多样化校准序列(诸如单模板校准序列)集,校准测序系统106还可针对特定通道确定更准确的每簇强度归一化参数。由于校准测序系统106可精确地检测每个碱基位置中的每个簇的参数一次,因此校准测序系统106可执行与第一校准方案相同的逐簇校准,而对某些测序参数的估计算法进行小修改。
除了上述改进的测序参数之外,在一些情况下,通过使用根据第二校准方案的跨循环多样化校准序列(诸如单模板校准序列)集,校准测序系统106还可估计有利于测序设备化学和测定的测序参数。例如,校准测序系统106可通过确定单色分布(例如,对于通道)的紧密度或值差异来估计测序设备簇扩增效率参数和测序设备簇杂交效率参数。作为另一示例,校准测序系统106可确定颜色通道到颜色通道串扰参数,该颜色通道到颜色通道串扰参数可有助于改进测序设备的传感器或光学器件设计。
作为又一示例,通过使用根据第二校准方案的跨循环多样化校准序列集,校准测序系统106可在每个寡核苷酸簇被多个样本库片段接种时确定该簇的多克隆性。由于针对单模板校准序列的校准循环跨不同样本库片段掺入相同的核碱基,因此在一些实施方案中,校准测序系统106可从校准循环鉴定单克隆输入集,并且随后从基因组测序循环鉴定多克隆输入,从而鉴定输入信号,当比较时,该输入信号导致基于每个簇的多克隆性的测量。
现在转向图5C,在第三校准方案下,校准测序系统106与第一校准方案和第二校准方案杂交或组合。为了杂交或组合此类校准方案,校准测序系统106使用具有跨校准序列位置和跨校准循环的杂交多样化核碱基类型集的校准序列集来执行校准循环。通过杂交第一校准方案和第二校准方案,校准测序系统106可使用单模板校准序列或2-plex模板校准序列集之后的校准序列(或校准子序列)来执行校准循环以确定第一测序参数集,并且使用4-plex模板校准序列集之后的其他校准序列(或校准子序列)来执行校准循环以确定第二测序参数集。此类杂交多样化校准序列集可相应地在校准循环集中确定使用第一校准方案更好地校准的测序参数(例如,非线性光学畸变参数、SIM参数)以及使用第二校准方案更好地校准的其他测序参数(例如,核碱基特异性背景强度值、强度归一化系数)。
例如,杂交多样化校准序列集可包括(i)在单模板校准序列之后的第一校准序列(或子序列)和(ii)在4-plex模板校准序列集之后的第二校准序列(或子序列)(例如,具有四种不同的核碱基类型在给定的校准序列位置处的约25%的按比例分布)。如上所述以及如图4所描绘的,例如,校准测序系统106通过以下方式使用杂交多样化校准序列集来执行校准循环:(i)使用来自校准序列402的单模板核苷酸序列408之后的校准序列集来执行校准循环1-4;以及(ii)使用具有4-plex模板校准序列集的校准序列集409b来执行校准循环4-8。
如图5C进一步所描绘的,在一些情况下,校准测序系统106从杂交多样化校准序列集中检测或接收包括给定的校准序列的核苷酸样本载玻片,该给定的校准序列已经作为非基因组序列和/或非转录组序列的一部分或全部整合在样本库片段500d内。当根据第三校准方案被整合在样本库片段500d内时,在一些情况下,来自杂交多样化校准序列集的校准序列被整合为读取引物序列532a(例如,第一读取引物序列)或读取引物序列532b(例如,第二读取引物序列)的一部分或全部。在某些情况下,当被整合为读取引物序列532a或532b的一部分时,校准测序系统106将相关读取引物序列缩短许多核碱基,保留提供酶(例如,DNA聚合酶)位点的现有或共同的核碱基,并且添加与第一校准方案一致的核碱基(例如,4-plex模板校准序列集)。
如图5C针对第三校准方案进一步所示,在上述位置的另选方案中,来自杂交多样化校准序列集的一些或全部校准序列可被整合在读取引物序列532a与样本基因组序列504d之间的位置536a处、在读取引物序列532a与索引序列534a之间的位置536b处或在读取引物序列532b与索引序列534b之间的位置536c处。
当使用杂交多样化校准序列集来执行校准循环时,在一些情况下,核苷酸样本载玻片包括掺入与杂交多样化校准序列的子集(例如,单模板校准序列的子集)互补的核碱基的单克隆寡核苷酸簇和掺入与另一杂交多样化校准序列的子集(例如,2-plex或4-plex模版校准序列集的子集)互补的核碱基的多克隆寡核苷酸簇。
如图5C所示,例如,单克隆寡核苷酸簇529a包括单模板校准序列的子集。在单克隆寡核苷酸簇529a的校准循环1-4中,校准测序系统106在第一校准循环期间将第一核碱基类型(例如,A)的核碱基掺入到单克隆寡核苷酸簇529a中;在第二校准循环期间将第二核碱基类型(例如,C)的核碱基掺入到单克隆寡核苷酸簇529a中;在第三校准循环期间将第三核碱基类型(例如,G)的核碱基掺入到单克隆寡核苷酸簇529a中;以及在第四校准循环期间将第四核碱基类型(例如,T)的核碱基掺入到单克隆寡核苷酸簇529a中。为了比较,图5C还描绘了未被占据的孔530,其缺少校准序列或样本库片段并且可用于确定某些测序参数,诸如孔内背景强度值。
如图5C进一步所示,多克隆寡核苷酸簇529b包括具有2-plex或4-plex模板校准序列集的子集的校准序列集。在多克隆寡核苷酸簇529b的校准循环1-4中,校准测序系统106在第一校准循环期间将第一核碱基类型(例如,A)的核碱基掺入到多克隆寡核苷酸簇529b中;在第二校准循环期间将第二核碱基类型(例如,C)的核碱基掺入到多克隆寡核苷酸簇529b中;在第三校准循环期间将第四核碱基类型和第一核碱基类型(例如,T和A)的核碱基掺入到多克隆寡核苷酸簇529b中;在第四校准循环期间将第一核碱基类型和第三核碱基类型(例如,A和c)的核碱基掺入到多克隆寡核苷酸簇529b中。
通过在与第一校准方案和第二校准方案杂交的第三校准方案下使用杂交多样化校准序列集来执行校准循环,校准测序系统106降低了专门运行第二校准方案所消耗的存储器。具体地,在第三和杂交校准方案下,校准测序系统106不再需要多个校准循环来在估计相关测序参数(诸如强度值的核碱基质心或高斯协方差矩阵)之前评估强度值。在将单模板校准序列与良好多样化的校准序列组合的第三校准方案下的此类杂交多样化校准序列集在高通量序列设备上可以是尤其高效的。通过执行表现出良好多样化的校准序列和跨循环多样化校准序列两者的校准循环,校准测序系统106同样提高了确定测序参数的准确性和稳健性。
作为对第三和杂交校准方案的补充或另选方案,在一些实施方案中,校准测序系统106在第四校准方案下使用核苷酸样本载玻片内簇或孔的所选子集进行操作。在该第四校准方案中,校准测序系统106在核苷酸样本载玻片内的所选寡核苷酸簇(或对应的所选孔)中实现第一校准方案、第二校准方案或第三校准方案中的一者或多者。实际上,在一些情况下,校准测序系统接收或检测包括遵循第一校准方案、第二校准方案或第三校准方案中的一者或多者的校准序列的核苷酸样本载玻片,该校准序列:(i)在核苷酸样本载玻片的每个孔中,用于在每个孔内接种每个寡核苷酸簇;(ii)在核苷酸样本载玻片的孔子集中,用于在该孔子集内接种每个寡核苷酸簇;或者(iii)在核苷酸样本载玻片的该孔子集中,用于在该孔子集内接种寡核苷酸簇子集。类似地,对于未被图案化的核苷酸样本载玻片,校准测序系统接收或检测包括遵循第一校准方案、第二校准方案或第三校准方案中的一者或多者的校准序列的核苷酸样本载玻片,该校准序列在每个寡核苷酸簇或寡核苷酸簇子集中。
通过选择孔子集或簇子集来在不同样本库片段集内整合不同类型的校准序列,校准测序系统106可确定对应于不同类型的校准序列的不同测序参数。另外,通过选择第一孔子集或第一簇子集来整合校准序列并从第二孔子集或第二簇子集省略校准序列,校准测序系统106可任选地针对第一簇/孔子集执行校准循环,同时针对第二簇-孔子集执行其他测序循环(例如,索引循环)。
根据一个或多个实施方案,图5D描绘了针对一个孔子集或簇子集运行校准循环,同时针对另一孔子集或簇子集运行其他测序循环的校准测序系统106的示例。例如,如图5D所示,校准测序系统106对包括缺少校准序列的样本库片段的核苷酸样本载玻片内的第一孔子集538执行测序循环,诸如索引循环。在一些情况下,第一孔子集538构成核苷酸样本载玻片内85%或更多的孔。如图5D进一步所示,校准测序系统106针对包括样本库片段内校准序列的核苷酸样本载玻片内的第二孔子集540执行校准循环。在一些情况下,第二孔子集540构成核苷酸样本载玻片内5%或更少的孔。如图5D进一步所示,核苷酸样本载玻片包括不具有样本库片段或校准序列的第三孔子集542,以确定某些测序参数,诸如孔内背景强度值。
与上述第一校准方案、第二校准方案或第三校准方案一致,第二孔子集540中的校准序列可位于样本库片段内的不同位置。在第四校准方案下,图5D仅例示了被整合在第二孔子集540中的一个孔内的样本库片段内的校准序列的位置处的一个示例。例如,当被整合在样本库片段500e内时,校准序列546被整合为结合接头序列544的一部分或全部。在一些情况下,当被整合为结合接头序列544的一部分时,校准测序系统106使用一些或全部UDI序列作为校准序列546。
如上文所提出的,在一些情况下,校准测序系统106使用与样本库片段相关联的校准序列,该校准序列包括第一读取引物序列和第二读取引物序列,该第一读取引物序列和该第二读取引物序列分别启动聚合酶对第一核苷酸片段读段进行测序,随后对第二核苷酸片段读段进行测序。根据一个或多个实施方案,图5E描绘了用于同时测序第一核苷酸片段读段和第二核苷酸片段读段的校准循环和校准序列的位置。在一些实施方案中,通过添加或整合校准序列作为附着在核苷酸样本载玻片表面上的一个或多个表面结合的寡核苷酸的一部分,校准测序系统106可执行校准循环,该校准循环避免来自样本库片段的同时测序的核苷酸片段读段的串扰信号。
如图5E所示,例如,校准序列556被整合为附着在核苷酸样本载玻片的表面558上的表面结合的寡核苷酸554的一部分或全部。例如,在一些情况下,校准序列556是附着在用于核苷酸样本载玻片的菌苔的聚合物涂层的表面结合的寡核苷酸554的一部分或全部,诸如聚(N-(5-叠氮乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺(PAZAM)。通过整合校准序列556作为附着在用于核苷酸样本载玻片的PAZAM或附着在另一表面上的寡核苷酸的一部分,并且在样本库片段500f退火或与表面结合的寡核苷酸554结合之前执行校准循环,校准测序系统106可执行校准循环,该校准循环避免来自同时测序的核苷酸片段读段的串扰信号,诸如来自Illumina,Inc.的SPEAR碱基检出,或者在同时测序期间切割读取引物序列之前。在一些情况下,Flow Cells的美国专利申请16/626,452号(2019年6月7日提交)或Flow Cells的美国专利申请17/126,548号(2020年12月18日提交)描述了此类核苷酸片段读段的同时测序或读取引物序列的切割,这些美国专利申请据此全文以引用方式并入。
在表面结合的寡核苷酸554的另选方案中,校准序列556可被整合到样本库片段500f的位置处。尽管图5E中未示出,但是在一些实施方案中,校准序列556位于第一读取引物序列与样本库片段500f的样本基因组序列之间,或者位于第二读取引物序列与样本库片段500f的样本基因组序列之间。在又一些实施方案中,校准序列556被整合为样本库片段500f的第一读取引物序列或第二读取引物序列的一部分或全部。
当在同时测序第一核苷酸片段读段和第二核苷酸片段读段的测序运行中使用校准序列来执行校准循环时,在一些实施方案中,校准测序系统106使用来自图5B的第二校准方案,诸如单模板校准序列,其中每个孔在给定的校准循环中包括相同类型的校准序列。另选地,在一些实施方案中,校准测序系统106使用来自图5A的第一校准方案,诸如4-plex模板校准序列组,其中孔在给定的校准循环中包括不同类型的校准序列——预期菌苔化学图案化(SPEAR样图案化)的进展。
此外,当在同时测序第一核苷酸片段读段和第二核苷酸片段读段的测序运行中使用校准序列来执行校准循环时,在一些实施方案中,校准测序系统106在核苷酸样本载玻片的每个孔中或者在核苷酸样本载玻片的孔子集中检测或接收包括校准序列的核苷酸样本载玻片。为了确定测序参数,诸如背景强度值,在校准测序系统106的校准循环期间,核苷酸样本载玻片可包括空孔(例如,不可接种)。
如图5E进一步所示,校准测序系统106对核苷酸样本载玻片内的第一孔子集548执行测序循环诸如索引循环,该核苷酸样本载玻片可包括或不包括样本库片段。如上所述,当校准序列被整合为表面结合的寡核苷酸的一部分时,校准测序系统106可在样本库片段退火或与表面结合的寡核苷酸或核苷酸样本载玻片的表面结合之前执行校准循环。如图5E进一步所示,校准测序系统106针对包括被整合为表面结合的寡核苷酸的一部分的校准序列的核苷酸样本载玻片内的第二孔子集550执行校准循环,该表面结合的寡核苷酸附着在核苷酸样本载玻片的表面上。如图5E进一步所示,核苷酸样本载玻片包括不具有样本库片段或校准序列的第三孔子集552,以确定某些测序参数,诸如孔内背景强度值。
如上所述,图5A至图5E描绘了各种校准方案。除了以上关于图5A至图5E描述的实施方案之外或结合这些实施方案,下表4列出了每个校准方案的几个具体示例,其中具有在表4中参考的校准方案下确定的校准循环的示例数量和示例靶测序参数。虽然校准方案的具体示例中的一些具体示例包括近似数量的校准循环,但是对于给定的校准方案可实现任何合适数量的校准循环。
表4
如上所述,在一些实施方案中,校准测序系统106通过使用校准序列来校准测序设备而提高一个或多个测序参数和对应的核碱基检出的准确性。根据一个或多个实施方案,图6例示了对应于不同核碱基类型的不同通道的强度值分布的箱形图600,该不同核碱基类型基于随机称为的核碱基或来自校准序列的已知核碱基。如箱形图600所示,校准测序系统106可基于来自校准序列的已知核碱基比常规校准典型的未知或随机称为的核碱基更好来确定特定通道的强度参数(例如,每簇强度参数)。
如图6所示,箱形图600示出了沿强度值线602的通道0和通道1的强度值,以及沿核碱基轴线604的循环1-15所检出的核碱基。为了确定强度值,校准测序系统106执行测序循环1-4以纳入并确定来自非校准序列的随机核碱基的强度值,其中“X”表示不同核碱基类型的随机核碱基。校准测序系统106还执行校准循环5-15以纳入并确定来自单模板校准序列之后的校准序列集的已知核碱基的强度值,其中循环编号之后的字母表示特定核碱基类型的已知核碱基(例如,“5-G”表示鸟嘌呤,“6-A”表示腺嘌呤)。通道0表示由特定荧光染料的簇发射的光以及在循环期间捕获该光的图像。通道1表示由不同荧光染料的簇发射的光以及在循环期间捕获该光的不同图像。校准测序系统106使用具有AZM染料的iSeqKepler和65℃成像来执行箱形图中描绘的循环。
如箱形图600所例示,校准测序系统106使用单模板校准序列来确定不同通道中特定核碱基类型的强度值的清晰且独特的范围和平均值。相比之下,校准测序系统106使用随机或未知核碱基来确定不同通道中强度值的不清晰且不太有用的范围或平均值。
除了改进每簇强度参数之外,校准测序系统106还可通过使用校准序列来校准测序设备而提高其他测序参数(诸如特定核碱基类型的强度值边界)的准确性。根据一个或多个实施方案,图7A至图7B例示了对应于不同通道的不同核碱基类型的强度值的散点图700a和700b,该不同核碱基类型基于不同类型的校准序列。具体地,图7A例示了对应于来自第二校准方案下的单模板校准序列之后的校准序列集的四种不同核碱基类型的核碱基的强度值的散点图700a。图7B例示了对应于来自第一校准方案下的4-plex模板校准序列集之后的校准序列集的四种不同核碱基类型的核碱基的强度值的散点图700b。
如图7A所示,例如,散点图700a示出了沿强度值轴线702a的通道1的强度值,以及沿强度值轴线704a的通道0的强度值。为了捕获图7A所示的强度值,校准测序系统106针对单模板校准序列之后的校准序列集执行30个校准循环。如上所述,此类单模板校准序列包括有助于确定测序参数的已知核碱基。因此,散点图700a描绘了在30个校准循环中通过质量过滤器的多个寡核苷酸簇的强度值。
如图7B所示,散点图700b示出了沿强度值轴线702b的通道1的强度值,以及沿强度值轴线704b的通道0的强度值。为了捕获图7B所示的强度值,校准测序系统106对4-plex模板校准序列集之后的校准序列集执行单个校准循环。因此,散点图700b描绘了在单个校准循环中通过质量过滤器的多个寡核苷酸簇的强度值。
如图7A和图7B的比较所示,对应于四种不同核碱基类型(例如,G、A、C、T)的强度值云在散点图700a和700b中是一致的并且彼此相关。因此,在一些实施方案中,校准测序系统106可使用单模板校准序列或4-plex模板校准序列集来准确地确定特定核碱基类型的强度值边界。在一些情况下,校准测序系统106还可使用单模板校准序列来根据校准循环确定一个或多个测序参数,然后在校准循环期间使用4-plex模板校准序列集来调整该一个或多个测序参数(或用作起始点)。
如上文进一步指示的,在一些实施方案中,校准测序系统106使用改进的测序参数来改进核碱基检出。根据一个或多个实施方案,图8A至图8B例示了使用未校准的测序参数和校准的测序参数的不同核碱基类型的核碱基的强度值以及对应的核碱基检出的散点图。
如图8A所示,例如,散点图800a描绘了在测序循环(例如,索引循环)期间,使用未校准的测序参数和所掺入的核碱基的对应核碱基检出,从由掺入的不同核碱基类型(例如,G、T、C、A)的核碱基发射的光的图像集中提取的强度值,如用于核碱基检出的颜色编码键802a所指出的。具体地,对于散点图800a,校准测序系统106使用设置为1的归一化参数和设置为0的偏移校正参数来确定强度值和核碱基检出。相比之下,散点图800b描绘了使用校准的测序参数(包括校准的每簇强度归一化参数)和所掺入的核碱基的对应核碱基检出,从同一图像集中提取的强度值,如用于核碱基检出的颜色编码键802b所指出的。例如,此类校准的每簇强度归一化参数可包括校准的比例因子、校准的偏移校正参数、对数归一化因子或S形变换。如散点图800a和散点图800b的比较所示,校准测序系统106使用校准的测序参数来确定更准确的核碱基检出。
如图8B所示,散点图800c描绘了在与图8A所描绘的不同的测序循环(例如,索引循环)期间,使用未校准的测序参数和所掺入的核碱基的对应核碱基检出,从由掺入的不同核碱基类型(例如,G、T、C、A)的核碱基发射的光的图像集中提取的强度值,如用于核碱基检出的颜色编码键802c所指出的。具体地,对于图8B的散点图800c,校准测序系统106使用设置为1的比例因子和设置为0的偏移校正参数来确定强度值和核碱基检出。相比之下,散点图800d描绘了使用校准的测序参数(包括校准的比例因子和校准的偏移校正参数)和所掺入的核碱基的对应核碱基检出,从同一图像集中提取的强度值,如用于核碱基检出的颜色编码键802d所指出的。如散点图800c和散点图800d的比较所示,校准测序系统106使用校准的测序参数来确定更准确的核碱基检出。
现在转向图9,该图例示了根据本公开的一个或多个实施方案的接收包括校准序列的核苷酸样本载玻片并且基于该校准序列来确定对应于测序设备的一个或多个测序参数的一系列动作900的流程图。虽然图9例示了根据一个实施方案的动作,但另选实施方案可省略、添加、重新排序和/或修改图9所示的任何动作。图9的动作可作为方法的一部分来执行。另选地,非暂态计算机可读存储介质可包括当由一个或多个处理器执行时使计算设备或系统执行图9描绘的动作的指令。在又一些实施方案中,系统包括至少一个处理器和非暂态计算机可读介质,该非暂态计算机可读介质包括在由一个或多个处理器执行时使系统执行图9的动作的指令。
如图9所示,动作900包括接收包括校准序列的核苷酸样本载玻片的动作902。具体地,在一些实施方案中,动作902包括接收包括核碱基的校准序列的核苷酸样本载玻片。附加地或另选地,动作902包括接收核苷酸样本载玻片,该核苷酸样本载玻片包括核碱基的校准序列和与该校准序列相关联的样本库片段。在一些实施方案中,校准序列是沉积在核苷酸样本载玻片上的样本库片段的一部分或附着在核苷酸样本载玻片的表面上的表面结合的寡核苷酸的一部分。
在某些实施方案中,校准序列包括具有按比例分布的四种核碱基类型的不同的核碱基序列。相关地,在某些具体实施中,该不同的核碱基序列包括第一校准序列和第二校准序列,该第一校准序列包括根据第一核碱基顺序的四种核碱基类型,该第二校准序列包括根据第二核碱基顺序的四种核碱基类型。
此外,在一些情况下,校准序列各自包括单个核碱基序列,该单个核碱基序列遵循相同的核碱基顺序并且在该单个核碱基序列内具有四种核碱基类型。附加地或另选地,校准序列各自包括具有按比例分布的四种核碱基类型的单个核碱基序列。在某些情况下,校准序列包括不同的核碱基序列,该不同的核碱基序列在给定的校准序列位置处共同包括第一核碱基类型和第二核碱基类型的分布,并且在随后的校准序列位置处共同包括该第一核碱基类型和第三核碱基类型的分布或该第三核碱基类型和第四核碱基类型的分布。
如上所述,在一些情况下,接收核苷酸样本载玻片包括接收包括以下各项的核苷酸样本载玻片:核苷酸样本载玻片的每个孔中的校准序列,用于在每个孔内接种每个寡核苷酸簇;核苷酸样本载玻片的孔子集中的校准序列,用于在该孔子集内接种每个寡核苷酸簇;或者核苷酸样本载玻片的该孔子集中的校准序列,用于在该孔子集内接种寡核苷酸簇子集。
如上文进一步指示的,在一些实施方案中,接收核苷酸样本载玻片包括接收包括以下各项的核苷酸样本载玻片:第一样本库片段集,该第一样本库片段集包括用于校准第一测序参数的第一校准序列集;和第二样本库片段集,该第二样本库片段集包括用于校准第二测序参数的第二校准序列集。相关地,在某些实施方案中,接收核苷酸样本载玻片包括:接收包括样本库片段的核苷酸样本载玻片,该样本库片段包括校准序列,该校准序列是该样本库片段内的非基因组和/或非转录组序列的一部分或全部。
附加地或另选地,接收核苷酸样本载玻片包括:接收包括样本库片段的核苷酸样本载玻片,该样本库片段包括校准序列,该校准序列在结合接头序列与索引序列之间、在索引序列与读取引物序列之间或者在读取引物序列与样本基因组序列之间。
相关地,在一些情况下,结合接头序列与索引序列之间的校准序列包括P7结合接头序列与i7索引序列之间或P5结合接头序列与i5索引序列之间的校准序列;索引序列与读取引物序列之间的校准序列包括i7索引序列与第一读取引物序列之间或i5索引序列与第二读取引物序列之间的校准序列;并且读取引物序列与样本基因组序列之间的校准序列包括第一读取引物序列与样本基因组序列之间或第二读取引物序列与样本基因组序列之间的校准序列。
附加地或另选地,接收核苷酸样本载玻片包括:接收包括样本库片段的核苷酸样本载玻片,该样本库片段包括校准序列,该校准序列是非随机唯一分子标识符(UMI)序列的一部分或全部、唯一双重索引(UDI)序列的一部分或全部、索引序列的一部分或全部或者结合接头序列的一部分或全部。
如图9进一步所示,动作900包括使用测序设备和校准序列来执行校准循环的动作904。具体地,在一些实施方案中,动作904包括使用测序设备来执行一个或多个校准循环,以将核碱基掺入到对应于校准序列的寡核苷酸中。在一些情况下,执行一个或多个校准循环包括:执行至少四个校准测序循环。
如上文所提出的,在某些实施方案中,执行一个或多个校准循环包括:将一种核碱基类型或两种核碱基类型的核碱基掺入到对应于校准序列集的增长的寡核苷酸集的校准序列位置。此外,在一些情况下,执行一个或多个校准循环包括:将具有按比例分布的两种核碱基类型、按比例分布的三种核碱基类型或按比例分布的四种核碱基类型的核碱基掺入到对应于校准序列集的增长的寡核苷酸集的校准序列位置。
如上文进一步提出的,在一个或多个实施方案中,执行一个或多个校准循环包括:将核碱基掺入到对应于校准序列集的增长的寡核苷酸集中而不确定校准序列集的核碱基检出。此外,在某些具体实施中,执行一个或多个校准循环包括:在使用测序设备来执行基因组测序循环之前或之后执行一个或多个校准循环,以确定样本库片段内的样本基因组序列的核碱基检出。
如图9进一步所示,动作900包括基于校准循环来确定对应于测序设备的测序参数的动作906。具体地,在某些具体实施中,动作906包括基于一个或多个校准循环和校准序列来确定对应于测序设备的测序参数。如上文所提出的,在一些实施方案中,确定对应于测序设备的测序参数包括:在一个或多个校准循环期间或之后从测序设备检测测序参数。
此外,在一些情况下,确定初始测序参数或测序参数包括:确定均衡器系数、卷积核系数、强度值的核碱基质心、特定核碱基类型的强度值边界、核碱基特异性背景强度值、强度归一化系数、高斯协方差矩阵、高斯均值参数、高斯种子参数、全功能核苷酸(fFN)特异性核苷酸位置参数、非线性光学畸变参数、结构照明显微镜(SIM)参数、每簇归一化参数、通道特异性归一化参数、簇特异性信号归一化参数、颜色通道到颜色通道串扰参数或多克隆性参数中的一者或多者。
除了动作902-906之外,在某些具体实施中,动作900还包括:执行一个或多个校准循环,以确定与对应于校准序列的寡核苷酸的所掺入的核碱基相关联的初始测序参数;以及通过基于初始测序参数估计测序参数来确定对应于测序设备的测序参数。
如上文进一步提出的,在某些情况下,动作900还包括:通过执行校准循环来执行一个或多个校准循环,以确定对应于测序设备的初始测序参数和被掺入到对应于一个或多个校准序列的增长的寡核苷酸集中的给定核碱基的核碱基检出;以及通过以下步骤确定对应于测序设备的测序参数:根据被掺入到增长的寡核苷酸集中的给定核碱基的核碱基检出与一个或多个校准序列的已知互补核碱基之间的比较来确定碱基检出差异;以及基于碱基检出差异来调整对应于测序设备的初始测序参数。
除了上述动作900之外或作为另选方案,在一些实施方案中,动作900包括在以下操作之前执行一个或多个校准循环:在执行基因组测序循环以确定样本基因组序列的核碱基检出之前执行索引循环,以确定索引序列的核碱基检出;或者在执行索引循环以确定索引序列的核碱基检出之前执行基因组测序循环,以确定样本基因组序列的核碱基检出。
现在转向图10,该图例示了根据本公开的一个或多个实施方案的接收包括校准序列的核苷酸样本载玻片并且基于该校准序列来确定对应于测序设备的一个或多个测序参数的一系列动作1000的流程图。虽然图10例示了根据一个实施方案的动作,但另选实施方案可省略、添加、重新排序和/或修改图10所示的任何动作。图10的动作可作为方法的一部分来执行。另选地,非暂态计算机可读存储介质可包括当由一个或多个处理器执行时使计算设备或系统执行图10描绘的动作的指令。在又一些实施方案中,系统包括至少一个处理器和非暂态计算机可读介质,该非暂态计算机可读介质包括在由一个或多个处理器执行时使系统执行图10的动作的指令。
如图10所示,动作1000包括接收包括校准核碱基的核苷酸样本载玻片的动作1002。具体地,在一些实施方案中,动作1002包括接收核苷酸样本载玻片,该核苷酸样本载玻片包括校准核碱基和与该校准核碱基相关联的样本库片段。如上所述,在某些情况下,该校准核碱基中的校准核碱基是样本库片段的一部分或附着在核苷酸样本载玻片的表面上的表面结合的寡核苷酸的一部分。
在一些情况下,校准核碱基包括不同核碱基类型的按比例分布。相关地,在某些实施方案中,第一样本库片段集包括第一核碱基类型的第一校准核碱基,并且第二样本库片段集包括第二核碱基类型的第二校准核碱基。
如图10进一步所示,动作1000包括使用测序设备和校准核碱基来执行校准循环的动作1004。具体地,在一些实施方案中,动作1004包括使用测序设备来执行一个或多个校准循环,以将核碱基掺入到对应于校准核碱基和相关联的样本库片段的寡核苷酸中。附加地或另选地,执行一个或多个校准循环不包括:确定所掺入的核碱基的核碱基检出。
如上文所提出的,在某些实施方案中,执行一个或多个校准循环包括:在使用测序设备来执行基因组测序循环之前或之后执行一个或多个校准循环,以确定样本库片段内的样本基因组序列的核碱基检出。
如图10进一步所示,动作1000包括基于校准循环来确定对应于测序设备的测序参数的动作1006。具体地,在某些具体实施中,动作1006包括基于一个或多个校准循环和校准核碱基来确定对应于测序设备的测序参数。
此外,在一些情况下,确定对应于测序设备的测序参数包括:确定均衡器系数、卷积核系数、强度值的核碱基质心、特定核碱基类型的强度值边界、核碱基特异性背景强度值、强度归一化系数、高斯协方差矩阵、高斯均值参数、高斯种子参数、全功能核苷酸(fFN)特异性核苷酸位置参数、非线性光学畸变参数、结构照明显微镜(SIM卡)参数、特定通道的每簇归一化参数、通道特异性归一化参数、簇特异性信号归一化参数、颜色通道到颜色通道串扰参数或多克隆性参数中的一者或多者。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。利用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001年),“Pyrosequencing sheds light on DNA sequencing.”,Genome Res.11(1),3-11;Ronaghi,M.、Uhlen,M.和Nyren,P.(1998年),“A sequencing method based on real-timepyrophosphate.”,Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被裂解)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在具体实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在具体实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3'烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光切割的接头附接到碱基,该可光切割的接头可通过暴露于长波长紫外光30秒来容易地切割。因此,二硫化物还原或光切割可用作可切割的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的改变(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并识别此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可利用纳米孔测序(Deamer,D.W.和Akeson,M.,“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”,Trends Biotechnol.18,147-151(2000年);Deamer,D.和D.Branton,“Characterization of nucleic acids bynanopore analysis.”,Acc.Chem.Res.35:817-825(2002年);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”,Nat.Mater.,2:611-615(2003年),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,靶核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当靶核酸穿过纳米孔时,可通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafast DNAsequencing using solid-state nanopores.”,Clin.Chem.53,1996-2001(2007年);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007年);Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.,“A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution.”,J.Am.Chem.Soc.130,818-820(2008年),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at high concentrations.”,Science 299,682-686(2003年);Lundquist,P.M.等人,“Parallel confocal detectionof single molecules in real time.”,Opt.Lett.33,1026-1028(2008年);Korlach,J.等人,“Selective aluminum passivation for targeted immobilization of single DNApolymerase molecules in zero-mode waveguide nano structures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008年),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的靶核酸。在具体实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的靶核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中,靶核酸可为阵列格式。在阵列格式中,靶核酸通常可以在空间上可区分的方式结合到表面。靶核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的靶核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此,本公开的整合系统可包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体组件,该系统包括诸如泵、阀、贮存器、流体管线等的组件。流通池在整合系统中可被配置用于和/或用于检测靶核酸。示例性流通池在例如US 2010/0111768A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,整合系统的一个或多个流体组件可用于扩增方法和检测方法。以核酸测序实施方案为例,整合系统的一个或多个流体组件可用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样品中存在的核酸聚合物进行测序。如本文所定义,“样本”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样本包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样本可包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样本,诸如基因组学DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样本的来源可以是:单个个体、来自遗传相关成员的核酸样本的集合、来自遗传不相关成员的核酸样本、来自单个个体的(与之匹配的)核酸样本(诸如肿瘤样本和正常组织样本),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样本,或者在含有植物或动物DNA的样本中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
核酸样本可包括高分子量物质,诸如基因组学DNA(gDNA)。样本可包括低分子量物质,诸如从FFPE样本或存档的DNA样本获得的核酸分子。在另一个实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。样本可包括无细胞循环DNA。在一些实施方案中,样本可包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样本获得的核酸分子。在一些实施方案中,样本可以是流行病学样本、农业样本、法医学样本或病原性样本。在一些实施方案中,样本可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一个实施方案中,样本可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样本或物种。
另外,本文所公开的方法和组合物可用于扩增具有低质量核酸分子的核酸样本,诸如来自法医学样本的降解的和/或片段化的基因组学DNA。在一个实施方案中,法医学样本可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样本。核酸样本可以是经纯化的样本或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样本可包括少量DNA(诸如基因组学DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样本、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样本的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样本或人类身份识别样本可使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
校准测序系统106的组件可包括软件、硬件或两者。例如,校准测序系统106的组件可包括存储在计算机可读存储介质上并且可由一个或多个计算设备(例如,用户客户端设备108)的处理器执行的一个或多个指令。当由一个或多个处理器执行时,校准测序系统106的计算机可执行指令可使计算设备执行本文所述的气泡检测方法。另选地,校准测序系统106的组件可包括硬件,诸如用于执行某种功能或功能组的专用处理设备。附加地或另选地,校准测序系统106的组件可包括计算机可执行指令和硬件的组合。
此外,执行本文关于校准测序系统106描述的功能的校准测序系统106的组件可例如被实现作为独立应用程序的一部分、作为应用程序的模块、作为应用程序的插件、作为可由其他应用程序调用的一个或多个库函数和/或作为云计算模型。因此,校准测序系统106的组件可被实现作为个人计算设备或移动设备上的独立应用的一部分。附加地或另选地,校准测序系统106的组件可在提供测序服务的任何应用中实现,包括但不限于IlluminaBaseSpace、Illumina DRAGEN或Illumina TruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述的过程中的一个或多个过程可被至少部分地实现为体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如,本文所述的介质内容访问设备中的任何介质内容访问设备)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包括本文所述的过程中的一个或多个过程。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某种功能或功能组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征或动作。相反,所描述的特征和动作是作为实现权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实现。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图11例示了可被配置为执行上述过程中的一个或多个过程的计算设备1100的框图。人们将理解,一个或多个计算设备诸如计算设备1100可实现校准测序系统106和测序系统104。如图11所示,计算设备1100可包括可通过通信基础设施1112通信地耦接的处理器1102、存储器1104、存储设备1106、I/O接口1108和通信接口1110。在某些实施方案中,计算设备1100可包括比图11所示的那些组件更少或更多的组件。以下段落更详细地描述图11所示的计算设备1100的组件。
在一个或多个实施方案中,处理器1102包括用于执行指令诸如构成计算机程序的那些指令的硬件。作为示例而非以限制的方式,为了执行用于动态地修改工作流的指令,处理器1102可从内部寄存器、内部高速缓存、存储器1104或存储设备1106检索(或取得)指令,并且对它们进行解码并执行。存储器1104可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1106包括用于存储用于执行本文所述的方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1108允许用户向计算设备1100提供输入、从该计算设备接收输出并且以其他方式向该计算设备传递数据并从该计算设备接收数据。I/O接口1108可包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口1108可包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器以及一个或多个音频驱动程序。在某些实施方案中,I/O接口1108被配置为向显示器提供图形数据以供呈现给用户。图形数据可表示一个或多个图形用户界面和/或可服务于特定具体实施的任何其他图形内容。
通信接口1110可包括硬件、软件或两者。在任何情况下,通信接口1110可提供用于计算设备1100与一个或多个其他计算设备或网络之间的通信(诸如,例如基于分组的通信)的一个或多个接口。作为示例而非以限制的方式,通信接口1110可包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或用于与无线网络诸如WI-FI通信的无线NIC(WNIC)或无线适配器。
附加地,通信接口1110可促进与各种类型的有线网络或无线网络的通信。通信接口1110还可促进使用各种通信协议的通信。通信基础设施1112还可包括使计算设备1100的组件彼此耦接的硬件、软件或两者。例如,通信接口1110可使用一个或多个网络和/或协议来使得通过特定基础设施连接的多个计算设备能够彼此通信以执行本文所述的过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图例示了各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以其他特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所述的方法可用更少或更多的步骤/动作执行,或者步骤/动作可以不同的顺序执行。附加地,本文所述的步骤/动作可重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (32)

1.一种系统,所述系统包括:
至少一个处理器;和
包括指令的非暂态计算机可读介质,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
接收包括核碱基的校准序列的核苷酸样本载玻片;
使用测序设备来执行一个或多个校准循环,以将核碱基掺入到对应于所述校准序列的寡核苷酸中;以及
基于所述一个或多个校准循环和所述校准序列来确定对应于所述测序设备的测序参数。
2.根据权利要求1所述的系统,其中所述校准序列是沉积在所述核苷酸样本载玻片上的样本库片段的一部分或附着在所述核苷酸样本载玻片的表面上的表面结合的寡核苷酸的一部分。
3.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:通过在所述一个或多个校准循环期间或之后从所述测序设备检测所述测序参数来确定对应于所述测序设备的所述测序参数。
4.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
执行所述一个或多个校准循环,以确定与对应于所述校准序列的所述寡核苷酸的所掺入的核碱基相关联的初始测序参数;以及
通过基于所述初始测序参数估计所述测序参数来确定对应于所述测序设备的所述测序参数。
5.根据权利要求4所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:通过确定均衡器系数、卷积核系数、强度值的核碱基质心、特定核碱基类型的强度值边界、核碱基特异性背景强度值、强度归一化系数、高斯协方差矩阵、高斯均值参数、高斯种子参数、全功能核苷酸(fFN)特异性核苷酸位置参数、非线性光学畸变参数、结构照明显微镜(SIM)参数、特定通道的每簇归一化参数、通道特异性归一化参数、簇特异性信号归一化参数、颜色通道到颜色通道串扰参数或多克隆性参数中的一者或多者来确定所述初始测序参数或所述测序参数。
6.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
通过执行校准循环来执行所述一个或多个校准循环,以确定对应于所述测序设备的初始测序参数和被掺入到对应于一个或多个校准序列的增长的寡核苷酸集中的给定核碱基的核碱基检出;以及
通过以下方式来确定对应于所述测序设备的所述测序参数:
根据被掺入到所述增长的寡核苷酸集中的所述给定核碱基的所述核碱基检出与所述一个或多个校准序列的已知互补核碱基之间的比较来确定碱基检出差异;以及
基于所述碱基检出差异来调整对应于所述测序设备的所述初始测序参数。
7.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:通过将一种核碱基类型或两种核碱基类型的核碱基掺入到对应于校准序列集的增长的寡核苷酸集的校准序列位置来执行所述一个或多个校准循环。
8.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:通过将具有按比例分布的两种核碱基类型、按比例分布的三种核碱基类型或按比例分布的四种核碱基类型的核碱基掺入到对应于校准序列集的增长的寡核苷酸集的校准序列位置来执行所述一个或多个校准循环。
9.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统接收包括以下各项的核苷酸样本载玻片:
所述核苷酸样本载玻片的每个孔中的校准序列,用于在每个孔内接种每个寡核苷酸簇;
核苷酸样本载玻片的孔子集中的所述校准序列,用于在该孔子集内接种每个寡核苷酸簇;或者
所述核苷酸样本载玻片的所述孔子集中的所述校准序列,用于在所述孔子集内接种寡核苷酸簇子集。
10.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统接收包括以下各项的核苷酸样本载玻片:
第一样本库片段集,所述第一样本库片段集包括用于校准第一测序参数的第一校准序列集;和
第二样本库片段集,所述第二样本库片段集包括用于校准第二测序参数的第二校准序列集。
11.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:通过将核碱基掺入到对应于校准序列集的增长的寡核苷酸集中而不确定所述校准序列集的核碱基检出来执行所述一个或多个校准循环。
12.根据权利要求1所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:在使用所述测序设备来执行基因组测序循环之前或之后执行所述一个或多个校准循环,以确定样本库片段内的样本基因组序列的核碱基检出。
13.一种包括指令的非暂态计算机可读介质,所述指令在由至少一个处理器执行时使系统进行以下操作:
接收核苷酸样本载玻片,所述核苷酸样本载玻片包括核碱基的校准序列和与所述校准序列相关联的样本库片段;
使用测序设备来执行一个或多个校准循环,以掺入到对应于所述校准序列的寡核苷酸中;以及
基于所述一个或多个校准循环和所述校准序列来确定对应于所述测序设备的测序参数。
14.根据权利要求13所述的非暂态计算机可读介质,其中所述校准序列是所述样本库片段的一部分或附着在所述核苷酸样本载玻片的表面上的表面结合的寡核苷酸的一部分。
15.根据权利要求13所述的非暂态计算机可读介质,其中所述校准序列包括具有按比例分布的四种核碱基类型的不同的核碱基序列。
16.根据权利要求15所述的非暂态计算机可读介质,其中所述不同的核碱基序列包括第一校准序列和第二校准序列,所述第一校准序列包括根据第一核碱基顺序的四种核碱基类型,所述第二校准序列包括根据第二核碱基顺序的四种核碱基类型。
17.根据权利要求13所述的非暂态计算机可读介质,其中所述校准序列各自包括单个核碱基序列,所述单个核碱基序列遵循相同的核碱基顺序并且在所述单个核碱基序列内具有四种核碱基类型。
18.根据权利要求13所述的非暂态计算机可读介质,其中所述校准序列各自包括具有按比例分布的四种核碱基类型的单个核碱基序列。
19.根据权利要求13所述的非暂态计算机可读介质,其中所述校准序列包括不同的核碱基序列,所述不同的核碱基序列在给定的校准序列位置处共同包括第一核碱基类型和第二核碱基类型的分布,并且在随后的校准序列位置处共同包括所述第一核碱基类型和第三核碱基类型的分布或所述第三核碱基类型和第四核碱基类型的分布。
20.根据权利要求13所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:接收包括样本库片段的核苷酸样本载玻片,所述样本库片段包括校准序列,所述校准序列是所述样本库片段内的非基因组和/或非转录组序列的一部分或全部。
21.根据权利要求13所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:接收包括样本库片段的核苷酸样本载玻片,所述样本库片段包括校准序列,所述校准序列在结合接头序列与索引序列之间、在所述索引序列与读取引物序列之间或者在所述读取引物序列与样本基因组序列之间。
22.根据权利要求21所述的非暂态计算机可读介质,其中:
所述结合接头序列与所述索引序列之间的所述校准序列包括P7结合接头序列与i7索引序列之间或P5结合接头序列与i5索引序列之间的校准序列;
所述索引序列与所述读取引物序列之间的所述校准序列包括所述i7索引序列与第一读取引物序列之间或所述i5索引序列与第二读取引物序列之间的校准序列;并且
所述读取引物序列与所述样本基因组序列之间的所述校准序列包括所述第一读取引物序列与所述样本基因组序列之间或所述第二读取引物序列与所述样本基因组序列之间的校准序列。
23.根据权利要求13所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:接收包括样本库片段的核苷酸样本载玻片,所述样本库片段包括校准序列,所述校准序列是非随机唯一分子标识符(UMI)序列的一部分或全部、唯一双重索引(UDI)序列的一部分或全部、索引序列的一部分或全部或者结合接头序列的一部分或全部。
24.根据权利要求13所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述系统在以下操作之前执行所述一个或多个校准循环:
在执行基因组测序循环以确定样本基因组序列的核碱基检出之前执行索引循环,以确定索引序列的核碱基检出;或者
在执行所述索引循环以确定所述索引序列的核碱基检出之前执行所述基因组测序循环,以确定所述样本基因组序列的核碱基检出。
25.根据权利要求13所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:通过执行至少四个校准测序循环来执行所述一个或多个校准循环。
26.一种计算机实现的方法,所述计算机实现的方法包括:
接收核苷酸样本载玻片,所述核苷酸样本载玻片包括校准核碱基和与所述校准核碱基相关联的样本库片段;
使用测序设备来执行一个或多个校准循环,以将核碱基掺入到对应于所述校准核碱基和所述相关联的样本库片段的寡核苷酸中;以及
基于所述一个或多个校准循环和所述校准核碱基来确定对应于所述测序设备的测序参数。
27.根据权利要求26所述的计算机实现的方法,其中所述校准核碱基包括不同核碱基类型的按比例分布。
28.根据权利要求26所述的计算机实现的方法,其中第一样本库片段集包括第一核碱基类型的第一校准核碱基,并且第二样本库片段集包括第二核碱基类型的第二校准核碱基。
29.根据权利要求26所述的计算机实现的方法,其中所述校准核碱基中的校准核碱基是所述样本库片段的一部分或附着在所述核苷酸样本载玻片的表面上的表面结合的寡核苷酸的一部分。
30.根据权利要求26所述的计算机实现的方法,其中执行所述一个或多个校准循环不包括:确定所掺入的核碱基的核碱基检出。
31.根据权利要求26所述的计算机实现的方法,其中执行所述一个或多个校准循环包括:在使用所述测序设备来执行基因组测序循环之前或之后执行所述一个或多个校准循环,以确定样本库片段内的样本基因组序列的核碱基检出。
32.根据权利要求26所述的计算机实现的方法,其中确定对应于所述测序设备的所述测序参数包括:确定均衡器系数、卷积核系数、强度值的核碱基质心、特定核碱基类型的强度值边界、核碱基特异性背景强度值、强度归一化系数、高斯协方差矩阵、高斯均值参数、高斯种子参数、全功能核苷酸(fFN)特异性核苷酸位置参数、非线性光学畸变参数、结构照明显微镜(SIM)参数、每簇归一化参数、通道特异性归一化参数、簇特异性信号归一化参数、颜色通道到颜色通道串扰参数或多克隆性参数中的一者或多者。
CN202380023184.0A 2022-02-25 2023-02-24 核苷酸测序的校准序列 Pending CN118871994A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263268547P 2022-02-25 2022-02-25
US63/268547 2022-02-25
PCT/US2023/063285 WO2023164660A1 (en) 2022-02-25 2023-02-24 Calibration sequences for nucelotide sequencing

Publications (1)

Publication Number Publication Date
CN118871994A true CN118871994A (zh) 2024-10-29

Family

ID=85873964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380023184.0A Pending CN118871994A (zh) 2022-02-25 2023-02-24 核苷酸测序的校准序列

Country Status (6)

Country Link
US (1) US20230410944A1 (zh)
EP (1) EP4483372A1 (zh)
JP (1) JP2025507713A (zh)
KR (1) KR20240152324A (zh)
CN (1) CN118871994A (zh)
WO (1) WO2023164660A1 (zh)

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
EP2327797B1 (en) 1997-04-01 2015-11-25 Illumina Cambridge Limited Method of nucleic acid sequencing
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP2100971A3 (en) 2000-07-07 2009-11-25 Visigen Biotechnologies, Inc. Real-time sequence determination
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP3363809B1 (en) 2002-08-23 2020-04-08 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP2789383B1 (en) 2004-01-07 2023-05-03 Illumina Cambridge Limited Molecular arrays
EP1790202A4 (en) 2004-09-17 2013-02-20 Pacific Biosciences California APPARATUS AND METHOD FOR ANALYZING MOLECULES
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
EP1888743B1 (en) 2005-05-10 2011-08-03 Illumina Cambridge Limited Improved polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP2018622B1 (en) 2006-03-31 2018-04-25 Illumina, Inc. Systems for sequence by synthesis analysis
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US7948015B2 (en) 2006-12-14 2011-05-24 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8407012B2 (en) * 2008-07-03 2013-03-26 Cold Spring Harbor Laboratory Methods and systems of DNA sequencing
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
PL3290528T3 (pl) 2011-09-23 2020-03-31 Illumina, Inc. Sposoby i kompozycje do sekwencjonowania kwasów nukleinowych
EP4219012A1 (en) 2012-04-03 2023-08-02 Illumina, Inc. Method of imaging a substrate comprising fluorescent features and use of the method in nucleic acid sequencing
WO2017084998A1 (en) * 2015-11-16 2017-05-26 Qiagen Instruments Ag Calibration probe and method for calibrating an electronic device
US10689684B2 (en) * 2017-02-14 2020-06-23 Microsoft Technology Licensing, Llc Modifications to polynucleotides for sequencing
WO2019161039A2 (en) * 2018-02-14 2019-08-22 Regents Of The University Of Minnesota Size standards for next-generation sequencing
US11188778B1 (en) 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator

Also Published As

Publication number Publication date
JP2025507713A (ja) 2025-03-21
EP4483372A1 (en) 2025-01-01
KR20240152324A (ko) 2024-10-21
WO2023164660A1 (en) 2023-08-31
US20230410944A1 (en) 2023-12-21

Similar Documents

Publication Publication Date Title
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
US20230343415A1 (en) Generating cluster-specific-signal corrections for determining nucleotide-base calls
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
US20220319641A1 (en) Machine-learning model for detecting a bubble within a nucleotide-sample slide for sequencing
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
CN118871994A (zh) 核苷酸测序的校准序列
CN117546243A (zh) 使用推算的单倍型的图参考基因组和碱基检出方法
US20240266003A1 (en) Determining and removing inter-cluster light interference
US20250210137A1 (en) Directly determining signal-to-noise-ratio metrics for accelerated convergence in determining nucleotide-base calls and base-call quality
US20250111899A1 (en) Predicting insert lengths using primary analysis metrics
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20250111898A1 (en) Tracking and modifying cluster location on nucleotide-sample slides in real time
WO2024206848A1 (en) Tandem repeat genotyping
JP2025523520A (ja) 候補スプリットグループをインテリジェントに同定しスコアリングすることによるスプリットリードアラインメントの改善
EP4515547A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
CN119744419A (zh) 用于重新校准来自现有测序数据文件的基因型检出的机器学习模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination