RU2811465C2 - Method of amplification and identification of nucleic acids - Google Patents
Method of amplification and identification of nucleic acids Download PDFInfo
- Publication number
- RU2811465C2 RU2811465C2 RU2021120504A RU2021120504A RU2811465C2 RU 2811465 C2 RU2811465 C2 RU 2811465C2 RU 2021120504 A RU2021120504 A RU 2021120504A RU 2021120504 A RU2021120504 A RU 2021120504A RU 2811465 C2 RU2811465 C2 RU 2811465C2
- Authority
- RU
- Russia
- Prior art keywords
- template
- elongation
- sequence
- nucleic acid
- stopper
- Prior art date
Links
- 150000007523 nucleic acids Chemical class 0.000 title claims abstract description 140
- 108020004707 nucleic acids Proteins 0.000 title claims abstract description 136
- 102000039446 nucleic acids Human genes 0.000 title claims abstract description 136
- 230000003321 amplification Effects 0.000 title claims abstract description 76
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013615 primer Substances 0.000 claims abstract description 148
- 239000012634 fragment Substances 0.000 claims abstract description 76
- 108091034117 Oligonucleotide Proteins 0.000 claims abstract description 70
- 238000006243 chemical reaction Methods 0.000 claims abstract description 51
- 102000003960 Ligases Human genes 0.000 claims abstract description 31
- 108090000364 Ligases Proteins 0.000 claims abstract description 31
- 230000000694 effects Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 239000003155 DNA primer Substances 0.000 claims abstract description 17
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 claims abstract description 12
- 102100034343 Integrase Human genes 0.000 claims abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 10
- 125000003729 nucleotide group Chemical group 0.000 claims description 63
- 239000002773 nucleotide Substances 0.000 claims description 59
- 238000000137 annealing Methods 0.000 claims description 30
- 238000009396 hybridization Methods 0.000 claims description 14
- 108010008286 DNA nucleotidylexotransferase Proteins 0.000 claims description 9
- SIIZPVYVXNXXQG-KGXOGWRBSA-N [(2r,3r,4r,5r)-5-(6-aminopurin-9-yl)-4-[[(3s,4r)-5-(6-aminopurin-9-yl)-3,4-dihydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-3-hydroxyoxolan-2-yl]methyl [(2r,4r,5r)-2-(6-aminopurin-9-yl)-4-hydroxy-5-(phosphonooxymethyl)oxolan-3-yl] hydrogen phosphate Polymers C1=NC2=C(N)N=CN=C2N1[C@@H]1O[C@H](COP(O)(=O)OC2[C@@H](O[C@H](COP(O)(O)=O)[C@H]2O)N2C3=NC=NC(N)=C3N=C2)[C@@H](O)[C@H]1OP(O)(=O)OCC([C@@H](O)[C@H]1O)OC1N1C(N=CN=C2N)=C2N=C1 SIIZPVYVXNXXQG-KGXOGWRBSA-N 0.000 claims description 9
- 238000002844 melting Methods 0.000 claims description 4
- 230000008018 melting Effects 0.000 claims description 4
- 229920002113 octoxynol Polymers 0.000 claims description 4
- 229920000642 polymer Polymers 0.000 claims description 4
- 229920000136 polysorbate Polymers 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 229920001223 polyethylene glycol Polymers 0.000 claims description 3
- 229940066429 octoxynol Drugs 0.000 claims description 2
- 229950008882 polysorbate Drugs 0.000 claims description 2
- 102100029764 DNA-directed DNA/RNA polymerase mu Human genes 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract 1
- 108020004414 DNA Proteins 0.000 description 77
- 238000012163 sequencing technique Methods 0.000 description 68
- 239000000047 product Substances 0.000 description 62
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 45
- 230000000295 complement effect Effects 0.000 description 20
- 239000002299 complementary DNA Substances 0.000 description 19
- 238000003752 polymerase chain reaction Methods 0.000 description 17
- 238000010839 reverse transcription Methods 0.000 description 17
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 14
- 108090000623 proteins and genes Proteins 0.000 description 13
- 230000002441 reversible effect Effects 0.000 description 12
- 238000007792 addition Methods 0.000 description 11
- 238000006073 displacement reaction Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 102100033215 DNA nucleotidylexotransferase Human genes 0.000 description 8
- 238000009739 binding Methods 0.000 description 8
- 238000002360 preparation method Methods 0.000 description 8
- 108700009124 Transcription Initiation Site Proteins 0.000 description 7
- 239000011324 bead Substances 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000000746 purification Methods 0.000 description 7
- 101100447432 Danio rerio gapdh-2 gene Proteins 0.000 description 6
- 101150112014 Gapdh gene Proteins 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 101710086015 RNA ligase Proteins 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 239000007790 solid phase Substances 0.000 description 5
- 108091035707 Consensus sequence Proteins 0.000 description 4
- 102000012410 DNA Ligases Human genes 0.000 description 4
- 108010061982 DNA Ligases Proteins 0.000 description 4
- 108700039887 Essential Genes Proteins 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000003999 initiator Substances 0.000 description 4
- 230000037452 priming Effects 0.000 description 4
- 238000010561 standard procedure Methods 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 108010060248 DNA Ligase ATP Proteins 0.000 description 3
- 102000008158 DNA Ligase ATP Human genes 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 239000000499 gel Substances 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 108020004418 ribosomal RNA Proteins 0.000 description 3
- 230000005030 transcription termination Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 206010067484 Adverse reaction Diseases 0.000 description 2
- 241000724328 Alfalfa mosaic virus Species 0.000 description 2
- 101001095872 Enterobacteria phage T4 RNA ligase 2 Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- LYCAIKOWRPUZTN-UHFFFAOYSA-N Ethylene glycol Chemical compound OCCO LYCAIKOWRPUZTN-UHFFFAOYSA-N 0.000 description 2
- 241000714177 Murine leukemia virus Species 0.000 description 2
- 108091093037 Peptide nucleic acid Proteins 0.000 description 2
- 239000007983 Tris buffer Substances 0.000 description 2
- 230000006838 adverse reaction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000001962 electrophoresis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 238000004448 titration Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 2
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 108010063905 Ampligase Proteins 0.000 description 1
- 108010008758 Chlorella virus DNA ligase Proteins 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 108091092584 GDNA Proteins 0.000 description 1
- 208000028782 Hereditary disease Diseases 0.000 description 1
- 241001302042 Methanothermobacter thermautotrophicus Species 0.000 description 1
- 108091036407 Polyadenylation Proteins 0.000 description 1
- 229920002594 Polyethylene Glycol 8000 Polymers 0.000 description 1
- 238000010357 RNA editing Methods 0.000 description 1
- 230000026279 RNA modification Effects 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108091012456 T4 RNA ligase 1 Proteins 0.000 description 1
- 241001522143 Thermus scotoductus Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000010804 cDNA synthesis Methods 0.000 description 1
- 230000009918 complex formation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- WGCNASOHLSPBMP-UHFFFAOYSA-N hydroxyacetaldehyde Natural products OCC=O WGCNASOHLSPBMP-UHFFFAOYSA-N 0.000 description 1
- 230000003100 immobilizing effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000007169 ligase reaction Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000001236 prokaryotic cell Anatomy 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000007086 side reaction Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- GPRLSGONYQIRFK-MNYXATJNSA-N triton Chemical compound [3H+] GPRLSGONYQIRFK-MNYXATJNSA-N 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Abstract
Description
Область техники, к которой относится изобретениеField of technology to which the invention relates
Настоящее изобретение относится к области анализа и амплификации нуклеиновых кислот.The present invention relates to the field of nucleic acid analysis and amplification.
Уровень техникиState of the art
В US 20100273219 A1 описан способ мультипраймерной амплификации для баркодирования целевых нуклеиновых кислот.US 20100273219 A1 describes a multiprimer amplification method for barcoding target nucleic acids.
В WO 2012/134884 A1 описано баркодирование матричных нуклеиновых кислот в реакции мультиплексной амплификации.WO 2012/134884 A1 describes barcoding of template nucleic acids in a multiplex amplification reaction.
В WO 2013038010 A2 описан способ получения амплифицированной части нуклеиновой кислоты из матрицы нуклеиновой кислоты с использованием олигонуклеотидных праймеров и стопперов для предотвращения смещения нити и считывания полимеразой, который применяется для получения частей нуклеиновой кислоты для секвенирования. Этот способ устраняет ошибки в виде предпочтения одной последовательности при амплификации нуклеиновой кислоты.WO 2013038010 A2 describes a method for producing an amplified nucleic acid portion from a nucleic acid template using oligonucleotide primers and stoppers to prevent strand displacement and polymerase readout, which is used to obtain nucleic acid portions for sequencing. This method eliminates errors in the form of preference for one sequence in nucleic acid amplification.
В WO 2014071361 A1 описан способ получения нуклеиновых кислот с двойным баркодом с помощью баркодированных адаптерных нуклеиновых кислот.WO 2014071361 A1 describes a method for producing double-barcoded nucleic acids using barcoded adapter nucleic acids.
В US 20140274729 A1 описан способ получения библиотек кДНК с помощью ДНК-полимераз с активностью смещения нити.US 20140274729 A1 describes a method for preparing cDNA libraries using DNA polymerases with strand displacement activity.
В EP 3119886 B1 описан количественный способ получения нуклеиновокислотных продуктов из РНК-матрицы.EP 3119886 B1 describes a quantitative method for obtaining nucleic acid products from an RNA template.
В US 2018163201 A1 раскрыт способ обратной транскрипции, в котором к 3'-концу нити кДНК добавляется C-хвост.US 2018163201 A1 discloses a reverse transcription method in which a C-tail is added to the 3' end of the cDNA strand.
В WO 2016138500 A1 описан способ баркодирования нуклеиновых кислот для секвенирования. В качестве молекулярных меток используются стохастические, то есть случайные баркоды.WO 2016138500 A1 describes a method for barcoding nucleic acids for sequencing. Stochastic, that is, random barcodes are used as molecular tags.
Молекулярные метки или уникальные молекулярные идентификаторы (UMI), также называемые молекулярными баркодами, были разработаны для идентификации ПЦР-дублей для уменьшения ошибки ПЦР выраженной в виде предпочтения определенных последовательности и для выявления редких мутаций. Присоединение уникальных молекулярных идентификаторов к молекулам РНК перед любой ПЦР-амплификацией при получении библиотеки для секвенирования обеспечивает отличительный идентификатор каждой введенной исходной молекулы. Это дает возможность устранить эффекты ошибок в виде предпочтения определенной последовательности при последующей ПЦР-амплификации, что особенно важно там, где требуется много циклов ПЦР, например, при создании библиотек секвенирования из небольших исходных количеств матрицы, как при исследовании отдельных клеток. После ПЦР предполагается, что молекулы, имеющие одну и ту же последовательность, а также один и тот же UMI, являются идентичными копиями, полученными из одной и той же исходной молекулы (Sena et al., Scientific Reports (2018) 8: 13121).Molecular tags or unique molecular identifiers (UMIs), also called molecular barcodes, have been developed to identify PCR duplicates to reduce PCR bias expressed as preference for certain sequences and to identify rare mutations. Attaching unique molecular identifiers to RNA molecules prior to any PCR amplification when generating a sequencing library provides a distinctive identifier for each input molecule. This makes it possible to eliminate the effects of sequence preference errors in subsequent PCR amplification, which is especially important where many PCR cycles are required, such as when generating sequencing libraries from small starting quantities of template, as in single cell studies. After PCR, molecules sharing the same sequence as well as the same UMI are assumed to be identical copies derived from the same parent molecule (Sena et al., Scientific Reports (2018) 8: 13121).
Сущность изобретенияThe essence of the invention
Целью изобретения является обеспечение усовершенствованного способа создания фрагментов последовательности нуклеиновой кислоты-матрицы, который облегчает выделение и сборку данных фрагментов последовательности в объединенную последовательность, соответствующую последовательности нуклеиновой кислоты-матрицы. Желательное усовершенствование также должно уменьшить ошибки в виде предпочтение определенной последовательности при получении фрагментов и повысить охват фрагментов последовательности по всей длине матрицы, повышая правильность сборки полученной объединенной последовательности.An object of the invention is to provide an improved method for generating template nucleic acid sequence fragments that facilitates the isolation and assembly of these sequence fragments into a combined sequence corresponding to the template nucleic acid sequence. Desirable improvements would also reduce sequence preference errors in fragment acquisition and increase coverage of sequence fragments along the entire length of the array, increasing the correct assembly of the resulting combined sequence.
Соответственно, изобретением предусмотрен способ получения меченых амплификационных фрагментов нуклеиновой кислоты-матрицы, включающий стадии обеспечения такой матрицы нуклеиновой кислоты, отжига по меньшей мере одного олигонуклеотидного праймера с данной матрицей нуклеиновой кислоты, элонгации по меньшей мере одного олигонуклеотидного праймера специфичным для матрицы образом, получая при этом продукт элонгации, причем такая реакция элонгации останавливается при достижении продуктом элонгации 5'-конца матрицы нуклеиновой кислоты или ограничителя (стоппера) элонгации нуклеиновой кислоты, загибридизованного на матрице нуклеиновой кислоты в направлении 3' от продукта элонгации, обеспечения адаптерной нуклеиновой кислоты, содержащей идентификационную последовательность на своем 5'-конце, причем данная идентификационная последовательность не гибридизуется со стоппером элонгации при контакте с ним, и предпочтительно не гибридизуется с матрицей, лигирования адаптерной нуклеиновой кислоты по её 5'-концу с 3'-концом продукта элонгации, получая при этом меченый амплификационный фрагмент.Accordingly, the invention provides a method for producing labeled amplification fragments of a nucleic acid template, comprising the steps of providing such a nucleic acid template, annealing at least one oligonucleotide primer to the given nucleic acid template, elongating at least one oligonucleotide primer in a template-specific manner, thereby obtaining elongation product, wherein this elongation reaction stops when the elongation product reaches the 5' end of the nucleic acid template or a nucleic acid elongation stopper hybridized on the nucleic acid template in the 3' direction from the elongation product, providing an adapter nucleic acid containing the identification sequence on at its 5' end, wherein the identification sequence does not hybridize with the elongation stopper upon contact with it, and preferably does not hybridize with the template, ligating the adapter nucleic acid at its 5' end with the 3' end of the elongation product, thereby obtaining a labeled amplification fragment.
Изобретением также предусмотрен способ получения меченых амплификационных фрагментов нуклеиновой кислоты-матрицы, включающий стадии обеспечения такой нуклеиновой кислоты-матрицы, отжига по меньшей мере одного олигонуклеотидного праймера с данной нуклеиновой кислотой-матрицей, элонгации по меньшей мере одного олигонуклеотидного праймера специфичным для матрицы образом, получая при этом продукт элонгации, обеспечения адаптерной нуклеиновой кислоты, содержащей идентификационную последовательность, причем такая идентификационная последовательность не гибридизуется с матрицей, лигирования адаптерной нуклеиновой кислоты по её 5'-концу с 3'-концом продукта элонгации, получая при этом меченый амплификационный фрагмент.The invention also provides a method for producing labeled amplification fragments of a template nucleic acid, including the steps of providing such a template nucleic acid, annealing at least one oligonucleotide primer with a given template nucleic acid, elongating at least one oligonucleotide primer in a template-specific manner, obtaining this is an elongation product, providing an adapter nucleic acid containing an identification sequence, such an identification sequence not hybridizing with the template, ligating the adapter nucleic acid at its 5' end with the 3' end of the elongation product, thereby obtaining a labeled amplification fragment.
Изобретением также предусмотрены наборы, подходящие для выполнения способа. Набор по изобретению может содержать по меньшей мере один олигонуклеотидный праймер, способный гибридизироваться с нуклеиновой кислотой-матрицей и запускать реакцию элонгации на своем 3'-конце, один или несколько стопперов элонгации, способных гибридизироваться с нуклеиновой кислотой-матрицей, предпочтительно способных запускать реакцию элонгации на своем 3'-конце, одну или несколько адаптерных нуклеиновых кислот, содержащих идентификационную последовательность на своем 5'-конце, причем такая идентификационная последовательность не гибридизуется со стоппером элонгации, предпочтительно при этом адаптерная нуклеиновая кислота связывается, гибридизуется или не связывается со стоппером элонгации, обратную транскриптазу и лигазу олигонуклеотидов. Различные компоненты набора могут быть представлены в разных контейнерах типа флаконов.The invention also provides kits suitable for carrying out the method. The kit of the invention may contain at least one oligonucleotide primer capable of hybridizing to a template nucleic acid and triggering an elongation reaction at its 3' end, one or more elongation stoppers capable of hybridizing to a template nucleic acid, preferably capable of triggering an elongation reaction at at its 3' end, one or more adapter nucleic acids containing an identification sequence at its 5' end, wherein such identification sequence does not hybridize to an elongation stopper, preferably wherein the adapter nucleic acid binds, hybridizes or does not bind to an elongation stopper, the reverse transcriptase and oligonucleotide ligase. The different components of the kit can be presented in different containers such as bottles.
В нижеследующем подробном описании изложены все аспекты, включая методы и наборы, а также воплощения настоящего изобретения. Т.е. описания способов могут соответственно описывать содержимое наборов. Любые компоненты, описанные в способах, могут входить в состав наборов. Компоненты набора могут использоваться в способах по изобретению.The following detailed description sets forth all aspects, including methods and kits, as well as embodiments of the present invention. Those. the method descriptions may accordingly describe the contents of the sets. Any components described in the methods may be included in kits. The components of the kit can be used in the methods of the invention.
Раскрытие сущности изобретенияDisclosure of the invention
Настоящим изобретением предусмотрен способ получения меченых амплификационных фрагментов нуклеиновой кислоты-матрицы, в котором перед амплификацией этих фрагментов вводится идентификационная последовательность в качестве метки. Матрица нуклеиновой кислоты может присутствовать в нескольких копиях. Согласно изобретению, фрагментация - это процесс, который обычно происходит при амплификации, то есть на основании матрицы заданной длины создается один или несколько (обычно несколько) фрагментов при амплификации частей этой матрицы. Последовательности образовавшихся фрагментов могут перекрываться, когда разных копий матрицы одновременно образуются фрагменты, а праймеры для синтеза этих комплементарных фрагментов нуклеиновой кислоты садятся в различных местах на разных копиях матрицы. Хотя концепции изобретения работают для одного фрагмента на 1 матрицу, но предпочтительно из одной молекулы матрицы образуется много фрагментов, обычно при помощи нескольких праймеров, которые связываются с матрицей в различных местах.The present invention provides a method for producing labeled amplification fragments of a template nucleic acid, in which an identification sequence is introduced as a tag before amplification of these fragments. The nucleic acid template may be present in multiple copies. According to the invention, fragmentation is a process that typically occurs during amplification, that is, based on a matrix of a given length, one or more (usually several) fragments are created when parts of this matrix are amplified. The sequences of the resulting fragments can overlap when fragments are simultaneously formed from different copies of the template, and primers for the synthesis of these complementary nucleic acid fragments are placed in different places on different copies of the template. Although the concepts of the invention work for one fragment per template, preferably many fragments are generated from one template molecule, typically by using multiple primers that bind to the template at different locations.
Изобретение улучшает существующие способы путем связывания идентификационной последовательности с образовавшимся фрагментом. Идентификационные последовательности можно вводить с помощью праймера или после элонгации, т.е. синтеза комплементарного фрагмента нуклеиновой кислоты. Тогда идентификационная последовательность вводится путем лигирования продукта элонгации с адаптерной нуклеиновой кислотой. Вне ожидания, реакция лигирования протекает с одноцепочечными идентификационными последовательностями, т.е. части идентификационных последовательностей, содержащие негибридизованный (или “свободный”) 5'-конец, могут лигироваться с 3'-концом продукта элонгации. В реакции лигирования обычно участвует фосфатный остаток, который предпочтительно находится на 5'-конце идентификационной последовательности. Вне ожидания, не требуется, чтобы адаптерная нуклеиновая кислота в зависимости от последовательности матрицы или стоппера при гибридизации находилась поблизости от 3'-конца продукта элонгации (как показано в примерах). Хотя такое соседство и можно обеспечить путем снабжения адаптерной нуклеиновой кислоты комплементарной частью последовательности (ниже, т.е. в 3'-направлении идентификационной последовательности) для гибридизации с олигонуклеотидом, связанным с матрицей (который также именуется здесь стоппером элонгации или просто стоппером и также может служить дополнительным праймером в том случае, если образуется более одного фрагмента на 1 матрицу), однако направленная близость не требуется и может быть результатом ненаправленного простого процесса диффузии. В частности, было показано, что адаптерная нуклеиновая кислота может лигироваться с продуктом элонгации, достигшим 5'-конца матрицы нуклеиновой кислоты, где уже нет других стопперов элонгации. Такая реакция лигирования может доходить до этого конца продукта элонгации непосредственно или же после того, как полимераза добавит один или несколько нематричных нуклеотидов на основе своей терминальной трансферазной активности, которой обладают некоторые полимеразы. Такое лигирование с продуктом элонгации, который соответствует 5'-концу матрицы, имеет некоторые неожиданные и полезные преимущества: оно увеличивает количество фрагментов на 5'-конце матрицы и тем самым существенно повышает охват последовательности, чего лишены способы предшествующего уровня техники. В прежних способах распределение начальных участков фрагментов является постоянным, что приводит к высокому охвату фрагментами средней части матрицы при гораздо меньшем охвате, близком к нулю, на её 3'- и 5'-концах (что зависит от количества копий матрицы, среднего размера фрагментов и длины ридов при секвенировании). Этот эффект на 5'-конце ослабляется способом по изобретению. Кроме того, изобретением также предусмотрены воплощения для повышения охвата и на 3'-конце матрицы.The invention improves existing methods by linking an identification sequence to the resulting fragment. Identification sequences can be introduced using a primer or after elongation, i.e. synthesis of a complementary nucleic acid fragment. The identification sequence is then introduced by ligating the elongation product to an adapter nucleic acid. Unexpectedly, the ligation reaction proceeds with single-stranded identification sequences, i.e. portions of the identification sequences containing the unhybridized (or “free”) 5' end can be ligated to the 3' end of the elongation product. The ligation reaction usually involves a phosphate residue, which is preferably located at the 5' end of the identification sequence. It is not expected that the adapter nucleic acid, depending on the template or hybridization stopper sequence, will be located in the vicinity of the 3' end of the elongation product (as shown in the examples). Although such proximity can be achieved by providing the adapter nucleic acid with a complementary portion of the sequence (downstream, i.e., in the 3' direction of the identification sequence) for hybridization with a template-bound oligonucleotide (which is also referred to herein as an elongation stopper or simply a stopper and may also serve as an additional primer if more than one fragment is formed per template), but directional proximity is not required and can result from a non-directional simple diffusion process. In particular, it has been shown that an adapter nucleic acid can ligate to an elongation product that has reached the 5' end of the nucleic acid template, where there are no other elongation stoppers. This ligation reaction can reach this end of the elongation product directly or after the polymerase has added one or more non-template nucleotides based on its terminal transferase activity, which some polymerases possess. This ligation to the elongation product that corresponds to the 5' end of the template has some unexpected and useful advantages: it increases the number of fragments at the 5' end of the template and thereby significantly increases sequence coverage, which prior art methods lack. In previous methods, the distribution of the initial fragment sites is constant, which leads to high fragment coverage in the middle part of the template with much lower coverage, close to zero, at its 3' and 5' ends (which depends on the number of copies of the template, the average size of the fragments and sequencing read lengths). This effect at the 5' end is attenuated by the method of the invention. In addition, the invention also provides embodiments to increase coverage at the 3' end of the template.
Амплифицированные фрагменты (образующиеся по одной молекуле фрагмента за 1 реакцию элонгации) обычно подвергаются дальнейшей амплификации, то есть копированию. Это значит, что амплифицируется, то есть копируется и лигированная идентификационная последовательность. Обычно идентификационные последовательности настолько разнообразны, что процесс случайного отбора позволяет однозначно идентифицировать отдельные фрагменты, которые несут одну и ту же последовательность, но происходят из разных копий одной матрицы. Во всех воплощениях изобретения идентификационная последовательность помогает определить, происходят ли копии фрагментов после секвенирования из разных копий матрицы, так как они имеют разные идентификационные последовательности, или же происходят из одной и той же молекулы матрицы и просто являются копиями, полученными при такой дальнейшей амплификации.Amplified fragments (formed one fragment molecule per elongation reaction) are usually subject to further amplification, that is, copying. This means that the ligated identification sequence is amplified, that is, copied. Typically, identification sequences are so diverse that a random selection process allows the unambiguous identification of individual fragments that carry the same sequence but originate from different copies of the same template. In all embodiments of the invention, the identification sequence helps determine whether the copies of the fragments after sequencing come from different copies of the template because they have different identification sequences, or whether they originate from the same template molecule and are simply copies resulting from such further amplification.
В следующем способе предусмотрено получение меченых амплификационных фрагментов нуклеиновой кислоты-матрицы, включающее стадии обеспечения такой нуклеиновой кислоты-матрицы, отжига по меньшей мере одного олигонуклеотидного праймера с данной матрицей нуклеиновой кислоты, элонгации по меньшей мере одного олигонуклеотидного праймера специфичным для матрицы образом, получая при этом продукт элонгации, обеспечения адаптерной нуклеиновой кислоты, содержащей идентификационную последовательность, причем данная идентификационная последовательность не гибридизуется с матрицей, лигирования адаптерной нуклеиновой кислоты предпочтительно на её 5'-конце с 3'-концом продукта элонгации, получая при этом меченый амплификационный фрагмент. Этот способ по сути такой же, что и выше, а также применимы все описанные здесь предпочтительные воплощения, только не используются стопперы. Можно использовать несколько праймеров, возможно и без стопперной функции. Адаптерные нуклеиновые кислоты все еще могут лигироваться с продуктами элонгации посредством процесса диффузии. Для лигирования продукты элонгации еще могут гибридизироваться с матрицей или в виде одной нити. Однако предпочтительно используются стопперы.The following method provides for obtaining labeled amplification fragments of a template nucleic acid, including the steps of providing such a template nucleic acid, annealing at least one oligonucleotide primer with a given nucleic acid template, elongating at least one oligonucleotide primer in a template-specific manner, thereby obtaining elongation product, providing an adapter nucleic acid containing an identification sequence, wherein the identification sequence does not hybridize to the template, ligating the adapter nucleic acid preferably at its 5' end to the 3' end of the elongation product, thereby obtaining a labeled amplification fragment. This method is essentially the same as above, and all of the preferred embodiments described herein also apply, except stoppers are not used. Several primers can be used, possibly without a stopper function. Adapter nucleic acids can still ligate to elongation products through a process of diffusion. For ligation, elongation products can still hybridize with the matrix or as a single strand. However, stoppers are preferably used.
Способ по изобретению начинается со стадии обеспечения нуклеиновых кислот-матриц. Молекулы матрицы для использования в способе по изобретению должны быть доступными специалистам. Обычно матрица обеспечивается в виде образца молекул нуклеиновой кислоты. Такие нуклеиновые кислоты-матрицы могут быть выделены из клеток типа эукариотических или прокариотических клеток. В особенно предпочтительных воплощениях матрица представляет собой РНК. Может быть обеспечена тотальная РНК или фракция РНК типа мРНК либо РНК из клеток, обедненная по рРНК. Количество РНК, с которым легко работать, составляет, напр., от 0,1 пг до 500 нг, от 1 пг до 200 нг, от 10 пг до 100 нг или от 0,1 пг до 100 нг РНК, обедненной по рРНК, либо от 0,1 нг до 1000 нг общей РНК. В некоторых воплощениях количество общей РНК может составлять, напр., 10 пг, а количество РНК без рРНК может быть ниже 1 пг. Праймеры, стопперы и адаптеры предпочтительно представляют собой ДНК.The method according to the invention begins with the step of providing nucleic acid templates. Matrix molecules for use in the method of the invention should be available to those skilled in the art. Typically the template is provided in the form of a sample of nucleic acid molecules. Such template nucleic acids can be isolated from cells such as eukaryotic or prokaryotic cells. In particularly preferred embodiments, the template is RNA. Total RNA or a fraction of RNA such as mRNA or RNA from cells depleted of rRNA may be provided. The amount of RNA that is easy to handle is, for example, 0.1 pg to 500 ng, 1 pg to 200 ng, 10 pg to 100 ng, or 0.1 pg to 100 ng rRNA-depleted RNA, or from 0.1 ng to 1000 ng of total RNA. In some embodiments, the amount of total RNA may be, for example, 10 pg, and the amount of RNA without rRNA may be less than 1 pg. Primers, stoppers and adapters are preferably DNA.
Способ также включает отжиг по меньшей мере одного олигонуклеотидного праймера с нуклеиновой кислотой-матрицей. Олигонуклеотидный праймер представляет собой молекулу олигонуклеотида, предпочтительно ДНК, которая гибридизуется с матрицей и способна примировать реакцию элонгации, что является стандартной практикой в данной области. Олигонуклеотидный праймер (или просто “праймер”) предпочтительно гибридизуется с матрицей по меньшей мере на одном её участке по длине, напр., длиной от 4 нуклеотидов до 30 нуклеотидов (нт). Отжиг происходит путем этой гибридизации. Праймер может содержать часть, которая не гибридизуется с матрицей. Такие дополнительные части могут использоваться для гибридизации с другими олигонуклеотидами и/или для дополнительной амплификации, упомянутой выше, когда амплификационные фрагменты подвергаются дальнейшей амплификации для получения их копий. При этом такие дополнительные части или участки могут содержать последовательность, с которой связываются другие праймеры для этой реакции амплификации/копирования. Такие части также именуются линкерной последовательностью праймера. Линкерная последовательность праймера предпочтительно имеет длину от 4 до 30 нт.The method also includes annealing at least one oligonucleotide primer to a template nucleic acid. An oligonucleotide primer is an oligonucleotide molecule, preferably DNA, that hybridizes to a template and is capable of priming an elongation reaction, which is standard practice in the art. The oligonucleotide primer (or simply “primer”) preferably hybridizes to the template in at least one region along its length, eg, from 4 nucleotides to 30 nucleotides (nt). Annealing occurs through this hybridization. The primer may contain a portion that does not hybridize to the template. Such additional portions may be used for hybridization with other oligonucleotides and/or for additional amplification as mentioned above, where amplification fragments are further amplified to produce copies thereof. However, such additional parts or regions may contain a sequence to which other primers for this amplification/copy reaction bind. Such portions are also referred to as a primer linker sequence. The primer linker sequence preferably has a length of from 4 to 30 nt.
Возвращаясь к основному способу по изобретению, по меньшей мере один олигонуклеотидный праймер подвергается элонгации специфичным для матрицы образом, образуя при этом продукт элонгации (комплементарную последовательность). Такие реакции являются стандартными в данной области и в них обычно используются полимеразы. Если матрицей является РНК, то используется РНК-зависимая полимераза типа обратной транскриптазы. Если матрицей является ДНК, то используется ДНК-зависимая полимераза. Реакция элонгации останавливается, когда она достигнет стоппера элонгации нуклеиновой кислоты, загибридизованного на нуклеиновой кислоте-матрице ниже продукта элонгации, или же когда продукт элонгации достигнет 5'-конца нуклеиновой кислоты-матрицы. Ясно, что когда реакция элонгации достигнет 5'-конца матрицы и тем самым выйдет за пределы матрицы, она остановится. Некоторые полимеразы в этот момент могут добавить один или несколько нематричных нуклеотидов к продукту элонгации, что допустимо и даже может быть полезно при отборе 5'-охватывающих продуктов при анализе последовательности полученных меченых амплифицированных фрагментов. Однако в таком добавлении нематричных нуклеотидов нет необходимости. Реакция элонгации также остановится, когда она достигнет стоппера элонгации нуклеиновой кислоты, загибридизованного на матрице нуклеиновой кислоты ниже продукта элонгации. Такая остановка реакции подробно описана в WO 2013/038010 A2 (включена сюда путем ссылки). В этом WO-документе стоппер элонгации упоминается как “олигонуклеотидный стоппер” или “дополнительный олигонуклеотидный праймер”. В настоящем изобретении применяются такие термины как. стоппер элонгации нуклеиновой кислоты или просто “стоппер элонгации” или же просто “стоппер”. Такой стоппер по изобретению также может быть и праймером и тогда он соответствует “дополнительному олигонуклеотидному праймеру” в WO 2013/038010 A2. По сути, такой стоппер останавливает протекающую перед ним реакцию элонгации (поэтому стоппер находится ниже продукта элонгации), создавая препятствие на матрице. Стоппер отжигается или гибридизуется с матрицей, а реакция элонгации не может его сместить и поэтому прекращается. Дальнейшее продвижение, т.е. смещение стоппера, было бы побочной реакцией. Меры по предотвращению смещения стоппера подробно описаны в WO 2013/038010 A2 и могут применяться в соответствии с изобретением. Вкратце, предпочтительные способы и средства для предотвращения смещения стоппера (вызванного активностью смещения нити) заключаются в использовании стопперов элонгации, содержащих один или несколько модифицированных нуклеотидов, повышающих температуру плавления загибридизованных последовательностей, когда она загибридизовалась с матрицей (части стоппера, которая отжигается/гибридизуется с матрицей). Повышение температуры плавления относится к немодифицированной природной нуклеиновой кислоте типа ДНК или РНК. Такие модификации, напр., как LNA (блокированная нуклеиновая кислота), ZNA (zip-нуклеиновая кислота), 2'-фторнуклеозиды/2'-фторнуклеотиды или PNA (пептидная нуклеиновая кислота). Другие меры включают использование полимеразы, не обладающей активностью смещения нити, или использование интеркаляторов. Предпочтительно модифицируют 1, 2, 3, 4, 5 или 6 нуклеотидов. Предпочтительно модифицированные нуклеотиды находятся на 5'-стороне той части последовательности стоппера, которая гибридизуется с матрицей. Могут быть и другие части стоппера в 5'-направлении, которые не гибридизуются, типа амплификационных последовательностей, которые действуют так же, как описано для олигонуклеотидного праймера, описанного выше для амплификации/копирования в дальнейшей реакции амплификации (“линкерной последовательности праймера”), но в самом деле такая дополнительная часть предпочтительна для связывания/гибридизации с адаптерной нуклеиновой кислотой - см. ниже. Адаптер может связываться/гибридизироваться с “линкерной последовательностью праймера” или с другой частью олигонуклеотидного стоппера. В предпочтительных воплощениях стоппер элонгации, а также предпочтительно олигонуклеотидный праймер содержит один или несколько модифицированных нуклеотидов, повышающих температуру плавления отжигаемой последовательности (линкера) при отжиге с матрицей.Returning to the basic method of the invention, at least one oligonucleotide primer is elongated in a template-specific manner, thereby generating an elongation product (complementary sequence). Such reactions are standard in the art and typically use polymerases. If the template is RNA, then an RNA-dependent polymerase such as reverse transcriptase is used. If the template is DNA, then a DNA-dependent polymerase is used. The elongation reaction stops when it reaches a nucleic acid elongation stopper hybridized on the template nucleic acid downstream of the elongation product, or when the elongation product reaches the 5' end of the template nucleic acid. It is clear that when the elongation reaction reaches the 5' end of the template and thereby goes beyond the template, it will stop. Some polymerases at this point can add one or more non-template nucleotides to the elongation product, which is acceptable and may even be useful in the selection of 5'-spanning products when analyzing the sequence of the resulting labeled amplified fragments. However, such addition of non-template nucleotides is not necessary. The elongation reaction will also stop when it reaches a nucleic acid elongation stopper hybridized on the nucleic acid template downstream of the elongation product. Such stopping of the reaction is described in detail in WO 2013/038010 A2 (incorporated here by reference). In this WO document, an elongation stopper is referred to as an “oligonucleotide stopper” or “additional oligonucleotide primer”. In the present invention, the following terms are used: nucleic acid elongation stopper or simply “elongation stopper” or simply “stopper”. Such a stopper according to the invention can also be a primer and then it corresponds to the “additional oligonucleotide primer” in WO 2013/038010 A2. Essentially, such a stopper stops the elongation reaction occurring in front of it (so the stopper is located below the elongation product), creating an obstacle on the matrix. The stopper anneals or hybridizes to the template, and the elongation reaction cannot displace it and therefore stops. Further promotion, i.e. displacement of the stopper would be an adverse reaction. Measures to prevent movement of the stopper are described in detail in WO 2013/038010 A2 and can be applied in accordance with the invention. Briefly, preferred methods and means for preventing stopper displacement (caused by strand displacement activity) are to use elongation stoppers containing one or more modified nucleotides that increase the melting temperature of the hybridized sequence when it has hybridized to the template (the portion of the stopper that anneals/hybridizes to the template ). The melting point increase applies to unmodified natural nucleic acid such as DNA or RNA. Modifications such as LNA (locked nucleic acid), ZNA (zip nucleic acid), 2'-fluoronucleosides/2'-fluoronucleotides or PNA (peptide nucleic acid). Other measures include the use of a polymerase that does not have strand displacement activity or the use of intercalators. Preferably, 1, 2, 3, 4, 5 or 6 nucleotides are modified. Preferably, the modified nucleotides are located on the 5' side of the portion of the stopper sequence that hybridizes to the template. There may be other parts of the stopper in the 5' direction that do not hybridize, such as amplification sequences that act in the same way as described for the oligonucleotide primer described above for amplification/copying in a further amplification reaction (“linker primer sequence”), but in fact, such an additional part is preferable for binding/hybridization with the adapter nucleic acid - see below. The adapter may bind/hybridize to a “primer linker sequence” or another portion of the oligonucleotide stopper. In preferred embodiments, the elongation stopper, and also preferably the oligonucleotide primer, contains one or more modified nucleotides that increase the melting temperature of the annealing sequence (linker) when annealed to the template.
Предпочтительно после реакции элонгации те праймеры и стопперы, которые не связались с матрицей, удаляются на стадии очистки. Т.е. происходит очистка продуктов элонгации, гибридизовавшихся с матрицей, которые сохраняются для дальнейшей обработки. Другие воплощения изобретения выполняются в одном объеме без очистки. Такая очистка может проводиться методами, известными в данной области, напр., иммобилизации матрицы или продуктов элонгации на твердой фазе (напр., на шариках) и отмывки для удаления несвязавшихся праймеров и стопперов. Примером такого метода является твердофазная обратимая иммобилизация (SPRI; DeAngelis et al., Nucleic Acids Research, 1995, 23(22): 4742-4743).Preferably, after the elongation reaction, those primers and stoppers that are not bound to the template are removed in a purification step. Those. elongation products hybridized with the matrix are purified and stored for further processing. Other embodiments of the invention are performed in one volume without purification. Such purification can be carried out by methods known in the art, eg, immobilizing the template or elongation products on a solid phase (eg, beads) and washing to remove unbound primers and stoppers. An example of such a method is solid phase reversible immobilization (SPRI; DeAngelis et al., Nucleic Acids Research, 1995, 23(22): 4742-4743).
Способ по изобретению включает стадию получения адаптерной нуклеиновой кислоты, содержащей идентификационную последовательность на своем 5'-конце. В состав адаптерной нуклеиновой кислоты также могут входить и другие метки последовательности типа последовательностей для амплификации (амплификационные последовательности). Именно 5'-конец предназначен для лигирования с 3'-концом продукта элонгации для мечения последнего с помощью идентификационной последовательности. Идентификационная последовательность не должна гибридизироваться ни со стоппером элонгации, ни с матрицей. Поэтому она обычно одноцепочечна и не гибридизуется. При этом термин “идентификационная последовательность” применяется для обозначения 5'-концевой части адаптерной нуклеиновой кислоты, которая не гибридизуется и не отжигается, даже если позже для идентификации будут использоваться только части идентификационной последовательности. Другие части адаптерной нуклеиновой кислоты могут образовывать гибриды со стоппером элонгации или отжигаться с ним. Адаптерная нуклеиновая кислота также может содержать комплементарную последовательность праймера, которая служит мишенью для дальнейшей реакции амплификации меченых амплификационных фрагментов, как указано выше (так называемая линкерная последовательность адаптера). Гибридизацию идентификационной последовательности со стоппером элонгации или с матрицей можно предотвратить путем выбора такой последовательности для идентификационной последовательности, которая не имеет комплементарности со стоппером элонгации. Также можно выбрать такую последовательность для идентификационной последовательности, которая не имеет комплементрности с матрицей. Это легко сделать, если известна последовательность матрицы. Если же она не известна, но происходит из биологического источника, то идентификационную последовательность можно выбрать из последовательностей, которые не встречаются или редко встречаются в биологических нуклеиновых кислотах. Такие последовательности известны среди нуклеиновых кислот “spike-in” типа последовательностей ERCC (External RNA Controls Consortium) или последовательностей SIRV (spike-in варианты РНК) (напр., см. ERCC, BMC Genomics 2005, 6:150; Jiang et al., Genome Res. 2011, 21(9): 1543-1551; WO 2016/005524 A1, которые все включены сюда путем ссылки). Если идентификационная последовательность гибридизуется с матрицей в побочной реакции, то это обычно предотвращает лигирование на следующей стадии и тем самым не дает меченых фрагментов, поэтому не отражается как результат. Такие побочные реакции допустимы, но не предпочтительны. Самый легкий и наиболее предпочтительный способ предотвращения отжига идентификационной последовательности (и предпочтительно всей адаптерной нуклеиновой кислоты) с матрицей заключается просто во введении адаптерной нуклеиновой кислоты после реакции элонгации. Матрица после реакции элонгации находится в двухцепочечной форме с продуктами элонгации (а также с праймером и стопперами). В таком виде адаптерная нуклеиновая кислота больше не может связываться с матрицей, так как матрица уже закрыта партнерами по гибридизации. В этом предпочтительном способе идентификационная последовательность даже может иметь такую последовательность, которая комплементарна матрице и способна гибридизироваться с матрицей, но этому препятствует последовательность стадий способа. Таким образом, в этом воплощении нет необходимости учитывать последовательность матрицы.The method of the invention includes the step of producing an adapter nucleic acid containing an identification sequence at its 5' end. The adapter nucleic acid may also include other sequence tags such as amplification sequences (amplification sequences). It is the 5' end that is intended for ligation with the 3' end of the elongation product to label the latter with an identification sequence. The identification sequence must not hybridize to either the elongation stopper or the template. Therefore, it is usually single-stranded and does not hybridize. The term “identification sequence” is used to refer to the 5'-terminal part of the adapter nucleic acid that does not hybridize or anneal, even if only portions of the identification sequence are later used for identification. Other portions of the adapter nucleic acid may hybridize with or anneal to the elongation stopper. The adapter nucleic acid may also contain a complementary primer sequence that serves as a target for a further amplification reaction of labeled amplification fragments as described above (the so-called adapter linker sequence). Hybridization of an identification sequence to an elongation stopper or to a template can be prevented by selecting a sequence for the identification sequence that is not complementary to the elongation stopper. It is also possible to select a sequence for the identification sequence that is not complementary to the template. This is easy to do if the sequence of the matrix is known. If it is not known, but comes from a biological source, then the identification sequence can be selected from sequences that are not or rarely found in biological nucleic acids. Such sequences are known among “spike-in” nucleic acids such as ERCC (External RNA Controls Consortium) sequences or SIRV (spike-in RNA variants) sequences (e.g., see ERCC, BMC Genomics 2005, 6:150; Jiang et al. , Genome Res. 2011, 21(9): 1543-1551; WO 2016/005524 A1, all of which are incorporated herein by reference). If the identification sequence hybridizes to the template in a side reaction, this usually prevents ligation in the next step and thus does not produce labeled fragments and is therefore not reported as a result. Such adverse reactions are acceptable, but not preferred. The easiest and most preferred method of preventing the identification sequence (and preferably the entire adapter nucleic acid) from annealing to the template is simply to introduce the adapter nucleic acid after the elongation reaction. The template after the elongation reaction is in a double-stranded form with elongation products (as well as primer and stoppers). In this form, the adapter nucleic acid can no longer bind to the template, since the template is already covered by hybridization partners. In this preferred method, the identification sequence may even have a sequence that is complementary to the template and is capable of hybridizing to the template, but this is prevented by the sequence of steps of the method. Thus, in this embodiment there is no need to consider the matrix sequence.
Наиболее предпочтительный вариант предотвращения отжига идентификационной последовательности на стоппере состоит в том, чтобы части стоппера и части адаптера имели комплементарные друг другу последовательности. Потому что при приближении адаптера к стопперу сначала будут гибридизироваться комплементарные последовательности, а идентификационная последовательность останется одноцепочечной.The most preferred option for preventing annealing of the identification sequence on the stopper is to have the stopper portions and the adapter portions having complementary sequences to each other. Because when the adapter approaches the stopper, complementary sequences will hybridize first, and the identification sequence will remain single-stranded.
Способ по изобретению также включает лигирование адаптерной нуклеиновой кислоты по её 5'-концу с 3'-концом продукта элонгации, при этом образуется меченый амплификационный фрагмент. Лигирование обычно проводится с помощью фермента лигазы. Тип лигазы зависит от природы лигируемых олигонуклеотидов и может быть выбран специалистом. Примеры лигаз включают ДНК-лигазы или РНК-лигазы. Лигаза также может быть РНК-лигазой, особенно такой РНК-лигазой, которая обладает активностью лигирования ДНК типа РНК-лигазы-2 T4. Другие лигазы - это ДНК-лигаза T4, РНК-лигаза-1 T4, ДНК-лигаза I, ДНК-лигаза III, ДНК-лигаза IV, ДНК-лигаза E. coli, ДНК-лигаза амплигаза, усеченная Rnl2, усеченная Rnl2 K227Q, лигаза Thermus scotoductus, РНК-лигаза Methanobacterium thermoautotrophicum, термостабильная App-лигаза (NEB), ДНК-лигаза вируса хлореллы или лигаза SplintR. Лигаза может быть одноцепочечной лигазой или двухцепочечной лигазой. Также возможны комбинации лигаз для различных реакций в одном реакционном объеме, которые должны протекать параллельно, напр., когда присутствуют различные продукты элонгации и/или молекулы адаптерной нуклеиновой кислоты, которые должны лигироваться одновременно. Предпочтительные комбинации: ДНК-лигаза и РНК-лигаза или одноцепочечная лигаза и двухцепочечная лигаза. В лигазной реакции обычно участвует фосфатный остаток, который предпочтительно находится на 5'-конце идентификационной последовательности адаптерной нуклеиновой кислоты. Для лигирования, напр., лигирования аденилированных концов, также можно использовать и другие 5'-ферменты. Их можно лигировать с помощью усеченных лигаз или App-лигаз.The method of the invention also involves ligating the adapter nucleic acid at its 5' end to the 3' end of the elongation product, thereby generating a labeled amplification fragment. Ligation is usually carried out using the enzyme ligase. The type of ligase depends on the nature of the ligated oligonucleotides and can be selected by one skilled in the art. Examples of ligases include DNA ligases or RNA ligases. The ligase may also be an RNA ligase, especially an RNA ligase that has DNA ligation activity of the T4 RNA ligase-2 type. Other ligases are T4 DNA ligase, T4 RNA ligase-1, DNA ligase I, DNA ligase III, DNA ligase IV, E. coli DNA ligase, DNA ampligase, truncated Rnl2, truncated Rnl2 K227Q, Thermus scotoductus ligase, Methanobacterium thermoautotrophicum RNA ligase, thermostable App ligase (NEB), Chlorella virus DNA ligase or SplintR ligase. The ligase may be a single-stranded ligase or a double-stranded ligase. Combinations of ligases for different reactions in the same reaction volume are also possible and must proceed in parallel, for example when different elongation products and/or adapter nucleic acid molecules are present which must be ligated simultaneously. Preferred combinations are DNA ligase and RNA ligase or single-stranded ligase and double-stranded ligase. The ligase reaction typically involves a phosphate residue, which is preferably located at the 5' end of the adapter nucleic acid identification sequence. Other 5' enzymes can also be used for ligation, eg ligation of adenylated ends. They can be ligated using truncated ligases or App ligases.
Полученные меченые амплификационные фрагменты после лигирования будут иметь такую структуру от 5'- к 3'-концу: последовательность праймера - последовательность продукта элонгации - последовательность адаптера с идентификационной последовательностью, граничащей с последовательностью продукта элонгации. Последовательность праймера может включать “линкерную последовательность праймера” и/или последовательность адаптера может включать “линкерную последовательность адаптера”. Полученные способом по изобретению продукты, т.е. полученные меченые амплификационные фрагменты предпочтительно подвергаются дальнейшей амплификации. При такой дальнейшей амплификации образуются копии полученных меченых амплификационных фрагментов известными в данной области способами типа ПЦР (полимеразной цепной реакции) или линейной амплификации. В такой дальнейшей амплификации обычно участвуют дополнительные праймеры, которые связываются с мечеными амплификационными фрагментами, предпочтительно на линкерных последовательностях, особенно на линкерных последовательностях, расположенных на концах фрагментов, т.е. в пределах части последовательности праймера и части последовательности адаптера, особенно предпочтительно на 5'-конце последовательности праймера и на 3'-конце последовательности адаптера. Как указано выше в отношении этих праймеров и адаптеров, они могут включать участки с известной последовательностью для связывания таких праймеров при дальнейшей амплификации (“линкерной последовательности праймера” и “линкерной последовательность адаптера”). Эти участки (или “части”) могут быть настолько длинными и специфичными, что не будут связываться с матрицей; они могут быть универсальными сайтами связывания праймеров, т.е. неселективными между различными адаптерами/праймерами, в отличие от идентификационной последовательности, которая предпочтительно является уникальной.The resulting labeled amplification fragments after ligation will have the following structure from the 5' to the 3' end: primer sequence - elongation product sequence - adapter sequence with an identification sequence adjacent to the elongation product sequence. The primer sequence may include a “primer linker sequence” and/or the adapter sequence may include an “adapter linker sequence”. The products obtained by the method according to the invention, i.e. the resulting labeled amplification fragments are preferably further amplified. With such further amplification, copies of the resulting labeled amplification fragments are formed by methods known in the art such as PCR (polymerase chain reaction) or linear amplification. Such further amplification typically involves additional primers that bind to the labeled amplification fragments, preferably on linker sequences, especially linker sequences located at the ends of the fragments, i.e. within part of the primer sequence and part of the adapter sequence, especially preferably at the 5' end of the primer sequence and at the 3' end of the adapter sequence. As stated above with respect to these primers and adapters, they may include regions of known sequence for binding such primers upon further amplification (“primer linker sequence” and “adapter linker sequence”). These sections (or “parts”) may be so long and specific that they will not bind to the matrix; they may be universal primer binding sites, i.e. non-selective between different adapters/primers, unlike the identification sequence, which is preferably unique.
Идентификационная последовательность обеспечивает уникальную метку для амплификационного фрагмента и поэтому также именуется здесь уникальным молекулярным идентификатором (UMI). Идентификационные последовательности могут идентифицировать повторы при дальнейшей амплификации (напр., ПЦР) и снижать эффекты зависимой от последовательности ошибки амплификации, которая выражена в предпочтительной амплификации одной последовательности. В предпочтительных воплощениях идентификационные последовательности представляют собой олигонуклеотиды, главным образом со случайным распределением нуклеотидов в каждом положении, которые лигируют с продуктами элонгации (фрагментами) перед дальнейшей амплификацией. Если идентификационные последовательности распределяются равномерно и их количество значительно превышает количество идентичных продуктов элонгации, то маловероятно, чтобы одна и та же идентификационная последовательность лигировалась с двумя идентичными продуктами элонгации (разными копиями). В этом случае количество различных идентификационных последовательностей после дальнейшей амплификации будет таким же, как и их количество перед дальнейшей амплификацией. Идентификационные последовательности по изобретению также можно использовать и так, как описано для UMI в Sena et al. (Scientific Reports (2018) 8:13121). Всю последовательность или части всей последовательности меченого фрагмента можно рассматривать как “рид” в способах секвенирования следующего поколения и при дальнейшем анализе последовательности. При анализе данных происходит сборка одного или нескольких ридов для получения объединенной последовательности матрицы. Впоследствии анализ данных также может превратиться в количественный анализ молекул и фрагментов матрицы, который может дать представление о том, представлены ли определенные копии матрицы слишком много или недостаточно, что, напр., свидетельствует о различной скорости экспрессии сплайс-вариантов РНК. В предпочтительных воплощениях настоящее изобретение дополнительно включает стадию сборки последовательностей таких амплификационных фрагментов, которые являются уникальными, причем для идентификации уникальных амплификационных фрагментов используются метки. Различные идентификационные последовательности в амплифицированных меченых амплификационных фрагментах идентифицируют уникальные амплификационные фрагменты. Идентификационные последовательности дают возможность дублировать и повторять идентификацию и удаление при сборке или на любой другой стадии анализа данных.The identification sequence provides a unique tag for the amplification fragment and is therefore also referred to herein as a unique molecular identifier (UMI). Identification sequences can identify repeats during further amplification (eg, PCR) and reduce the effects of sequence-dependent amplification error, which is expressed in the preferential amplification of one sequence. In preferred embodiments, the identification sequences are oligonucleotides, with a substantially random distribution of nucleotides at each position, that are ligated to elongation products (fragments) before further amplification. If the identification sequences are evenly distributed and their number greatly exceeds the number of identical elongation products, then it is unlikely that the same identification sequence will ligate to two identical elongation products (different copies). In this case, the number of different identification sequences after further amplification will be the same as their number before further amplification. The identification sequences of the invention can also be used as described for UMI in Sena et al. (Scientific Reports (2018) 8:13121). The entire sequence or portions of the entire sequence of a tagged fragment may be considered a “read” in next generation sequencing methods and further sequence analysis. Data analysis involves assembling one or more reads to produce a combined sequence template. Subsequently, data analysis can also evolve into quantitative analysis of template molecules and fragments, which can provide insight into whether certain template copies are over- or under-represented, e.g. indicating different rates of expression of RNA splice variants. In preferred embodiments, the present invention further includes the step of assembling sequences of such amplification fragments that are unique, wherein tags are used to identify the unique amplification fragments. Various identification sequences in the amplified tagged amplification fragments identify unique amplification fragments. Identification sequences provide the ability to duplicate and repeat identification and removal during assembly or at any other stage of data analysis.
В предпочтительных воплощениях идентификационная последовательность имеет длину от 3 нуклеотидов (нт) и более, предпочтительно от 3 нт до 20 нт, особенно предпочтительно от 4 нт до 15 нт или от 5 нт до 10 нт, как-то 3 нт, 4 нт, 5 нт, 6 нт, 7 нт, 8 нт, 9 нт, 10 нт, 11 нт, 12 нт, 13 нт, 14 нт, 15 нт или больше. Такая длина достаточно мала для легкости работы с ними и эффективных реакций лигирования, но все-таки обеспечивает достаточно большое количество различных идентификационных последовательностей из-за перестановки в них нуклеотидов, обеспечивая требуемую идентификацию одиночных амплифицированных фрагментов, предпочтительно обеспечивая уникальные метки для них.In preferred embodiments, the identification sequence is 3 nucleotides (nt) or more in length, preferably 3 nt to 20 nt, particularly preferably 4 nt to 15 nt or 5 nt to 10 nt, such as 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt or more. This length is short enough for ease of handling and efficient ligation reactions, but still provides a sufficiently large number of different identification sequences due to the rearrangement of nucleotides within them, providing the required identification of single amplified fragments, preferably providing unique tags for them.
В предпочтительных воплощениях, когда продукт элонгации достигает 5'-конца матрицы нуклеиновой кислоты, нуклеотидная полимераза получает возможность добавлять нематричные нуклеотиды к продукту элонгации, предпочтительно за счет терминальной трансферазной активности полимеразы, и/или предпочтительно при этом добавляется от 1 до 15 нематричных нуклеотидов по меньшей мере в 70% продуктов элонгации. Как указано выше, такое добавление нематричных нуклеотидов является свойством некоторых полимераз (см. Chen et al., Biotechniques 2001, 30(3): 574-582). Эта активность наиболее выражена у обратных транскриптаз типа обратной транскриптазы M-MLV (вируса лейкемии мышей) или обратной транскриптазы AMV (вируса мозаичности люцерны). Эти нематричные нуклеотиды обычно представляют нуклеотидов любого типа (A, T (U), G, C) и могут появляться случайным образом. Это значит, что продукты элонгации 5'-концов у разных матриц могут иметь одну и ту же последовательность, соответствующую 5'-концу, но затем могут продолжаться различными, явно случайными дополнительными нуклеотидами, которые являются продуктами такого нематричного добавления. Эти различные добавления можно использовать для определения точного положения 5'-конца последовательности матрицы на переходе между повторяющейся матричной последовательностью и случайными нематричными добавлениями. После нематричных нуклеотидов меченого фрагмента следует идентификационная последовательность, которую можно использовать, как описано выше. В случае, если идентификационная последовательность (тоже) является случайной, то нематричные случайные нуклеотиды можно рассматривать как часть идентификационной последовательности. Положение идентификационной последовательности относительно постоянной части адаптерной последовательности однозначно определяет идентификационную последовательность.In preferred embodiments, when the elongation product reaches the 5' end of the nucleic acid template, the nucleotide polymerase is able to add non-template nucleotides to the elongation product, preferably through the terminal transferase activity of the polymerase, and/or preferably at least 1 to 15 non-template nucleotides are added. in at least 70% of elongation products. As stated above, such addition of non-template nucleotides is a property of some polymerases (see Chen et al., Biotechniques 2001, 30(3): 574-582). This activity is most pronounced in reverse transcriptases such as M-MLV (murine leukemia virus) reverse transcriptase or AMV (alfalfa mosaic virus) reverse transcriptase. These non-template nucleotides usually represent any type of nucleotide (A, T(U), G, C) and may appear randomly. This means that the 5' end elongation products of different templates may have the same sequence corresponding to the 5' end, but may then be continued by different, apparently random additional nucleotides that are the products of such non-template addition. These various additions can be used to determine the exact position of the 5' end of the template sequence at the transition between the repeated template sequence and random non-template additions. The non-template nucleotides of the tagged fragment are followed by an identification sequence that can be used as described above. In case the identification sequence is (also) random, then non-template random nucleotides can be considered as part of the identification sequence. The position of the identification sequence relative to the constant portion of the adapter sequence uniquely defines the identification sequence.
В особенно предпочтительных воплощениях обеспечивается множество адаптерных нуклеиновых кислот, которые используются на стадии лигирования. Адаптеры из этого множества могут иметь разные идентификационные последовательности. Это позволяет однозначно идентифицировать адаптеры и полученные фрагменты, с которыми они лигированы. Предпочтительно на стадии лигирования обеспечивается и используется по меньшей мере 10, более предпочтительно по меньшей мере 50 или даже 100 и более или 200 и более адаптерных нуклеиновых кислот с различными идентификационными последовательностями. В особенно предпочтительных воплощениях используется столько же адаптеров с различными идентификационными последовательностями, сколько ожидается различных получаемых фрагментов с такой же последовательностью, а предпочтительно еще больше адаптеров с различными идентификационными последовательностями. Ожидаемое количество копий может основываться на типе образцов, напр., РНК из целых клеток, мРНК из целых клеток (транскриптом), количестве РНК и сложности образцов (сколько намечается различных вариантов транскриптов, что может означать весь транскриптом или же только выбранные гены или транскрипты, как в случае генных панелей) и др.In particularly preferred embodiments, a plurality of adapter nucleic acids are provided that are used in the ligation step. Adapters from this set may have different identification sequences. This allows the adapters and the resulting fragments to which they are ligated to be unambiguously identified. Preferably, at least 10, more preferably at least 50 or even 100 or more or 200 or more adapter nucleic acids with different identification sequences are provided and used in the ligation step. In particularly preferred embodiments, as many adapters with different identification sequences are used as there are expected different resulting fragments with the same sequence, and preferably even more adapters with different identification sequences. The expected copy number can be based on the type of samples, e.g. RNA from whole cells, mRNA from whole cells (transcriptome), amount of RNA and complexity of the samples (how many different transcript variants are identified, which could mean the whole transcriptome or just selected genes or transcripts, as in the case of gene panels), etc.
В особенно предпочтительных воплощениях идентификационная последовательность представляет собой случайную последовательность. “Случайные последовательности” следует понимать как смесь различных последовательностей с высокой дисперсией вследствие случайного синтеза по крайней мере части идентификационной последовательности. Случайные последовательности потенциально охватывают всю область комбинаций для данной последовательности по 4 природным нуклеотидам (A, T (U), G, C). Случайная последовательность может охватывать 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 и более нуклеотидов, выбранных случайным образом из A, G, C или T (U). С точки зрения способности к гибридизации последовательностей нуклеотидов T и U используются здесь взаимозаменяемо. Вся область возможных комбинаций для случайной части последовательности равна mn, где m - количество используемых типов нуклеотидов (предпочтительно все четыре из A, G, C, T (U)), а n - количество случайных нуклеотидов. Следовательно, случайный гексамер, в котором представлена каждая возможная последовательность, состоит из 46 = 4096 различных последовательностей. Идентификационная последовательность не должна связываться с матрицей. Во всех случаях, но особенно для случайных идентификационных последовательностей, предпочтительно адаптерную нуклеиновую кислоту добавляют после реакции элонгации. Когда продукт элонгации достигнет стоппера (или конца матрицы) и практически вся матрица будет иметь двухцепочечную форму с продуктами элонгации, то предотвращается связывание адаптерной нуклеиновой кислоты с матрицей.In particularly preferred embodiments, the identification sequence is a random sequence. “Random sequences” should be understood as a mixture of different sequences with high variance due to the random synthesis of at least part of the identification sequence. Random sequences potentially cover the entire range of combinations for a given sequence across 4 natural nucleotides (A, T (U), G, C). A random sequence may span 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 or more nucleotides chosen at random from A, G, C or T(U ). In terms of hybridization ability, T and U nucleotide sequences are used interchangeably here. The entire range of possible combinations for a random part of the sequence is equal to mn , where m is the number of nucleotide types used (preferably all four of A, G, C, T(U)) and n is the number of random nucleotides. Therefore, a random hexamer in which every possible sequence is represented consists of 4 6 = 4096 different sequences. The identification sequence must not be associated with the matrix. In all cases, but especially for random identification sequences, preferably the adapter nucleic acid is added after the elongation reaction. When the elongation product reaches the stopper (or end of the template) and substantially all of the template is double-stranded with the elongation products, the adapter nucleic acid is prevented from binding to the template.
В дальнейших воплощениях изобретения праймеры и стопперы выбираются так, чтобы они связывались с одной или несколькими конкретными представляющими интерес целевыми последовательностями в нуклеиновой кислоте-матрице (причем стопперы находятся по нисходящей от продуктов элонгации) с тем, чтобы получить последовательность элонгации определенной части матрицы. Такое нацеливание на определенные участки предпочтительно используется для транскриптов (РНК) или генов (гДНК) в качестве матриц. Идентификационные последовательности особенно полезны при использовании в генных панелях. Например, для анализа вариантов последовательности у различных видов матриц типа сплайс-вариантов или других изменчивых последовательностей матриц.In further embodiments of the invention, primers and stoppers are selected to bind to one or more specific target sequences of interest in the template nucleic acid (with the stoppers being downstream of the elongation products) to produce an elongation sequence of a specific portion of the template. This site targeting is preferentially used for transcripts (RNA) or genes (gDNA) as templates. Identification sequences are particularly useful when used in gene panels. For example, to analyze sequence variants in different types of matrices such as splice variants or other variable template sequences.
В особенно предпочтительных воплощениях изобретения для всех его воплощений и аспектов стопперы элонгации обладают активностью праймеров и тоже подвергаются элонгации на стадии элонгации. Это значит, что используется более чем один праймер и большая их часть обладает функцией стоппера (т.е. предотвращает смещение - см. выше). Использование нескольких праймеров означает, что матрица дает много образующихся фрагментов, т.е. улучшается охват. Хотя каждый праймер связывается с одной матрицей, они обеспечат полный охват, если разные праймеры связываются с разными участками одной матрицы. Способ по изобретению с использованием множества праймеров (которые предпочтительно также являются стопперами) увеличит охват, так как новый продукт элонгации будет начинаться в том положении на матрице, где как раз остановился предыдущий продукт элонгации. Это дает много фрагментов, покрывающих всю матрицу. Кроме того, это значит, что используются такие стопперы/праймеры (в данном воплощении это синонимы), которые связываются с разными частями молекулы матрицы. В общем, связывание с молекулой матрицы определяется последовательностями отжига праймеров и стопперов. Эти последовательности гибридизуются с матрицей и могут варьироваться для связывания с разными участками матрицы. Предпочтительно используется по меньшей мере 9, по меньшей мере 10, более предпочтительно по меньшей мере 49, по меньшей мере 50, напр., 100 и более или 200 и более стопперов элонгации, которые имеют разные последовательности отжига для посадки на матрицу. Тем самым они потенциально будут гибридизоваться с различными участками нуклеиновой кислоты-матрицы. Предпочтительно последовательность отжига представляет собой случайную последовательность. Случайные последовательности описаны выше в отношении идентификационной последовательности и то же самое относится и к последовательностям отжига праймеров, стопперов и стопперов с функцией праймеров. Предпочтительно случайная последовательность последовательности отжига может охватывать 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 и более нуклеотидов, выбранных случайным образом из A, G, C или T (U).In particularly preferred embodiments of the invention for all its embodiments and aspects, elongation stoppers have primer activity and are also elongated during the elongation step. This means that more than one primer is used and most of them have a stopper function (ie they prevent displacement - see above). The use of several primers means that the template produces many fragments, i.e. coverage improves. Although each primer binds to a single template, they will provide complete coverage if different primers bind to different regions of the same template. The method of the invention using multiple primers (which are preferably also stoppers) will increase coverage since the new elongation product will start at the position on the template where the previous elongation product just left off. This produces many fragments covering the entire matrix. In addition, this means that stoppers/primers (in this embodiment these are synonyms) are used that bind to different parts of the template molecule. In general, binding to a template molecule is determined by the annealing sequences of the primers and stoppers. These sequences hybridize to the template and can be varied to bind to different regions of the template. Preferably, at least 9, at least 10, more preferably at least 49, at least 50, eg 100 or more or 200 or more elongation stoppers are used, which have different annealing sequences for landing on the matrix. Thus, they will potentially hybridize with different regions of the template nucleic acid. Preferably, the annealing sequence is a random sequence. Random sequences are described above with respect to the identification sequence and the same applies to the annealing sequences of primers, stoppers and stoppers with primer function. Preferably, the random annealing sequence may span 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 or more nucleotides selected randomly from A, G, C or T(U).
Предпочтительно адаптерная нуклеиновая кислота связывается, гибридизуется или же не связывается со стоппером элонгации. Такая реакция связывания, напр., посредством химической реакции, образования комплекса или гибридизации, облегчает позиционирование адаптерной нуклеиновой кислоты возле 3'-конца вышележащего продукта элонгации, с которым связана идентификационная последовательность, которая сама по себе не гибридизуется со стоппером или матрицей и вне ожидания не требуется для протекания реакции лигирования. Предпочтительно, когда адаптерная нуклеиновая кислота связывается со стоппером элонгации или гибридизуется с ним, то идентификационная последовательность выбирается независимо от последовательности отжига стоппера элонгации для посадки стоппера элонгации на матрицу. И последовательность отжига, и идентификационная последовательность может представлять собой случайную последовательность, предпочтительно независимо друг от друга. Обычно это гарантируется тем, что части нуклеиновой кислоты стоппера и адаптера представляют собой универсальные последовательности, т.е. любой адаптер может связываться с любым стоппером (что предпочтительно для всех воплощений изобретения), а также тем, что адаптерная нуклеиновая кислота не связывается со стоппером, напр., адаптер предоставляется только после реакции элонгации. В другом воплощении или в других частях реакции они не связываются типа когда реакция элонгации достигает 5'-конца матрицы, с которым обычно не гибридизуется стоппер, потому что для стоппера требуется по крайней мере минимальная последовательность отжига на матрице, что сдвигает самое нижнее положение остановки на несколько нуклеотидов вверх от 5'-конца. Адаптер также может лигироваться с продуктом элонгации без связывания или гибридизации со стоппером элонгации. Однако во всех воплощениях предпочтительно, чтобы при лигировании адаптерной нуклеиновой кислоты с продуктом элонгации данный стоппер элонгации и/или продукт элонгации, особенно предпочтительно его 3'-конец, все-таки гибридизировался с матрицей. Также предпочтительно, чтобы адаптерная нуклеиновая кислота гибридизировалась со стоппером элонгации, причем особенно предпочтительно - после реакции элонгации и/или, что особенно предпочтительно, - для лигирования.Preferably, the adapter nucleic acid binds, hybridizes, or does not bind to the elongation stopper. This binding reaction, e.g. by chemical reaction, complex formation or hybridization, facilitates the positioning of the adapter nucleic acid near the 3' end of the upstream elongation product to which the identification sequence is bound, which itself does not hybridize to the stopper or template and is not expected to required for the ligation reaction to occur. Preferably, when the adapter nucleic acid binds to or hybridizes to an elongation stopper, the identification sequence is selected independently of the annealing sequence of the elongation stopper to fit the elongation stopper onto the template. Both the annealing sequence and the identification sequence may be a random sequence, preferably independently of each other. This is usually ensured by the fact that the stopper and adapter nucleic acid portions are universal sequences, i.e. any adapter can bind to any stopper (which is preferred for all embodiments of the invention), and also in that the adapter nucleic acid does not bind to the stopper, eg, the adapter is provided only after the elongation reaction. In another embodiment or in other parts of the reaction, they do not bind such that when the elongation reaction reaches the 5' end of the template, to which the stopper would not normally hybridize, because the stopper requires at least a minimal annealing sequence on the template, which shifts the lowest stop position to several nucleotides upstream from the 5' end. The adapter can also be ligated to the elongation product without binding or hybridizing to the elongation stopper. However, in all embodiments, it is preferred that when an adapter nucleic acid is ligated to an elongation product, the elongation stopper and/or elongation product, especially preferably its 3' end, still hybridizes to the template. It is also preferred that the adapter nucleic acid hybridizes to the elongation stopper, particularly preferably after the elongation reaction and/or, particularly preferably, for ligation.
В предпочтительных воплощениях способа и набора по изобретению олигонуклеотидный праймер, а предпочтительно, но не обязательно и стоппер элонгации, содержит универсальную амплификационную последовательность (“линкерную последовательность праймера”, см. выше), и/или адаптерная нуклеиновая кислота содержит универсальную амплификационную последовательность адаптера (“линкерную последовательность адаптера”, см. выше). Такая амплификационная последовательность или “линкер” может использоваться для связывания праймеров для дальнейшей амплификации, как уже сказано выше. Универсальная последовательность означает то, что она одинакова для всех праймеров, стопперов или адаптеров, соответственно. Это позволяет одному и тому же типу праймера связываться с этими олигонуклеотидами. В особенно предпочтительных воплощениях универсальная амплификационная последовательность (последовательность линкера) также одинакова для праймеров, стопперов и адаптеров, т.е. праймер для дальнейшей амплификации может равным образом связываться с олигонуклеотидными праймерами, стопперами элонгации и адаптерными нуклеиновыми кислотами. Это упрощает использование, так как для дальнейшей амплификации нужен только один тип праймера. В других воплощениях праймеры, стопперы и адаптеры имеют различные универсальные амплификационные последовательности (линкерные последовательности), т.е. праймер для дальнейшей амплификации может связываться только с олигонуклеотидными праймерами, другой праймер для дальнейшей амплификации может связываться только со стопперами элонгации, а еще другой праймер для дальнейшей амплификации может связываться только с адаптерными нуклеиновыми кислотами. В пределах этих групп праймеры предпочтительно являются универсальными. Это все еще упрощает использование, но обеспечивает лучший контроль, так как праймеры для обоих концов меченого фрагмента будут разными и их можно выбирать специфически.In preferred embodiments of the method and kit of the invention, the oligonucleotide primer, and preferably, but not necessarily, the elongation stopper, contains a universal amplification sequence (“linker primer sequence”, see above), and/or the adapter nucleic acid contains a universal amplification adapter sequence (“ adapter linker sequence”, see above). Such an amplification sequence or “linker” can be used to link primers for further amplification, as discussed above. A universal sequence means that it is the same for all primers, stoppers or adapters, respectively. This allows the same type of primer to bind to these oligonucleotides. In particularly preferred embodiments, the universal amplification sequence (linker sequence) is also the same for primers, stoppers and adapters, i.e. the primer for further amplification can equally bind to oligonucleotide primers, elongation stoppers and adapter nucleic acids. This simplifies use as only one type of primer is needed for further amplification. In other embodiments, the primers, stoppers and adapters have different universal amplification sequences (linker sequences), i.e. a primer for further amplification can bind only to oligonucleotide primers, another primer for further amplification can bind only to elongation stoppers, and yet another primer for further amplification can bind only to adapter nucleic acids. Within these groups, primers are preferably universal. This still simplifies the use, but provides better control since the primers for both ends of the labeled fragment will be different and can be selected specifically.
В предпочтительных воплощениях используется специальный олигонуклеотидный праймер для выбора и гибридизации с выбранной последовательности матрицы, предпочтительно на 3'-конце матрицы. В случае мРНК или любого другого типа РНК, содержащей хвост олиго(A), такой 3'-конец может гибридизироваться с комплементарным олигонуклеотидным праймером, напр., содержащим последовательность отжига олиго(dT), комплементарную данному хвосту олиго(A). Предпочтительно по меньшей мере один олигонуклеотидный праймер содержит последовательность отжига для гибридизации с выбранной последовательностью матрицы, которая может находиться на 3'-конце матрицы или возле него. Такая выбранная последовательность представляет собой любую известную последовательность матрицы типа хвоста олиго(A), но может использоваться и любая другая последовательность, если она известна. Предпочтительно олигонуклеотидный праймер для выбранной последовательности содержит последовательность олиго(dT) для гибридизации с последовательностью олиго(A) в матрице. Предпочтительно такая последовательность олиго(dT) содержит один или несколько якорных 3'-нуклеотидов, отличных от последовательности олиго(dT). Это обеспечивает правильную локализацию и связывание с 5'-концом последовательности олиго(A) матрицы. Якорный нуклеотид будет связываться с ближайший нуклеотидом, кроме A (напр., T, G, C) на матрице рядом с участком олиго(A). Если ближайший нуклеотид не-A неизвестен, то можно использовать смесь олигонуклеотидного праймера с различными якорными праймерами, напр., использовать три олигонуклеотидных праймера, каждый без нуклеотида T (напр., A, G, C) (комплементарных ближайшему не-A (напр., T, G, C) на матрице). В предпочтительных воплощениях используются два якорных нуклеотида. Якорный нуклеотид, ближайший к данному нуклеотиду не-T, может быть выбран из любого типа нуклеотидов (A, T (U), G, C), так как он не граничит с олиго(T). Такой специальный олигонуклеотидный праймер может не быть стоппером и может не содержать последовательность для гибридизации с адаптером, так как они не нужны, если специальный олигонуклеотидный праймер гибридизуется с или рядом с 3'-концом матрицы, а это значит, что вышележащий продукт элонгации не дойдет до этого положения. Конечно, для простоты или единства в производстве праймеров/стопперов такая последовательность и/или стопперная функция может присутствовать.In preferred embodiments, a specific oligonucleotide primer is used to select and hybridize to a selected template sequence, preferably at the 3' end of the template. In the case of mRNA or any other type of RNA containing an oligo(A) tail, such a 3' end can hybridize with a complementary oligonucleotide primer, for example, containing an oligo(dT) annealing sequence complementary to that oligo(A) tail. Preferably, the at least one oligonucleotide primer contains an annealing sequence for hybridization to a selected template sequence, which may be at or near the 3' end of the template. This selected sequence is any known oligo(A) tail template sequence, but any other sequence may be used if known. Preferably, the oligonucleotide primer for the selected sequence contains an oligo(dT) sequence for hybridization with an oligo(A) sequence in the template. Preferably, such an oligo(dT) sequence contains one or more 3' anchor nucleotides different from the oligo(dT) sequence. This ensures correct localization and binding to the 5' end of the oligo(A) template sequence. The anchor nucleotide will bind to the nearest nucleotide other than A (eg T, G, C) on the template near the oligo(A) site. If the nearest non-A nucleotide is unknown, then a mixture of oligonucleotide primer with different anchor primers can be used, e.g. using three oligonucleotide primers, each without a T nucleotide (e.g. A, G, C) (complementary to the nearest non-A (e.g. , T, G, C) on the matrix). In preferred embodiments, two anchor nucleotides are used. The anchor nucleotide closest to a given non-T nucleotide can be selected from any type of nucleotide (A, T(U), G, C) since it is not adjacent to an oligo(T). Such a special oligonucleotide primer may not be a stopper and may not contain a sequence to hybridize to an adapter, since these are not needed if the special oligonucleotide primer hybridizes at or near the 3' end of the template, which means that the overlying elongation product will not reach this position. Of course, for simplicity or consistency in the production of primers/stoppers, such a sequence and/or stopper function may be present.
Предпочтительно реакция лигирования проводится в присутствии краудинг агента (crowding agent). Краудинг агент повышает вероятность взаимодействия адаптера и продукта элонгации друг с другом за счет уменьшения эффективного объема реакции, см. Zimmerman et al., Proc. Natl. Acad. Sci. USA 1983, 80(19):5852-6. Другие краудинг агенты приведены, напр., в US 5,554,730, US 8,017,339 и WO 2013/038010 A2. Предпочтительно краудинг агент представляет собой макромолекулу, полимер или содержащее полимер соединение типа полиалкилгликоля, предпочтительно ПЭГ, октоксинол или Triton X либо полисорбат, предпочтительно Tween. В предпочтительных воплощениях краудинг агент используется в концентрациях от 5% до 35% (об./об.), особенно предпочтительно от 10% до 25% (об./об.). Предпочтительно краудинг агент имеет молекулярную массу от 200 до 35000 г/моль, предпочтительно от 1000 до 10000 г/моль. Особенно предпочтительным является полиалкилгликоль типа PEG, особенно с указанной молекулярной массой. Краудинг агент предпочтительно представлено в наборе по изобретению, предпочтительно в буфере для лигирования.Preferably, the ligation reaction is carried out in the presence of a crowding agent. The crowding agent increases the likelihood of the adapter and elongation product interacting with each other by reducing the effective volume of the reaction, see Zimmerman et al., Proc. Natl. Acad. Sci. USA 1983, 80(19):5852-6. Other crowding agents are given, for example, in US 5,554,730, US 8,017,339 and WO 2013/038010 A2. Preferably, the crowding agent is a macromolecule, a polymer or a polymer-containing compound such as a polyalkyl glycol, preferably PEG, octoxynol or Triton X or a polysorbate, preferably Tween. In preferred embodiments, the crowding agent is used in concentrations of 5% to 35% (v/v), particularly preferably 10% to 25% (v/v). Preferably the crowding agent has a molecular weight of from 200 to 35,000 g/mol, preferably from 1000 to 10,000 g/mol. Particularly preferred is a polyalkylglycol of the PEG type, especially with the indicated molecular weight. The crowding agent is preferably provided in the kit of the invention, preferably in a ligation buffer.
Другими ингредиентами набора являются такие компоненты, как буферы, соли, кофакторы ферментов и металлы типа Mn2+ и Mg2+ для полимераз и лигаз, растворители, контейнеры.Other components of the kit include buffers, salts, enzyme cofactors and metals such as Mn 2+ and Mg 2+ for polymerases and ligases, solvents, containers.
Настоящим изобретением предусмотрены наборы для выполнения способа по изобретению. Такой набор может включать любые из уже описанных соединений и средств. Предпочтительно набор включает: (i) по меньшей мере один олигонуклеотидный праймер, способный гибридизироваться с матричной нуклеиновой кислотой и запускать реакцию элонгации на своем 3'-конце, (ii) один или несколько стопперов элонгации, способных гибридизироваться с матричной нуклеиновой кислотой, предпочтительно способных запускать реакцию элонгации на своем 3'-конце, (iii) одну или несколько адаптерных нуклеиновых кислот, содержащих идентификационную последовательность на своем 5'-конце, причем такая идентификационная последовательность не гибридизируется со стоппером элонгации, предпочтительно при этом адаптерная нуклеиновая кислота связывается, гибридизуется или же не связывается со стоппером элонгации, (iv) обратную транскриптазу и (v) лигазу олигонуклеотидов, причем (iv) и (v) могут быть необязательными, так как они могут быть доступны во многих лабораториях, независимо от настоящего изобретения. Важными частями являются конструкции адаптеров/стопперов, в частности, идентификационные последовательности в адаптерах. Предпочтительно в наборе представлено множество адаптеров с разными идентификационными последовательностями, как описано выше. Все эти компоненты набора были описаны выше, и любые их предпочтительные воплощения также применимы к наборам. Предпочтительно набор содержит по меньшей мере 10, более предпочтительно по меньшей мере 50 адаптерных нуклеиновых кислот с различными идентификационными последовательностями. Причины такого предпочтительного воплощения были приведены выше. Предпочтительно олигонуклеотидный праймер содержит последовательность отжига для гибридизации с матрицей, которая включает последовательность олиго(dT) для отжига с последовательностью олиго(A) в матрице, при этом предпочтительно такая последовательность олиго(dT) включает один или несколько якорных 3'-нуклеотидов, отличных от последовательности олиго(dT). Набор также может включать твердую фазу для очистки типа гранул, предпочтительно магнитных гранул (см. подробности способа выше, где также сказано о пригодности компонентов набора и воплощениях).The present invention provides kits for performing the method of the invention. Such a set may include any of the compounds and agents already described. Preferably, the set includes: (i) at least one oligonucleotide primer capable of hybridizing with a template nucleic acid and triggering an elongation reaction at its 3' end, (ii) one or more elongation stoppers capable of hybridizing with a template nucleic acid, preferably capable of triggering an elongation reaction at its 3' end, (iii) one or more adapter nucleic acids containing an identification sequence at its 5' end, wherein such identification sequence does not hybridize to the elongation stopper, preferably wherein the adapter nucleic acid binds, hybridizes, or does not bind to the elongation stopper, (iv) reverse transcriptase and (v) oligonucleotide ligase, and (iv) and (v) may be optional since they may be available in many laboratories, independent of the present invention. The important parts are the adapter/stopper designs, in particular the identification sequences in the adapters. Preferably, the set contains a plurality of adapters with different identification sequences, as described above. All of these kit components have been described above, and any preferred embodiments thereof are also applicable to kits. Preferably the kit contains at least 10, more preferably at least 50 adapter nucleic acids with different identification sequences. The reasons for this preferred embodiment have been given above. Preferably, the oligonucleotide primer contains a template annealing sequence that includes an oligo(dT) sequence for annealing to an oligo(A) sequence in the template, wherein preferably such oligo(dT) sequence includes one or more 3' anchor nucleotides other than oligo(dT) sequences. The kit may also include a solid phase for purification such as beads, preferably magnetic beads (see method details above, which also discusses the suitability of kit components and embodiments).
Все предпочтительные воплощения, описанные выше, можно комбинировать. В таком способе применяется случайный праймер (с линкерной последовательностью), который также является стоппером (а также именуется “праймером остановки смещения нити”). После реакции элонгации предпочтительно проводится очистка продуктов элонгации (гибридизованных с матрицей) для удаления несвязанных праймеров и стопперов. Затем адаптеры со своими линкерами и идентификационными последовательностями лигируются с продуктами элонгации. Идентификационная последовательность имеет случайную последовательность длиной предпочтительно от 4 до 12 нт. Одним из предпочтительных вариантов является использование смесей идентификационных последовательностей различной длины, так как лигазы склонны вызывать неравномерность лигирования, отдавая предпочтение некоторым 5'-расположенным нуклеотидам в последнем и предпоследнем положении. Поскольку такая неравномерность может повлиять на качество прочтения при секвенировании, то в таких смесях уравнивают распределение нуклеотидов при секвенировании в районе стыков лигирования. Однако вариабельность идентификационных последовательностей обеспечивает гораздо меньшую неравномерность лигирования, чем любая другая установленная последовательность, и в то же время также служит в качестве UMI (уникального молекулярного идентификатора). Идентификационная последовательность типа UMI позволяет определить, будут ли риды секвенирования, обладающие идентичной последовательностью или идентифицируемые в идентичной позиции в эталонной аннотации, учитывающей незначительные ошибки при секвенировании, происходить от разных молекул матрицы или же из одной молекулы матрицы и просто являются результатом дальнейшей амплификации (ПЦР-дупликации). Адаптер гибридизируется с праймером, если тот присутствует.All preferred embodiments described above can be combined. This method uses a random primer (with a linker sequence), which is also a stopper (and is also called a “strand displacement stopping primer”). After the elongation reaction, purification of the elongation products (hybridized with the template) is preferably carried out to remove unrelated primers and stoppers. The adapters, with their linkers and identification sequences, are then ligated to the elongation products. The identification sequence is a random sequence, preferably between 4 and 12 nt in length. One preferred option is to use mixtures of identification sequences of varying lengths, since ligases tend to cause uneven ligation, favoring some 5'-located nucleotides in the last and penultimate positions. Since such unevenness can affect the quality of the reads during sequencing, the distribution of nucleotides in such mixtures during sequencing in the region of the ligation junctions is equalized. However, the variability of the identification sequences provides much less ligation unevenness than any other established sequence, while also serving as a UMI (unique molecular identifier). A UMI-type identification sequence allows one to determine whether sequencing reads that have an identical sequence or are identified at an identical position in a reference annotation that accounts for minor sequencing errors will come from different template molecules or from the same template molecule and are simply the result of further amplification (PCR). duplications). The adapter hybridizes with the primer if one is present.
Идентификационные последовательности типа UMI также могут отличить реальные SNP (однонуклеотидные полиморфизмы) между индивидами от ошибок (мутаций), внесенных при обратной транскрипции или на ранних циклах ПЦР, которые затем амплифицируются. Все эти возникающие случайно и амплифицируемые ошибки должны иметь одинаковые идентификаторы, тогда как “реальные SNP” в образцах имеют различные другие идентификаторы. Или же можно более надежно определять те события при редактировании РНК, при которых вводятся модифицированные основания, что ведет к неправильному включению и тем самым к ошибкам при RT.UMI-type identification sequences can also distinguish actual SNPs (single nucleotide polymorphisms) between individuals from errors (mutations) introduced during reverse transcription or early PCR cycles that are then amplified. All of these randomly occurring and amplified errors should have the same identifiers, whereas the “real SNPs” in the samples have various other identifiers. Or, it may be possible to more reliably identify those RNA editing events that introduce modified bases, leading to incorrect incorporation and thus RT errors.
Идентификационные последовательности типа UMI также можно использовать для надежного определения и количественной оценки частоты аллелей в популяциях, молекулярных маркеров и вызывающих болезни мутаций при наследственных заболеваниях. Предпочтительно для этого воплощения используются ДНК-матрицы.UMI-type identification sequences can also be used to reliably determine and quantify allele frequencies in populations, molecular markers, and disease-causing mutations in inherited diseases. Preferably, DNA templates are used for this embodiment.
Другая предпочтительная комбинация представляет собой способ по изобретению, в котором по меньшей мере один, а предпочтительно по меньшей мере 9 стопперов элонгации обладают активностью праймеров и подвергаются элонгации на стадии элонгации, а также используются по меньшей мере две, а предпочтительно по меньшей мере 10 адаптерных нуклеиновых кислот, содержащих разные идентификационные последовательности, при этом образуются по меньшей мере два, а предпочтительно по меньшей мере 10 различных меченых фрагментов, которые необязательно подвергаются амплификации, дополнительно включающий сборку тех последовательностей амплификационных фрагментов, которые являются уникальными, причем для идентификации уникальных амплификационных фрагментов используются метки. Для идентификации уникальных амплификационных фрагментов в амплифицируемых меченых фрагментах можно использовать различные метки.Another preferred combination is the method of the invention wherein at least one, and preferably at least 9 elongation stoppers have primer activity and are elongated during the elongation step, and at least two, and preferably at least 10 adapter nucleic acids are used. acids containing different identification sequences, thereby producing at least two, and preferably at least 10 different tagged fragments, which are optionally amplified, further comprising assembling those amplification fragment sequences that are unique, wherein the tags are used to identify the unique amplification fragments . Various labels can be used to identify unique amplification fragments within the amplified tagged fragments.
В другом предпочтительном способе используются стопперы с функциями праймеров. Предпочтительно используется множество таких праймеров. В таком способе, без различия между стопперами и праймерами, одно воплощение изобретения можно определить следующим образом: Способ получения меченых амплификационных фрагментов из матричной нуклеиновой кислоты, включающий стадии обеспечения такой нуклеиновой кислоты-матрицы, отжига множества олигонуклеотидных праймеров с данной матричной нуклеиновой кислотой, элонгации олигонуклеотидных праймеров специфичным для матрицы образом, получая при этом множество продуктов элонгации, причем реакции элонгации останавливаются, когда продукты элонгации достигают 5'-конца матричной нуклеиновой кислоты или олигонуклеотидного праймера, загибридизованного на матрице нуклеиновой кислоте ниже такого продукта элонгации, обеспечения множества адаптерных нуклеиновых кислот, содержащих идентификационную последовательность на своих 5'-концах, причем данные идентификационные последовательности не гибридизуются с олигонуклеотидным праймером или с матрицей, лигирования адаптерных нуклеиновых кислот из этого множества по своим 5'-концам с 3'-концом продуктов элонгации, получая при этом множество меченых амплификационных фрагментов. Это предпочтительное воплощение, которое можно комбинировать с любыми конкретно описанными аспектами в формуле изобретения и описанными выше. В этом воплощении все, что описано выше для стопперов, применимо и к праймерам, так как эти праймеры являются стопперами с функцией праймеров. Термин “множество” применяется для олигонуклеотидных праймеров, продуктов элонгации (которые являются результатом элонгации праймеров), адаптерных нуклеиновых кислот и меченых амплификационных фрагментов (которые являются результатом элонгации и лигирования с адаптерами). Как указано, количество некоторых из этих множеств является результатом способа. Количество олигонуклеотидных праймеров и адаптерных нуклеиновых кислот можно выбрать, как описано выше. Такие количества можно выбрать независимо, но предпочтительно они примерно одинаковы для попарного объединения с данным продуктом элонгации. Предпочтительно множество составляет, напр., 10 и более, 50 и более, 100 и более, 200 и более и т.д. Можно использовать много различных олигонуклеотидных праймеров и адаптерных нуклеиновых кислот: чтобы олигонуклеотидные праймеры связывались со множеством различных мест на матрице, чтобы адаптерные нуклеиновые кислоты имели разные идентификационные последовательности, предпочтительно уникальные идентификационные последовательности для меченых амплификационных фрагментов. Хотя в этом воплощении праймеры и стопперы это одно и то же, однако может быть добавлен и специальный праймер, которому не нужна (но он может иметь) функция стоппера, типа праймера, специфичного для 5'-конца, типа праймера, нацеленного на олиго(A), как описано выше.Another preferred method uses stoppers with primer functions. Preferably, a plurality of such primers is used. In such a method, without distinguishing between stoppers and primers, one embodiment of the invention can be defined as follows: A method for producing labeled amplification fragments from a template nucleic acid, comprising the steps of providing such a template nucleic acid, annealing a plurality of oligonucleotide primers with a given template nucleic acid, elongating the oligonucleotides primers in a template-specific manner, thereby producing a plurality of elongation products, the elongation reactions stopping when the elongation products reach the 5' end of the template nucleic acid or an oligonucleotide primer hybridized to the template nucleic acid downstream of such elongation product, providing a plurality of adapter nucleic acids containing identification sequence at their 5' ends, and these identification sequences do not hybridize with the oligonucleotide primer or template, ligating adapter nucleic acids from this set at their 5' ends with the 3' end of the elongation products, thereby obtaining a plurality of labeled amplification fragments . This is a preferred embodiment and can be combined with any of the specifically described aspects in the claims and those described above. In this embodiment, everything described above for stoppers also applies to primers, since these primers are stoppers with the function of primers. The term “multiple” is used for oligonucleotide primers, elongation products (which are the result of elongation of primers), adapter nucleic acids, and tagged amplification fragments (which are the result of elongation and ligation to adapters). As indicated, the number of some of these sets is the result of the method. The number of oligonucleotide primers and adapter nucleic acids can be selected as described above. Such amounts can be selected independently, but preferably they are approximately the same for pairwise combination with a given elongation product. Preferably, the set is, for example, 10 or more, 50 or more, 100 or more, 200 or more, etc. Many different oligonucleotide primers and adapter nucleic acids can be used: so that the oligonucleotide primers bind to many different locations on the template, so that the adapter nucleic acids have different identification sequences, preferably unique identification sequences for the tagged amplification fragments. Although in this embodiment the primers and stoppers are the same, a special primer may be added that does not need (but may have) stopper function, such as a 5' end specific primer, or an oligo-targeting type primer. A) as described above.
Далее настоящее изобретение будет описано на следующих фигурах и примерах, но без ограничения настоящего изобретения этими воплощениями.The present invention will now be described in the following figures and examples, but without limiting the present invention to these embodiments.
Краткое описание фигурBrief description of the figures
Фиг. 1. Схема получения библиотеки коротких кДНК, помеченных UMI-линкером, с помощью праймера со свойствами SDS и частично комплементарного содержащего UMI линкерного олигонуклеотида в общей массе РНК.Fig. 1. Scheme for obtaining a library of short cDNAs labeled with a UMI linker using a primer with SDS properties and a partially complementary UMI-containing linker oligonucleotide in the total mass of RNA.
a) Общий праймер Pn для остановки смещением нити гибридизуется с транскриптом РНК, а праймер Pn+1 гибридизуется с более вышележащим (5') положением РНК-матрицы, чем праймер Pn. Когда обратная транскриптаза при элонгации Pn достигнет праймера Pn+1, полимеразная реакция остановится по технологии остановки со смещением нити, описанной в WO 2013/038010 A2. Содержащий UMI линкерный олигонуклеотид, охватывающий L2, который комплементарен L1, гибридизуется с праймерами Pn и Pn+1. b) При лигировании продукт элонгации теперь лигируется с UMI, предшествующим нити L2 линкера. Таким же образом создается библиотека кДНК, которая содержит две линкерные последовательности (L1, L2) на концах и содержит уникальные молекулярные идентификаторы. c) Наконец, проводится ПЦР для амплификации этих библиотек.a) The general strand-stopping primer Pn hybridizes to the RNA transcript, and the primer Pn+1 hybridizes to a more upstream (5') position of the RNA template than the Pn primer. When the Pn elongation reverse transcriptase reaches the Pn+1 primer, the polymerase reaction will stop using the strand displacement stopping technology described in WO 2013/038010 A2. A UMI-containing linker oligonucleotide spanning L2, which is complementary to L1, hybridizes with primers Pn and Pn+1. b) Upon ligation, the elongation product is now ligated to the UMI preceding the L2 linker strand. In the same way, a cDNA library is created that contains two linker sequences (L1, L2) at the ends and contains unique molecular identifiers. c) Finally, PCR is performed to amplify these libraries.
Фиг. 2. Получение содержащих UMI библиотек.Fig. 2. Obtaining libraries containing UMI.
На фиг. a) представлены библиотеки, полученные способом SDS + лигирования. Лигирование содержащего UMI частично комплементарного адаптера L2 (см. фиг. 1 для справки) может проводиться с помощью либо ss-лигазы, либо ds-лигазы (дорожки 2, 3). В отсутствие лигазы библиотеки не образуются (дорожка 1). После лигирования фрагменты кДНК, содержащие линкеры L1 и L2, амплифицировали методом ПЦР и анализировали. Представлены снимки гелей, полученные при анализе HS DNA Assay на биоанализаторе (Agilent Technologies, Inc.). b) Схема получения содержащих UMI библиотек по методу SDS + лигирования с негибридизирующимися праймерными и адаптерными олигонуклеотидами. В этом случае адаптерный олигонуклеотид L2' не содержит последовательностей, комплементарных праймеру элонгации Pn. c) Снимок геля и электрофореграмма повторных библиотек, полученных с помощью негибридизирующегося праймера элонгации и содержащих UMI адаптерных олигонуклеотидов (SEQ ID No. 10). Снимки получали при анализе HS DNA Assay на биоанализаторе (Agilent Technologies, Inc.).In fig. a) Libraries obtained by SDS + ligation are presented. Ligation of the UMI-containing partially complementary adapter L2 (see Fig. 1 for reference) can be accomplished using either ss ligase or ds ligase (lanes 2, 3). In the absence of ligase, no libraries are formed (lane 1). After ligation, cDNA fragments containing the L1 and L2 linkers were amplified by PCR and analyzed. Pictures of gels obtained by analyzing the HS DNA Assay on a bioanalyzer (Agilent Technologies, Inc.) are presented. b) Scheme for obtaining libraries containing UMI using the SDS + ligation method with non-hybridizing primer and adapter oligonucleotides. In this case, the L2' adapter oligonucleotide does not contain sequences complementary to the Pn elongation primer. c) Gel snapshot and electropherogram of replicate libraries generated with a non-hybridizing elongation primer and UMI-containing adapter oligonucleotides (SEQ ID No. 10). Images were obtained using the HS DNA Assay on a bioanalyzer (Agilent Technologies, Inc.).
Фиг. 3. Улучшение охвата 5'-конца транскриптов, достигаемое при лигировании линкеров L2 с кДНК по 5'-концу РНК-матрицы.Fig. 3. Improved coverage of the 5' end of transcripts, achieved by ligating L2 linkers with cDNA at the 5' end of the RNA template.
a) Схема реакции RT на 5'-конце транскриптов. Без SDS при нижележащих праймерах Pn+1, терминальная дезоксинуклеотидилтрансферазная активность (TdT) RT добавляет нематричные нуклеотиды на 3'-конец кДНК, образуя выступ (overhang). b) Нематричные нуклеотиды могут служить сайтом гибридизации для содержащего L1 праймера Pn+1. В сочетании с частично гибридизированным L2 может происходить лигирование UMI с линкером L2 в двойной цепи. c) С другой стороны, в отсутствие прайминга UMI может лигироваться с линкером L2 в виде одиночной цепи. d) Библиотеки, полученные, как показано схематически на фиг. 3 a-c, секвенировали на установке Illumina NextSeq 500 (однократное прочтение, 75 п.н.). Показаны риды, относящиеся к 5'-концу ERCC-0130 (который присутствует в наборе SIRV 3, Lexogen, кат. № 051.0N). Риды анализировали без отсечения дополнительных и несовпадающих оснований. Нуклеотиды, выделенные серым цветом, соответствуют аннотации ERCC-0130, а нуклеотиды, выделенные черным цветом, получены при нематричном добавлении за счет TdT-активности RT. Ниже представлено 30 репрезентативных последовательностей ридов, полученных для 5'-конца ERCC-0130. Последовательности ридов представлены как SEQ ID NO: от 12 до 42, сверху вниз. e) Улучшение охвата 5'-концов методом SDS/лигирования по сравнению со стандартной методикой. Библиотеки получали по стандартной методике (набор NEBNext® Ultra™ II directional RNA Library Prep Kit for Illumina®, New England Biolabs, кат. № E7760S) или методом SDS/лигирования и секвенировали на Illumina NextSeq 500 (риды парных концов, 150 п.н.). Риды, относящиеся к ERCC-0130, налагали друг на друга и сравнивали с ожидаемым охватом, представленным в виде прямоугольника; слева: стандартная методика получения библиотек РНК, справа: охват, полученный по новой технологии SDS/лигирования.a) Scheme of the RT reaction at the 5' end of the transcripts. Without SDS at the downstream primers Pn+1, the terminal deoxynucleotidyl transferase (TdT) activity of RT adds non-template nucleotides to the 3' end of the cDNA, forming an overhang. b) Non-template nucleotides can serve as a hybridization site for the L1-containing primer Pn+1. In combination with partially hybridized L2, ligation of the UMI to the L2 linker in the double strand can occur. c) On the other hand, in the absence of priming, UMI can ligate to the L2 linker as a single strand. d) Libraries obtained as shown schematically in FIG. 3 ac, sequenced on an Illumina NextSeq 500 (single read, 75 bp). Reads related to the 5' end of ERCC-0130 (which is present in the SIRV 3 kit, Lexogen, cat. no. 051.0N) are shown. Reads were analyzed without trimming additional or mismatched bases. Nucleotides in gray correspond to the ERCC-0130 annotation, and nucleotides in black are derived from non-template addition due to the TdT activity of RT. Below are 30 representative sequence reads obtained for the 5' end of ERCC-0130. Sequence reads are presented as SEQ ID NO: 12 to 42, from top to bottom. e) Improved 5' end coverage by SDS/ligation compared to standard technique. Libraries were prepared using standard methods (NEBNext ® Ultra™ II directional RNA Library Prep Kit for Illumina ® , New England Biolabs, cat. no. E7760S) or SDS/ligation method and sequenced on Illumina NextSeq 500 (paired-end reads, 150 bp .). Reads related to ERCC-0130 were overlaid and compared with the expected coverage represented as a box; left: standard RNA library preparation procedure, right: coverage obtained using the new SDS/ligation technology.
Фиг. 4. Схема реакции, используемой для улучшения охвата 3'-конца с помощью метода SDS/лигирования и комбинации общих (Pn) и олиго(dT)-праймеров (PdT).Fig. 4. Schematic of the reaction used to improve 3' end coverage using the SDS/ligation method and a combination of common (Pn) and oligo(dT) primers (PdT).
a) Общий праймер Pn гибридизуется с РНК-матрицей в общей массе РНК. Кроме того, присутствующие олиго(dT)-праймеры (PdT) гибридизуются с хвостом поли(A) на 3'-конце полиаденилированных транскриптов. RT будет продолжать элонгацию PdT до тех пор, пока не достигнет нижележащего праймера Pn и прекратит смещение нити. b) При лигировании содержащий UMI линкер L2 будет лигироваться с фрагментами кДНК, охватывающими 3'-конец, образуя L1- и L2-связанные, содержащие UMI библиотеки кДНК, охватывающие 3'-концы транскриптов. c) График охвата тела генов, показывающий повышение охвата 3'-конца транскриптов по всему транскриптому. Получали библиотеки по методике SDS + лигирования с использованием смеси случайных праймеров и олиго(dT)-праймера для синтеза первой нити, как описано в примере 3. Библиотеки секвенировали на установке NextSeq 500 и строили графики охвата тела генов по всему транскриптому в сравнении с описанной ранее методикой SDS + лигирования. d) Пример охвата по эндогенному хозяйственному гену (HSP90) для стандартного метода получения библиотек (верхняя панель) и для методики SDS + лигирования с титрованием олиго-dT (нижняя панель), которая приводит к улучшению охвата 3'-конца.a) The general primer Pn hybridizes with the RNA template in the total RNA mass. In addition, the oligo(dT) primers (PdT) present hybridize to the poly(A) tail at the 3′ end of polyadenylated transcripts. RT will continue PdT elongation until it reaches the downstream primer Pn and stops strand displacement. b) Upon ligation, the UMI-containing L2 linker will ligate to cDNA fragments spanning the 3' end, forming L1- and L2-linked, UMI-containing cDNA libraries spanning the 3' ends of the transcripts. c) Gene body coverage plot showing the increase in 3′ end coverage of transcripts throughout the transcriptome. Libraries were obtained using the SDS + ligation method using a mixture of random primers and an oligo(dT) primer for the synthesis of the first strand, as described in example 3. The libraries were sequenced on a NextSeq 500 installation and graphs of gene body coverage were plotted across the entire transcriptome in comparison with that described previously using the SDS + ligation technique. d) Example coverage for an endogenous housekeeping gene (HSP90) for the standard library preparation method (top panel) and for the SDS+ ligation technique with oligo-dT titration (bottom panel), which results in improved 3' end coverage.
Фиг. 5. Глобальное улучшение охвата 5'- и 3'-концов транскриптов. Сайты начала транскрипции, т.е. истинные 5'-концы транскриптов, и сайты окончания транскрипции, т.е. истинные 3'-концы транскриптов, разрешаются по методике SDS + лигирования, но не разрешаются при использовании двух типичных традиционных методов получения библиотек. Библиотеки, полученные по методике SDS + лигирования, как показано схематически на фиг. 3 а-с, секвенировали на Illumina NextSeq 500 (парные концы, 150 п.н.). Традиционные библиотеки получали согласно инструкциям производителя, используя либо набор TruSeq Stranded Total RNA Library Prep Human/Mouse/Rat, Illumina, кат. № 20020596 или 20020597 (= обычная 1), либо набор NEBNext® Ultra™ II directional RNA Library Prep Kit for Illumina®, New England Biolabs, кат. № E7760S (= обычная 2). a) Представлены риды, относящиеся к истинным 5'- и 3'-концам обнаруженных ERCC (которые присутствуют в наборе SIRV set 3, Lexogen, кат. № 051.0N). Риды соотносили с внесенными в РНК ERCC с известной последовательностью. Нормализованные значения охвата накопленных картированных ридов для всех обнаруженных ERCC наносили на график по абсолютным положениям нуклеотидов относительно сайтов начала транскрипции (TSS) и окончания транскрипции (TES), отмеченных пунктирными линиями. b) Широкий охват 5'-концов выявляет типичные TSS. Верхняя панель: профиль охвата для gapdh с конденсированной визуализацией интронов, полученный по методике SDS + лигирования или традиционных препаратов библиотек, как описано выше. Риды, относящиеся к gapdh, анализировали без отсечения дополнительных и несовпадающих оснований. Последовательности ридов представлены в виде SEQ ID Nos. от 43 до 67, сверху вниз. Нуклеотиды, выделенные черным цветом, соответствуют аннотации gapdh, а нуклеотиды, выделенные серым цветом, не совпадают или получены при безматричном добавлении за счет TdT-активности RT. Кластеры начальных сайтов, полученные при наложении ридов на 5'-конце транскриптов, можно использовать для повторного аннотирования TSS. Аннотированные и определенные вручную TSS обозначены стрелками на аннотированной консенсусной последовательности, выделенной жирным шрифтом.Fig. 5. Global improvement in coverage of the 5' and 3' ends of transcripts. Transcription start sites, i.e. the true 5' ends of transcripts, and transcription termination sites, i.e. true 3' ends of transcripts are resolved by SDS + ligation, but are not resolved using two typical traditional library preparation methods. Libraries obtained by the SDS + ligation technique, as shown schematically in FIG. 3a-c, sequenced on Illumina NextSeq 500 (paired ends, 150 bp). Traditional libraries were prepared according to the manufacturer's instructions using either the TruSeq Stranded Total RNA Library Prep Human/Mouse/Rat kit, Illumina, cat. No. 20020596 or 20020597 (=regular 1), or NEBNext ® Ultra™ II directional RNA Library Prep Kit for Illumina ® , New England Biolabs, cat. No. E7760S (= regular 2). a) Reads corresponding to the true 5' and 3' ends of the detected ERCCs (which are present in SIRV set 3, Lexogen, cat. no. 051.0N) are shown. Reads were assigned to ERCC RNA inserts of known sequence. Normalized coverage values of the accumulated mapped reads for all detected ERCCs were plotted against the absolute nucleotide positions relative to the transcription start sites (TSS) and transcription termination sites (TES), indicated by dotted lines. b) Broad coverage of 5' ends reveals typical TSSs. Top panel: coverage profile for gapdh with condensed intron imaging obtained by SDS+ligation or traditional library preparations as described above. Reads related to gapdh were analyzed without trimming additional or mismatched bases. Sequence reads are provided as SEQ ID Nos. from 43 to 67, from top to bottom. Nucleotides highlighted in black correspond to gapdh annotation, while nucleotides highlighted in gray are mismatched or obtained by template-free addition due to the TdT activity of RT. Start site clusters obtained by superimposing reads at the 5′ end of transcripts can be used to re-annotate TSSs. Annotated and manually identified TSSs are indicated by arrows on the annotated consensus sequence in bold.
ПримерыExamples
Пример 1. Лигирование уникальных молекулярных идентификаторов (UMI) с фрагментами первой нити кДНКExample 1: Ligation of Unique Molecular Identifiers (UMIs) to First Strand cDNA Fragments
Получали библиотеки из универсальной эталонной РНК человека (Agilent Technologies, кат. № 740000), содержащей контрольную смесь SIRV Set 3 spike-in (Lexogen, кат. № 051.0N), в соответствии с инструкциями производителя.Libraries were prepared from universal human reference RNA (Agilent Technologies, cat. no. 740000) containing SIRV Set 3 spike-in control mixture (Lexogen, cat. no. 051.0N) according to the manufacturer's instructions.
После синтеза кДНК можно лигировать нижележащие праймеры (Pn+1 (L2)), содержащие уникальный молекулярный идентификатор длиной от 2 до 24 нуклеотидов, а предпочтительно от 6 до 12 нуклеотидов, с вновь транскрибированной нитью кДНК в виде гибрида с РНК-матрицей. Обратную транскрипцию проводили, используя олигонуклеотиды, матрицы и условия, описанные в WO 2013/038010 A2. Можно использовать различные лигазы и их комбинации для лигирования олигонуклеотидов типа:After cDNA synthesis, downstream primers (Pn+1 (L2)), containing a unique molecular identifier of 2 to 24 nucleotides in length, preferably 6 to 12 nucleotides, can be ligated to the newly transcribed cDNA strand as a hybrid with the RNA template. Reverse transcription was performed using oligonucleotides, templates and conditions described in WO 2013/038010 A2. Various ligases and their combinations can be used to ligate oligonucleotides such as:
SEQ ID No: 1: (Phos)(5'-NNNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC-3'(3InvdT)),SEQ ID No: 1: (Phos)(5'-NNNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC-3'(3InvdT)),
SEQ ID No: 2: (Phos)(5'-NNNNNNNNNNAGATCGGAAGAGCACACGTCTGAA-3'(3InvdT)),SEQ ID No: 2: (Phos)(5'-NNNNNNNNNNGAATCGGAAGAGCACACGTCTGAA-3'(3InvdT)),
SEQ ID No: 3: (Phos)(5'-NNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAA GAGTG-3'(3InvdT)),SEQ ID No: 3: (Phos)(5'-NNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAA GAGTG-3'(3InvdT)),
SEQ ID No: 4: (Phos)(5'-NNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)),SEQ ID No: 4: (Phos)(5'-NNNNNNNNNNGAATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)),
SEQ ID No: 5: (Phos)(5'-NNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG-3'(3InvdT)),SEQ ID No: 5: (Phos)(5'-NNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG-3'(3InvdT)),
SEQ ID No: 6: (Phos)(5'-NNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG-3'(3InvdT)),SEQ ID No: 6: (Phos)(5'-NNNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG-3'(3InvdT)),
SEQ ID No: 7: (Phos)(5'-NNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)),SEQ ID No: 7: (Phos)(5'-NNNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)),
SEQ ID No: 8: (Phos)(5'-+NNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)),SEQ ID No: 8: (Phos)(5'-+NNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)),
SEQ ID No: 9: (Phos)(5'-+NNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)).SEQ ID No: 9: (Phos)(5'-+NNNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)).
После обратной транскрипции (RT) образцы очищали методом твердофазной обратимой иммобилизации (SPRI) с помощью магнитных гранул (AMPure Beads; Agentcourt) согласно инструкциям производителя. Гибриды кДНК:РНК элюировали в 20 мкл воды или 10 мМ трис, pH 8,0, а затем по 17 мкл супернатантов переносили в новый планшет для ПЦР. Затем проводили реакции лигирования в 60 мкл с 20% PEG-8000, 50 мМ трис-HCl (pH 7,5 при 25°C), 10 мМ MgCl2, 5 мМ DTT, 0,4 мМ АТФ, 0,01% Triton-X100, 50 мкг/мл БСА и 20 единиц лигазы, которая может быть одноцепочечно-специфичной лигазой и/или двухцепочечно-специфичной лигазой. Нелигированные небольшие фрагменты и остающиеся олигонуклеотиды удаляли методом SPRI. Все оставшиеся первичные библиотеки кДНК амплифицировали в реакции ПЦР с помощью высокоточной полимеразы по следующей программе: 30 сек при 98°C, а затем 10-25 циклов ПЦР по 10 сек при 98°C, по 20 сек при 65°C и по 30 сек при 72°C. Затем проводили заключительную элонгацию при 72°C в течение 60 сек. На фиг. 1b представлен общий принцип, лежащий в основе лигирования прошедшей элонгацию кДНК с содержащим UMI линкерным олигонуклеотидом (L2), последовательность которого комплементарна праймеру остановки смещения нити (L1).After reverse transcription (RT), samples were purified by solid-phase reversible immobilization (SPRI) using magnetic beads (AMPure Beads; Agentcourt) according to the manufacturer's instructions. cDNA:RNA hybrids were eluted in 20 μl of water or 10 mM Tris, pH 8.0, and then 17 μl of supernatants were transferred to a new PCR plate. Ligation reactions were then performed in 60 μl with 20% PEG-8000, 50 mM Tris-HCl (pH 7.5 at 25°C), 10 mM MgCl 2 , 5 mM DTT, 0.4 mM ATP, 0.01% Triton -X100, 50 μg/ml BSA and 20 units of ligase, which can be single-strand-specific ligase and/or double-strand-specific ligase. Unligated small fragments and remaining oligonucleotides were removed by SPRI. All remaining primary cDNA libraries were amplified in a PCR reaction using high-fidelity polymerase according to the following program: 30 sec at 98°C, and then 10-25 PCR cycles of 10 sec at 98°C, 20 sec at 65°C and 30 sec at 72°C. Then the final elongation was carried out at 72°C for 60 seconds. In fig. 1b shows the general principle underlying the ligation of elongated cDNA to a UMI-containing linker oligonucleotide (L2), the sequence of which is complementary to the strand displacement stop primer (L1).
На фиг. 2 представлен пример того, что различные лигазы могут выполнять реакцию лигирования содержащего UMI олигонуклеотида и при этом образовывать фрагменты кДНК, содержащие оба линкера для ПЦР и способные амплифицироваться при ПЦР (фиг. 2a, дорожка 2-3). Напротив, контрольный эксперимент без какой-либо лигазы показывает, что библиотеки не могут амплифицироваться, подчеркивая специфичность реакции (фиг. 2a, дорожка 1).In fig. Figure 2 provides an example of how various ligases can perform a ligation reaction on a UMI-containing oligonucleotide and thereby produce cDNA fragments containing both PCR linkers and capable of being amplified by PCR (Figure 2a, lane 2-3). In contrast, a control experiment without any ligase shows that the libraries cannot be amplified, highlighting the specificity of the reaction (Fig. 2a, lane 1).
Пример 2. Получение библиотек с использованием негибридизирующихся олигонуклеотидов - инициатора элонгации и адаптераExample 2. Preparation of libraries using non-hybridizing oligonucleotides - elongation initiator and adapter
Получали библиотеки из универсальной эталонной РНК человека (Agilent Technologies, кат. № 740000), содержащей контрольную смесь SIRV Set 3 spike-in (Lexogen, кат. № 051.0N), в соответствии с инструкциями производителя.Libraries were prepared from universal human reference RNA (Agilent Technologies, cat. no. 740000) containing SIRV Set 3 spike-in control mixture (Lexogen, cat. no. 051.0N) according to the manufacturer's instructions.
Проводили обратную транскрипцию (RT), как описано в Примере 1. После RT образцы очищали методом твердофазной обратимой иммобилизации (SPRI) с помощью магнитных гранул (AMPure Beads; Agentcourt) согласно инструкциям производителя и элюировали гибриды кДНК:РНК в 20 мкл 10 мМ трис, pH 8,0, а затем по 17 мкл супернатантов переносили в новый планшет для ПЦР. Лигирование проводили в условиях, описанных в Примере 1, но использовали адаптерный олигонуклеотид, не содержащий последовательности, комплементарной инициатору элонгации, используемому для прайминга реакции обратной транскрипции. Поэтому адаптерный олигонуклеотид не может гибридизироваться и поэтому не попадает в окрестности вновь образовавшихся 3'-концов продуктов элонгации при рекрутинге (фиг. 2b). Олигонуклеотиды типа SEQ ID No. 10: (Phos)(5'-NNNNNNNNNNNNTGGAATTCTCGGGTGCCAAGG-3'(SpcC3)) не содержат последовательностей, комплементарных инициаторам элонгации. Фрагменты, содержащие обе линкерные последовательности, амплифицировали после очистки, как описано в Примере 1. На фиг. 2c представлены снимки гелей и электрофореграммы для двух повторных библиотек типа SDS + лигирования, полученных с негибридизирующимися олигонуклеотидами - инициаторами элонгации и адаптерами.Reverse transcription (RT) was performed as described in Example 1. After RT, samples were purified by solid-phase reversible immobilization (SPRI) using magnetic beads (AMPure Beads; Agentcourt) according to the manufacturer's instructions and cDNA:RNA hybrids were eluted in 20 μl of 10 mM Tris. pH 8.0, and then 17 μl of supernatants were transferred to a new PCR plate. Ligation was carried out under the conditions described in Example 1, but an adapter oligonucleotide was used that did not contain a sequence complementary to the elongation initiator used for priming the reverse transcription reaction. Therefore, the adapter oligonucleotide cannot hybridize and therefore does not come into the vicinity of the newly formed 3' ends of the elongation products upon recruitment (Fig. 2b). Oligonucleotides of the type SEQ ID No. 10: (Phos)(5'-NNNNNNNNNNNNTGGAATTCTCGGGTGCCAAGG-3'(SpcC3)) do not contain sequences complementary to elongation initiators. Fragments containing both linker sequences were amplified after purification as described in Example 1. FIG. Figure 2c shows gel snapshots and electropherograms for two SDS+ ligation replicate libraries prepared with non-hybridizing elongation initiator and adapter oligonucleotides.
Пример 3. Улучшение охвата 5'-концов в результате терминальной трансферазной активности и ss-лигирования UMI-линкера с фрагментами первой нити кДНКExample 3: Improved 5'-end coverage resulting from terminal transferase activity and ss-ligation of the UMI linker to first-strand cDNA fragments
Получали библиотеки из универсальной эталонной РНК человека (Agilent Technologies, кат. № 740000), содержащей контрольную смесь SIRV Set 3 spike-in (Lexogen, кат. № 051.0N), в соответствии с инструкциями производителя.Libraries were prepared from universal human reference RNA (Agilent Technologies, cat. no. 740000) containing SIRV Set 3 spike-in control mixture (Lexogen, cat. no. 051.0N) according to the manufacturer's instructions.
Синтез первой нити кДНК останавливается на 5'-концах молекул РНК-матрицы. Терминальная трансферазная активность обратных транскриптаз катализирует безматричное добавление нуклеотидов на 3'-конце нити кДНК (фиг. 3a).Synthesis of the first strand of cDNA stops at the 5' ends of the RNA template molecules. The terminal transferase activity of reverse transcriptases catalyzes template-free addition of nucleotides at the 3' end of the cDNA strand (Fig. 3a).
Лигирование UMI-линкерных олигонуклеотидов (напр., SEQ IDs 1-9) после обратной транскрипции может протекать в двухцепочном виде (фиг. 3b) и на одноцепочечных выступах (фиг. 3c). После SPRI-очистки и ПЦР-амплификации библиотеки секвенировали на NextSeq 500 в режиме однократного риды либо в режиме парных концов. Риды, относящиеся к 5'-концу ERCC-0130, анализировали без предварительного отсечения несовпадающих нуклеотидов. Риды, охватывающие 5'-конец ERCC-0130, приведены для примера на фиг. 3d. Добавление концевых нуклеотидов и лигирование UMI по прошедшим элонгацию одноцепочечным нитям приводит к улучшению охвата 5'-концов. На фиг. 3e представлено сравнение профилей охвата между обычным препаратом библиотеки RNA-seq и настоящим изобретением. Охват представлен в виде наложения всех выровненных ридов (профиль серого цвета) и сравнивается с ожидаемым равномерным охватом, представленным в виде прямоугольника. В то время, как данные по секвенированию, полученные по стандартным методикам, охватывают 5'- и 3'-концы менее эффективно, что видно по наклонам в сторону обоих концов (фиг. 3e, слева), новая методика дает больше ридов, относящихся к самому 5'-концу транскриптов (фиг. 3e, справа).Ligation of UMI linker oligonucleotides (eg, SEQ IDs 1-9) after reverse transcription can occur in double-stranded form (Fig. 3b) and on single-stranded overhangs (Fig. 3c). After SPRI purification and PCR amplification, the libraries were sequenced on a NextSeq 500 in single-read or paired-end mode. Reads related to the 5′ end of ERCC-0130 were analyzed without prior trimming of mismatched nucleotides. Reads spanning the 5' end of ERCC-0130 are shown as an example in FIG. 3d. Addition of terminal nucleotides and UMI ligation along elongated single-stranded strands results in improved coverage of the 5' ends. In fig. 3e shows a comparison of coverage profiles between a conventional RNA-seq library preparation and the present invention. Coverage is represented as an overlay of all aligned reads (gray profile) and compared to expected uniform coverage, represented as a box. While sequencing data generated by standard techniques cover the 5' and 3' ends less efficiently, as evidenced by the slopes towards both ends (Fig. 3e, left), the new technique produces more reads related to the very 5' end of the transcripts (Fig. 3e, right).
Пример 4. Улучшение охвата 3'-конца при титровании олиго(dT)-праймеров для синтеза первой нитиExample 4: Improving 3' End Coverage when Titrating Oligo(dT) Primers for First Strand Synthesis
Охват 3'-концов транскриптов можно модифицировать, предпочтительно повысить, используя олиго(dT)-содержащие праймеры первой нити (Pn, содержащие L1), которые добавляют в смесь олигонуклеотидов для SDS со случайным праймингом, которая уже содержит порцию обогащенных T и содержащих только T последовательностей праймеров (типа SEQ ID No. 11: 5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT+TTT TTT TTT TTT TTT TTT+V-3') в соответствии с нормальным распределением случайных нуклеотидов, чтобы повысить охват по 3'-концам. В зависимости от выбранного соотношения между случайными праймерами и поли(dT)-праймерами L1 можно задавать изменение глубины секвенирования на 3'-концевых участках (фиг. 4). Соотношение между случайными праймерами для SDS и специфическими олиго(dT)-праймерами, а также длина праймера и содержание LNA может варьироваться и будет определять степень повышения охвата 3'-концов.Coverage of the 3' ends of transcripts can be modified, preferably increased, by using oligo(dT)-containing first-strand primers (L1-containing Pn) added to a random priming SDS oligonucleotide mixture that already contains a portion of T-rich and T-only primer sequences (type SEQ ID No. 11: 5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT+TTT TTT TTT TTT TTT TTT+V-3') according to the normal distribution of random nucleotides to increase coverage at the 3' ends. Depending on the selected ratio between random primers and L1 poly(dT) primers, the sequencing depth at the 3' ends can be adjusted (Fig. 4). The ratio between random SDS primers and specific oligo(dT) primers, as well as primer length and LNA content, can vary and will determine the extent to which 3' end coverage is increased.
Получали библиотеки методом SDS + лигирования, используя либо только случайные праймеры с остановкой смещения, либо смеси с различным количеством олиго(dT)-праймеров первой нити (SEQ ID No: 11). Полученные библиотеки подвергали секвенированию на NextSeq 500, анализировали данные и составляли графики охвата тела генов по всему транскриптому из картированных ридов с помощью скрипта Python geneBody_coverage, доступного от RSeqC (фиг. 4c). Охват 3'-концов может значительно повышаться при добавлении олиго(dT)-праймеров во время обратной транскрипции.Libraries were prepared by SDS+ ligation using either random stalled primers alone or mixtures with varying numbers of first-strand oligo(dT) primers (SEQ ID No: 11). The resulting libraries were sequenced on NextSeq 500, data analyzed, and transcriptome-wide gene body coverage plotted from mapped reads using the Python script geneBody_coverage available from RSeqC (Figure 4c). Coverage of 3' ends can be significantly increased by the addition of oligo(dT) primers during reverse transcription.
Кроме того, визуализировали охват генов для примера по эндогенным генам с помощью специального скрипта для оценки охвата отдельных генов. На фиг. 4d представлен охват хозяйственного гена HSP90, полученный по стандартной методике получения библиотек РНК (верхняя панель), с сильно заниженным охватом 5'- и 3'-концов. Напротив, методика SDS + лигирования с титрованием олиго-dT дает улучшение охвата 5'- и 3'-концов (нижняя панель).In addition, gene coverage was visualized for example for endogenous genes using a special script to estimate the coverage of individual genes. In fig. Figure 4d shows the coverage of the housekeeping gene HSP90 obtained using the standard method for preparing RNA libraries (top panel), with greatly reduced coverage of the 5' and 3' ends. In contrast, the SDS+ ligation technique with oligo-dT titration results in improved coverage of the 5′ and 3′ ends (lower panel).
Пример 5. Улучшение охвата 5'- и 3'-концов облегчает определение истинных сайтов начала и окончания транскрипцииExample 5: Improved coverage of 5' and 3' ends makes it easier to determine the true transcription start and stop sites
Получали библиотеки методом SDS + лигирования из истощенной по рибосомной РНК универсальной эталонной РНК человека (Agilent Technologies, кат. № 740000), содержащей контрольную смесь SIRV Set 3 spike-in (Lexogen, кат. № 051.0N), как описано в Примерах 3 и 4. Удаление рибосомной РНК осуществляли с помощью RiboCop (Lexogen, кат. № 037.96) в соответствии с инструкциями производителя. Для сравнения использовали два традиционных метода на одной и той же универсальной эталонной РНК человека, истощенной по рибосомной РНК: набор TruSeq Stranded Total RNA Library Prep Human/Mouse/Rat, Illumina, кат. № 20020596 или 20020597 (= обычный 1) либо набор NEBNext® Ultra™ II directional RNA Library Prep Kit for Illumina®, New England Biolabs, кат. № E7760S (= обычный 2), согласно инструкциям производителя. Полученные библиотеки подвергали секвенированию на NextSeq 500 и анализировали данные. Составляли графики охвата тела гена по всем обнаруженным ERCC из набора SIRV Set 3. На фиг. 5a представлен нормализованный охват по накопленным картированным ридам ERCC для абсолютных положений нуклеотидов относительно известных сайтов начала транскрипции (TSS) и окончания транскрипции (TES), которые оба обозначены пунктирными линиями. Охват на 5'- и 3'-концах значительно повышается для образцов, полученных из библиотек SDS + лигирования, по сравнению с обоими традиционными препаратами библиотек, проявляющими снижение охвата 3'-конца и неточное разрешение 5'-конца.Libraries were prepared by SDS + ligation from ribosomal RNA-depleted human universal reference RNA (Agilent Technologies, cat. no. 740000) containing the SIRV Set 3 spike-in control mixture (Lexogen, cat. no. 051.0N), as described in Examples 3 and 4. Ribosomal RNA removal was performed using RiboCop (Lexogen, cat. no. 037.96) according to the manufacturer's instructions. For comparison, two traditional methods were used on the same universal ribosomal RNA-depleted human reference RNA: TruSeq Stranded Total RNA Library Prep Human/Mouse/Rat kit, Illumina, cat. No. 20020596 or 20020597 (=regular 1) or NEBNext® Ultra™ II directional RNA Library Prep Kit for Illumina® , New England Biolabs, cat. No. E7760S (=regular 2), according to manufacturer's instructions. The resulting libraries were sequenced on a NextSeq 500 and the data analyzed. Gene body coverage plots were generated for all detected ERCCs from SIRV Set 3. FIG. Figure 5a shows the normalized coverage across the accumulated mapped ERCC reads for absolute nucleotide positions relative to known transcription start sites (TSS) and transcription termination sites (TES), which are both indicated by dotted lines. Coverage at the 5' and 3' ends is significantly increased for samples derived from SDS+ligation libraries, compared to both traditional library preparations exhibiting decreased 3' end coverage and imprecise 5' end resolution.
Кроме того, визуализировали охват генов для примера по эндогенному хозяйственному гену gapdh с помощью специального скрипта для оценки охвата по отдельным генам. На фиг. 5b представлен профиль охвата для gapdh с конденсированной визуализацией интронов. Риды, относящиеся к gapdh (SEQ ID Nos. от 43 до 67), анализировали без отсечения дополнительных и несовпадающих оснований. Нуклеотиды, совпадающие с консенсусной последовательностью (верхний ряд), отмечены черным цветом, а нуклеотиды, отклоняющиеся от аннотированной консенсусной последовательности или полученные при безматричном добавлении, отмечены серым цветом. Исходя из совпадения ридов, наблюдаемого для образцов, полученных из препаратов библиотек SDS + лигирования, можно определить истинные сайты начала транскрипции и заново аннотировать представляющие интерес транскрипты. В примере, представленном на фиг. 5b, TSS был вручную установлен в положении -15 (по отношению к аннотированному положению +1). Точно так же можно заново установить истинные сайты начала и окончания транскрипции и для других представляющих интерес транскриптов, что позволит провести всесторонний анализ полных транскриптов, включая разрешение на уровне отдельных нуклеотидов по истинным TSS для экспериментов по высокопроизводительному NGS. Этого можно добиться, просто используя для получения библиотек метод SDS + лигирования, в отличие от специализированных и более сложных подходов типа методов секвенирования с 5'-захватом (CAGE-Seq) или методов с низкой пропускной способностью типа 5'-RACE (быстрой амплификации концов кДНК).In addition, gene coverage was visualized for the example of the endogenous housekeeping gene gapdh using a special script to estimate coverage for individual genes. In fig. Figure 5b shows the coverage profile for gapdh with condensed intron imaging. Reads related to gapdh (SEQ ID Nos. 43 to 67) were analyzed without trimming additional or mismatched bases. Nucleotides matching the consensus sequence (top row) are marked in black, and nucleotides deviating from the annotated consensus sequence or resulting from template-free addition are marked in grey. Based on the read matches observed for samples obtained from SDS+ligation library preparations, the true transcription start sites can be determined and transcripts of interest can be re-annotated. In the example shown in FIG. 5b, TSS was manually set to position -15 (relative to the annotated position +1). Likewise, the true transcription start and stop sites can be re-established for other transcripts of interest, allowing for comprehensive analysis of full transcripts, including single nucleotide-level resolution of true TSSs for high-throughput NGS experiments. This can be achieved by simply using the SDS+ligation method to generate libraries, as opposed to specialized and more complex approaches such as 5'-capture sequencing (CAGE-Seq) or low-throughput methods such as 5'-RACE (rapid amplification of ends). cDNA).
--->--->
Перечень последовательностейList of sequences
SEQUENCE LISTING SEQUENCE LISTING
<110> LEXOGEN GMBH<110> LEXOGEN GMBH
<120> Nucleic acid amplification and identification method<120> Nucleic acid amplification and identification method
<130> R 75980<130>R 75980
<150> EP18212743<150>EP18212743
<151> 2018-12-14<151> 2018-12-14
<160> 67<160> 67
<170> BiSSAP 1.3<170> BiSSAP 1.3
<210> 1<210> 1
<211> 41<211> 41
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6<222> 2,3,4,5,6
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 41<222> 41
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 1<400> 1
nnnnnnagat cggaagagca cacgtctgaa ctccagtcac n 41nnnnnnagat cggaagagca cacgtctgaa ctccagtcac n 41
<210> 2<210> 2
<211> 35<211> 35
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10<222> 2,3,4,5,6,7,8,9,10
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 35<222> 35
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 2<400> 2
nnnnnnnnnn agatcggaag agcacacgtc tgaan 35nnnnnnnnnn agatcggaag agcacacgtc tgaan 35
<210> 3<210> 3
<211> 43<211> 43
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10<222> 2,3,4,5,6,7,8,9,10
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 43<222> 43
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 3<400> 3
nnnnnnnnnn agatcggaag agcgtcgtgt agggaaagag tgn 43nnnnnnnnnn agatcggaag agcgtcgtgt agggaaagag tgn 43
<210> 4<210> 4
<211> 34<211> 34
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10<222> 2,3,4,5,6,7,8,9,10
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 34<222> 34
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 4<400> 4
nnnnnnnnnn agatcggaag agcgtcgtgt aggn 34nnnnnnnnnn agatcggaag agcgtcgtgt aggn 34
<210> 5<210> 5
<211> 44<211> 44
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10,11<222> 2,3,4,5,6,7,8,9,10,11
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 44<222> 44
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 5<400> 5
nnnnnnnnnn nagatcggaa gagcgtcgtg tagggaaaga gtgn 44nnnnnnnnnn nagatcggaa gagcgtcgtg tagggaaaga gtgn 44
<210> 6<210> 6
<211> 45<211> 45
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10,11,12<222> 2,3,4,5,6,7,8,9,10,11,12
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 45<222> 45
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 6<400> 6
nnnnnnnnnn nnagatcgga agagcgtcgt gtagggaaag agtgn 45nnnnnnnnnn nnagatcgga agagcgtcgt gtagggaaag agtgn 45
<210> 7<210> 7
<211> 36<211> 36
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10,11,12<222> 2,3,4,5,6,7,8,9,10,11,12
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 36<222> 36
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 7<400> 7
nnnnnnnnnn nnagatcgga agagcgtcgt gtaggn 36nnnnnnnnnn nnagatcgga agagcgtcgt gtaggn 36
<210> 8<210> 8
<211> 34<211> 34
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10<222> 2,3,4,5,6,7,8,9,10
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 34<222> 34
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 8<400> 8
nnnnnnnnnn agatcggaag agcgtcgtgt aggn 34nnnnnnnnnn agatcggaag agcgtcgtgt aggn 34
<210> 9<210> 9
<211> 36<211> 36
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10,11,12<222> 2,3,4,5,6,7,8,9,10,11,12
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 36<222> 36
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="3' Inverted dT (reverse linkage)" /note="3' Inverted dT (reverse linkage)"
<400> 9<400> 9
nnnnnnnnnn nnagatcgga agagcgtcgt gtaggn 36nnnnnnnnnn nnagatcgga agagcgtcgt gtaggn 36
<210> 10<210> 10
<211> 33<211> 33
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<220> <220>
<221> modified_base<221> modified_base
<222> 1<222> 1
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="5' phosphorylated; a or g or c or t" /note="5' phosphorylated; a or g or c or t"
<220> <220>
<221> misc_difference<221> misc_difference
<222> 2,3,4,5,6,7,8,9,10,11,12<222> 2,3,4,5,6,7,8,9,10,11,12
<223> /note="a or g or c or t"<223> /note="a or g or c or t"
<220> <220>
<221> modified_base<221> modified_base
<222> 33<222> 33
<223> /mod_base="OTHER"<223> /mod_base="OTHER"
/note="g, 3' Spacer C3" /note="g, 3' Spacer C3"
<400> 10<400> 10
nnnnnnnnnn nntggaattc tcgggtgcca agn 33nnnnnnnnnn nntggaattc tcgggtgcca agn 33
<210> 11<210> 11
<211> 53<211> 53
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> oligo<223> oligo
<400> 11<400> 11
gtgactggag ttcagacgtg tgctcttccg atcttttttt tttttttttt ttv 53gtgactggag ttcagacgtg tgctcttccg atcttttttt tttttttttt ttv 53
<210> 12<210> 12
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 12<400> 12
cgatttctaa agggaattcg agctcgcatt ttgaaaattc tatggaagag ctagcatctc 60cgatttctaa agggaattcg agctcgcatt ttgaaaattc tatggaagag ctagcatctc 60
tgacgaaaac agcag 75tgacgaaaac agcag 75
<210> 13<210> 13
<211> 68<211> 68
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 13<400> 13
cctttgggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60cctttgggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60
aaaaccag 68aaaaccag 68
<210> 14<210> 14
<211> 68<211> 68
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 14<400> 14
caaaacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60caaaacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60
aaaacaac 6868
<210> 15<210> 15
<211> 66<211> 66
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 15<400> 15
agtggtggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60agtggtggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60
aaatgc 66aaatgc 66
<210> 16<210> 16
<211> 70<211> 70
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 16<400> 16
caaaatggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60caaaatggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60
aaaacagcgt 70aaaacagcgt 70
<210> 17<210> 17
<211> 65<211> 65
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 17<400> 17
tcggacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctcttacg 60tcggacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctcttacg 60
aaaac 65aaaac 65
<210> 18<210> 18
<211> 66<211> 66
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 18<400> 18
ggggacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgaca 60ggggacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgaca 60
aaaaca 66aaaaca 66
<210> 19<210> 19
<211> 73<211> 73
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 19<400> 19
cccgagggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60cccgagggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60
aaaacggcag aca 73aaaacggcag aca 73
<210> 20<210> 20
<211> 71<211> 71
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 20<400> 20
aatacaggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60aatacaggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60
aaaacagaga g 71aaaacagaga g 71
<210> 21<210> 21
<211> 70<211> 70
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 21<400> 21
caaaatggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60caaaatggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60
aaaacagcgt 70aaaacagcgt 70
<210> 22<210> 22
<211> 74<211> 74
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 22<400> 22
atttggggaa ttcgagctcg cattttgaaa attctatgga agagctagca tctctgacga 60atttggggaa ttcgagctcg cattttgaaa attctatgga agagctagca tctctgacga 60
aaacagcagg cgga 74aaacagcagg cgga 74
<210> 23<210> 23
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 23<400> 23
aatggggaat tcgagctcgc attttgaaaa ttctatggaa gagctagcat ctctgacgaa 60aatggggaat tcgagctcgc attttgaaaa ttctatggaa gagctagcat ctctgacgaa 60
aacagcaatc ggaaa 75aacagcaatc ggaaa 75
<210> 24<210> 24
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 24<400> 24
aaggggaatt cgagctcgca ttttgaaaat tctctggaag agctagcatc tctgacgaaa 60aaggggaatt cgagctcgca ttttgaaaat tctctggaag agctagcatc tctgacgaaa 60
acagcagaac agaaa 75acagcagaac agaaa 75
<210> 25<210> 25
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 25<400> 25
ggggaattcg agctcgcatt ttgaaaatac tatggaagag ctagcatctc tgacgaaaac 60ggggaattcg agctcgcatt ttgaaaatac tatggaagag ctagcatctc tgacgaaaac 60
agcagacgaa aaagt 75agcagacgaa aaagt 75
<210> 26<210> 26
<211> 61<211> 61
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 26<400> 26
gggaattcga gctcgcattt tgaaaattct atggaagagc tagcatctct gactactaca 60gggaattcga gctcgcattt tgaaaattct atggaagagc tagcatctct gactactaca 60
g 61g 61
<210> 27<210> 27
<211> 60<211> 60
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 27<400> 27
aagatctcgc attttgaaaa ttctatggaa gagctagcat ctctgacgaa aacagcagaa 60aagatctcgc attttgaaaa ttctatggaa gagctagcat ctctgacgaa aacagcagaa 60
<210> 28<210> 28
<211> 74<211> 74
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 28<400> 28
cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60
gaaaaggaga gacc 74gaaaaggaga gacc 74
<210> 29<210> 29
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 29<400> 29
cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60
gaaaagtact gacca 75gaaaagtact gacca 75
<210> 30<210> 30
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 30<400> 30
cgagctcgca ttttgaaaat tctatggaag agctagcacc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcacc tctgacgaaa acagcagacg 60
gaaaaggact gaaaa 75gaaaaggact gaaaa 75
<210> 31<210> 31
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 31<400> 31
cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60
gaaaagtact gagcc 75gaaaagtact gagcc 75
<210> 32<210> 32
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 32<400> 32
cgagctcgca ttttgaaaat tctatggaag agctagcacc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcacc tctgacgaaa acagcagacg 60
gaaaaggact gaaaa 75gaaaaggact gaaaa 75
<210> 33<210> 33
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 33<400> 33
cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60
gaaaagtact gactc 75gaaaagtact gactc 75
<210> 34<210> 34
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 34<400> 34
cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60
gaaaagtact gacca 75gaaaagtact gacca 75
<210> 35<210> 35
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 35<400> 35
cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60
gaaaagtaca aaacc 75gaaaagtaca aaacc 75
<210> 36<210> 36
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 36<400> 36
gagctcgcat tttgaaaatt ctatggaaga gctagcatct ctgacgaaaa cagcagacgg 60gagctcgcat tttgaaaatt ctatggaaga gctagcatct ctgacgaaaa cagcagacgg 60
aaaagtagct gacca 75aaaagtagct gacca 75
<210> 37<210> 37
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 37<400> 37
agctcgcatt ttgaaaattc tatggaagag ctagcatctc tgacgaaaac agcagacgga 60agctcgcatt ttgaaaattc tatggaagag ctagcatctc tgacgaaaac agcagacgga 60
aaagtactga ccaga 75aaagtactga ccaga 75
<210> 38<210> 38
<211> 75<211> 75
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 38<400> 38
gctcgcattt tgaaaattct atggaagagc tagcatctct gacgaaaaca gcagacggaa 60gctcgcattt tgaaaattct atggaagagc tagcatctct gacgaaaaca gcagacggaa 60
aagtacagac ccaac 75aagtacagac ccaac 75
<210> 39<210> 39
<211> 74<211> 74
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 39<400> 39
cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60
tactgaccag ctag 74tactgaccag ctag 74
<210> 40<210> 40
<211> 73<211> 73
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 40<400> 40
cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60
tactgaccat gca 73tactgaccat gca 73
<210> 41<210> 41
<211> 74<211> 74
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 41<400> 41
cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60
tactgaccag ccac 74tactgaccag ccac 74
<210> 42<210> 42
<211> 73<211> 73
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 42<400> 42
cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60
tactgaccag cat 73tactgaccag cat 73
<210> 43<210> 43
<211> 129<211> 129
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> consensus sequence<223> consensus sequence
<400> 43<400> 43
ataaattgag cccgcagcct cccgcttcgc tctctgctcc tcctgttcga cagtcagccg 60ataaattgag cccgcagcct cccgcttcgc tctctgctcc tcctgttcga cagtcagccg 60
catcttcttt tgcgtcgcca gccgagccac atcgctcaga caccatgggg aaggtgaagg 120catcttcttt tgcgtcgcca gccgagccac atcgctcaga caccatgggg aaggtgaagg 120
tcggagtca 129tcggagtca 129
<210> 44<210> 44
<211> 104<211> 104
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 44<400> 44
acgtgtgctc gtcactacct ccccgggtgc tctctgctcc tcctgttcga cagtcagccg 60acgtgtgctc gtcactacct ccccgggtgc tctctgctcc tcctgttcga cagtcagccg 60
catcttcttt tgcgtcgcca gccgagccac atcgctcaga cacc 104catcttcttt tgcgtcgcca gccgagccac atcgctcaga cacc 104
<210> 45<210> 45
<211> 129<211> 129
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 45<400> 45
gaaaattgag cccgcagcct cccgcttcgc tctctgctcc tcctgttcga cagtcagccg 60gaaaattgag cccgcagcct cccgcttcgc tctctgctcc tcctgttcga cagtcagccg 60
catcttcttt tgcgtcgcca gccgagccac atcgctcaga caccatgggg aaggtgaagg 120catcttcttt tgcgtcgcca gccgagccac atcgctcaga caccatgggg aaggtgaagg 120
tcggagtca 129tcggagtca 129
<210> 46<210> 46
<211> 122<211> 122
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 46<400> 46
aaaatgcatt agaggaactg taaaaatctg ctcctccgtt cgacagtcag ccgcatcttc 60aaaatgcatt agaggaactg taaaaatctg ctcctccgtt cgacagtcag ccgcatcttc 60
ttttgcgtcg ccagccgagc cacatcgctc agacaccatg gggaaggtga aggtcggagt 120ttttgcgtcg ccagccgagc cacatcgctc agacaccatg gggaaggtga aggtcggagt 120
ca 122ca 122
<210> 47<210> 47
<211> 122<211> 122
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 47<400> 47
ctagaggaga ttggccaacg agattcactg gactcctgtt cgacagtcag ccgcatcttc 60ctagaggaga ttggccaacg agattcactg gactcctgtt cgacagtcag ccgcatcttc 60
ttttgcgtcg ccagccgagc cacatcgctg agacaccatg gggaaggtga aggtcggagt 120ttttgcgtcg ccagccgagc cacatcgctg agacaccatg gggaaggtga aggtcggagt 120
ca 122ca 122
<210> 48<210> 48
<211> 118<211> 118
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 48<400> 48
ttttctgaac gctctggccg ctctgctcct cctgttcgac agtcagccgc ctcttcgttt 60ttttctgaac gctctggccg ctctgctcct cctgttcgac agtcagccgc ctcttcgttt 60
gcgtcgccag ccgagccaca tagctcagac accaagggga aggtgaaggt cggagtca 118gcgtcgccag ccgagccaca tagctcagac accaagggga aggtgaaggt cggagtca 118
<210> 49<210> 49
<211> 114<211> 114
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 49<400> 49
accgagcacc agctttctcc gacgccggga agtcgcagtc agccgcatct tcttttgcgt 60accgagcacc agctttctcc gacgccggga agtcgcagtc agccgcatct tcttttgcgt 60
cgccagccga gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 114cgccagccga gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 114
<210> 50<210> 50
<211> 112<211> 112
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 50<400> 50
aacgtgtgct ggctctctgc tcctcctgtt cgacagtcag ccgcatcttc ttttgcgtcg 60aacgtgtgct ggctctctgc tcctcctgtt cgacagtcag ccgcatcttc ttttgcgtcg 60
ccagccgagc cacatcgctc agacaccatg gggaaggtga aggtcggagt ca 112ccagccgagc cacatcgctc agacaccatg gggaaggtga aggtcggagt ca 112
<210> 51<210> 51
<211> 110<211> 110
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 51<400> 51
ttgctttggg ctctctgctc ctcctgttcg acagtcagcc gcatcttctt ttgcgtcgcc 60ttgctttggg ctctctgctc ctcctgttcg acagtcagcc gcatcttctt ttgcgtcgcc 60
agccgagcca catcgctcag acaccatggg gaaggtgaag gtcggagtca 110agccgagcca catcgctcag acaccatggg gaaggtgaag gtcggagtca 110
<210> 52<210> 52
<211> 106<211> 106
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 52<400> 52
gatgggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60gatgggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60
gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106
<210> 53<210> 53
<211> 106<211> 106
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 53<400> 53
atagggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60atagggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60
gagccacatc gctcagacac catggggaag gcgaaggtcg gagtca 106gagccacatc gctcagacac catggggaag gcgaaggtcg gagtca 106
<210> 54<210> 54
<211> 106<211> 106
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 54<400> 54
atctggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60atctggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60
gagccacatc gctgagacac catggggaag gtgaaggtcg gagtca 106gagccacatc gctgagacac catggggaag gtgaaggtcg gagtca 106
<210> 55<210> 55
<211> 106<211> 106
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 55<400> 55
acgtggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60acgtggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60
gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106
<210> 56<210> 56
<211> 106<211> 106
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 56<400> 56
acgtggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60acgtggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60
gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106
<210> 57<210> 57
<211> 97<211> 97
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 57<400> 57
ttgcggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60ttgcggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60
gagccacatc gctcagacac catggggaag cggaaca 97gagccacatc gctcagacac catggggaag cggaaca 97
<210> 58<210> 58
<211> 82<211> 82
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 58<400> 58
gggggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60gggggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60
agccacatcg ctcagacccc ac 82agccacatcg ctcagacccc ac 82
<210> 59<210> 59
<211> 105<211> 105
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 59<400> 59
aatggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60aatggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60
agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105
<210> 60<210> 60
<211> 105<211> 105
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 60<400> 60
atcggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60atcggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60
agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105
<210> 61<210> 61
<211> 105<211> 105
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 61<400> 61
attggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60attggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60
agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105
<210> 62<210> 62
<211> 57<211> 57
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 62<400> 62
gttggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgca atcgcca 57gttggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgca atcgcca 57
<210> 63<210> 63
<211> 104<211> 104
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 63<400> 63
atggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60atggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60
gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104
<210> 64<210> 64
<211> 104<211> 104
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 64<400> 64
ttggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60ttggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60
gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104
<210> 65<210> 65
<211> 82<211> 82
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 65<400> 65
ggggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60ggggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60
gccacatcgc tcagaacagc ca 82gccacatcgc tcagaacagc ca 82
<210> 66<210> 66
<211> 104<211> 104
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 66<400> 66
gtggctctct gctcctcctg ttcgacagtc agccgcatct tcctttgcgt cgccagccga 60gtggctctct gctcctcctg ttcgacagtc agccgcatct tcctttgcgt cgccagccga 60
gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104
<210> 67<210> 67
<211> 103<211> 103
<212> DNA<212> DNA
<213> Artificial Sequence<213> Artificial Sequence
<220> <220>
<223> sequencing read<223> sequencing read
<400> 67<400> 67
gggctctctg ctcctcctgt tcgacagtca gccgcatctt cttttgcgtc gccagccgag 60gggctctctg ctcctcctgt tcgacagtca gccgcatctt cttttgcgtc gccagccgag 60
ccacatcgct cagacaccat ggggaaggtg aaggtcggag tca 103ccacatcgct cagacaccat ggggaaggtg aaggtcggag tca 103
<---<---
Claims (23)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18212743.1 | 2018-12-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2021120504A RU2021120504A (en) | 2023-01-16 |
RU2811465C2 true RU2811465C2 (en) | 2024-01-12 |
Family
ID=
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013038010A2 (en) * | 2011-09-16 | 2013-03-21 | Lexogen Gmbh | Nucleic acid transcription method |
WO2014152155A1 (en) * | 2013-03-14 | 2014-09-25 | The Broad Institute, Inc. | Massively multiplexed rna sequencing |
RU2603253C2 (en) * | 2012-02-01 | 2016-11-27 | Гна Байосолюшнс Гмбх | Method for amplification of nucleic acids |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013038010A2 (en) * | 2011-09-16 | 2013-03-21 | Lexogen Gmbh | Nucleic acid transcription method |
RU2603253C2 (en) * | 2012-02-01 | 2016-11-27 | Гна Байосолюшнс Гмбх | Method for amplification of nucleic acids |
WO2014152155A1 (en) * | 2013-03-14 | 2014-09-25 | The Broad Institute, Inc. | Massively multiplexed rna sequencing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3555305B1 (en) | Method for increasing throughput of single molecule sequencing by concatenating short dna fragments | |
EP3252174B1 (en) | Compositions, methods, systems and kits for target nucleic acid enrichment | |
EP2423325B1 (en) | Method of preparing libraries of template polynucleotides | |
US9328378B2 (en) | Method of library preparation avoiding the formation of adaptor dimers | |
US7897747B2 (en) | Method to produce single stranded DNA of defined length and sequence and DNA probes produced thereby | |
KR102398479B1 (en) | Copy number preserving rna analysis method | |
AU2012307282A1 (en) | Nucleic acid transcription method | |
EP4081652B1 (en) | Controlled strand-displacement for paired-end sequencing | |
WO2013192292A1 (en) | Massively-parallel multiplex locus-specific nucleic acid sequence analysis | |
US20140336058A1 (en) | Method and kit for characterizing rna in a composition | |
CN114341353B (en) | Methods for amplifying mRNA and preparing full-length mRNA libraries | |
EP3559268B1 (en) | Methods and reagents for molecular barcoding | |
US20240271126A1 (en) | Oligo-modified nucleotide analogues for nucleic acid preparation | |
KR20230163386A (en) | Blocking oligonucleotides to selectively deplete undesirable fragments from amplified libraries | |
US20240229018A9 (en) | Self-priming and replicating hairpin adaptor for constructing ngs library, and method for constructing ngs library using same | |
EP2456892B1 (en) | Method for sequencing a polynucleotide template | |
CN113795594B (en) | Nucleic acid amplification and identification methods | |
RU2811465C2 (en) | Method of amplification and identification of nucleic acids | |
JP2021505199A (en) | Systems and methods for preparing nucleic acid libraries through a template switching mechanism |