山东科威数控机床有限公司铣床官方网站今天是:2025-05-12切换城市[全国]-网站地图
推荐产品 :
推荐新闻
技术文章当前位置:技术文章>

用于多重测序的方法和组合物的制作方法

时间:2025-05-12    作者: 管理员

专利名称:用于多重测序的方法和组合物的制作方法
用于多重测序的方法和组合物
交叉引用本申请要求于2010年6月8日提交的美国临时申请号61/352,801的权益,该申请在此引入作为参考。
序列表本申请包含通过EFS-Web以ASCII格式提交的序列表,该序列表在此完整并入作为参考。所述ASCII副本创建于2011年6月8日,命名为25115-741-201.txt,大小为21Kb。
背景技术
对DNA的大规模序列分析可有助于理解与人类及许多重要的经济植物和动物的健康和疾病状态有关的大量生物学现象,例如,参见Collins等(2003),Nature,422:835-847 !Service, Science,311:1544-1546(2006) ;Hirschhorn 等(2005),NatureReviews Genetics,6:95-108 ;National Cancer Institute,Report of Working Group onBiomedical Technology,“Recommendation for a Human Cancer Genome Project,,,(2005年 2 月);Tringe 等(2005), Nature Reviews Genetics, 6:805_814。对低成本高通量测序和再测序的需求已经导致开发了几种对很多靶DNA片段同时进行平行分析的新方法,例如 Margulies 等,Nature, 437:376-380 (2005) ;Shendure 等(2005), Science,309:1728-1732 ;Metzker (2005), Genome Research, 15:1767-1776 ;Shendure 等(2004),Nature Reviews Genetics, 5:335-344 ;Lapidus 等,美国专利公开号 US2006/0024711 ;Drmanac 等,美国专利公开号 US2005/0191656 ;Brenner 等,Nature Biotechnology, 18:630-634(2000);等等。 这些方法反映了用于增加靶多核苷酸密度和用于在特定序列检测化学的每个循环中获得数量增加的序列信息的多种解决方案。鉴于在给定反应中序列混合物的复杂性,一般限于每个反应室进行一个样品的测序。然而,使用这些下一代测序技术在给定反应中读取的碱基数量可能远远大于获得目标序列信息的实际需要,这实质上属于浪费测序空间。随着对来自多个来源的样品进行测序的需求越来越高,利用这些技术的费用可能很快会变得无法承受。测序运行也经常受限于能够平行运行的单独反应的数目,这进一步限制了可以处理大量样品的效率。解决这些挑战的一些方法涉及将额外的标识序列并入每个待分析的靶片段。在不同序列用于不同样品时,对合并的样品进行测序后,可以基于加入的序列将序列解析为对应样品来源的子集。然而,添加序列来解析样品来源面临着两个挑战。第一,当测序中的随机错误发生在太短的附加序列中或发生在不足以与对应于其他样品的序列进行区分的附加序列中时,该随机错误可能导致无法对附加的标识序列与其样品来源进行正确地鉴别。第二,考虑到此类测序错误而加入的较长序列占据了可短至20个碱基的目标读数的有价值测序空间。出于这些限制,需要增加下一代测序技术的效率,以便可以以较高的鉴别精度来测序较大数量的样品,同时使可获得的测序空间最大化。

发明内容
一方面,本发明提供了用于多重测序的方法、组合物和试剂盒。在一个实施方式中,该方法包括在单一反应室中对多个靶多核苷酸进行测序,其中所述靶多核苷酸来自两个或多个不同样品;以及基于所述靶多核苷酸的序列中含有的单一条码(barcode),以至少95%的准确度对每个所述测序的靶多核苷酸所源自的样品进行鉴定。在一些实施方式中,革G多核苷酸包含用于校正测序反应的一个或多个序列。在一些实施方式中,每个条码在至少三个核苷酸位点处不同于所有其它条码。在一些实施方式中,在条码中的核苷酸的突变或缺失后,样品来源的鉴定仍然是准确的。另一方面,本发明提供了用于从多个独立样品中产生衔接体(adapter)标记的靶多核苷酸的方法、组合物和试剂盒。在一个实施方式中,该方法包括:(a)提供多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列;和(b)将至少一个所述第一衔接体寡核苷酸与每个所述样品的所述靶多核苷酸连接,从而没有条码序列与多于一个所述样品的所述靶多核苷酸连接。在一些实施方式中,该方法进一步包括(c)将多个第二衔接体寡核苷酸中的至少一个与来自步骤(b)的每个所述样品的所述靶多核苷酸连接,从而至少一些所述靶多核苷酸在一端包含所述第一衔接体寡核苷酸,并在另一端包含所述第二衔接体寡核苷酸。本发明的一个或多个衔接体寡核苷酸可包含SEQ ID N0:1。本发明的一个或多个衔接体寡核苷酸可包含SEQID N0:2。一个或多个衔接体寡核苷酸可包含发夹结构。一个或多个衔接体寡核苷酸可包含寡核苷酸双链体。在一些实施方式中,所述条码序列的长度为至少3个核苷酸。在一些实施方式中,所述多个条码序列包括选自下组的序列:AAA、TTT、CCC和GGG。在一些实施方式中,所述多个条码序列包括选自下组的序列:AAAA、CTGC、GCTG, TGCT, ACCC, CGTA, GAGT, TTAG, AGGG,CCAT, GTCA, TATC, ATTT, CACG, GGAC和TCGA。在一些实施方式中,所述多个条码序列包括选自下组的序列:AAAAA、AACCC, AAGGG, AATTT, ACACG, ACCAT, ACGTA, ACTGC, AGAGT, AGCTG,AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTA A、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。在一些实施方式中,所述方法进一步包括合并来自步骤(C)的靶多核苷酸。靶多核苷酸可以基于其所连接的条码序列进行合并,从而在合并池(pool)中沿着每个条码的一个或多个位点处均匀呈现所有四种碱基。在一些实施方式中,靶多核苷酸包含片段化的样品多核苷酸。片段化可包括对样品多核苷酸进行超声处理,和/或在适合一种或多种酶(其可以包括DNase 1、片段化酶及其变体)产生随机双链核酸断裂(break)的条件下使用一种或多种酶处理样品多核苷酸。在一些实施方式中,片段化包括使用一种或多种限制性内切酶处理样品多核苷酸。片段可以具有10-10,000个核苷酸的平均长度,例如100-2,500个核苷酸或50-500个核苷酸的平均长度。在一些实施方式中,样品包含少于500ng的核酸。靶多核苷酸可包含基因组DNA、弓I物延伸反应产生的DNA、cDNA、线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体或其组合。
在一些实施方式中,所述方法进一步包括执行使用一个或多个连接的衔接体寡核苷酸作为模板来延伸靶多核苷酸的一个或多个3’末端的步骤。在一些实施方式中,该方法进一步包括在延伸步骤后使用第一引物和第二引物扩增靶多核苷酸,其中第一引物含有能够与一个或多个第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步地,其中第二引物含有能够与一个或多个第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。扩增步骤中使用的一个或多个引物可包含SEQ ID N0:1。扩增步骤中使用的一个或多个引物可包含SEQ ID N0:2。在一些实施方式中,每个第二衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。第一和第二衔接体寡核苷酸对可包含相同或不同的条码序列。在一些实施方式中,该方法进一步包括对来自独立样品的靶多核苷酸池中的一个或多个多核苷酸进行测序。测序可包含测序引物的延伸,该引物包括可与第一衔接体寡核苷酸和/或第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。在一些实施方式中,测序引物含有SEQ ID NO:1或SEQ ID NO:2。在一些实施方式中,测序包括校正步骤,其中校正基于位于条码序列中的一个或多个核苷酸位点处的每个核苷酸。在一些实施方式中,该方法进一步包括基于其连接的条码序列鉴定靶多核苷酸所源自的样品。另一方面,本发明提供了用于上述方法的组合物,其包含任何一个或多个在此描述的元件。一方面,本发明提供了用于多重测序的组合物。在一个实施方式中,组合物包含多个靶多核苷酸,每个靶多核苷酸包含选自多个条码序列的一个或多个条码序列,其中所述靶多核苷酸来自两个或多个不同的样品,并且进一步地,其中可在组合测序反应中基于所述靶多核苷酸序列含有的单一条码以至少95%的准确度鉴定每个所述靶多核苷酸所源自的样品。另一方面,本发明提供了用于产生衔接体标记的靶多核苷酸的组合物,其包含任何一个或多个在此描述的元件。在一个实施方式中,组合物包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。在一些实施方式中,组合物进一步包含多个第二衔接体寡核苷酸。在一些实施方式中,靶多核苷酸包含于流动池中。第一衔接体寡核苷酸可按照四的倍数进行分组,从而在沿每个条码的每个位点处均匀呈现所有四种碱基。在第二衔接体寡核苷酸包含条码时,第一和第二衔接体寡核苷酸对可包含相同或不同的条码序列。在一些实施方式中,组合物进一步包含第一引物和第二引物,其中所述第一引物含有可以与一个或多个所述第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步地,其中所述第二引物含有可以与一个或多个所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。在一些实施方式中,组合物还包含测序引物,该测序引物含有可与所述第一衔接体寡核苷酸和/或所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。在一些实施方式中,组合物包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含含有序列A的5’端和含有序列A’的3’端,并且进一步地,其中A可与A’杂交,A或A’之一包含DNA,且A或A’中的另一个包含RNA和5个或更多个末端DNA核苷酸。在一些实施方式中,组合物进一步包含多个第二衔接体寡核苷酸,其中每个所述第二衔接体寡核苷酸包含含有序列B的5’端和含有序列B’的3’端,并且进一步地,其中B可与B’杂交,B或B’之一包含DNA,且B或B’中的另一个包含RNA和5个或更多个末端DNA核苷酸。在另一方面,本发明提供了含有上述方法和组合物中公开的任何一个或多个元件的试剂盒。在一个方面,本发明提供了一种用于产生衔接体标记的靶多核苷酸的试剂盒。在一个实施方式中,该试剂盒包含多个第一衔接体寡核苷酸及其使用说明,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。在一些实施方式中,该试剂盒进一步包含多个第二衔接体寡核苷酸。在一些实施方式中,该试剂盒进一步包含第一引物和第二引物,其中所述第一引物含有可以与一个或多个所述第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步地,其中所述第二引物含有可以与一个或多个所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。在一些实施方式中,该试剂盒还包含测序引物,该测序引物含有可与所述第一衔接体寡核苷酸和/或所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。在一些实施方式中,该试剂盒进一步包含以下一个或多个:(a) DNA连接酶,(b)DNA依赖的DNA聚合酶,(c)RNA依赖的DNA聚合酶,(d)随机引物,(e)在3’端包含至少4个胸苷的引物,(f) DNA核酸内切酶,
(g)具有3’到5’核酸外切酶活性的DNA依赖的DNA聚合酶,(h)多个引物,每个引物具有多个选定序列之一,(i)DNA激酶,(j)DNA核酸外切酶,(k)磁珠,(I)具有RNase H活性的酶,(m)RNA连接酶,和(η)适合所述试剂盒中所包含的一个或多个元件的一种或多种缓冲液。在一些实施方式中,所述试剂盒包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含含有序列A的5’端和含有序列Α’的3’端,并且进一步地,其中A可与Α’杂交,A或Α’之一包含DNA,且A或Α’中的另一个包含RNA和5个或更多个末端DNA核苷酸。在一些实施方式中,所述试剂盒进一步包含多个第二衔接体寡核苷酸,其中每个所述第二衔接体寡核苷酸包含含有序列B的5’端和含有序列B’的3’端,并且进一步地,其中B可与B’杂交,B或B’之一包含DNA,且B或B’中的另一个包含RNA和5个或更多个末端DNA核苷酸。另一方面,本发明提供了一种用于产生衔接体标记的多核苷酸的方法。在一个实施方式中,该方法包括:(a)提供多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含含有序列A的5’端和含有序列A’的3’端,并且进一步地,其中A可与A’杂交,A或A’之一包含DNA,且A或A’中的另一个包含RNA和5个或更多个末端DNA核苷酸;以及,(b)将至少一个所述第一衔接体寡核苷酸与至少一个所述靶多核苷酸连接起来。每个所述第一衔接体寡核苷酸可以包含条码序列。在一些实施方式中,该方法进一步包括用能够从RNA-DNA异双链体上裂解RNA的酶来裂解RNA的步骤。在一些实施方式中,该方法进一步包括使用所述一个或多个连接的衔接体寡核苷酸作为模板来延伸所述靶多核苷酸的一个或多个3’端的步骤。在一些实施方式中,该方法包括将多个第二衔接体寡核苷酸中的至少一个与来自步骤(b)的每个所述样品的所述靶多核苷酸连接,从而至少一个所述靶多核苷酸在一端包含所述第一衔接体寡核苷酸,并在另一端包含所述第二衔接体寡核苷酸。在一些实施方式中,每个所述第二衔接体寡核苷酸包含含有序列B的5’端和含有序列B’的3’端,并且进一步地,其中B可与B’杂交,B或B’之一包含DNA,且B或B’中的另一个包含RNA和5个或更多个末端DNA核苷酸。在一些实施方式中,每个所述第二衔接体寡核苷酸包含条码序列。
引用参考 本说明书中提及的所有出版物、专利和专利申请在此弓I入作为参考,如同每个单独的出版物、专利或专利申请均特指地和单独地指明被引入作为参考一样。


本发明的新特征在随附的权利要求中具体阐述。通过参考以下对在其中利用到本发明原理的说明性实施方式加以阐述的详细描述和附图,可获得对本发明的特征和优点的更好的理解,附图如下:图1显示了本发明方法的一个实施方式的示意图。图2A显示了根据本发明方法而获得的用于与衔接体寡核苷酸(也被称为“衔接体”)连接的靶多核苷酸的扩增产物的示例结果。图2B显示了来自图2A的选定泳道的并列对比,以及关于连接反应中所含元件的细节。图3显示了本发明方法的一个实施方式的示意图,其中发夹衔接体在5’端包含RNA。图4显示了本发明方法的一个实施方式的示意图,其中发夹衔接体在3’端包含RNA。图5显示了本发明方法的一个实施方式的示意图,其中在3’端包含RNA的发夹衔接体与靶多核苷酸连接,并进一步将非发夹衔接体添加至未连接至发夹衔接体的靶多核苷酸的末端。图6显示了本发明方法的一个实施方式的示意图。图7显示了多种衔接体设计、估算的连接效率和在琼脂糖凝胶上分析的PCR扩增的连接产物。图8显示了含有靶多核苷酸、衔接体寡核苷酸和连接产物的琼脂糖凝胶。图9显示了含有PCR扩增的连接产物的琼脂糖凝胶。图10显示了本发明方法的一个实施方式的示意图。
定义术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”和“寡核苷酸”可交换使用。它们表示任意长度的聚合形式的核苷酸(脱氧核糖核苷酸或核糖核苷酸)或其类似物。多核苷酸可以具有任何三维结构,并可行使任何已知或未知的功能。以下是多核苷酸的非限制性例子:基因或基因片段的编码或非编码区、基因间DNA、连锁分析定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、小核仁RNA、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、分离的任意序列的DNA、分离的任意序列的RNA、核酸探针和引物。多核苷酸可以包含修饰的核苷酸,例如甲基化核苷酸和核苷酸类似物。对核苷酸结构的修饰,如果存在的话,可以在聚合物装配之前或之后进行。核苷酸序列可以被非核苷酸成分中断。聚合后,例如可以通过与标记成分缀合对多核苷酸进行进一步修饰。除非另有说明,否则提供的多核苷酸序列均以5’到3’的方向列出。在此使用的术语“靶多核苷酸”指具有靶序列的核酸分子起始群体中的核酸分子或多核苷酸,该靶序列的存在与否、数量和/或核苷酸序列或者这些方面的变化是需要进行测定的。总而言之,靶多核苷酸是一种双链核酸分子,且可以来自产生双链核酸分子的任何来源或任何过程。在此使用的术语"靶序列"一般指单链核酸上的核酸序列。靶序列可以是基因的一部分、调控序列、基因组DNA、cDNA, RNA (包括mRNA、miRNA和rRNA)或其它。靶序列可以是来自样品或第二目标例如扩增反应产物的目标序列。“核苷酸探针”、“探针”或“标签寡核苷酸”指用于在杂交反应中检测或鉴定其对应的靶多核苷酸的多核苷酸。因此,标签寡核苷酸可与一个或多个靶多核苷酸杂交。标签寡核苷酸可以与样品中的一个或多个靶多核苷酸完全互补,或含有与样品中的一个或多个靶多核苷酸中对应的核苷酸并不互补的一个或多个核苷酸。“杂交”和“退火”指一种反应,其中一个或多个多核苷酸发生反应形成复合物,后者通过核苷酸残基的碱基间的氢键结合来稳定化。氢键结合可以通过Watson Crick碱基配对、Hoogstein结合或以任何其它序列特异性的方式发生。复合物可以包含形成双链体结构的两条链、形成多链复合物的三条或更多链、单个自杂交链或其任意组合。杂交反应可以构成一个更大过程中的一步,例如构成PCR或核酶酶促裂解多核苷酸的起始步骤。能够通过与第二序列的核苷酸残基的碱基进行氢键结合而被稳定化的第一序列被称为与所述第二序列“可杂交”。在该情况下,第二序列也可被称为可与第一序列杂交。一般地,给定序列的“互补序列”是与该给定序列完全互补且可与其杂交的序列。一般而言,可与第二序列或第二序列集杂交的第一序列可特异性地或选择性地与第二序列或第二序列集杂交,从而在杂交反应中,相对于与非靶序列的杂交,其更倾向于与第二序列或第二序列集杂交(例如在给定的一系列条件下,例如本领域通常使用的严格条件下,热动力学更加稳定)。一般而言,可杂交序列在其各自长度的全部或部分上具有一定程度的序列互补性,例如25% -100%的互补性,包括至少约25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,91 %,92%,93%,94%,95%,96%,97%,98%、99%和100%的序列互补性。应用于多核苷酸的术语“杂交的”指通过核苷酸残基的碱基间的氢键结合而被稳定化的复合体中的多核苷酸。氢键结合可以通过WatsonCrick碱基配对、Hoogstein结合或以任何其它序列特异性的方式发生。复合体可以包含形成双链体结构的两条链、形成多链复合体的三条或更多链、单个自杂交链或其任意组合。杂交反应可以构成一个更大过程中的一步,例如构成PCR反应或核酶酶促裂解多核苷酸的起始步骤。与给定序列杂交的序列被称为该给定序列的“互补序列”。在此使用的“表达”指多核苷酸被转录成mRNA的过程,和/或转录的mRNA(也被称为“转录物”)继而被翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽统称为“基因产物”。如果多核苷酸来源于基因组DNA,则表达可包括真核细胞中mRNA的剪接。
发明详述除非另有说明,否则本发明的实践使用本领域公知的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术。参见Samtoook,Fritsch 和 Maniatis,MOLECULAR CLONING:A LABORATORY MANUAL,第二版(1989);CURRENT PROTOCOLS IN MOLECULAR BIOLOGY (F.M.Ausubel 等编,(1987));丛书 METHODSIN ENZYM0L0GY(Academic Press, Inc.):PCR2:APRACTICAL APPROACH(M.J.MacPherson,B.D.Hames和 G.R.Taylor编(1995)),Harlow和 Lane编(1988)ANTIBODIES,A LABORATORYMANUAL,以及 ANIMAL CELL CULTURE (R.1.Freshney 编(1987))。—方面,本发明提供了一种多重测序方法。在一个实施方式中,该方法包括在单一反应室中对多个靶多核苷酸进行测序,其中所述靶多核苷酸来自两个或多个不同样品;以及基于所述靶多核苷酸的序列中含有的单一条码,以至少95%的准确度对每个所述测序的靶多核苷酸所源自的样品进行鉴定。反应室可以是本领域已知的用于容纳测序反应的任何区室,其非限制性的例子包括各种尺寸的管、多孔板的孔和流动池的通道。在一些实施方式中,革G多核苷酸包含一个或多个用于校正测序反应的序列。在一些实施方式中,用于校正测序反应的一个或多个序列在测序之前与靶多核苷酸连接。另一方面,本发明提供了一种从多个独立样品中产生衔接体标记的靶多核苷酸的方法。在一个实施方式中,该方法包括:(a)提供多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列;和(b)将至少一个所述第一衔接体寡核苷酸与每个所述样品的所述靶多核苷酸连接,从而没有条码序列与多于一个所述样品的所述祀多核苷酸连接。在一些实施方式中,该方法进一步包括(C)将多个第二衔接体寡核苷酸中的至少一个与来自步骤(b)的每个所述样品的所述靶多核苷酸连接,从而至少一些所述靶多核苷酸在一端包含所述第一衔接体寡核苷酸,并在另一端包含所述第二衔接体寡核苷酸。第一和第二衔接体寡核苷酸可以是相同或不同的,不同衔接体寡核苷酸具有不同序列和/或不同长度的序列。第一衔接体寡核苷酸可包含一个或多个具有与第二衔接体寡核苷酸的一个或多个序列区相同的序列的序列区,和一个或多个具有与第二衔接体寡核苷酸的一个或多个序列区不同的序列的序列区。衔接体寡核苷酸包括至少一部分序列为已知、且能与靶多核苷酸连接的任意寡核苷酸。衔接体寡核苷酸可包含DNA、RNA、核苷酸类似物、非规范核苷酸、标记的核苷酸、修饰的核苷酸或其组合。衔接体寡核苷酸可以是单链、双链或部分双链体。一般而言,部分双链体衔接体包含一个或多个单链区和一个或多个双链区。双链衔接体可包含两个相互杂交的单独的寡核苷酸(也被称为“寡核苷酸双链体”),且杂交可留下一个或多个平端、一个或多个3’突出端、一个或多个5’突出端、一个或多个由于错配的和/或未配对的核苷酸而产生的凸起,或其任意组合。在一些实施方式中,单链衔接体包含两个或多个能够相互杂交的序列。当单链衔接体中包含两个这样的可杂交的序列时,杂交产生发夹结构(发夹衔接体)。当衔接体的两个杂交区被非杂交区彼此分隔时,会产生“气泡”结构。含有“气泡”结构的衔接体可以由含有内部杂交的单个衔接体寡核苷酸组成,或可以包括彼此杂交的两个或多个衔接体寡核苷酸。内部序列杂交,例如在一个衔接体中的两个可杂交序列之间的内部序列杂交,可以在单链衔接体寡核苷酸中产生双链结构。不同种类的衔接体可以组合使用,例如发夹衔接体和双链衔接体,或不同序列的衔接体。发夹衔接体中的可杂交序列可以包括或可以不包括寡核苷酸的一个或两个末端。当可杂交序列中不含有任何末端时,两端为“游离的”或“突出的”。当只有一端可与衔接体中的另一序列杂交时,另一末端形成突出端,例如3’突出端或5’突出端。当可杂交序列中同时含有5’末端核苷酸和3’末端核苷酸,从而5’末端核苷酸和3’末端核苷酸彼此互补并杂交时,该末端被称为“平端”。不同衔接体可以在相继反应中或同时与靶多核苷酸连接。例如,可将第一和第二衔接体添加至同一反应。在与靶多核苷酸结合之前可以对衔接体进行操作。例如,可以添加或去除末端磷酸。在一些实施方式中,单链发夹衔接体中的一个可杂交序列包含RNA。例如,衔接体可包含含有序列A的5’端和含有序列A’的3’端,其中A可与A’杂交,A或A’之一包含DNA,且A或A’中的另一个包含RNA。类似地,衔接体可包含含有序列B的5’端和含有序列B’的3’端,其中B可与B’杂交,B或B’之一包含DNA,且B或B’中的另一个包含RNA。在一些实施方式中,A或A’之一完全由DNA组成,和/或A或A’之一完全由RNA组成。在一些实施方式中,B或B’之一完全由DNA组成,并且/或者B或B’之一完全由RNA组成。序列A可以与序列B和/或B’相同或不同。序列A’可以与序列B和/或B’相同或不同。在一些实施方式中,包含RNA (例如A、A’、B或B’ )的发夹的末端进一步包含一个或多个末端DNA残基(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个末端0嫩残基),从而包含RNA的序列的侧翼为在两端(即包含RNA的序列的5’末端和3’末端)的DNA残基。包含RNA的序列与包含DNA的序列杂交会产生RNA-DNA杂双链体。在一些实施方式中,通过能够从RNA-DNA杂双链体上裂解RNA的酶,例如具有核糖核酸酶活性的酶,将RNA裂解。优选地,具有核糖核酸酶活性的酶裂解RNA/DNA杂双链体中的核苷酸,而与待裂解的核糖核苷酸的相邻核苷酸的身份和类型无关。优选地,核糖核酸酶不依赖于序列身份进行裂解。适用于本发明的方法和组合物的具有核糖核酸酶活性的合适的酶的例子是本领域熟知的,包括核糖核酸酶H(RNase H)和具有RNase H活性的酶,例如,杂交酶(Hybridase)。在一些实施方式中,从RNA-DNA杂双链体上裂解RNA会从单链发夹衔接体寡核苷酸上去除所有的双链特征,从而使得用衔接体作为模板的经由聚合酶的延伸不需要链置换步骤或链置换活性。在一些实施方式中,具有一个含RNA的末端的发夹衔接体的两端与靶多核苷酸连接,从而RNA从RNA-DNA杂双链体上的裂解产生5’突出端或3’突出端。在一些实施方式中,通过从RNA-DNA杂双链体上裂解RNA而产生的具有5’突出端的末端被使用5’突出端作为模板对产生的3’末端的延伸所补平(fill in)。在具有含RNA的3’末端的发夹衔接体与双链靶多核苷酸的两个3’末端都连接的一些实施方式中,从RNA-DNA杂双链体上裂解RNA后,寡核苷酸与在第一步骤中相连的衔接体序列杂交,并且杂交的寡核苷酸与双链靶多核苷酸的5’末端连接,以产生在两条链的两个末端都含有非互补的、单链的突出端的靶多核苷酸。在两条链的两个末端都含有非互补的、单链的突出端的双链靶多核苷酸的扩增可包括使用第一和第二引物,其中第一引物可与一个突出端杂交,而第二引物可与第一引物所杂交的链的另一末端的突出端的互补序列杂交。对在两条链的两个末端都含有非互补的、单链突出端的双链靶多核苷酸的测序可包括使用可与一个或多个突出端或其互补序列杂交的一个或多个测序引物。图5示出了产生在两条链的两个末端都含有非互补的、单链的突出端的双链靶多核苷酸的说明性示例。衔接体可含有多种序列元件中的一个或多个,包括但不限于:一个或多个扩增引物退火序列或其互补序列;一个或多个测序引物退火序列或其互补序列;一个或多个条码序列;在多种不同衔接体或不同衔接体的子集中共有的一个或多个通用序列;一个或多个限制性酶识别位点;与一个或多个靶多核苷酸突出端互补的一个或多个突出端;一个或多个探针结合位点(例如用于连接测序平台,例如用于大量平行测序的流动池,例如由Illumina, Inc.开发的);一个或多个随机或近随机序列(例如在一个或多个位点处从一组两个或多个不同核苷酸随机选择的一个或多个核苷酸,其中在一个或多个位点处选择的每个不同核苷酸在包含该随机序列的衔接体池中呈现);及其组合。两个或多个序列元件可以彼此不相邻(例如由一个或多个核苷酸间隔)、彼此相邻、部分重叠或完全重叠。例如,扩增引物退火序列也可以作为测序引物退火序列。序列元件可位于或靠近3’端、位于或靠近5’端、或位于衔接体寡核苷酸内部。当衔接体寡核苷酸能够形成二级结构,例如发夹时,序列元件可部分或完全位于二级结构外部、部分或完全位于二级结构内部、或位于参与形成二级结构的序列之间。例如,当衔接体寡核苷酸包含发夹结构时,序列元件可部分或完全位于可杂交序列(“茎”)外部或内部,包括位于可杂交序列之间的序列(“环”)中。在一些实施方式中,具有不同条码序列的多个第一衔接体寡核苷酸中的第一衔接体寡核苷酸含有在所述多个第一衔接体寡核苷酸中的全部第一衔接体寡核苷酸之间共有的序列元件。在一些实施方式中,所有第二衔接体寡核苷酸含有在所有第二衔接体寡核苷酸之间共有的序列元件,该序列元件不同于由第一衔接体寡核苷酸所共有的共同序列元件。序列元件的差异可以为任意的,使得不同衔接体的至少一部分不完全对齐,例如,由于序列长度的改变、一个或多个核苷酸的缺失或插入、或在一个或多个核苷酸位点处的核苷酸组成的改变(例如碱基变化或碱基修饰)。在一些实施方式中,衔接体寡核苷酸包含与一个或多个靶多核苷酸互补的5’突出端、3’突出端、或此两者。互补性突出端的长度可以是一个或多个核苷酸,包括但不限于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个核苷酸的长度。互补性突出端可以包含固定的序列。互补性突出端可以包含一个或多个核苷酸的随机序列,从而一个或多个核苷酸在一个或多个位点处随机选自一组两个或多个不同核苷酸,其中在一个或多个位点处选择的每个不同核苷酸在含有包含该随机序列的互补性突出端的衔接体池中呈现。在一些实施方式中,衔接体突出端与通过限制性核酸内切酶消化而产生的靶多核苷酸突出端互补。在一些实施方式中,衔接体突出端由腺嘌呤或胸腺嘧啶组成。在一些实施方式中,一个或多个衔接体寡核苷酸包含SEQ ID NO:1。在一些实施方式中,一个或多个衔接体寡核苷酸包含SEQ ID N0:2。在一些实施方式中,所有第一衔接体寡核苷酸之间共有的序列元件包含SEQ ID NO:1或SEQ ID NO:2。在一些实施方式中,所有第二衔接体寡核苷酸之间共有的序列元件包含SEQ ID NO:1或SEQ ID NO:2。在一些实施方式中,SEQ ID NO:1或SEQ ID NO:2之一是所有第一衔接体寡核苷酸之间共有的,而SEQ ID NO:1或SEQ ID NO:2中的另一个是所有第二衔接体寡核苷酸之间共有的。在一些实施方式中,一个或多个衔接体寡核苷酸包含SEQ ID N0:3。在一些实施方式中,一个或多个衔接体寡核苷酸包含SEQ ID N0:4。在一些实施方式中,SEQ ID NO:3和/或SEQ IDNO -A的最3’核苷酸之后为条码序列的一个或多个核苷酸。在一些实施方式中,含有寡核苷酸双链体的衔接体包含具有SEQ ID NO:86的寡核苷酸和/或具有SEQ ID N0:87的寡核苷酸。在一些实施方式中,含有寡核苷酸双链体的衔接体包含具有SEQ ID NO:88的寡核苷酸和/或具有SEQ ID NO:89的寡核苷酸。
衔接体寡核苷酸可以具有任何合适的长度,其至少足以容纳其包含的一个或多个序列兀件。在一些实施方式中,衔接体的长度为约、少于约或多于约10、15、20、25、30、35、
40、45、50、55、60、65、70、75、80、90、100、200个或更多个核苷酸。在一些实施方式中,发夹衔接体的茎的长度为约、少于约或多于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、
30、35、40、45、50、75、100个或更多个核苷酸。可以使用导致发夹衔接体上的互补区之间的杂交的多种不同序列来设计茎,从而产生双链DNA的局部区域。例如,可以使用具有相等的G:C和A:T碱基对呈现度的15-18个核苷酸长度的茎序列。预计这样的茎序列能在低于其预测的解链温度45°C时形成稳定的dsDNA结构。参与发夹茎的序列可以是完全互补的,从而茎上一个区域的每个碱基根据Watson-Crick碱基配对法则通过氢键结合与茎上另一区域的每个碱基杂交。或者,茎中的序列可以不完全互补。例如,在不遵循Watson-Crick碱基配对法则由相对碱基形成的茎结构中可以存在错配和/或凸起,和/或在茎的一个区域中存在一个或多个核苷酸其在参与该茎的另一个区域中不具有一个或多个相对应的碱基位点。错配的序列可以使用识别错配的酶进行裂解。发夹的茎可包含DNA、RNA或DNA和RNA两者。在一些实施方式中,发夹的茎和/或环,或形成发夹的茎的一个或两个可杂交序列,包含作为裂解(例如被酶裂解)的底物的核苷酸、键或序列,所述酶包括但不限于核酸内切酶和糖基化酶。茎的组成可以使得只有一个形成茎的可杂交序列被裂解。例如,形成茎的序列之一可以含有RNA,而形成茎的另一序列由DNA组成,从而能裂解RNA-DNA双链体中的RNA的酶例如RNase H所进行的裂解仅裂解含有RNA的序列。发夹的茎和/或环可包含非规范核苷酸(例如尿嘧啶),和/或甲基化核苷酸。在一些实施方式中,发夹衔接体茎的一条链包含SEQ ID NO:1或SEQ ID NO:2。在一些实施方式中,发夹衔接体的环序列的长度为约、少于约或多于约5、10、15、20、25、30、35、40、45、50个或更多核苷酸。在此使用的术语“条码”指允许鉴定该条码连接的多核苷酸的一些特征的已知核酸序列。在一些实施方式中,待鉴定的多核苷酸的特征是该多核苷酸所来源的样品。在一些实施方式中,条码的长度为至少3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个核苷酸。在一些实施方式中,条码的长度短于10、9、8、7、6、5或4个核苷酸。在一些实施方式中,与一些多核苷酸连接的条码和与其它多核苷酸连接的条码具有不同的长度。一般而言,条码具有足够的长度,并含有足够不同从而允许基于连接样品的条码对样品进行鉴定的序列。在一些实施方式中,可以在该条码序列中的一个或多个核苷酸的突变、插入或缺失后,例如1、2、3、4、5、6、7、8、9、10个或更多个核苷酸的突变、插入或缺失之后,精确地鉴定条码及与之相关的样品来源。在一些实施方式中,多个条码中的每一个都在至少三个核苷酸位点处,例如在至少3、4、5、6、7、8、9、10个或更多位点处不同于所述多个条码的所有其它条码。在一些实施方式中,第一衔接体和第二衔接体都包含多个条码序列中的至少一个。在一些实施方式中,用于第二衔接体寡核苷酸的条码独立地选自用于第一衔接体寡核苷酸的条码。在一些实施方式中,具有条码的第一衔接体寡核苷酸和第二衔接体寡核苷酸配对,从而该对的衔接体包含相同或不同的一个或多个条码。在一些实施方式中,本发明的方法进一步包括基于靶多核苷酸连接的条码序列来鉴定靶多核苷酸所来源的样品。一般而言,条码含有一种核酸序列,当该核酸序列与靶多核苷酸连接时其作为靶多核苷酸所来源的样品的标识。在一些实施方式中,从中选择条码序列的多个条码序列包括选自下组的序列:AAA、TTT、CCC、GGG。在一些实施方式中,从中选择条码序列的多个条码序列包括选自下组的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC和TCGA。在一些实施方式中,从中选择条码序列的多个条码序列包括选自下组的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTAA、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。在此关于两个多核苷酸例如衔接体寡核苷酸和靶多核苷酸使用的术语“连接(joining) ”和“连接(ligation) ”,指的是两个单独的多核苷酸的共价连接以产生具有连续骨架的单个更大的多核苷酸。用于连接两个多核苷酸的方法是本领域已知的,且包括但不限于,酶促和非酶促(例如化学)方法。非酶促的连接反应的示例包括描述于美国专利号5,780, 613和5,476,930中的非酶促连接技术,其在此引入作为参考。在一些实施方式中,通过连接酶例如DNA连接酶或RNA连接酶使衔接体寡核苷酸与靶多核苷酸连接。各自具有表征的反应条件的多种连接酶是本领域已知的,且包括但不限于NAD+依赖的连接酶,包括tRNA连接酶、Taq DNA连接酶、Thermusfiliformis DNA连接酶、大肠杆菌DNA连接酶、TthDNA连接酶、Thermus scotoductus DNA连接酶(I和II)、热稳定连接酶、Ampligase热稳定DNA连接酶、VanC型连接酶、9° N DNA连接酶、Tsp DNA连接酶和通过生物勘探发现的新型连接酶;ATP依赖的连接酶,包括T4 RNA连接酶、T4 DNA连接酶、T3 DNA连接酶、T7 DNA连接酶、Pfu DNA连接酶、DNA连接酶1、DNA连接酶II1、DNA连接酶IV和通过生物勘探发现的新型连接酶;及其野生型、突变体同种型和遗传工程变体。连接可在具有可杂交序列的多核苷酸例如互补性突出端之间发生。连接也可在两个平端间发生。一般而言,5’磷酸在连接反应使用。5’磷酸可以由靶多核苷酸、衔接体寡核苷酸或二者一起提供。5’磷酸可根据需要添加至待连接的多核苷酸,或从中去除。用于添加或去除5’磷酸的方法是本领域已知的,且包括但不限于酶促和化学过程。可用于添加和/或去除5’磷酸的酶包括激酶、磷酸酶和聚合酶。在一些实施方式中,连接反应中连接的两端(例如衔接体末端和靶多核苷酸末端)均提供5’憐酸,从而在两个末端的连接中形成两个共价键。在一些实施方式中,在连接反应中连接的两端中只有一端(例如仅衔接体末端和靶多核苷酸末端之一)提供5’磷酸,从而在两个末端的连接中只形成一个共价键。在一些实施方式中,在靶多核苷酸的一个或两个末端处只有一条链与衔接体寡核苷酸连接。在一些实施方式中,在靶多核苷酸的一个或两个末端处两条链都与衔接体寡核苷酸连接。在一些实施方式中,在连接之前去除3’磷酸。在一些实施方式中,衔接体寡核苷酸被添加至靶多核苷酸的两个末端,其中在每个末端处的一条或两条链与一个或多个衔接体寡核苷酸连接。当两个末端处的两条链都与衔接体寡核苷酸连接时,可在连接后进行裂解反应,该裂解反应产生5’突出端,该5’突出端可以作为模板用于对应的3’末端的延伸,该3’末端可以包括或可以不包括来源于衔接体寡核苷酸的一个或多个核苷酸。在一些实施方式中,靶多核苷酸在一端与第一衔接体寡核苷酸连接,而在另一端与第二衔接体寡核苷酸连接。在一些实施方式中,靶多核苷酸及与之连接的衔接体包含平端。在一些实施方式中,使用不同的第一衔接体寡核苷酸对每个样品进行单独的连接反应,该第一衔接体寡核苷酸含有至少一种针对每个样品的条码序列,使得没有条码序列与多于一种样品的靶多核苷酸连接。连接有衔接体寡核苷酸的靶多核苷酸被认为是由所连接的衔接体进行了 “标记”。在一些实施方式中,衔接体与靶多核苷酸的连接产生多核苷酸连接产物,该产物具有包含来自衔接体的核苷酸序列的3’突出端。在一些实施方式中,包括与3’突出端的全部或一部分互补的序列的引物寡核苷酸与该突出端杂交,并使用DNA聚合酶进行延伸,以生产与该多核苷酸连接产物的一条链杂交的引物延伸产物。DNA聚合酶可以包含链置换活性,从而使连接产物多核苷酸的一条链在引物延伸期间被置换。在一些实施方式中,在将至少一种衔接体寡核苷酸连接到祀多核苷酸之后,使用一个或多个连接衔接体寡核苷酸作为模板进行一个或多个靶多核苷酸的3’末端的延伸。例如,含有两个杂交寡核苷酸且仅与靶多核苷酸的5’末端连接的衔接体允许使用衔接体的连接链作为模板进行靶标的未连接的3’端的延伸,这与未连接链的置换同时进行,或在其之后进行。如果含有两个杂交寡核苷酸的衔接体的两条链都与靶多核苷酸连接,使得连接产物具有5’突出端,那么可以使用5’突出端作为模板延伸互补性3’端。作为进一步的示例,发夹衔接体寡核苷酸可与靶多核苷酸的5’末端连接。虽然在二级结构中为双链,但这样的发夹衔接体维持单链,因此是添加到靶多核苷酸上的5’突出端(例如当发夹衔接体的5’末端未与靶多核苷酸连接时)。二级结构的去除,无论是在聚合酶活性之前(例如热变性或降解)或与之同时(例如链置换),都提供了用于延伸靶多核苷酸互补链3’末端的模板。在一些实施方式中,所延伸的靶多核苷酸的3’末端包含来自衔接体寡核苷酸的一个或多个核苷酸。对于衔接体连接至其两个末端的靶多核苷酸,可以对具有5’突出端的双链靶多核苷酸的两个3’末端进行延伸。该3’末端延伸或“补平”反应,产生了针对与模板杂交的衔接体寡核苷酸模板的互补性序列或“互补物”,从而补平了 5’的突出端,产生双链序列区域。当双链靶多核苷酸的两个末端都具有通过互补链的3’末端延伸所补平的5’突出端时,产物是完全双链的。延伸可以通过本领域已知的任何合适的聚合酶实现,例如DNA聚合酶,其中很多是商业可获得的。DNA聚合酶可包含DNA依赖的DNA聚合酶活性、RNA依赖的DNA聚合酶活性或DNA依赖的和RNA依赖的DNA聚合酶活性。DNA聚合酶可以是热稳定或非热稳定的。DNA聚合酶的例子包括但不限于,Taq聚合酶、Tth聚合酶、Tli聚合酶、Pfu聚合酶、Pfutubo聚合酶、Pyrobest聚合酶、Pwo聚合酶、KOD聚合酶、Bst聚合酶、Sac聚合酶、Sso聚合酶、Poc聚合酶、Pab聚合酶、Mth聚合酶、Pho聚合酶、ES4聚合酶、VENT聚合酶、DEEPVENT聚合酶、EX-Taq聚合酶、LA-Taq聚合酶、Expand聚合酶、Platinum Taq聚合酶、H1-Fi聚合酶、Tbr聚合酶、Tfl聚合酶、Tru聚合酶、Tac聚合酶、Tne聚合酶、Tma聚合酶、Tih聚合酶、Tfi聚合酶、Klenow片段及其变体、修饰产物和衍生物。3’端延伸可以在合并来自独立样品的靶多核苷酸之前或之后进行。在一些实施方式中,补平反应之后使用第一引物和第二引物扩增一个或多个靶多核苷酸,或者作为该扩增的一部分进行补平反应,其中第一引物含有能与一个或多个第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步地,其中第二引物含有能与一个或多个第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。每个第一和第二引物可以是任何合适的长度,例如约、少于约或多于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100个或更多个核苷酸,其任何部分或全部可以与对应的靶序列(例如约、少于约或多于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸)互补。“扩增”是指使靶序列的拷贝数增加的任何过程。用于引物指导的靶多核苷酸扩增的方法是本领域已知的,且包括但不限于,基于聚合酶链反应(PCR)的方法。有利于靶序列的PCR扩增的条件是本领域已知的,可以在过程中的多个步骤进行优化,且取决于反应中的元件的特征,例如靶标类型、靶标浓度、待扩增的序列长度、靶标和/或一个或多个引物的序列、引物长度、引物浓度、使用的聚合酶、反应体积、一个或多个元件与一个或多个其它元件之比,以及其它,其中一些或全部可以改变。一般而言,PCR包括待扩增靶标的变性(如果是双链的话)、一个或多个引物与靶标的杂交和通过DNA聚合酶进行引物延伸的步骤,其中重复(或“循环”)各步骤以扩增靶序列。可以针对多种结果,例如为了提高产率、减少假产物的形成和/或增加或降低引物退火的特异性,对该过程中的步骤进行优化。优化方法是本领域熟知的,包括对扩增反应中的元件的类型和量和/或对过程中给定步骤的条件(例如特定步骤的温度、特定步骤的持续时间和/或循环数)的调整。在一些实施方式中,扩增反应包括至少5、10、15、20、25、30、35、50个或更多个循环。在一些实施方式中,扩增反应包括不多于5、10、15、20、25、35、50个或更多个循环。循环可具有任意个数的步骤,例如1、2、3、4、5、6、7、8、9、10个或更多个步骤。各步骤可包含适于完成该给定步骤的目的的任意温度或温度梯度,包括但不限于,3’末端延伸(例如衔接体补平)、引物退火、引物延伸和链变性。各步骤可具有任何持续时间,包括但不限于约、短于约或长于约1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600 秒或更多秒,包括不确定的持续时间,直至手工中断。包括不同步骤的任意个数的循环可以任意顺序组合。在一些实施方式中,将包括不同步骤的不同循环进行组合,使得该组合中的总循环数为约、少于约或多于约5、10、15、20、25、30、35、50个或更多个循环。在一些实施方式中,一个或多个引物含有SEQ ID ΝΟ:1。在一些实施方式中,一个或多个引物含有SEQ ID NO:2。在一些实施方式中,在补平反应后进行扩增。可以在对来自独立样品的靶多核苷酸进行合并之前或之后进行扩增。在一些实施方式中,在连接步骤后合并来自独立样品的靶多核苷酸。合并可以在连接步骤之后立即进行,或在连接和合并之间的一个或多个中间步骤之后立即进行。合并池可包含来自连接反应的总靶多核苷酸的任何部分,包括整个反应体积。可以均匀或不均匀地合并样品。可以在合并之前或之后进一步处理靶多核苷酸,例如用以纯化期望的产物或去除不期望的产物。合并池可包含来自任意数目的独立样品,例如至少2、3、4、5、6、7、8、9、10、12、16、20、24、28、32、36、40、50、60、70、80、90、100、128、192、384、500、1000 个或更多个样品的多核苷酸。在一些实施方式中,基于靶多核苷酸所连接的条码合并靶多核苷酸。在一些实施方式中,合并来自独立样品的靶多核苷酸,从而使得在合并池所包含的条码中,在沿着条码的一个或多个位点处均匀呈现所有四种碱基。在一些实施方式中,合并来自独立样品的靶多核苷酸,从而使得在合并池所包含的条码中,在沿着条码的每个位点处均匀呈现所有四种碱基。在只有一个条码与每个样品的多核苷酸连接时,样品可以按照4的倍数进行合并,从而在沿着条码的一个或多个位点处均匀呈现所有四种碱基,例如4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64、96、128、192、256、384 等等。在对每个样品的连接反应中包含两个条码,例如两个不同的第一衔接体寡核苷酸或一个第一衔接体寡核苷酸和一个第二衔接体寡核苷酸各自都具有条码时,样品可以按照2的倍数进行合并,从而在沿着条码的一个或多个位点处均匀呈现所有四种碱基,例如2、4、6、8、10、12、14、16、18、20、22、24、48、64、96、128、256、384等等。本发明的方法涉及对来自每个样品的靶多核苷酸的连接反应中所包含的条码数的所有组合,以及为了在沿着条码的一个或多个位点处均匀呈现所有四种碱基而采用的样品合并倍数。在一些实施方式中,合并靶多核苷酸之后对合并池中的一个或多个多核苷酸进行测序。测序过程一般为模板依赖的。当在模板介导的合成反应例如引物延伸反应过程中添加个体碱基或一组碱基时,利用模板依赖的合成的核酸序列分析对所述碱基进行鉴别,其中碱基的身份与合成过程中跟引物序列杂交的模板序列互补。其它这样的过程包括连接驱动的过程,其中寡核苷酸或多核苷酸与潜在的模板序列复合,从而鉴定该序列中的核苷酸序列。一般地,此类过程是使用核酸聚合酶进行酶介导的,例如DNA聚合酶、RNA聚合酶、反转录酶等等,或其它酶类,例如对连接驱动的过程而言,例如,连接酶。使用模板依赖的合成的序列分析可以包括很多不同的过程。例如,在广泛使用的四色Sanger测序方法中,使用一组模板分子产生一组互补性片段序列。在四种天然存在的核苷酸的存在下,用一个亚组的染料标记的终止子核苷酸例如双脱氧核糖核苷酸进行引物延伸,其中每种类型的终止子(ddATP、ddGTP、ddTTP、ddCTP)包括不同的可检测标记。结果产生了一组嵌套片段,其中片段在超出引物的序列中的每个核苷酸处终止,并以能够鉴定终止核苷酸的方式进行标记。然后对嵌套片段群进行基于大小的分离,例如,使用毛细管电泳,并对连接每个不同大小的片段的标签进行鉴定以确定终止核苷酸。结果,经过分离系统中的检测器移动的标签的序列提供了对合成片段的序列信息的直接读出,且根据互补性,也提供了对潜在的模板信息的直接读出(例如,参见美国专利号5,171,534,其在此出于任何目的而全文引入作为参考)。模板依赖的测序方法的其它例子包括合成测序方法,其中个体核苷酸在被加至伸长的引物延伸产物时迭代地进行鉴定。焦磷酸测序是合成测序方法的一个例子,其通过分析得到的合成混合物中测序反应副产物即焦磷酸的存在与否来鉴定核苷酸的引入。具体地,将引物/模板/聚合酶复合物与单一类型的核苷酸接触。如果该核苷酸被引入,那么聚合反应裂解三磷酸链的α和β磷酸之间的核苷三磷酸,从而释放焦磷酸。然后使用化学发光酶报道系统鉴定释放的焦磷酸的存在,所述化学发光酶报道系统将焦磷酸与AMP转化为ΑΤΡ,然后通过使用萤光素酶产生可检测的光信号来检测ΑΤΡ。在检测到光时,碱基引入,检测不到光时,碱基不引入。在适当的洗涤步骤后,将多种碱基循环地与复合物接触,以连续鉴定模板序列中随后的碱基。例如,参见美国专利号6,210,891,其在此出于任何目的全文引入作为参考。在相关的方法中,引物/模板/聚合酶复合物被固定化于基质上,且复合物与标记的核苷酸接触。复合物的固定化可通过引物序列、模板序列和/或聚合酶来进行,且可以是共价的或非共价的。例如,复合物的固定化可通过聚合酶或引物和基质表面之间的连接来实现。该附着可使用多种连接类型,例如,包括使用例如生物素-PEG-硅烷连接化学来提供生物素化的表面成分,继而将待固定化的分子生物素化,然后通过例如链霉亲和素桥进行连接。其它合成偶联化学以及非特异性蛋白质吸附也可用于固定化。在备选的构型中,提供具有或不具有可去除的终止子基团的核苷酸。引入后,标签与复合物偶联,从而是可检测的。对于携带终止子的核苷酸,单独携带可识别标签的所有四种不同核苷酸与复合物进行接触。由于终止子的存在,标记核苷酸的引入阻止了延伸,并将标签加至复合物上。然后从引入的核苷酸上去除标签和终止子,并在适当的洗涤步骤后,重复该过程。对于非终止的核苷酸,向复合物中加入单一类型的标记核苷酸,以确定其是否将被引入,如焦磷酸测序一样。在去除核苷酸上的标记基团和适当的洗涤步骤后,该多种不同核苷酸在相同过程中通过反应混合物进行循环。例如,参见美国专利号6,833,246,其在此以任何目的全文引入作为参考。例如,Illumina基因组分析仪系统基于WO 98/44151所描述的技术,在此引入作为参考,其中DNA分子通过锚探针结合位点(也称为流动池结合位点)与测序平台(流动池)结合并在载玻片上原位扩增。然后DNA分子与测序引物退火并使用可逆终止子方法逐个碱基地平行测序。一般地,Illumina基因组分析仪系统利用8通道流动池,产生18-36个碱基长度的测序读数,每轮产生> 1.3Gbp的高质量数据(参见www.1llumina.com)。在又另一合成测序方法中,进行模板依赖的合成时对不同标记的核苷酸的引入进行实时观察。具体地,在引入荧光标记的核苷酸时观察固定化的个体引物/模板/聚合酶复合物,从而在每个碱基加入时允许对每个加入的碱基进行实时鉴定。在该过程中,将标记基团连接到在引入过程中被裂解的核苷酸的一部分上。例如,通过将标记基团连接到在引入过程中被去除的磷酸链的一部分上,即核苷聚磷酸上的α、β、Y或其它末端磷酸基团上,该标记没有被引入新生链中,而是相反,产生了天然DNA。对个体分子的观察一般涉及将复合物光学限制在一个非常小的照明体积内。通过光学限制该复合物,产生了监控区域,在该区域中随机扩散的核苷酸存在非常短的时间,而引入的核苷酸在观察体积内更久地保持,因为其正在被引入。这导致与引入事件相关联的特征信号,其特征也在于所添加的碱基特有的信号谱。在相关方面,在聚合酶或复合物的其它部分和引入的核苷酸上提供相互作用的标记成分,例如荧光共振能量转移(FRET)染料对,以便引入事件能够使标记成分交互接近(interactive proximity),并产生特征信号,这同样也是正在引入的碱基所特有的(例如,参见美国专利号 6,056,661,6, 917,726,7, 033,764,7, 052,847,7, 056,676,7, 170,050、7,361,466,7,416,844和公开的美国专利申请号2007-0134128,其全部公开内容以任何目的在此全文引入作为参考)。在一些实施方式中,样品中的核酸可以通过连接进行测序。该方法使用DNA连接酶来鉴定祀序列,例如,如在聚合酶克隆(polony)方法和SOLiD技术(AppliedBiosystems,现为Invitrogen)中使用的那样。通常,提供一组所有可能的固定长度的寡核苷酸,根据测序的位点对其进行标记。将寡核苷酸退火和连接;通过DNA连接酶对匹配序列的优先连接产生对应于该位点处的互补序列的信号。在一些实施方式中,测序包括测序引物的延伸,该测序引物含有可与第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列。在一些实施方式中,测序包括测序引物的延伸,该测序引物含有可与第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。测序引物可以为任何适当的长度,例如约、少于约或多于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100个或更多个核苷酸,其任意部分或全部可以与对应的靶序列互补(例如约、少于约或多于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸)。在一些实施方式中,测序引物含有SEQ ID NO:1或SEQ ID NO:2。在一些实施方式中,测序引物含有SEQ ID N0:5。在一些实施方式中,测序引物含有SEQ ID NO:6。在一些实施方式中,测序包括校正步骤,其中校正基于该条码序列中一个或多个核苷酸位点处的每个核苷酸。校正可用于处理测序数据,例如,通过促进或增加序列中给定位点处的碱基的鉴定准确性。在一些实施方式中,对于祀多核苷酸所源自的样品的精确鉴定基于为祀多核苷酸获得的序列的至少一部分,并且其精确度为至少90%、95%、96%、97%、98%、99%、99.5%,99.8%,99.85%,99.9%,99.95%,99.99%或更精确。在一些实施方式中,基于序列中所含的单一条码对靶多核苷酸的样品来源进行鉴定。在一些实施方式中,可以通过使用序列中含有的两个或多个条码鉴定靶多核苷酸的来源来提高精确度。可以通过将多个条码引入靶多核苷酸所连接的单一衔接体中,和/或通过将具有一个或多个条码的两个或多个衔接体与靶多核苷酸连接,将多个条码连接至靶多核苷酸。在一些实施方式中,可以使用其包含的仅一个条码序列对含有两个或多个条码序列的靶多核苷酸的样品来源的身份精确地进行鉴定。通常,对靶多核苷酸所源自的样品的精确鉴定包括对来自合并池的两个或多个样品,例如合并池中的约、少于约或多于约2、3、4、5、6、7、8、9、10、12、16、20、24、28、32、36、40、50、60、70、80、90、100、128、192、384、500、1000个或更多个样品的样品来源进行正确鉴定。靶多核苷酸所源自的不同样品可包括来自同一个体的多个样品、来自不同个体的样品或其组合。在一些实施方式中,样品包含来自单一个体的多个多核苷酸。在一些实施方式中,样品包含来自两个或多个个体的多个多核苷酸。个体是靶多核苷酸可源自的任何有机体或其部分,其非限制性的例子包括植物、动物、真菌、原生生物、无核原生物、病毒、线粒体和叶绿体。样品多核苷酸可分离自一个主体,例如源于该主体的细胞样品、组织样品或器官样品,包括,例如培养的细胞系、活检组织、血液样品或含有细胞的流体样品。主体可以是动物,包括但不限于诸如牛、猪、小鼠、大鼠、鸡、猫、狗等动物,且通常为哺乳动物,例如人。样品也可人工获得,例如通过化学合成。在一些实施方式中,样品包含DNA。在一些实施方式中,样品包含基因组DNA。在一些实施方式中,样品包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或其组合。在一些实施方式中,样品包含使用任何合适的引物组合和DNA聚合酶通过引物延伸反应而产生的DNA,该反应包括但不限于聚合酶链反应(PCR)、反转录及其组合。当引物延伸反应的模板为RNA时,反转录产物被称为互补DNA(cDNA)。用于引物延伸反应的引物可包含对于一个或多个靶标、随机序列、部分随机序列及其组合为特异性的序列。适合引物延伸反应的反应条件是本领域已知的。通常,样品多核苷酸包含样品中存在的任何多核苷酸,其可以包括或可以不包括靶多核苷酸。提取和纯化核酸的方法是本领域熟知的。例如,可以通过用苯酚、酚/氯仿/异戊醇或包括TRIzoI和TriReagent在内的类似试剂进行有机提取来纯化核酸。提取技术的其它非限制性的示例包括:(I)有机提取后进行乙醇沉淀,例如,使用酚/氯仿有机试剂(Ausubel等,1993),其使用或不使用自动核酸提取仪,例如,可获自AppliedBiosystems (Foster City, Calif.)的341型DNA提取仪;(2)固定相吸附法(美国专利号5,234,809 ;Walsh等,1991);和(3)盐诱导的核酸沉淀法(Miller等,(1988),此类沉淀法一般称为“盐析”法。核酸分离和/或纯化的另一例子包括使用可以特异性或非特异性结合核酸的磁性颗粒,继而使用磁体分离磁珠,并从磁珠上洗涤和洗脱核酸(例如参见美国专利号5,705,628)。在一些实施方式中,上述分离方法之前可以为酶消化步骤以帮助消除样品中不需要的蛋白质,例如用蛋白酶K或其它类似蛋白酶消化。例如,参见美国专利号7,001,724。如果需要的话,可以向裂解缓冲液中添加RNase抑制剂。对于某些细胞或样品类型,可能需要在流程中加入蛋白质变性/消化步骤。纯化方法可涉及分离DNA、RNA或两者。当在提取过程中或之后DNA和RNA被一起分离出来时,可以采用进一步的步骤来彼此分开地纯化其中一种或两种。也可产生所提取的核酸的子级分,例如,通过大小、序列或其它物理或化学特性进行纯化。除了初始的核酸分离步骤外,还可以在本发明的方法中的任意步骤之后进行核酸的纯化,例如用以去除过量的或不需要的试剂、反应物或产物。在一些实施方式中,将样品多核苷酸片段化为一群片段化的一个或多个特定大小范围的插入DNA分子。在一些实施方式中,片段产生自至少约1、10、100、1000、10000、100000,300000,500000或更多基因组当量的起始DNA。片段化可通过本领域已知的方法实现,包括化学、酶促和机械片段化。在一些实施方式中,片段具有约10至约10,000个核苷酸的平均长度。在一些实施方式中,片段具有约50至约2,000个核苷酸的平均长度。在一些实施方式中,片段具有约 100-2,500,10-1, 000、10-800、10-500、50-500、50-250 或 50-150个核苷酸的平均长度。在一些实施方式中,片段具有少于500个核苷酸,例如少于400个核苷酸、少于300个核苷酸、少于200个核苷酸或少于150个核苷酸的平均长度。在一些实施方式中,片段化以机械的方式完成,包括对样品多核苷酸进行超声处理。在一些实施方式中,片段化包括用一种或多种酶在适于该一种或多种酶产生双链核酸断裂的条件下处理样品多核苷酸。用于产生多核苷酸片段的酶的例子包括序列特异性和非序列特异性的核酸酶。核酸酶的非限制性示例包括DNase 1、片段化酶、限制性核酸内切酶、其变体及其组合。例如,在不存在Mg++和存在Mn++的情况下用DNase I消化可以诱导DNA中的随机双链断裂。在一些实施方式中,片段化包括用一种或多种限制性核酸内切酶处理样品多核苷酸。片段化可以产生具有5’突出端、3’突出端、平端或其组合的片段。在一些实施方式中,例如当片段化包括使用一种或多种限制性核酸内切酶时,样品多核苷酸的裂解会产生具有可预测序列的突出端。在一些实施方式中,该方法包括通过标准方法例如柱纯化或从琼脂糖凝胶分离对片段进行大小选择的步骤。在一些实施方式中,片段化DNA的5’和/或3’端核苷酸序列在与一个或多个衔接体寡核苷酸连接之前不进行修饰。例如,可以使用限制性核酸内切酶片段化产生可预测的突出端,随后与一个或多个含有与DNA片段上的可预测突出端互补的突出端的衔接体寡核苷酸连接。在另一个例子中,在用能够产生可预测的平端的酶裂解之后,可以进行平端DNA片段与含有平端的衔接体寡核苷酸的连接。在一些实施方式中,在与衔接体连接之前对片段化的DNA分子进行平端补齐(blunt-end polish)(或“末端修复”)以产生具有平端的DNA片段。可以通过与合适的酶进行孵育来完成平端补齐步骤,该酶例如是同时具有3' -5'核酸外切酶活性和5' -3'聚合酶活性的DNA聚合酶,例如T4聚合酶。在一些实施方式中,末端修复之后添加 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20 个或更多核苷酸,例如一个或多个腺嘌呤、一个或多个胸腺嘧啶、一个或多个鸟嘌呤、或一个或多个胞嘧啶,以产生突出端。具有突出端的DNA片段可与具有互补性突出端的一个或多个衔接体寡核苷酸连接,例如在连接反应中。例如,可使用不依赖于模板的聚合酶将单个腺嘌呤添加至末端修复的DNA片段的3’末端,随后与一个或多个衔接体连接,每个衔接体都在3’端具有胸腺嘧啶。在一些实施方式中,衔接体寡核苷酸可与平端双链DNA片段分子连接,所述平端双链DNA片段分子已经通过3’端延伸一个或多个核苷酸以及随后的5’磷酸化而得到修饰。在一些情况下,可以在含有镁的合适的缓冲液中,在一种或多种dNTP的存在下,使用聚合酶,例如Klenow聚合酶或在此提供的任意合适的聚合酶,或使用末端脱氧核苷酸转移酶,进行3’末端的延伸。在一些实施方式中,具有平端的靶多核苷酸与含有平端的一个或多个衔接体连接。可以在含有ATP和镁的合适的缓冲液中使用例如T4多核苷酸激酶进行DNA片段分子的5’端的磷酸化。可以任选地处理片段化的DNA分子以对5’端或3’端去磷酸,例如,通过使用本领域已知的酶,例如磷酸酶。在一些实施方式中,多个独立样品中的每一个都包含至少约lpg、10pg、100pg、lng、10ng、20ng、30ng、40ng、50ng、75ng、lOOng、150ng、200ng、250ng、300ng、400ng、500ng、1μ g、l.5μ g、2y g或更多的核酸材料。在一些实施方式中,多个独立样品中的每一个都包含少于约 lpg、10pg、lOOpg、lng、10ng、20ng、30ng、40ng、50ng、75ng、lOOng、150ng、200ng、250ng、300ng、400ng、500ng、I μ g、1.5 μ g、2 μ g 或更多的核酸。另一方面,本发明提供了可用于上述方法的组合物。本发明的组合物可包含任何一种或多种在此描述的元件。在一个实施方式中,组合物包含多个靶多核苷酸,每个靶多核苷酸包含选自多个条码序列的一个或多个条码序列,其中所述靶多核苷酸来自两个或多个不同样品,并且进一步地,其中可在组合测序反应中基于所述靶多核苷酸的序列中所含的单一条码以至少95%的准确度对每个所述多核苷酸所源自的样品进行鉴定。在一些实施方式中,组合物包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。一方面,本发明提供了含有上述方法和组合物中公开的任何一种或多种元件的试剂盒。在一些实施方式中,试剂盒在一个或多个容器中包含本发明的组合物。在一些实施方式中,本发明提供了包含在此描述的衔接体、引物和/或其它寡核苷酸的试剂盒。在一些实施方式中,该试剂盒还包含以下一种或多种:(a) DNA连接酶,(b) DNA依赖的DNA聚合酶,(c)RNA依赖的DNA聚合酶,(d)随机引物,(e)在3’端包含至少4个胸苷的引物,(f)DNA核酸内切酶,(g)具有3’到5’核酸外切酶活性的DNA依赖的DNA聚合酶,(h)多个引物,每个引物具有多个选定序列之一,(i)DNA激酶,(j)DNA核酸外切酶,(k)磁珠,(I)具有RNaseH活性的酶,(m) RNA连接酶,和(η)适合所述试剂盒中包含的一种或多种元件的一种或多种缓冲液。衔接体、引物、其它寡核苷酸和试剂可以为但不限于任意上述公开的内容。该试剂盒的元件还可以以上述任何量和/或组合(例如在同一试剂盒中或同一容器中)进行提供,但不限于此。该试剂盒可进一步包含额外的试剂,例如上述那些,以供根据本发明方法使用。该试剂盒元件可在任何合适的容器中提供,包括但不限于试管、小瓶、烧瓶、瓶子、安瓿、注射器等等。试剂可按照可以直接在本发明的方法中使用的方式提供,或按照使用之前需要准备的方式提供,例如以冻干剂的重构形式。试剂可以以小份的方式提供,以用于单次应用,或以大份(stock)的方式提供,可从其获得多次应用,例如在多个反应中使用。在一个实施方式中,该试剂盒包含多个第一衔接体寡核苷酸及其使用说明,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。含有不同条码序列的第一衔接体可单独提供,或与一种或多种额外的具有不同条码序列的第一衔接体组合提供。在一些实施方式中,该试剂盒进一步包含多个第二衔接体寡核苷酸。第二衔接体寡核苷酸可以单独提供,或与一个或多个第一衔接体和/或一个或多个不同的第二衔接体组合提供。第一和第二衔接体的组合可以按照上述组合进行提供。
实施例下述实施例是出于描述本发明的多个实施方式的目的而给出的,并不意味着以任何方式限制本发明。这些实施例和在此描述的方法是优选实施方式的现有代表,是示例性的,并不意味着对本发明的范围进行限制。本领域技术人员将会想到包含在由权利要求范围定义的本发明精神内的改变和其它应用。
实施例1:样品核酸的片段化和修复本实施例中使用的包含靶多核苷酸的样品(“样品”)是人基因组DNA。为了将核酸片段化,将I μ g_5 μ g在120 μ L的TE中稀释,并使用Covaris S系列声波仪(Covaris,Inc.)对稀释液进行机械片段化,其参数如下:工作周期=10,强度=5,循环/爆发=100,时间=10 分钟,样品体积=120 μ L。用 SPRI 珠(Beckman Coulter, Inc.),以 1: 1.8(样品:珠)的比例纯化片段化的核酸。用40μ L的TE从珠上洗脱DNA,并对其进行定量,例如通过使用Nanodrop、Quibit或类似DNA定量设备,或通过分光光度法。然后使用特异性消除突出端并将末端残基恢复为合适的5’磷酸化和3’羟基构型的酶混合物,对具有5’突出端、3’突出端、非磷酸化的3’端和/或磷酸化的3’端的片段化产物进行末端修复。对使用Quick Blunting 试剂盒(New England Biolabs, Inc.)的末端修复而言,将 100_200ng 片段化的DNA与1.25 μ LlOX快速平端缓冲液、1.25 μ LlmMdNTP混合物和水混合至终体积为12 μ L0将该组合进行充分混合,在管中旋转,并加入0.5 μ L的快速平端酶(Τ4 DNA聚合酶和Τ4多核苷酸激酶的组合),然后在室温下孵育30分钟,并于70°C灭活10分钟。根据本实施例的方法制备的核酸可储存在_20°C,或立即用于接下来的连接反应以将靶多核苷酸片段与衔接体连接。该过程中的各步骤的图示,包括片段化、末端修复、衔接体连接、衔接体补平、扩增和测序,在图1中示出。
实施例2:靶多核苷酸与衔接体的比例对文库构建的影响本实施例考察了靶多核苷酸与衔接体的不同比例对构建衔接体标记的靶多核苷酸集合(或“文库”)的影响。本实施例中使用的包含靶多核苷酸的样品(“样品”)如实施例I所述制备。本实施例中的第一衔接体由SEQ ID NO:7组成。第二衔接体由SEQ ID NO:8组成。本实施例的扩增步骤中使用的引物之一由SEQ ID NO:9组成,而引物对中的另一个引物由SEQ ID N0:10组成。连接反应物如此制备,使得每个含有10 μ L 2Χ连接缓冲液、4 μ L样品核酸、4 μ L组合的衔接体、I μ L的水(在缺少样品或衔接体的反应中为5 μ L)和I μ L连接酶。除了缓冲液、水和连接酶外,检测的反应物还包括:无样品(反应1-4),20ng样品(反应5-8),和200ng样品(反应9-12)与(按照反应顺序)I μ M衔接体、0.2 μ M衔接体、0.04 μ M衔接体或0.008 μ M衔接体混合。除了缓冲液、水和连接酶外,另外的对照按反应序号由以下组成:(13) 200ng的样品不加衔接体,(14) 200ng的样品只加I μ M第一衔接体,(15)200叩的样品只加11^第二衔接体,(16)只有水,(17)只有I μ M第一衔接体,和(18)只有I μ M第二衔接体。连接反应物于室温下孵育10分钟。然后对连接产物进行扩增步骤,其中每个扩增反应含有3μ L水、2μ L5X PCR缓冲液、I μ L 25mM MgC12、I μ LlO μ M第一引物、I μ L 10μ M 第二引物、0.5μ L IOmM dNTP.0.5μΜ DMS0、0.1 μ L Expand 酶混合物、0.1 μ L Taq聚合酶和I μ L的一种连接反应物。然后使扩增反应混合物经历下述热循环程序:72°C 2分钟,95°C 2分钟,I个循环;95°C 30秒,60°C 30秒,72°C I分钟,10个循环;950C 30秒,60°C 30秒,72°C 70秒,20个循环;72°C 7分钟;在10°C下保持直至下一步。该过程的第一个循环可使用与5’末端连接的衔接体作为模板来延伸靶多核苷酸的3’末端(“补平”反应),从而产生双链DNA衔接体标签。在热循环的最后,往每个反应中加入2 μ L的6Χ加样染料,并将5 μ L所得到的混合物加样至在TAE中的2 %琼脂糖凝胶上。对凝胶成像,以显示由连接和扩增产生的DNA产物。样品结果示于图2Α中。图2Α的上半部分在自左至右的泳道中包含:分子量标准(ladder)、反应1_9和分子量标准。图2A的下半部分在自左至右的泳道中包含:分子量标准、反应10-18和分子量标准。泳道1-4和13-18表明,两种样品核酸和两种衔接体都是有效扩增靶多核苷酸所需要的。图2B除了含有分子量标准的泳道外,还以自左至右的顺序提供了反应1-12的并排比较。结果表明,在这些条件下,可以使用第一和第二发夹衔接体来获得扩增的文库,较高的样品量会降低引物二聚体的形成,且随着衔接体输入的减少,扩增产率维持相对恒定。
实施例3:条码化的衔接体和样品来源鉴定使用标准方法从来源于16名个体的样品中分离核酸。分离的多核苷酸样品独立地按实施例1所述进行处理。然后如实施例2所述将衔接体连接到靶多核苷酸,其中每个样品与具有不同条码的第一衔接体和由SEQ ID NO:8组成的第二衔接体连接。第一衔接体被独立地分配给每个样品,并具有SEQ ID NO:11-26所提供的序列。然后如实施例2所述,通过使用衔接体序列作为模板进行3’末端延伸,对具有含衔接体序列的5’突出端的靶多核苷酸进行补平。然后同样如实施例2所述,使用一对引物对靶多核苷酸进行PCR扩增,一条引物含有SEQ ID NO:84,而另一条引物含有SEQ ID NO:85。然后合并扩增产物,并按照Illumina的Solexa测序平台对其进行测序(例如参见www.1llumina.com)。然后基于测序阅读中所含的条码对合并的测序数据进行剖析,产生16个箱元(bin)的测序数据。然后将各个箱元进行组装,如同其各自是独立运行的一样,为来自单一合并的测序反应的16个独立样品提供分类的和比对的测序数据。
实施例4:含有异双链体的发夹衔接体的应用在本实施例中使用的包含靶多核苷酸的样品(“样品”)如实施例1所述制备。具有涉及两端、形成平端结构的茎的第一和第二发夹衔接体寡核苷酸如实施例2所述与靶多核苷酸连接。对于只具有5’磷酸的靶多核苷酸,只有衔接体的3’端与靶标连接。如图3所示,衔接体5’末端的可杂交区域包含RNA,而5’末端所杂交的序列则包含DNA。连接后,RNaseH裂解RNA-DNA杂双链体的RNA,去除来自连接的衔接体的二级结构。然后DNA聚合酶使用连接的衔接体剩下的序列作为模板延伸靶多核苷酸的3’末端,该步骤不需要任何链置换。按照实施例2所述进行该步骤,随后也可以使用与来自衔接体的序列杂交的引物进行扩增步骤。然后使用与来自衔接体的序列杂交的测序引物对得到的衔接体标记的寡核苷酸进行测序。在图3和图4中,SI(茎I的一半)可与SI’(茎I的另一半)杂交,S2(茎2的一半)可与S2’(茎2的另一半)杂交,LI是第一衔接体寡核苷酸的环序列,L2是第二衔接体寡核苷酸的环序列。类似地,在图5中,SI可与SI’杂交,LI是衔接体寡核苷酸的环序列。出于这些解释的目的,序列S1、S1’、S2和S2’分别对应于如上所述的序列A、A’、B 和 B,。
实施例5:对多种发夹衔接体设计的连接效率的评价在该实施例中,对具有不同核苷酸组成的发夹衔接体寡核苷酸与靶多核苷酸的连接效率进行了评价。每个连接反应包括靶多核苷酸和一对衔接体,其中所述对中的每个成员都具有不同的序列,但是共享指定的特征。如图7所示,该多种设计自左至右为:平端dU衔接体、胸腺嘧啶-突出端衔接体(与平端靶多核苷酸连接)、胸腺嘧啶-突出端衔接体(与末端修复的靶多核苷酸连接,所述靶多核苷酸经修饰具有3’腺嘌呤单碱基突出端)、双链体发夹衔接体和平端全DNA衔接体。平端dU衔接体在衔接体环的最5’端包括脱氧尿嘧啶核苷酸的二核苷酸(例如SEQ ID NO:27和SEQ ID NO:28)。使用UDG+APE1对连接材料的处理为接下来的补平反应裂解了 U碱基并打开了环(剩下的茎在补平反应所使用的72°C温度下解离)。胸腺嘧啶-突出端衔接体包括具有单胸腺嘧啶核苷酸的3’突出端的全DNA序列(例如SEQ ID N0:35和SEQ ID N036)。双链体发夹衔接体包括与短核苷酸(例如SEQID NO:39)杂交的具有茎和3’突出端的第一或第二发夹寡核苷酸(例如SEQ ID NO:37和SEQ ID NO:38),所述杂交包括短核苷酸的5’端与发夹寡核苷酸的3’端杂交以形成有效地具有单链断裂的茎。平端全DNA衔接体由DNA组成,其内部杂交形成平端发夹(例如SEQID NO:40和SEQ ID NO:41)。示例性的衔接体序列由SEQ ID NO:27-43提供。人基因组DNA按照实施例1进行片段化。为了对片段化的基因组DNA进行末端修复,将52 μ L 191ng/μ L片段化的人基因组DNA与20 μ LlOX快速平端缓冲液、20 μ L IOXdNTP和100 μ L水混合,其在进一步添加8 μ L快速平端酶混合物之前进行混合。末端修复反应在室温下孵育30分钟,75°C下20分钟。为了与胸腺嘧啶-突出端衔接体连接,通过添力口 2 μ L IOmM dATP (终浓度为 0.2mM)和 8 μ L 的 Klenow(3,- > 5’ 外切阴性)并在 37°C下孵育30分钟,然后75 °C 20分钟,对100 μ L末端修复的DNA进行修饰,使其具有单腺嘌呤核苷酸的3’突出端(“加尾”)。连接反应物的制备过程为合并10 μ L 2Χ连接缓冲液、4 μ L末端修复的DNA或加尾的DNA (共约200ng)、浓度为10 μ M的各0.2 μ L的成对的第一和第二衔接体和5 μ L水,然后进行混合,加入I μ L的T4DNA连接酶,并在室温下孵育10分钟。对于使用平端dU衔接体的连接反应,加入I μ L的尿嘧啶DNA糖基化酶(UDG)和无嘌呤核酸内切酶(APE)的混合物,随后在37°C下孵育10分钟。连接并在标明的位置裂解后,准备两个重复的反应,用于对每个衔接体类型的连接反应通过3’末端延伸补平5’突出端。使用一对扩增引物(SEQ ID NO:42和SEQ ID NO:43)通过PCR进一步扩增每个重复补平反应中的一个,而每个重复中的另一个则用于测定连接效率。每个补平/扩增反应含有8μ L水、2 μ L IOX扩增缓冲液、2 μ L25mM MgCl2、浓度为10 μ M的2 μ L每种扩增引物、2 μ L的一种连接反应物、I μ L DMSOUuL IOmM dNTP和0.2 μ L Taq聚合酶。补平/扩增反应物在72°C下孵育2分钟。扩增包括20个循环的94°C 30秒、60°C 30秒和72°C I分钟。将扩增反应物的等份在琼脂糖凝胶上电泳,其结果在图7中示出。通过定量PCR(qPCR)测定连接效率。连接效率定义为作为输入被添加至文库构建的靶分子在最终扩增的文库中的百分比。通过使用已存在的已知化合物及浓度的文库作为标准对其进行测定。使用该文库的稀释液来产生qPCR反应中的标准曲线。为了检测未知物,在末端修复、连接和补平后去除了经计算的部分靶输入。将来自该样品的qPCR信号标绘于标准曲线上,以确立正确连接的分子的量。测得的信号和已知输入之间的差异确立了连接效率。qPCR反应混合物包括12.5μ L 2Χ SYBR混合物(Clontech Laboratories,Inc.)、浓度为IOyM的0.5yL每种扩增引物、5yL模板(补平反应物的1/10稀释液、补平反应物的1/100稀释液、文库标准或用于无模板对照的水)和6.5 μ L水。使用标准方法进行qPCR反应物的扩增,每个衔接体设计的连接效率在图7中在各自设计的说明的下方给出。简而言之,对于平端dU衔接体、胸腺嘧啶-突出端衔接体(连接至平端的靶多核苷酸)、胸腺嘧啶-突出端衔接体(连接至末端修复的靶多核苷酸,该靶多核苷酸经修饰具有3’腺嘌呤单碱基突出端)、双链体发夹衔接体和平端全DNA衔接体,效率分别为约0.48%、0.0035%、0.20%,0.22%和0.22%。所有衔接体对都生成了可比的PCR扩增产物。通过琼脂糖凝胶分析对连接产物的检测表明存在很少或不存在衔接体二聚体。含有约为预期大小的靶插入片段的扩增产物也得到确认。图8显示了多种反应物的样品的凝胶,自左至右的泳道内容物如下:末端修复的人基因组DNA、平端全DNA衔接体、末端修复的和A-加尾的DNA、胸腺嘧啶突出端衔接体、分子量标准、不含衔接体的连接的末端修复的DNA、与平端全DNA衔接体连接的末端修复的DNA、不连接衔接体的末端修复的和A-加尾的DNA、与胸腺嘧啶突出端衔接体连接的末端修复的和A-加尾的DNA、和分子量标准。在一些实施方式中,一对双链体衔接体中的第一双链体衔接体包括具有茎和3’突出端的第一发夹寡核苷酸,该3’突出端包含与短配偶寡核苷酸杂交的条码,所述短配偶寡核苷酸包含与包括条码的3’突出端的全部或一部分互补的序列。包括两个寡核苷酸的双链体衔接体可具有5’或3’突出端,或在双链体中的两个寡核苷酸杂交时可具有平末端。第一双链体衔接体可以与第二双链体衔接体配对,该第二双链体衔接体与第一双链体衔接体相同或不同,且第二双链体衔接体可以含有或可以不含有条码。一般而言,第二双链体衔接体可以包括具有茎和与短核苷酸杂交的3’突出端的发夹寡核苷酸,从而杂交的寡核苷酸一起形成具有5’或3’突出端或平端的衔接体。包含具有条码并与短配偶寡核苷酸配对的发夹寡核苷酸的第一双链体衔接体的例子包括下述序列对:SEQ ID N0:44与SEQ ID NO:45、SEQ ID N0:46 与 SEQ ID NO:47、SEQ ID NO:48 与 SEQ ID NO:49、SEQ ID NO:50 与 SEQ IDNO:5USEQ ID NO:52 与 SEQ ID NO:53、SEQ ID N0:54 与 SEQ ID NO:55、SEQ ID NO:56 与SEQ ID NO:57、SEQ ID NO:58 与 SEQ ID NO:59、SEQ ID NO:60 与 SEQ ID NO:61、SEQ IDN0:62 与 SEQ ID NO:63、SEQ ID N0:64 与 SEQ ID NO:65、SEQ ID NO:66 与 SEQ ID NO:67、SEQ ID N0:68 与 SEQ ID NO:69、SEQ ID NO:70 与 SEQ ID NO:71、SEQ ID NO:72 与 SEQ IDN0:73和SEQ ID NO:74与SEQ ID NO:75。在这些序列中,通过双链体衔接体中每对寡核苷酸的发夹寡核苷酸的3’端的四种碱基来呈现条码,并通过双链体衔接体中每对寡核苷酸的短配偶寡核苷酸的5’端的四种碱基来呈现条码的互补序列。一般而言,一对中的每个发夹寡核苷酸与对应的短配偶寡核苷酸以1:1的比例混合。
实施例6:对含有RNA的发夹衔接体的连接效率的评价在该实施例中,如实施例5所述,对具有不同核苷酸组成的发夹衔接体寡核苷酸与靶多核苷酸的连接效率进行了评价。每个连接反应包括靶多核苷酸和一对衔接体,其中所述对中的每个成员都具有不同的序列,但是共享指定的特征。衔接体对包括平端全DNA衔接体和具有DNA = DNA末端的平端RNA衔接体。平端全DNA衔接体由DNA组成,其内部杂交形成平端发夹(SEQ ID NO:76和SEQ ID NO:77)。具有DNA = DNA末端的平端RNA衔接体包括茎,其一条链在含5个5’末端DNA碱基的5’末端具有10个RNA碱基,该链与全DNA的第二链(SEQ ID NO:80和SEQ ID NO:81)杂交。使用一对扩增引物(SEQ ID NO:82和SEQ ID NO:83)进行使用这些衔接体的连接反应物的扩增。衔接体和扩增引物序列的例子由 SEQ ID NO:76-83 提供。片段化的靶多核苷酸按照实施例5所述制备。片段化的DNA如实施例1所述进行末端修复,其中对每个反应合并4.2μ L 47.5ng/μ L片段化的基因组DNA、1.25 μ L IOX快速平端缓冲液、1.25 μ L ImM dNTP,5.3 μ L水,将其混合,并加入0.5 μ L快速平端酶。末端修复反应然后在室温(例如20°C -27°C )下孵育30分钟,然后在70°C下孵育10分钟。连接反应准备一式两份,使用全12.5 μ L的末端修复反应,合并12.5 μ L 2Χ快速连接酶缓冲液、浓度为10 μ M的各0.25 μ L衔接体对中的衔接体和1.25 μ L的快速连接酶。在扩增之前将连接反应在室温下孵育10分钟。在开始扩增过程前,用扩增反应混合物中的RNase H处理各重复中的一个连接反应物。然后对用RNase H处理的和未处理的反应物进行5’突出端补平和连接产物扩增。未用RNase H处理的样品包括59 μ L水、10 μ L IOx PCR缓冲液、3μ L 50mM MgCl2、浓度为 10 μ M 的各 5 μ L 每种扩增引物、5 μ LDMS0、2 μ L 1mM dNTP U μ LTaq聚合酶和10 μ L连接的模板。接受RNase H处理的样品包括58 μ L水、10 μ L IOx PCR缓冲液、3 μ L 50mMMgCl2、浓度为 10 μ M 的各 5 μ L 每种扩增引物、5 μ L DMS0、2 μ L IOmMdNTP、IyL Taq聚合酶、I μ I RNase H和10 μ L连接的模板。对于接受RNase H处理的样品,在用于扩增的热循环之前于37°C孵育10分钟(用作定量基准的非扩增的、RNase H处理的样品包括额外的72°C下2分钟的步骤,和10°C的维持步骤)。然后使扩增反应混合物经历下述热循环程序以用于补平和扩增:72°C 2分钟,I个循环;94°C 45秒、55°C 30秒和72°C 90秒,20个循环;72°C 7分钟,I个循环;和10°C维持。含有8 μ L PCR扩增反应样品的2%琼脂糖凝胶在图9中示出,其泳道自左至右对应于具有DNA: DNA末端的平端RNA衔接体连接产物、平端全DNA衔接体连接产物、和DNA分子量标准。衔接体的3’末端与靶标的5’末端之间的连接、靶DNA在一个末端的RNase H处理(在适用情况下)、补平和扩增反应的示意图在图10中提供。如实施例5所述,采用或不采用RNase H处理,检测每对衔接体的连接效率。本实施例中的每个qPCR反应包含5yL2X SYBR GreenMix、各0.4 μ L的每种扩增引物、2.2 μ L水和2 μ L稀释的连接反应物,每个qPCR反应总体积为10 μ L。RNase H处理的平端全DNA衔接体、未经RNase H处理的平端全DNA衔接体、RNase H处理的具有DNA = DNA末端的平端RNA衔接体和未经RNase H处理的具有DNA = DNA末端的平端RNA衔接体的连接效率分别为0.20%,0.37%,0.28%和0.13%。成功连接和扩增的片段可用作下一代序列文库。虽然在此展示和描述了本发明优选的实施方式,但是对本领域技术人员而言显然这些实施方式是仅以示例的方式给出的。本领域技术人员在不偏离本发明的情况下现在可以想到众多的变化、改变和替换。应当理解,在本发明的实践中可以使用在此描述的本发明实施方式的很多替代方式。以下权利要求用于限定本发明的范围,由此覆盖了这些权利要求的范围内的方法和结构及其等价物。
权利要求
1.一种多重测序方法,包括在单一反应室中对多个靶多核苷酸进行测序,其中所述靶多核苷酸来自两个或多个不同样品;以及基于所述靶多核苷酸序列中含有的单一条码,以至少95%的准确度对每个所述测序的靶多核苷酸所源自的样品进行鉴定。
2.权利要求1的方法,其中所述祀多核苷酸包含用于校正测序反应的一个或多个序列。
3.权利要求1的方法,其中每个条码在至少三个核苷酸位点处不同于所有其它条码。
4.权利要求1的方法,其中所述鉴定在所述条码中的核苷酸的突变或缺失之后是精确的。
5.一种从多个独立样品中产生衔接体标记的靶多核苷酸的方法,该方法包括: a)提供多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列;和 b)将至少一个所述第一衔接体寡核苷酸与每个所述样品的所述靶多核苷酸连接,从而没有条码序列与多于一个所述样品的所述靶多核苷酸连接。
6.权利要求5的方法,进一步包括(c)将多个第二衔接体寡核苷酸中的至少一个与来自步骤(b)的每个所述样品的所述靶多核苷酸连接,从而至少一些所述靶多核苷酸在一端包含所述第一衔接体寡核苷酸,并在另一端包含所述第二衔接体寡核苷酸。
7.权利要求6的方法,进一步包括合并来自步骤(c)的靶多核苷酸。
8.权利要求7的方法,进一步包括对所述合并池中的一个或多个所述多核苷酸进行测序。
9.权利要求8的方法,进一步包括基于其连接的条码序列鉴定靶多核苷酸所源自的样品O
10.权利要求5或6的方法,其中一个或多个所述衔接体寡核苷酸包含SEQID NO:1。
11.权利要求5或6的方法,其中一个或多个所述衔接体寡核苷酸包含SEQID NO:2。
12.权利要求5或6的方法,其中一个或多个所述衔接体寡核苷酸包含发夹结构。
13.权利要求5或6的方法,其中一个或多个所述衔接体寡核苷酸包含寡核苷酸双链体。
14.权利要求1或5的方法,其中所述条码序列的长度为至少3个核苷酸。
15.权利要求1或7的方法,其中基于所述条码序列合并所述靶多核苷酸,从而在合并池中所有四种碱基在沿着每个条码的一个或多个位点处均匀呈现。
16.权利要求1或5的方法,其中所述祀多核苷酸包含片段化的样品多核苷酸。
17.权利要求16的方法,其中所述片段化包括对所述样品多核苷酸进行超声处理。
18.权利要求16的方法,其中所述片段化包括用一种或多种限制性核酸内切酶处理所述样品多核苷酸。
19.权利要求16的方法,其中所述片段化包括在适合一种或多种酶产生随机双链核酸断裂的条件下用所述一种或多种酶处理所述样品多核苷酸。
20.权利要求19的方法,其中所述一种或多种酶选自:DNase1、片段化酶及其变体。
21.权利要求16的方法,其中所述片段具有10-10000个核苷酸的平均长度。
22.权利要求16的方法,其中所述片段具有100-2500个核苷酸的平均长度。
23.权利要求16的方法,其中所述片段具有50-500个核苷酸的平均长度。
24.权利要求12或13的方法,进一步包括执行使用所述一个或多个连接的衔接体寡核苷酸作为模板来延伸所述靶多核苷酸的一个或多个3’末端的步骤。
25.权利要求24的方法,进一步包括在所述延伸步骤后使用第一引物和第二引物扩增所述靶多核苷酸,其中所述第一引物含有可以与一个或多个所述第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步地,其中所述第二引物含有可以与一个或多个所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。
26.权利要求25的方法,其中一个或多个所述引物含有SEQID NO:1。
27.权利要求2 5的方法,其中一个或多个所述引物含有SEQID NO:2。
28.权利要求6的方法,其中每个所述第二衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。
29.权利要求28的方法,其中所述第一和第二衔接体寡核苷酸对包含不同的条码序列。
30.权利要求28的方法,其中所述第一和第二衔接体寡核苷酸对包含相同的条码序列。
31.权利要求1或5的方法,其中所述靶多核苷酸包含基因组DNA。
32.权利要求1或5的方法,其中所述靶多核苷酸包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体,或其组合。
33.权利要求1或5的方法,其中所述靶多核苷酸包含cDNA。
34.权利要求1或5的方法,其中所述样品包含由引物延伸反应产生的靶多核苷酸。
35.权利要求8的方法,其中所述测序包括测序引物的延伸,所述测序引物含有可与所述第一衔接体寡核苷酸和/或所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。
36.权利要求35的方法,其中所述测序引物含有SEQID NO:1或SEQ ID NO:2。
37.权利要求1或8的方法,其中所述测序包括校正步骤,其中所述校正基于所述条码序列中的一个或多个核苷酸位点处的每个核苷酸。
38.权利要求1或5的方法,其中每个所述样品包含少于500ng的核酸。
39.权利要求1或5的方法,其中所述多个条码序列包括选自下组的序列:AAA、TTT、CCC 和 GGG。
40.权利要求1或5的方法,其中所述多个条码序列包括选自下组的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC 和 TCGA。
41.权利要求1或5的方法,其中所述多个条码序列包括选自下组的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTAA、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。
42.一种为多重测序配置的组合物,其包含:多个靶多核苷酸,每个靶多核苷酸包含选自多个条码序列的一个或多个条码序列,其中所述靶多核苷酸来自两个或多个不同样品,并且进一步地,其中可在组合测序反应中基于所述靶多核苷酸的序列中所含的单一条码以至少95%的准确度鉴定每个所述多核苷酸所源自的样品。
43.权利要求42的组合物,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。
44.一种用于产生衔接体标记的靶多核苷酸的组合物,该组合物包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。
45.权利要求44的组合物,还包含多个第二衔接体寡核苷酸。
46.权利要求42或44的组合物,其中所述靶多核苷酸包含于流动池中。
47.权利要求44或45的组合物,其中一个或多个所述衔接体寡核苷酸包含SEQID NO:1o
48.权利要求44或45的组合物,其中一个或多个所述衔接体寡核苷酸包含SEQID NO:2。
49.权利要求44或45的组合物,其中一个或多个所述衔接体寡核苷酸包含发夹结构。
50.权利要求44或45的组合物,其中一个或多个所述衔接体寡核苷酸包含寡核苷酸双链体。
51.权利要求42或44的组合物,其中所述条码序列的长度为至少3个核苷酸。`
52.权利要求44的组合物,其中所述第一衔接体寡核苷酸以4的倍数分组,从而在沿着每个条码的每个位点处均匀呈现所有四种碱基。
53.权利要求45的组合物,其中每个所述第二衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。
54.权利要求53的组合物,其中所述第一和第二衔接体寡核苷酸对包含相同的条码序列。
55.权利要求53的组合物,其中所述第一和第二衔接体寡核苷酸对包含不同的条码序列。
56.权利要求49或50的组合物,还包含第一引物和第二引物,其中所述第一引物含有可以与一个或多个所述第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步地,其中所述第二引物含有可以与一个或多个所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。
57.权利要求56的组合物,其中所述引物之一包含SEQID N0:1。
58.权利要求56的组合物,其中所述引物之一包含SEQID NO:2。
59.权利要求49或50的组合物,还包含测序引物,所述测序引物含有可与所述第一衔接体寡核苷酸和/或所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。
60.权利要求42或44的组合物,其中所述多个条码序列包括选自下组的序列:AAA、TTT、CCC 和 GGG。
61.权利要求42或44的组合物,其中所述多个条码序列包括选自下组的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC 和 TCGA。
62.权利要求42或44的组合物,其中所述多个条码序列包括选自下组的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTAA、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。
63.一种用于产生衔接体标记的靶多核苷酸的试剂盒,该试剂盒包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列;及其使用说明。
64.权利要求63的试剂盒,还包含多个第二衔接体寡核苷酸。
65.权利要求63或64的试剂盒,其中一个或多个所述衔接体寡核苷酸包含SEQID NO:1
66.权利要求63或64的试剂盒,其中一个或多个所述衔接体寡核苷酸包含SEQID NO:2。
67.权利要求63或64的试 剂盒,其中一个或多个所述衔接体寡核苷酸包含发夹结构。
68.权利要求63或64的试剂盒,其中一个或多个所述衔接体寡核苷酸包含寡核苷酸双链体。
69.权利要求63的试剂盒,其中所述条码序列的长度为至少3个核苷酸。
70.权利要求63的试剂盒,其中所述第一衔接体寡核苷酸以4的倍数分组,从而所有四种碱基沿着每个条码在每个位点处均匀呈现。
71.权利要求64的试剂盒,其中每个所述第二衔接体寡核苷酸包含多个条码序列中的至少一个,其中所述多个条码序列中的每个条码序列在至少三个核苷酸位点处不同于所述多个条码序列中的所有其它条码序列。
72.权利要求71的试剂盒,其中所述第一和第二衔接体寡核苷酸对包含相同的条码序列。
73.权利要求71的试剂盒,其中所述第一和第二衔接体寡核苷酸对包含不同的条码序列。
74.权利要求67或68的试剂盒,还包含第一引物和第二引物,其中所述第一引物含有可以与一个或多个所述第一衔接体寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步地,其中所述第二引物含有可以与一个或多个所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。
75.权利要求74的试剂盒,其中所述引物之一包含SEQID N0:1。
76.权利要求74的试剂盒,其中所述引物之一包含SEQID NO:2。
77.权利要求67或68的试剂盒,还包含测序引物,所述测序引物含有可与所述第一衔接体寡核苷酸和/或所述第二衔接体寡核苷酸的互补序列的至少一部分杂交的序列。
78.权利要求77的试剂盒,其中所述测序引物含有SEQID NO:1或SEQ ID NO:2。
79.权利要求63的试剂盒,还包含以下一个或多个:(a)DNA连接酶,(b)DNA依赖的DNA聚合酶,(c) RNA依赖的DNA聚合酶,(d)随机引物,(e)在3’端包含至少4个胸苷的引物,(f)DNA核酸内切酶,(g)具有3’到5’核酸外切酶活性的DNA依赖的DNA聚合酶,(h)多个引物,每个引物具有多个选定序列之一,(i)DNA激酶,(j)DNA核酸外切酶,(k)磁珠,(I)具有RNase H活性的酶,(m) RNA连接酶,和(η)适合所述试剂盒中包含的一个或多个元件的一种或多种缓冲液。
80.权利要求63的试剂盒,其中所述多个条码序列包括选自下组的序列:AAA、TTT、CCC和 GGG。
81.权利要求63的试剂盒,其中所述多个条码序列包括选自下组的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC 和 TCGA。
82.权利要求63的试剂盒,其中所述多个条码序列包括选自下组的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTA A、GGAAG、GGCCT、GGGGA、GGTTG、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。
83.—种产生衔接体标记的靶多核苷酸的方法,该方法包括: a)提供多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含含有序列A的5’端和含有序列A’的3’端,并且进一步地,其中A可与A’杂交,A或A’之一包含DNA,且A或A’中的另一个包含RNA和5个`或更多个末端DNA核苷酸;和, b)将至少一个所述第一衔接体寡核苷酸与至少一个所述靶多核苷酸连接。
84.权利要求83的方法,进一步包括使用能够从RNA-DNA异双链体上裂解RNA的酶来裂解RNA的步骤。
85.权利要求84的方法,进一步包括执行使用所述一个或多个连接的衔接体寡核苷酸作为模板来延伸所述靶多核苷酸的一个或多个3’端的步骤。
86.权利要求83的方法,进一步包括将多个第二衔接体寡核苷酸中的至少一个与来自步骤(b)的每个所述样品的所述靶多核苷酸连接,从而至少一个所述靶多核苷酸在一端包含所述第一衔接体寡核苷酸,并在另一端包含所述第二衔接体寡核苷酸。
87.权利要求86的方法,其中每个所述第二衔接体寡核苷酸包含含有序列B的5’端和含有序列B’的3’端,并且进一步地,其中B可与B’杂交,B或B’之一包含DNA,且B或B’中的另一个包含RNA和5个或更多个末端DNA核苷酸。
88.权利要求83的方法,其中每个所述第一衔接体寡核苷酸包含条码序列。
89.一种用于产生衔接体标记的靶多核苷酸的组合物,该组合物包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含含有序列A的5’端和含有序列A’的3’端,并且进一步地,其中A可与A’杂交,A或A’之一包含DNA,且A或A’中的另一个包含RNA和5个或更多个末端DNA核苷酸。
90.权利要求89的组合物,还包括多个第二衔接体寡核苷酸,其中每个所述第二衔接体寡核苷酸包含含有序列B的5’端和含有序列B’的3’端,并且进一步地,其中B可与B’杂交,B或B’之一包含DNA,且B或B’中的另一个包含RNA和5个或更多个末端DNA核苷酸。
91.一种用于产生衔接体标记的靶多核苷酸的试剂盒,该试剂盒包含多个第一衔接体寡核苷酸,其中每个所述第一衔接体寡核苷酸包含含有序列A的5’端和含有序列A’的3’端,并且进一步地,其中A可与A’杂交,A或A’之一包含DNA,且A或A’中的另一个包含RNA和5个或更多个末端DNA核苷酸。
92.权利要求91 的试剂盒,还包含多个第二衔接体寡核苷酸,其中每个所述第二衔接体寡核苷酸包含含有序列B的5’端和含有序列B’的3’端,并且进一步地,其中B可与B’杂交,B或B’之一包含DNA,且B或B’中的另一个包含RNA和5个或更多个末端DNA核苷酸。
全文摘要
衔接体与靶多核苷酸连接以产生衔接体标记的多核苷酸。同时对衔接体标记的多核苷酸进行测序,并且基于条码序列对样品来源进行鉴定。
文档编号G01N33/48GK103119439SQ201180038529
公开日2013年5月22日 申请日期2011年6月8日 优先权日2010年6月8日
发明者克里斯多佛·莱蒙德, 努里斯·库恩, 吉尔·马格努斯 申请人:纽亘技术公司

  • 专利名称:检测太阳模拟器辐照均匀性和稳定性的装置的制作方法技术领域:本申请涉及一种检测设备,具体涉及一种用于检测太阳模拟器辐照均勻性和稳定 性的装置。背景技术:太阳模拟器是一种用来模拟太阳辐照的设备,目前绝大多数光伏企业使用太阳模 拟器代替
  • 专利名称:无嵌件固定螺母结构的电能表表壳的制作方法技术领域:本实用新型涉及电能表表壳,特别涉及无嵌件固定螺母结构的电能表表壳。背景技术:目前,电表行业大多数电能表表壳是采用螺母嵌件结构装配,表壳注塑难度较大,报废率较高。发明内容为了克服现有
  • 专利名称:旋转嵌入式地质取样器的制作方法技术领域:本实用新型涉及对地层检测技术领域,具体说是一种操作方便、取样准确的旋转嵌入式地质取样器。背景技术:目前,国内外地质考察中对深层岩心取样主要是采用钻机,对浅层岩心取样主要使用洛阳铲,钻机一般设
  • 专利名称:一种高速铁路线路护栏完整性自动检测装置及识别方法技术领域:本发明属于高速铁路基础设施检测领域,特别涉及一种高速铁路线路护栏完整自动性检测装置,以及应用于该自动检测装置的识别软件的识别方法。背景技术:护栏是高速铁路线路两侧重要的隔离
  • 专利名称:一种三轴气浮台转动角度的测量装置及测量方法技术领域:本发明涉及一种测量装置及测量方法,特别是关于一种三轴气浮台转动角度的测量装置及测量方法。 背景技术:目前在卫星研制过程中,需要利用卫星控制系统对卫星姿态进行控制,将卫星的姿态信息
  • 专利名称:探针卡用接触端子和探针卡的制作方法技术领域:本发明涉及探针卡用接触端子和探针卡。背景技术:为了进行形成于晶片的各半导体器件的检查,使用探测器作为检查装置。探测器具备载置晶片的基台和能够与该基台相对的探针卡。探针卡具备板状的基部;和
山东科威数控机床有限公司
全国服务热线:13062023238
电话:13062023238
地址:滕州市龙泉工业园68号
关键词:铣床数控铣床龙门铣床
公司二维码
Copyright 2010-2024 http://www.ruyicnc.com 版权所有 All rights reserved 鲁ICP备19044495号-12