专利名称:等位基因调用和倍性调用的方法
技术领域:
本发明大体上涉及获得和操纵用于医疗预测目的的高保真基因数据的领域。
背景技术:
2006年,在全球范围内大约进行了 800,000例体外受精(IVF)周期。其中大约 150,000个周期在美国进行,涉及植入前基因诊断(P⑶)的大约有10,000。目前的植入前基因诊断(PGD)技术不规范、价格昂贵而且非常不可靠筛查疾病相关基因座或非整倍体的错误率大约为10 %,每次筛查试验大约花费5,000美元,并且一对夫妇常常被迫选择是检测折磨约50%体外受精(IVF)胚胎的非整倍体,还是筛查单细胞疾病相关的基因座。为了平行筛查非整倍体、单基因疾病例如囊性纤维化,以及对通过全基因组关联研究已知多个基因标记的复杂疾病表型的敏感性,十分需要一种能可靠测定单细胞基因数据且不太昂贵的技术。今天大多数植入前基因诊断(PGD)的重点是高级别染色体异常,例如非整倍体以及以成功植入和带回家的婴儿为主要成果的平衡易位。植入前基因诊断(PGD)的另一个重点是基因疾病的筛查,其主要成果是父母一方或双方为携带者的健康婴儿不受基因遗传疾病的折磨。在这两种情况下,将转移和植入到母亲体内的基因不理想胚胎排除加强了这种期望成果的可能性。体外受精(IVF)过程中的植入前基因诊断(PGD)方法目前包括从早期胚胎的约8 个细胞中提取单细胞用于分析。从人类胚胎中分离单细胞的技术性很强,其目前在体外受精(IVF)诊所是常规性的。极体和卵裂球均已被成功分离。最常见的技术是从第3天的胚胎(6或8细胞阶段)中除去单卵裂球。将胚胎转移到特殊的细胞培养基(缺少钙和镁的标准培养基)内,并用酸性溶液、激光或机械技术在透明带中引入一个孔。然后,技术员使用活检吸管除去具有可见细胞核的单个卵裂球。采用各种技术检测单个(或偶尔多个)卵裂球的DNA特征。由于一个细胞只能提供单复制的DNA,直接检测DNA非常容易出错或者有噪音。十分需要一种可以校正或者使这种有噪音的基因测量更精确的技术。正常人的每个二倍体细胞中有两组23染色体,有一个复制来自一方父母。具有额外或缺失染色体的细胞状态的非整倍体,以及具有两个特定染色体均来源于一方父母的细胞状态的单亲二倍体,被认为是很大比例植入失败和流产以及一些遗传疾病的原因。只有当个体的特定细胞是非整倍体时,才说该个体表现为镶嵌性。除了增加成功怀孕的机会外, 值得一提的是,染色体异常的检测可以确定个体或胚胎的状态,例如唐氏综合征、克氏综合征和特纳综合征等。染色体异常的测试在潜在母亲的年龄增加时尤为重要35至40岁时, 估计有40%至50%的胚胎是不正常的,40岁以上时,超过一半的胚胎可能不正常。非整倍体的主要原因是在减数分裂过程中不分离。母体不分离构成所有不分离的约88%,其中约 65%发生在减数分裂I中,而23%发生在减数分裂II中。人类非整倍体的常见类型包括缘于减数分裂I不分离的三体、单体和单亲二体。在减数分裂II不分离中产生的一种特殊类型的三体或者M2三体中,一个额外的染色体与两个正常染色体中的一个相同。M2三体特别难以检测。非常需要一种更好的方法,其能以高精确度有效检测出大部分或全部染色体上许多或所有类型的非整倍体,包括既能区分非整倍体和整倍体,还能区分不同类型的非整倍体之间的方法。传统用于预测非整倍体和嵌合体的方法——核型分析,正让位于其它更高流通量、更符合成本效益的方法,例如流式细胞仪(FC)和荧光原位杂交(FISH)。目前,绝大多数的产前诊断使用可以确定大染色体畸变的荧光原位杂交(FISH),以及能够确定少量单核苷酸多态性(SNP)或其它等位基因调用的聚合酶链式反应/电泳。荧光原位杂交(FISH) 的一个优点是它比核型分析便宜,但该技术太过复杂和昂贵,以致通常只能选择小部分染色体测试(通常是染色体13、18、21、X、Y ;有时也为8、9、15、16、17、22);此外,荧光原位杂交(FISH)的专属性水平较低。目前大约75%的植入前基因诊断(PGD)使用荧光原位杂交 (FISH)测定高级别的染色体异常,例如非整倍体,其错误率约为10-15%。非常需要一种具有较高流通量、较低成本、更准确的用于筛查非整倍体的方法。根据0ΜΙΜ,与已知疾病相关的遗传等位基因的数目超过380,并且正稳步攀升。因此,分析胚胎DNA上的多位点或与特定表型相关的基因座变得越来越相关。植入前遗传学诊断对产前诊断的一个明确的优点是,一旦检测到不期望的表型,它可以避免一些有关可能的选择行为的伦理问题。需要一种方法,其在植入前阶段能对胚胎进行更广泛的基因分型。有许多改进的技术使得在一个或几个基因座上的遗传变异诊断能处于单细胞水平。这些包括分裂间期染色体转换、对比性基因组杂交、荧光聚合酶链式反应、小测序和全基因组扩增。由所有这些技术得到的数据其可靠性依赖于DNA制剂的质量。因此,需要更好的扩增单细胞DNA的制备方法和植入前基因诊断(PGD),并且正在研究中。所有的基因分型技术在用于单细胞、少量细胞或DNA片段时,都面临着完整性问题,最突出的是等位基因遗漏(ADO)。这在体外受精的情形下加剧,因为杂交反应的效率低,而且该技术必须操作迅速,以便在最大胚胎存活时间范围内对胚胎进行基因分型。十分需要一种方法,其在测量一个或少量细胞的基因数据,尤其是当存在时间限制时,能减轻高等位基因遗漏(ADO)率的问题。概述在本发明的一个具体实施方式
中,所披露的方法能使用次要的基因数据作为信息源,来重建不完整或有噪音的基因数据,包括确定个人等位基因、单倍体、序列、插入、缺失、 重复的特性,以及确定目标个体的染色体拷贝数,所有都具有高保真性。本文的重点在于来自人类主体的基因数据,更特别的是在于尚未植入的胚胎或发育中的胎儿,以及相关个体。 应当指出,所披露的方法适用于各种情形下一系列生物的基因数据。所述用于整理基因数据的技术与体外授精过程中的植入前诊断、与羊膜穿刺术配合的产前诊断、绒毛膜绒毛活检、胎儿组织采样和非侵入性产前诊断的情形最相关,其中少量胎儿遗传物质被从母体血液中分离。使用该方法可有助于重点诊断遗传疾病、染色体拷贝数的预测、缺陷或异常增加的可能性,以及预测个体对各种疾病和非疾病表型的易感性,从而强化临床和生活方式的决定。在本发明的一个具体实施方式
中,用于确定目标个体至少一个染色体倍性态的方法包括从目标个体以及从一个或多个相关个体获得基因数据;对目标个体的每个染色体
5创立至少一个倍性态假说的集合;使用一种或多种专业技术来确定集合中每个倍性态假说的统计概率,对于所使用的每种专业技术,考虑所获得的基因数据;对于每个倍性态假说, 组合由一种或多种专业技术测定的统计概率;以及基于每个倍性态假说的组合统计概率, 确定目标个体中每个染色体的倍性态。在本发明的一个具体实施方式
中,用于确定目标个体、目标个体的父母一方或双方,任选一个或多个相关个体的等位基因集合中等位基因状态的方法包括从目标个体、父母一方或双方、任何相关个体获得基因数据;对目标个体、父母一方或双方,任选一个或多个相关个体创立至少一个等位基因假说的集合,其中所述假说描述了等位基因集合中可能的等位基因状态;测定考虑了所得基因数据的假说集合中每个等位基因假说的统计概率; 以及基于每个等位基因假说的统计概率,确定目标个体、父母一方或双方和任选一个或多个相关个体的等位基因集合中每个等位基因的等位状态。在本发明的一个具体实施方式
中,用于确定目标个体至少一个染色体倍性态的方法包括从目标个体、目标个体的父母一方或双方、目标个体的一个或多个同胞获得基因数据,其中所述的基因数据包括涉及至少一个染色体的数据;通过使用一种或多种专业技术, 确定目标个体和目标个体一个或多个同胞的至少一个染色体的倍性态,其中所述的专业技术均不需要输入定相的基因数据;使用信息化方法,确定目标个体、目标个体的父母、目标个体一个或多个同胞的定相基因数据,所述由目标个体、目标个体的父母和目标个体一个或多个同胞获得的基因数据确定为那个染色体上的整倍体;以及使用一种或多种专业技术,再次确定目标个体至少一个染色体的倍性态,所述专业技术至少有一种需要输入定相的基因数据,和由目标个体、目标个体的父母、目标个体的一个或多个同胞确定的定相基因数据。在本发明的一个具体实施方式
中,该方法利用了目标胚胎的基因数据、来自母亲和父亲的基因数据例如二倍体组织样本,以及一种或多种如下的可能性基因数据的信息 来自父亲的精子、来自母亲的二倍体样本,或来源于母亲和父亲配子的相同或其它胚胎的卵裂球,联合减数分裂机理和目标胚胎DNA缺陷性测定的信息,以便以高度的可信度在关键基因座的位置用计算机模拟重建胚胎DNA。在本发明的一方面,来源于其它相关个体例如其它胚胎、兄弟和姐妹、祖父母或其它亲戚的基因数据,也可用来增加重建胚胎DNA的保真度。在本发明的一个具体实施方式
中,这些基因数据可用来测定个体一个或多个染色体的倍性态。在本发明的一方面,由一组相关个体测量的每个基因数据集合被用来增加其它基因数据的保真度。重要的是要注意本发明的一方面,父母和其它次要基因数据不仅可以重建测量不佳的单核苷酸多态性(SNP),而且可以重建插入、删除、重复和根本不能测量的单核苷酸多态性(SNP)或整个DNA区域。在本发明的另一个方面,目标个体的基因数据,连同相关个体的次要基因数据被用来测定个体一个、几个或所有染色体的倍性态或拷贝数。在本发明的一个具体实施方式
中,使用或未使用相关个体基因数据的胎儿或胚胎的染色体组数据可用来检测细胞是否为非整倍体,也就是说细胞内错误的染色体数目存在的地方,或者细胞中是否存在错误数目的性染色体。基因数据还可用来检测单亲源二体——存在两个特定染色体的状态,它们均来源于一对父母。这通过创立一组有关DNA潜在状态的假说来实现,并且测试看哪种假说具有最大的可能性给出真实的测量数据。要注意的是,使用高通量的基因分型数据来筛查非整倍体,既能用来自每个胚胎的单个卵裂球测量多种疾病相关的基因座,又可以筛查非整倍体。在本发明的一个具体实施方式
中,对存在于多个基因座上的扩增或未扩增基因物质数量的直接测量结果,可用于检测单倍体、单亲源二体、匹配的三体、不匹配的三体、四体和其它非整倍体状态。本发明的一个具体实施方式
利用了这样的事实,即在某些条件下,扩增的平均水平和测量信号输出结果不随染色体变化,从而在一组邻位基因座上测定的基因物质的平均数量与存在的同源染色体成比例,并且倍性态能以统计显著的形式被调用。在另一个具体实施方式
中,不同的等位基因具有不同统计学的特性扩增曲线,其给出了特定的亲代背景和特定的倍性态;这些特性差异可用来确定染色体的倍性态。在本发明的一个具体实施方式
中,如本发明一方面所确定的倍性态可用于为本发明的等位基因调用实施例选择适宜的输入。在本发明的另一方面,来自目标个体和/或一个或多个相关个体的定相的重建基因数据可用作本发明倍数体调用的输入。在本发明的一个具体实施方式
中,能以重复的方法将来自本发明一方面的输出结果作为输入来帮助本发明的其它方面选择适宜的输入。所属领域的普通技术人员将认识到,考虑到本发明的利益,本发明的各个方面和具体实施方式
可组合或单独实施。附图详述当前公开的具体实施方式
将参照附图做进一步说明,其中在几个视图中,相同的结构用相同的数字表示。所示附图不需要标比例,一般用加重代替来举例说明本发明公开的具体实施方式
的原理。附
图1显示了二体染色体的累积分布函数曲线。所述累积分布函数曲线显示了每个亲代背景。附图2A-2D显示了不同倍性态的染色体的累积分布函数曲线。附图2A显示了二体染色体的累积分布函数曲线。附图2B显示了缺对染色体的累积分布函数曲线。附图2C 显示了单体染色体的累积分布函数曲线。附图2D显示了母方三体染色体的累积分布函数曲线。不同亲代背景的累积分布函数曲线之间的关系随倍性态而改变。附图3显示了使用此处公开的全染色体中间技术(Whole Chromosome Mean)的各种倍性态的假说分布。显示了单体、二体和三体倍性态。附图4A和附图4B显示了使用此处公开的亲代存在技术的每个亲代的基因数据分布。附图4A显示了来自存在的每个亲代的基因数据分布。附图4B显示了每个亲代不存在时的基因数据分布。附图5显示了当使用亲代存在技术的基因数据存在或不存在时父方基因测量值分布的变化。附图6显示了一组单核苷酸多态性图。将一个输出通道的标准强度对其它作图。附图7显示了一组单核苷酸多态性图。将一个输出通道的标准强度对其它作图。附图8A-8C显示了不同倍性假说的等位基因数据的曲线拟合。附图8A显示了使用此处公开的Kernel法对五种不同倍性假说的等位基因数据的曲线拟合。附图8B显示了使用此处公开的高斯拟合的五种不同倍性假说的等位基因数据的曲线拟合。附图8C显示了由背景AAI BB-BB IAA测量的等位基因数据的直方图。附图9显示了减数分裂的图示。
附图IOA和IOB显示了对大单元等位基因调用可信度的真实命中率。附图IOA显示了对预期可信度作图的平均真实命中率。附图IOB显示了单元的相对群体。附图IlA和IlB显示了对小单元等位基因调用可信度的真实命中率。附图IlA显示了对预期可信度作图的平均真实命中率。附图IlB显示了单元的相对群体。附图12A和12B显示了用于确定转换位置的随染色体作图的等位基因可信度。附图12A显示了位于一个染色体上的作为邻位等位基因集合平均值的等位基因集合的调用可信度。该集合或等位基因使用不同的方法。附图12B显示了随染色体的转换位置。尽管上述确定的附图阐明了目前公开的具体实施方式
,但是,如在该讨论中所指出的,也可以预料到其它的具体实施方式
。本发明通过描述的方式提供了示例性但没有限制性的具体实施方式
。许多其它的变型和具体实施方式
可由所属领域的技术人员设计,并且落入了本发明具体实施方式
的原理范围和精髓内。详述在本发明的一个具体实施方式
中,可测定细胞或细胞集合的基因状态。拷贝数调用是测定特定细胞、细胞组或脱氧核糖核酸(DNA)集合中染色体数目和特征的概念。等位基因调用是测定等位基因集合中特定细胞、细胞组、DNA集合等位基因状态的概念,包括单核苷酸多态性(SNPs)、插入、缺失、重复、序列或其它碱基对信息。本发明可以测定单细胞或其它DNA小集合的非整倍体和等位基因调用,假设至少父母一方或双方的基因组是可用的。本发明的一些方面使用了在一组相关个体内有几乎相同的DNA集合的概念,而且使用基因数据的测量结果结合减数分裂机理的知识,有可能通过推理以比单独使用个体测量结果更高的精确度来测定相关个体的基因状态。这通过测定哪些相关个体的染色体片段涉及配子生成来实现,当需要时,在减数分裂过程中可能出现基因转换,从而预期相关个体的基因组片段与目标基因组部分几乎相同。这对于植入前基因诊断或产前诊断的情形特别有利,其中有限量的DNA是可用的,并且当测定目标倍性态时,这些情形中的胚胎或胎儿具有高的临床影响。有许多数学技术可测定来自目标基因数据集合的非整倍体状态。这些技术中的一部分在本发明中讨论,但同样能很好使用其它的技术。在本发明的一个具体实施方式
中,定性和/或定量数据均可使用。在本发明的一个具体实施方式
中,可使用亲代数据来推断可能测定不充分、不准确或根本没有测定的目标基因组数据。在一个具体实施方式
中,由一个或多个个体推断的基因数据可用来增加准确测定倍性态的可能性。在本发明的一个具体实施方式
中,可使用多种技术,其中每一种都能排除特定的倍性态,或测定特定倍性态的相对可能性,并且可将那些预测的概率组合,得到单独使用一种技术可能有的较高可信度的倍性态预测。可对每种染色体调用计算可信度。无论是由测序技术、基因分型阵列还是任意的其它技术得到,DNA测量都会包含一定程度的错误。特定DNA测量的相对可信度受许多因素影响,包括扩增方法、用来测定DNA 的技术、使用的原则、所使用DNA的用量、所使用DNA的完整性、操作者以及试剂的新鲜度, 这仅仅列举了一小部分。增加测量精确度的一种方法是基于相关个体基因状态的知识,使用利用了信息的技术推断目标DNA正确的基因状态。由于希望相关个体共享它们基因状态的特定方面,当一起考虑来自多个相关个体的基因数据时,有可能确定测量中的错误,并增加所有相关个体基因状态知识的精确性。此外,可对每个调用进行可信度计算。
在本发明的一些方面,目标个体是胚胎,并且将所公开的方法应用于胚胎基因数据的目的,是允许医生或其它代理人在体外受精(IVF)过程中应移植哪个胚胎作出有根据的选择。在本发明的另一方面,目标个体是胎儿,将所公开的方法应用于胎儿基因数据的目的,是允许医生或其它代理人在对可能的临床决定或采取其它与胎儿有关的行动时作出有根据的选择。SNP(单核苷酸多态性)是指能区分同种属的两个成员之间基因组的单核苷酸。该术语的使用不应隐含对每种变体出现的频率有任何限制。调用单核苷酸多态性(SNP)是指在考虑直接和间接证据后对特定碱基对的真实状态做决定的行为。序列表是指DNA序列或基因序列。其可指个体DNA分子或链的初级物理结构。基因座是指个体DNA有利的特定区域,其可指代单核苷酸多态性(SNP)、可能插入或缺失的位点,或者一些其它相关基因变体的位点。疾病相关的单核苷酸多态性(SNPs)也可以指疾病相关的基因座。等位基因是指占据特定基因座的基因。调用等位基因是指确定DNA特定基因座的基因态的行为。这可能涉及调用单核苷酸多态性(SNP)、大多数单核苷酸多态性(SNP),或确定所述基因座上是否存在插入或缺失,或确定所述基因座可能存在的插入的数目,或确定所述基因座是否存在一些其它的基因变体。正确的等位基因调用是指正确反映了个体真实基因物质真实状态的等位基因调用。整理基因数据是指去掉有缺陷的数据和改正部分或所有错误,或填补一个或多个基因座缺失数据的行为。在本发明的上下文中,这可能涉及使用相关个体的基因数据及此处描述的方法。增加等位基因调用的保真度是指整理关于等位基因集合基因数据的行为。有缺陷的基因数据是指下述任意的基因数据等位基因漏失、不确定的碱基对测量结果、不正确的碱基对测量结果、缺失的碱基对测量结果、不确定的插入或缺失测量结果、不确定的染色体片段拷贝数的测量结果、假信号、缺失的测量结果、其它错误或其组合。噪音基因数据是指有缺陷的基因数据,又称为不完全的基因数据。未整理的基因数据是指测量的基因数据,即没有使用方法校正原始基因数据中存在的噪音或错误;又称为未加工的基因数据。可信度是指被调用的单核苷酸多态性(SNP)、等位基因、等位基因集合或确定的染色体片段拷贝数目正确表示个体真实基因状态的统计概率。倍性调用又称“染色体拷贝数调用”或“拷贝数调用”(CNC),是确定细胞内存在的一个或多个染色体的数量和染色体特性的行为。非整倍体是指细胞内存在错误数目的染色体的状态。在人类身体细胞的情形下是指细胞不包含22对常染色体和一对性染色体的情形。在人类配子的情形下是指细胞不含有23对染色体之一的情形。当指代单染色体时,其是指存在的同源染色体多于或少于2的情形。
倍性态是指细胞中一个或多个染色体的数量和染色体特性。染色体特性是指所述染色体数目。正常人有22种有限的常染色体和两种性染色体。其还可以指染色体的亲代。还可以指从父母遗传的特定染色体。还可以指染色体的其它识别特征。基因物质的状态或简述为“基因态”是指DNA上一组单核苷酸多态性(SNP)的识别,其可指代基因物质的定相的单倍型,以及可指代DNA序列,包括插入、缺失、重复和突变。还可以指代一个或多个染色体、染色体片段或染色体片段集合的倍性态。等位基因数据是指涉及一组一个或多个等位基因的一组遗传型数据。其可指代定相的单倍型数据。其可指代单核苷酸多态性(SNP)特性,以及可指代DNA序列数据,包括插入、缺失、重复和突变。其可包括每个等位基因的亲代。等位基因状态是指基因在一组一个或多个等位基因中的真实状态。其可指代由等位基因数据描述的基因的真实状态。匹配的复制错误,又称“匹配染色体非整倍体”或“MCA”,是一个细胞含有两个相同或几乎相同的染色体的非整倍体状态。这种类型的非整倍体会出现在核分裂的配子生成过程中,可被称为核分裂的不分离错误。不匹配的复制错误,又称“独特的染色体非整倍体”或“UCA”,是一个细胞含有两个来自相同父母的,以及同源但不相同的染色体的非整倍体状态。这种类型的非整倍体会出现在减数分裂过程中,并且可被称为核分裂错误。镶嵌性是指在与其倍性态异种的胚胎或其它个体中的一组细胞。同源染色体是含有在减数分裂过程中能正常配对的基因集合的染色体。相同的染色体是含有同组基因,并且对于每个基因具有相同或几乎相同的相同等位基因集合的染色体。等位基因遗漏或“ADO”指未检测到特定等位基因上同源染色体的碱基对集合中的一个碱基对的状况。基因座漏失或“LD0”指来自特定等位基因上同源染色体的一组碱基对中两个碱基对均未被检测到的状况。同型组合的是指具有相同的等位基因作为相应的染色体基因座。杂合的是指具有不同的等位基因作为相应的染色体基因座。染色体区域是指染色体片段或整个染色体。染色体片段是指尺寸范围从一个碱基对到整个染色体的染色体部分。染色体既可指代整个染色体,还可以是染色体片段或一部分。复制份数是指染色体片段的拷贝数,可指相同的复制份数,或指染色体片段不同的同源复制份数,其中染色体片段的不同复制份数含有实质上相同集合的基因座集合,并且其中的一个或多个等位基因是不同的。要注意的是,在非整倍体的某些情况中,例如M2 复制错误,可能有一些特定染色体片段的复制份数是相同的,并且相同染色体片段的一些复制份数是不同的。单倍型是在相同染色体上一起传送的多个基因座的等位基因的组合。依赖在特定基因座集合之间出现的重组数目,单倍型可指仅2个基因座或者整个染色体。单倍型还可以指在单染色单体上统计相关的一组单核苷酸多态性(SNPs)。
单倍型数据又称“定相的数据”或“有序的基因数据”,是指来自二倍体或多倍体基因组上的单染色体的数据,即,分离的母方或父方二倍体基因组中染色体的复制。定相是指测定个人给出的无序的单倍型基因数据、二倍体(或多倍体)基因数据的行为。其可指代对于在一个染色体中发现的一组等位基因,测定等位基因的两个基因中哪个与个体的两个同源染色体之一有关联的行为。定相的数据是指单倍型已确定的基因数据。定相的等位基因调用数据是指等位基因状态已确定的等位基因数据,包括单倍型数据。在一个具体实施方式
中,使用基于信息学的方法测定的定相亲代等位基因调用数据在本发明的倍性调用方面可用作获得的基因数据。无序的基因数据是指由二倍体或多倍体基因组中的两个或多个染色体的测量结果得到的混合数据,例如在二倍体基因组中特殊染色体上的母方和父方的复制份数。“在个体中”、“个体的”、“在个体”、“来自个体”或“在个体上”的基因数据是指个体基因组的数据描述方面。其可指代一个或一组基因座,部分或整个序列,部分或整个染色体,或者整个基因组。假说是指在给定的染色体集合上的一组可能的倍性态,或者在给定的基因座集合上的一组可能的等位基因状态。可能性的集合可含有一个或多个元素。拷贝数假说又称“倍性态假说”,是指关于个体中有多少特定染色体复制份数的假说。还可以指代关于每条染色体特性的假说,包括每条染色体的亲代,以及亲代两条染色体中的哪条存在于个体中。还可以指关于来自相关个体的哪条染色体或染色体片段,如果有的话,与来自个体的特定染色体基因一致的假说。等位基因假说是指对于特定的等位基因集合可能有的等位基因状态。一组等位基因假说指一起描述等位基因集合中所有可能的等位基因状态的一组假说。还可以指关于来自相关个体的哪条染色体或染色体片段,如果有的话,与来自个体的特定染色体基因一致的假说。目标个体是指基因数据已测定的个体。在一种情况中,仅仅能得到来自目标个体的有限数量的DNA。在一种情况中,目标个体是胚胎或胎儿。在一些具体实施方式
中,可以有一个以上的目标个体。在一些具体实施方式
中,源于一对父母的每个儿童、胚胎、胎儿或精子可被看做目标个体。相关个体是指基因相关的,从而与目标个体分享单体域的任意个体。在一种情况中,相关个体可以是目标个体的基因父母,或者是由父母得到的任何基因物质,例如精子、 极体、胚胎、胎儿或儿童。其还可以指同胞或祖父母。同胞是指与所考虑个体父母相同的任意个体。在一些具体实施方式
中,其可指已出生的儿童、胚胎,或胎儿,或来源于已出生儿童、胚胎或胎儿的一个或多个细胞。同胞还可以指来源于父母一方的单倍体个体,例如精子、极体或任意其它单倍型基因物质的集合。个体可被看做是自己的同胞。父母是指个体的基因母亲或父亲。个体典型性的有两个父母,母亲和父亲。父母可被看做个体。亲代背景是指目标的父母任一方的两条相关染色体之一上的特定单核苷酸多态性(SNP)的基因状态。
如希望的发展又称为“正常发展”,是指成活的胚胎移植到子宫中并导致怀孕。还指继续怀孕并使得婴儿安全出生。还可指出生的婴儿没有染色体异常。还可指出生的婴儿没有其它不希望的基因状况,例如疾病相关联的基因。术语“如预期发展”包括任何父母或保健推进者希望的内容。在某些情形下,“如预期发展”指可用于医学研究或其它目的不能独立生存的或能生存的胚胎。插入到子宫是指在体外受精的背景下将胚胎转移到子宫腔的过程。临床决定是指所采取行动的结果会影响个体健康或生存的任意决定。在体外受精 (IVF)的情形中,临床决定指移植或不移植一个或多个胚胎的决定。在产前检查的情形中, 临床决定指对胎儿流产或不流产的决定。临床决定可指做进一步测试的决定。平台响应是指基因测量平台输入/输出特性的数学表征,并且可用作统计预知测量差异的量度。利用信息的方法是指旨在通过统计推断最可能的状态,而不是通过直接物理测量状态,来测定一个或多个等位基因上一个或多个染色体或等位基因状态的倍性态的方法。 在本发明的一个具体实施方式
中,利用信息的技术是本专利公开的一种。在本发明的一个具体实施方式
中,其可以是亲代支持 。专业技术是指用来测定基因状态的方法。在一个具体实施方式
中,其可指用来测定或帮助测定个体倍性态的方法。其可指算法、定量法、定性法和/或利用计算机的技术。通道强度是指由用来测量基因数据的方法输出的与特定等位基因、碱基对或其它基因标记相关的荧光强度或其它信号。其可指一组输出信息。在一个具体实施方式
中,其可指来自基因分型阵列的输出信息的集合。累积分布函数(CDF)曲线是指变量单调递增的右连概率分布,其中曲线上各点的 “y”坐标指变量取值小于或等于该点“χ”坐标时的概率。亲代背景亲代背景是指目标双亲之一的两个相关染色体每条染色体上的给定单核苷酸多态性(SNP)的基因状态。要注意的是,在一个具体实施方式
中,亲代背景不是指目标的等位基因状态,而是指父母的等位基因状态。特定单核苷酸多态性(SNP)的亲代背景可由四个碱基对组成,两个父方的,两个母方的;它们彼此可以是相同的或不同的。其通常被写为 "Hi1Hi21 f\f2”,其中Hi1和m2是两个母方染色体上特定SNP的基因状态,和f2是两个父方染色体上特定单核苷酸多态性(SNP)的基因状态。在一些具体实施方式
中,亲代背景可写为 "If2Im1Hi2”。要注意的是,下标“1”和“2”指第一和第二染色体上特定等位基因的基因型; 还要注意的是,选择哪条染色体标记为“ 1,,和哪条标记为“2”是任意的。要注意的是,在本发明中,A和B通常用来在属类上代表碱基对特性;A或B同样可代表C (胞核嘧啶)、G (鸟嘌呤)、A (腺嘌呤)或T (胸腺嘧啶)。例如,如果在特定等位基因上,母方的基因型是染色体上的T和同源染色体上的G,所述等位基因上的父方基因型在两条同源染色体上都是G,可以说目标个体的等位基因具有ABlBB的亲代背景。要注意的是, 理论上任意的四个等位基因均可能出现在特定的等位基因上,并因此可能例如在特定等位基因上对于母方具有AT基因型,对于父方具有GC基因型。然而,经验数据表明,大多数情况下在特定等位基因上仅观察到四个可能碱基对中的两个。在本发明中,尽管对所属领域的技术人员应显而易见的是,在考虑到该假说没有包括的情形后可以对这里公开的具体实
12施方式进行改进,但该讨论中假设在特定等位基因上只能观察到两个可能的碱基对。“亲代背景”是指具有相同亲代背景的目标单核苷酸多态性(SNP)的集合或子集。 例如,如果要测量目标个体特定染色体上的1000个等位基因,则背景AAlBB可指1000个等位基因组中所有等位基因的集合,其中目标母方的基因型为同型组合,目标父方的基因型为同型组合,但在所述基因座上的母方基因型和父方基因型是不同的。如果亲代数据没有被定相,从而AB = BA,那么有9种可能的亲代背景:AA|AA、AA|AB、AA|BB、AB|AA、AB|AB、 AB IBB,BB IAA,BB | AB和BB | BB。如果亲代数据被定相,从而AB乒BA,那么有16种不同可能的亲代背景:AA IAA,AAIAB,AA | BA,AA | BB,AB | AA,AB | AB,AB | BA,AB | BB,BA | AA,BA | AB,BA | BA、 BA|BB、BB|AA、BB|AB、BB|BA和BB|BB。排除性染色体上的一些单核苷酸多态性(SNP)后, 染色体上的每个单核苷酸多态性(SNP)等位基因具有这些亲代背景中的一个。亲代背景中父母一方为杂合的单核苷酸多态性(SNP)集合被称为杂合背景。假说假说是指可能的基因状态。其可指代可能的等位基因状态。假说的集合是指可能的基因状态的集合。在一些具体实施方式
中,假说的集合旨在使集合中的一个假说与任何特定个人的真实基因相对应。在一些具体实施方式
中,假说的集合旨在使每个可能的基因状态可用至少集合中的一个假说描述。在本发明的一些具体实施方式
中,本发明的一方面是测定哪个假说与所考察个体的真实基因状态相一致。在本发明的另一个具体实施方式
中,一个步骤包括创立假说。在一些具体实施方式
中,其可以是拷贝数假说。在一些具体实施方式
中,其可能涉及关于来自相关个体的哪种染色体片段与其它相关个体的哪些片段,如果有的话,基因相对应的假说。创立假说是指设置变量的极限,使得所有考虑中的可能基因状态的集合被那些变化包括。“拷贝数假说”,又称为“倍性假说“或“倍性态假说”,是指关于目标个体的特定染色体或染色体部分可能的倍性态的假说。其还可指个体一个以上的染色体的倍性态。拷贝数假说的集合是指这样的假说集合,其中每种假说对应于个体不同可能的倍性态。正常个体含有来自每个亲代的至少一个染色体。然而,由于减数分裂和有丝分裂的错误,个体可能有来自每个亲代的0、1、2或更多的特定染色体。事实上,很少见到来自亲代的两个以上的特定染色体。在本发明中,具体实施方式
仅考虑可能的假说,其中有0、1或2个特定染色体的复制份数来自亲代。在一些具体实施方式
中,对于特定的染色体,有9种可能的假说涉及母方来源的0、1或2个染色体的三种可能假说,乘以涉及父方来源的0、1或2个染色体的三种可能假说。用(m,f)表示假说,其中m是遗传自母亲特定染色体的数目,f是遗传自父亲特定染色体的数目。因此,这9种假说是(0,0)、(0,1) > (0,2), (1,0), (1,1)、(1,2), (2,0), 0,1),和0,2)。不同的假说对应不同的倍性态。例如,(1,1)指正常的二体染色体,(2,1)指母方的三体,以及(0,1)指父本单体。在一些具体实施方式
中,两个染色体遗传自一方父母,一个染色体遗传自另一方父母的情形可进一步分化为两种情形一种是两个染色体是相同的(匹配的复制错误),一种是两个染色体是同源但不同的(不匹配的复制错误)。在这些具体实施方式
中,有16种可能的假说。有可能使用其它的假说集合,并且对于所属领域的技术人员而言,在考虑了不同数量的假说后如何改进所公开的方法是显而易见的。在本发明的一些具体实施方式
中,倍性假说是指关于来自其它相关个体的哪种染色体对应目标个体基因组中发现的染色体的假说。在一些具体实施方式
中,所述方法的一个关键是预期相关个体能分享单体域的事实,使用来自相关个体的测量基因数据,以及利用目标个体和相关个体之间哪种单体域匹配的知识,有可能推断出与单独使用目标个体的基因测量结果相比可信度更高的目标个体的正确基因数据。等位基因假说,或称“等位基因状态假说”是指关于等位基因集合可能的等位基因状态的假说。在一些具体实施方式
中,如上所述的,该方法的一个关键是相关个体能分享单体域,这可帮助测量缺陷基因数据的重建。等位基因假说还可指关于来自相关个体的哪种染色体或染色体片段与来自个体的特定染色体对应的假说。减数分裂的理论告诉我们,个体中的每种染色体遗传自父母一方,并且几乎是与亲代染色体相同的副本。因此,如果父母的单倍型是已知的,即定相的父母基因型,那么孩子的基因型也能推断出。(术语孩子这里是指由两个配子组成的任意个体,一个配子来自母亲,一个配子来自父亲。)在本发明的一个具体实施方式
中,等位基因假说描述了在等位基因集合中可能的等位基因状态,包括单倍型,以及来自相关个体的哪种染色体能与含有等位基因集合的染色体匹配。一旦定义了假说集合,当在输入基因数据后操作算法时,它们可输出所考虑的每种假说的测定统计概率。各种假说的概率可通过数学计算测定,对于各种假说中的每一种, 如一个或多个专业技术、算法和/或本发明其它地方所述方法所描述的,概率值使用相关基因数据作为输入数据。一旦通过多个技术测定并估计了不同假说的概率,可将它们组合。对于每种假说, 这需要乘以由每种技术测定得到的概率。所述假说概率的产物可归一化。要注意的是,一种倍性假说是指染色体可能的倍性状态。“组合概率”的过程,又称为“组合假说”或组合专业技术的结果,是一个对所属线性代数领域的技术人员而言很熟悉的概念。组合概率一个可能的方式如下当使用专业技术来评估一组提供了一组基因数据的假说时,所述方法的输出结果是一组以一对一的形式与一组假说中的每个假说相关联的概率。当一组概率由第一种专业技术测定时,每一个概率与集合中的一种假说相关联,并与一组由第二种专业技术测定的概率组合,每种概率与相同的假说集合相关联,然后将两个概率集合相乘。这意味着,对于集合中的每个假说,由两种专业方法测定的与该假说相关的两个概率相乘在一起,然后相应的结果即输出概率。 该过程可扩展到任何数量的专业技术。如果只使用了一种专业技术,那么输出概率与输入概率相同。如果使用了两种以上的专业技术,那么可将相关概率同时相乘。可将结果归一化,使得假说集合中的假说概率之和为100%。在一些具体实施方式
中,如果特定假说的组合概率大于其它任意假说的组合概率,那么就可以考虑确定该假说为最具可能性的。在一些具体实施方式
中,如果归一化概率大于临界值,则可以将该假说确定为最具可能性的,并且可调用倍性态或其它基因态。在一个具体实施方式
中,这意味着与所述假说相关的染色体的数目和特性可被称为倍性态。在一个具体实施方式
中,这种可能意味着与所述假说相关的等位基因的特性可被称为等位基因状态。在一些具体实施方式
中,临界值可介于约50%至约80%之间。在一些具体实施方式
中,临界值可介于约80%至约90%之间。在一些具体实施方式
中,临界值可介于约90% 至约95%之间。在一些具体实施方式
中,临界值可介于约95%至约99%之间。在一些具体实施方式
中,临界值可介于约99%至约99. 9%之间。在一些具体实施方式
中,临界值可在约99. 9%以上。部分
具体实施例方式在本发明的一种具体实施方式
中,确定目标个体至少一个染色体倍性态的方法包括从目标个体和一个或多个相关个体得到基因数据;对于目标个体的每个染色体创立一组至少一个倍性态的假说;使用一个或多个专业技术来确定组中每个倍性态假说的统计概率,对于每个所使用的专业技术,给出获得的基因数据;组合由一个或多个专业技术确定的对于每个倍性态假说的统计概率;以及基于组合的每个倍性态假说的统计概率,确定目标个体每个染色体的倍性态。在一个具体实施方式
中,测定目标个体中每个染色体的倍性态可以在体外受精的背景下进行,其中所述的目标个体是胚胎。在一个具体实施方式
中,测定目标个体中每个染色体的倍性态可以在无创性产前诊断的背景下进行,其中所述的目标个体是胎儿。测定目标个体中染色体的倍性态可在筛查染色体状况的背景下进行,所述的染色体状况选自包括但不限于整倍体、缺对染色体、单体、单亲源二体、三体、匹配的三体、不匹配的三体、四体、 其它非整倍体、不平衡易位、缺失、插入、嵌合体及其组合。在一个具体实施方式
中,测定目标个体中染色体的倍性态可对多个胚胎进行,并可用来选择至少一种插入到子宫的胚胎。 在测定了目标个体每个染色体的倍性态后可作出临床决定。在本发明的一些具体实施方式
中,用来测定目标个体一个或多个染色体倍性态的方法可包括下列步骤首先,获得来自目标个体和来自一个或多个相关个体的基因数据。在一个具体实施方式
中,相关个体包括目标个体的双亲。在一个具体实施方式
中,相关个体包括目标个体的同胞。这种个体的基因数据可通过大量方式获得,包括但不限于其可以是来自基因分型平台的输出测量结果;其可以是测量个体基因物质的序列数据;其可以是计算机模拟的基因数据;其可以是来自用于清除基因数据的信息方法的输出数据,或者其可以来自其它来源。用于测量的基因物质可以用所属领域已知的技术来扩增。目标个体的基因数据可使用选自包括但不限于下列组的工具和或技术测量分子倒置探针(MIP)、基因分型微数列、TaqMan单核苷酸多态性(SNP)基因分型分析法、 Illumina基因分型体系、其它基因分型分析法、荧光原位杂交(FISH)、测序、其它高通量基因分型平台,及其组合。目标个体的基因数据可通过分析选自包括但不限于下列物质的组测量一个或多个来自个体的二倍体细胞、一个或多个来自目标个体的单倍体细胞、一个或多个来自目标个体的卵裂球、在目标个体中发现的额外细胞基因物质、在母方血液中发现的来自目标个体的额外细胞基因物质、在母方血液中发现的来自目标个体的细胞、已知来源于目标个体的基因物质,及其组合。相关个体的基因数据可通过分析选自包括但不限于下述物质的组测量相关个体的大量二倍体组织、一个或多个来自相关个体的二倍体细胞、 一个或多个取自相关个体的单倍体细胞、一个或多个由来自相关个体的配子创造的胚胎、 一个或多个取自例如胚胎的卵裂球、在相关个体中发现的额外细胞基因物质、已知来源于相关个体的基因物质,及其组合。第二,可对目标个体的每个染色体创立至少一个倍性态假说的集合。每个倍性态假说可涉及目标个体染色体一个可能的倍性态。假说的集合可包括目标个体的染色体可预期具有的所有可能的倍性态。
第三,使用一个或多个本发明所讨论的专业技术,可对集合中的每个倍性态假说测定统计概率。在一些具体实施方式
中,专业技术可涉及基于所得基因数据操作的算法,并且输出结果可以是对所考虑每个假说的测定统计概率。在一个具体实施方式
中,至少一种专业技术使用了定相的亲代等位基因调用数据,即,其使用了作为输入数据的来自目标个体父母的等位基因数据,其中等位基因数据的等倍型已被测定。在一个具体实施方式
中,至少一种专业技术对性染色体是特定的。测定概率的集合与假说的集合相对应。在一个具体实施方式
中,每个倍性态假说的统计概率可能涉及对一个或多个亲代背景作累积分布函数曲线图。在一个具体实施方式
中,测定每个假说倍性态的统计概率可能涉及将平均等位基因集合的基因分型输出数据的强度与预期强度进行比较。各种专业技术所隐含的数学在本发明的其它地方有描述。第四,组合测定概率的集合。对于每种假说而言,这需要将由每个技术测定的概率相乘,并且还可能涉及将假说归一化。在一些具体实施方式
中,可将概率相组合,并假设它们是相互独立的。然后,假说集合中的每种假说概率结果的集合作为组合的假说概率被输
出ο最后,将目标个体的倍性态确定为与概率最大的假说相关联的倍性态。在某些情况下,一个假说将有大于90 %的归一化组合概率。每种假说与一个倍性态相关联,所述的倍性态与归一化组合概率大于90%或一些可选择作为确定倍性态的其它临界值的假说相关联。在本发明的另一个具体实施方式
中,用来测定来自目标个体、目标个体的父母一方或双亲,以及可能来自一个或多个相关个体的等位基因集合的等位基因状态的方法包括从目标个体、父母一方或双亲,以及任意的相关个体获得基因数据;为目标个体、父母一方或双亲,任选地为一个或多个相关个体创立至少一个等位基因假说的集合,其中所述的假说描述了等位基因集合中可能的等位基因状态;测定给出了所得基因数据的假说集合中每个等位基因假说的统计概率;和基于每个等位基因假说的统计概率,确定目标个体、父母一方或双亲,以及任选地一个或多个相关个体等位基因集合中每个等位基因的等位基因状态。在一个具体实施方式
中,所述方法考虑了可能在减数分裂过程中出现的DNA基因转换的概率。在一个具体实施方式
中,所述方法可与测定一个或多个目标个体中存在的特定染色体片段拷贝数的方法同时或联合进行,其中两种方法使用来自作为基因数据源的一个或多个目标个体的相同的细胞或细胞组。在一个具体实施方式
中,等位基因状态的测定可在体外受精的情形下进行,其中至少一种目标个体是胚胎。在一个具体实施方式
中,等位基因状态的测定可在当至少一个目标个体是胚胎时进行,并且对一个或多个目标个体等位基因集合的等位基因状态进行测定,以选择体外受精(IVF)情形中至少一个用于转移的胚胎,其中所述的目标个体选自包括但不限于一个或多个来自相同父母的胚胎、一个或多个来自父方的精子,及其组合的组。 在一个具体实施方式
中,等位基因状态的测定可在无创性产前诊断的情形下进行,其中至少一种目标个体是胎儿。在一个具体实施方式
中,测定一个或多个目标个体等位基因组的等位基因状态可包括那些个体等位基因集合中的定相基因型。在对一个或多个目标个体等位基因集合的等位基因状态进行测定后,可作出临床决定。在本发明的一些具体实施方式
中,用于测定一个或多个目标个体、以及目标个体父母一方或双方等位基因集合中等位基因数据的方法可包括下述步骤首先,获得来自目标个体、来自父母一方或双方,以及来自零或多个相关个体的基因数据。这种个体的基因数据可用许多方法得到,包括但不限于基因分型平台的输出测量结果;其可以是对个体的基因物质测量的序列数据;其可以是计算机模拟的基因数据;其可以是来自旨在清除基因数据的信息方法的输出数据,或者其可以来自其它来源。在一个具体实施方式
中,所获得的基因数据可包括由基因分型阵列测量的单核苷酸多样性。在一个具体实施方式
中,所获得的基因数据可包括DNA序列数据,S卩,代表了个体DNA初级结构的测定基因序列。用于测量的基因物质可用所属领域已知的许多技术放大。在一个具体实施方式
中,目标个体是所有的同胞。在一个具体实施方式
中,对目标个体的一次或多次基因测量在单细胞上进行。在一个具体实施方式
中,可使用平台响应模型来测定给出了基因分型技术的观察基因测量结果和典型测量偏差的真实基因型的可能性。目标个体的基因数据可使用选自包括但不限于下列组的工具和或技术测量分子倒置探针(MIP)、基因分型微数列、TaqMan单核苷酸多态性(SNP)基因分型分析法、 Illumina基因分型体系、其它基因分型分析法、荧光原位杂交(FISH)、测序、其它高通量基因分型平台,及其组合。目标个体的基因数据可通过分析选自包括但不限于下列组的物质测量一个或多个来自目标个体的二倍体细胞、一个或多个来自目标个体的单倍体细胞、一个或多个来自目标个体的卵裂球、在目标个体中发现的额外细胞基因物质、在母方血液中发现的来自目标个体的额外细胞基因物质、在母方血液中发现的来自目标个体的细胞、已知来源于目标个体的基因物质,及其组合。相关个体的基因数据可通过分析选自包括但不限于下述组的物质测量相关个体的大量二倍体组织、一个或多个来自相关个体的二倍体细胞、一个或多个取自相关个体的单倍体细胞、一个或多个由来自相关个体的配子创造的胚胎、一个或多个取自这类胚胎的卵裂球、在相关个体中发现的额外细胞基因物质、已知来源于相关个体的基因物质,及其组合。第二,可对每个个体的等位基因集合创立多个等位基因假说的集合。每个等位基因假说是指所述个体的等位基因集合中的每个等位基因可能的特性。在一个具体实施方式
中,目标个体等位基因的特性包括等位基因的起源,即,等位基因基因起源的父母,以及等位基因基因起源的特定染色体。假说的集合可包括预期目标个体具有的等位基因集合中所有可能的等位基因状态。最后,每个等位基因假说的统计概率可在考虑所得基因数据后测定。特定假说的概率测定可通过本发明描述的任何算法完成,特别是那些在等位基因调用部分中的算法。 个体的等位基因假说的集合可包括个体等位基因集合中所有可能的等位基因状态。那些与目标个体有噪音的测量基因数据匹配更紧密的假说更可能被校正。与目标个体的真实基因数据正好对应的假说更可能以非常高的概率被测定。等位基因状态可确定为与具有最高概率的假说相对应的等位基因状态。在一些具体实施方式
中,等位基因状态可对等位基因集合的不同子集测定。亲代支持本发明的一些具体实施方式
可使用利用信息的亲代支持 (PS)法。在一些具体实施方式
中,亲代支持 法是可用来对一个或少量细胞以高准确度测定基因数据的方法的聚集,特别是测定疾病相关联的等位基因、其它有利的等位基因,和/或细胞的倍性态
亲代支持""法利用已知的亲代基因数据,即母亲和/或父亲的单倍体和/或二倍体基因数据,和减数分裂机理的知识,以及目标DNA、可能的一个或多个相关个体有缺陷的测量结果,以高度的可信度经计算机模拟来重建在多个等位基因上的基因型,和/或胚胎或任何目标细胞,以及关键基因座位点上的目标DNA的倍性态。亲代支持 法不仅可重建测定不充分的单核苷酸多态性,还可以重建根本没有测量的插入和缺失、单核苷酸多态性 (SNP)或DNA区域整体。此外,亲代支持 法即可测量多疾病相关联的基因座,还可筛查来自单细胞的非整倍体。在一些具体实施方式
中,亲代支持 法可用来表征在体外受精(IVF) 周中一个或多个来自胚胎活检的细胞,以确定一个或多个细胞的基因状况。亲代支持 法允许清除有噪音的基因数据。这可通过使用相关个体(父母)的基因型作为参考推断目标基因组(胚胎)正确的遗传等位基因来实现。亲代支持""在只有少量的基因物质可用(例如植入前基因诊断(PGD)),以及基因型的直接测量由于有限量的基因物质而具有固有噪音时特别相关。亲代支持 法能重建胚胎高度精确有序的二倍体等位基因序列,以及染色体片段的复制数,甚至是常规的、无序的二倍体测量结果也可用高效率的等位基因漏失、降低、易变的扩增偏差及其它错误表征。所述方法能同时采用基本的基因模型和测量误差的基本模型。基因模型可同时测定每个单核苷酸多态性(SNP)的等位基因概率和单核苷酸多态性(SNP)之间的基因转换概率。等位基因概率可在每个单核苷酸多态性(SNP)上利用由亲代得到的数据,以及利用了由HapMap数据库得到的数据单核苷酸多态性(SNP)之间的模型基因转换概率,如hternational HapMap Project所开发的。考虑到合适的基本基因模型和测量误差模型,通过对计算效率调整,可使用最大后验估计(MAP) 判断,来评估胚胎中每个单核苷酸多态性(SNP)上正确、有序的等位基因值。亲代支持 技术的一个方面是在一些使用亲代基因型背景的具体实施方式
中的染色体拷贝数调用算法。为了调用染色体拷贝数,所述算法可结合使用基因座遗漏(LDO) 的现象和预期的胚胎基因型分布。在全基因组扩增过程中,必然会出现基因座遗漏(LDO)。 基因座遗漏(LDO)率与来源的基因物质的拷贝数一致,即,较少的基因复制会导致较高的基因座遗漏(LD0),反之亦然。照这样,其遵照所述在胚胎中以典型模式表现的具有特定情形亲代基因型的基因座,并与等位基因对胚胎贡献的概率相关。例如,如果父母双方都具有同型组合BB状态,那么胚胎应决不会有AB或AA状态。在该情形中,A检测通道的测量结果预期具有由背景噪音和各种干扰信号确定的分布,但是没有有效的基因型。相反,如果父母双方都具有同型组合AA状态,那么胚胎应绝不会有AB或BB状态,并且A通道的测量结果预期具有可能给出特定全基因组扩增中基因座遗漏(LDO)率的最大强度。当胚胎的基础拷贝数状态不同于二体时,对应于特殊亲代背景的基因座会基于父母一方提供或缺少的额外等位基因内容以预期的模式表现。这允许对每个染色体或染色体片段的倍性态进行测定。 该方法一个具体实施方式
的细节在本发明的其它部分有记载。使用亲代背景的拷贝数调用亲代背景的概念在拷贝数调用(又称为“倍性测定”)的情形中很有用。当基因分型时,在对特定的倍性态进行测量时,第一亲代背景中的所有单核苷酸多态性(SNP)预期可在统计学上以相同的方式表现。相比之下,在特定情形中,一些来自第二亲代背景的单核苷酸多态性(SNP)集合在统计学上预期与在第一亲代背景中的那些表现不同,例如对于特定的倍性态,所述表现上的不同可能对于一个或一组特定倍性态而言是特有的。有许多统计技术可用来分析各种亲代背景中不同基因座的测量响应。在本发明的一些具体实施方式
中,可对每个假说的输出概率使用统计技术。在本发明的一些具体实施方式
中,可对每个假说的输出概率以及对所估计概率的可信度使用统计技术。当应用于个体时,有些技术不足以以特定水平的可信度测定特定染色体的倍性态。本发明一个方面的关键是基于这样的事实有些专门的专业技术特别善于确认或消除特定倍性态或倍性态集合的争议,但是在单独使用时不能正确测定倍性态。这与一些专业技术相比能较好区分彼此间大多数或所有的倍性态,但是在区分一个特定的倍性态子集时没有和一些特殊的专业技术同样高的可信度。有些方法使用一种普遍的技术来测定倍性态。但是,将适当的一组特殊专业技术结合,可比使用一种普遍的专业技术测定倍性更精确。例如,一种专业技术能以非常高的可信度确定目标是否为单体,第二种专业技术能以非常高的可信度确定目标是否为三体或四体,而第三种技术能以非常高的可信度检测单亲源二体。这些技术单独不能进行精确的倍性测定,但是当将这三种特殊的专业技术组合使用时,它们能以比使用一种能非常好区分所有倍性态的专业技术更高的精确度确定倍性调用。在本发明的一些具体实施方式
中,可组合多种技术的输出概率来实现高可信度的倍性态测定。在本发明的一些具体实施方式
中,每种技术对特定假说预测的概率可相乘在一起,所得结果被认为是所述假说的组合概率。与具有最高组合概率的假说相关联的倍性态可被称为正确的倍性态。如果能适当地选择专业技术的集合,那么概率的组合结果可比单个技术更精确地确定倍性态。在逆向的一些具体实施方式
中,来自一个以上技术的假说的概率可相乘,例如使用线性代数并再归一化,得到组合概率。在一个具体实施方式
中,概率的可信度能以与概率相同的方式组合。在本发明的一个具体实施方式
中,假说的概率可在它们为独立的假设下组合。在本发明的一些具体实施方式
中,一个或多个技术的输出结果可作为其它技术的输入数据。在本发明的一个具体实施方式
中,使用一个或一组专业技术得到的倍性调用可用来确定等位基因调用技术适宜的输入数据。在本发明的一个具体实施方式
中,来自等位基因调用技术的精准的基因数据输出结果可用作一个或一组专业倍性调用技术的输入数据。在本发明的一些具体实施方式
中,各种技术的使用可反复进行。在本发明的一些具体实施方式
中,倍性态能以高于约80%的可信度被调用。在本发明的一些具体实施方式
中,倍性态能以高于约90%的可信度被调用。在本发明的一些具体实施方式
中,倍性态能以高于约95 %的可信度被调用。在本发明的一些具体实施方式
中, 倍性态能以高于约99%的可信度被调用。在本发明的一些具体实施方式
中,倍性态能以高于约99. 9 %的可信度被调用。在本发明的一些具体实施方式
中,一个或一组等位基因可以高于约80 %的可信度被调用。在本发明的一些具体实施方式
中,等位基因可以高于约90 % 的可信度被调用。在本发明的一些具体实施方式
中,等位基因可以高于约95 %的可信度被调用。在本发明的一些具体实施方式
中,等位基因可以高于约99%的可信度被调用。在本发明的一些具体实施方式
中,等位基因可以高于约99. 9 %的可信度被调用。在本发明的一些具体实施方式
中,输出的等位基因调用数据是定相的,并从两个同源染色体中区分出基因数据。在本发明的一些具体实施方式
中,定相的等位基因调用数据是所有个体的输出结果。以下描述了几种可用来测定倍性态的统计技术。该列表不意欲作为可能的专业技术的穷举列表。有可能使用能辨认目标倍性态假说集合概率和/或可信度的任意统计技术。任意的下列技术均可组合,或者它们可与本发明未讨论的其它技术组合。排列技术基因座遗漏(LDO)率与来源基因物质的拷贝数相一致,即较少的染色体复制会导致较高的基因座遗漏(LDO),反之亦然。其遵照所述在胚胎中以典型模式表现的、具有特定情形亲代基因型的基因座,并与等位基因对胚胎贡献的概率相关。在本发明的一个具体实施方式
中被称为“排列技术”,其可能在各种亲代背景中使用基因座特有的行为来推断那些基因座的倍性态。特别地,该技术涉及对不同亲代背景的等位基因测量数据所观察分布之间的关系进行比较,以及确定哪种倍性态与分布之间观察到的关系集合相匹配。该技术在确定样本中存在的同源染色体时特别有用。通过对每个亲代背景作累积分布函数(CDF)曲线图,可以观察聚集在一起的各种背景。注意的是,累积分布函数(CDF)仅仅是设想和比较所观察到的等位基因测量数据分布的一种方式。例如,附图1显示了二体染色体的累积分布函数(CDF)曲线。特别地,附图1显示了来自亲代基因型(母亲I父亲)特定背景的等位基因测量数据是如何在胚胎中以典型的模式表现的,并与等位基因对胚胎贡献的概率相关。当所考虑的染色体是二体时,9个亲带背景被分类为5个簇族。在累积分布函数(CDF) 曲线图中,沿χ轴的独立变量是通道响应,而沿y轴的独立变量是在通道响应低于临界值情形下的等位基因百分比。例如,如果父母双方具有同型组合BB状态,那么胚胎应绝不会有AB或AA状态。在该情形中,A检测通道的测量结果可能具有由背景噪音和各种干扰信号确定的分布,但是无有效的基因型。相反,如果父母双方具有同型组合AA状态,那么胚胎应绝不会有AB或BB 状态,并且A通道的测量结果预期具有可能给出特定全基因组扩增中基因座遗漏(LDO)率的最大强度。当胚胎的基础拷贝数状态不同于二体时,对应于特殊亲代背景的基因座会基于父母一方提供或缺少的额外等位基因内容以预期的模式表现。微阵探针强度对检测通道的累积密度函数图由亲代基因型背景分离,举例说明了所述概念(见附图幻。特别地,附图 2A-2D显示了累积分布函数(CDF)图背景曲线之间的关系如何预期地随染色体拷贝数的变化而变化。附图2A显示了二体染色体的累积分布函数曲线,附图2B显示了缺对染色体的累积分布函数曲线,附图2C显示了单体染色体的累积分布函数曲线,附图2D显示了母方三体染色体的累积分布函数曲线。每个背景用M1M2IF1F2表示,其中M1和M2是母方的等位基因,F1和F2是亲代等位基因。在二体染色体中,有9种可能的亲代背景(参见附图2A-2D图例),其中,在累积分布函数(CDF)图中形成了 5种簇族。在缺对染色体的情形中,所有的亲代背景曲线在CDF图中与背景聚集。在单体的情形中,可以预测只能看到三个背景曲线簇族,因为去除一个亲代背景会导致仅三种可能的胚胎结果同型组合AA、杂合AB和同型组合BB。可以预测,三体也具有不同的累积分布函数(CDF)-曲线分布,由于单检测通道有额外的等位基因以及仅来自父母一方,因此有七个簇族。附图2A-2D举例说明了一组预期的最简洁的图解,其中倍性态可通过视检的绘图调用。在某些情形下,来自样本的数据不像附图2A-2D中显示的数据那样容易诠释。许多因素会影响数据的清楚性,包括引起信号具有非常低信号-噪音比率的卵裂球降解DNA ; 经常在体外受精(IVF)过程中遇到的部分倍性错误,例如易位;以及可能由细胞核内染色体物理位置或表观遗传现象,例如不同的甲基化水平和染色体周围的蛋白质结构引起的染色体特有的和染色体片段特有的扩增偏差。这些和其它现象的杂合会对同源对中的每个染色体有不同的影响,在该情形下,它们难以与倍性态区分。在本发明的一个具体实施方式
中,为了调解这些不同的影响,可使用统计算法来分析例如附图2A-2D中举例说明的数据, 并得到倍性测定连同所述测定准确性的可信度。在本发明的一个具体实施方式
中,为了使一个样本和另一个样本之间,或者细胞株样本和卵裂球之间可能存在的差异更稳定,所述算法可能是非参数的,并且不依赖于在特定样本中改善并应用于其它样本的统计学或临界值的预期值。在本发明的一个具体实施方式
中,所述算法使用分位点-秩统计学(非参数排列法),首先是计算每个背景累积分布函数(CDF)曲线的秩,其强度为背景情况中约80%的密度约为1。在另一个具体实施方式
中,该算法可计算每个背景累积分布函数(CDF)曲线的秩,其强度为背景情况中约90%的密度约为1。在另一个具体实施方式
中,所述算法可计算每个背景累积分布函数(CDF)曲线的秩,其强度为背景情况中约95%的密度约为1。然后,该算法将数据的秩与特定的各种倍性态的预期秩进行对比。例如,如果AB IBB背景和BB IAA背景具有相同的秩,其不同于期望的二体,但是与母方的三体一致。这样,可以检查每个样本的数据分布,来确定两个累积分布函数(CDF)曲线随机交换秩的概率,然后,使用该信息结合秩统计学来确定拷贝数调用和计算明确的可信度。结合每个调用明确的可信度,该统计技术的结果对于染色体拷贝数的诊断非常精确。由于排列技术对于特定染色体的拷贝数调用与所有其它染色体之间是独立的,不失一般性,其可能集中于单个特定染色体。对于特定的母方基因型gM和父方基因型gF,可以使用gM I gF来表示亲代背景,例如AB IBB指母亲的基因型为AB,而父亲的基因型为BB的单核苷酸多态性(SNP)。对于特定的背景gM|gF,用示背景gM|gF中所有单核苷酸多态性(SNP)的 χ-通道响应集合。同样地,可以使用YgM|gF表示y_通道响应的集合。此外,对于特定的正数 C,可定义Itx丨讲(C)= 2Le.XgM:|gF 1{χ<。}和niM:|gP(c) = ^e^eMJsF I {y ^ c}还可使用NgM|gF来表示背景gM|gF中单核苷酸多态性(SNP)的数目。其可定义为FTmisp(C) = (^Igp(C)) / ( NgM|gF)和略丨gF(C) = (n^l6F(c)) /
(NgM|gF)可以将慰M|sP(C),《[email protected](C)看做χ-通道、y-通道、点c的背景gM| gF响应的经
验累积分布函数(⑶F)值。可将真实的累积分布函数(⑶F)表示为P;lgIr(c),和P^fgp(C)算法算法背后的主要思想是,对于特定的正整数C,阶层PjUAA(C)、
ΡΙΒΙΑΑΟΟ、PSBIAACc)^ PJUIABCc)^ FabiabCc)^ PBBIABCc)^ Prnm^ F^BiraCc)' 和I^b1bb(C),将基于染色体拷贝数变化。y-通道亦然。在本发明的一个具体实施方式
中,可以使用该阶层来测定染色体拷贝数。由于χ-通道和y_通道是独立处理的,接下来的讨论将仅集中于χ-通道。
计算第一步是对c取使背景之间分辨率最大的值,即c的值使得两种极端背景AAlAA 和BBlBB之间的差别最大。更准确地可定义为
权利要求
1.一种确定目标个体中至少一个染色体的倍性态的方法,该方法包含从目标个体以及从一个或多个相关个体获得基因数据;对目标个体的每个染色体创立至少一个倍性态假说的集合;使用一种或多种专业技术来确定集合中每个倍性态假说的统计概率,对于所使用的每种专业技术,考虑所获得的基因数据;对于每个倍性态假说,组合由一种或多种专业技术确定的统计概率;以及基于每个倍性态假说的组合统计概率,确定目标个体中每个染色体的倍性态。
2.根据权利要求1中所述的方法,其中相关个体包括目标个体的父母双方。
3.根据权利要求1中所述的方法,其中相关个体包括目标个体的同胞。
4.根据权利要求1中所述的方法,其中倍性态测定在体外受精的情形下进行,并且目标个体是胚胎。
5.根据权利要求1中所述的方法,其中倍性态测定在无创性产前诊断的情形下进行, 并且目标个体是胎儿。
6.根据权利要求1中所述的方法,其中在确定了目标个体中每个染色体的倍性态后做出临床决定。
7.根据权利要求1中所述的方法,其中倍性态测定对至少一个胚胎进行,并且如果有胚胎,则用于确定哪个胚胎移入到子宫。
8.根据权利要求1中所述的方法,其中对于至少一种专业技术,每个倍性态假说统计概率的测定包括对多个亲代背景比较观察到的等位基因测量数据分布之间的关系。
9.根据权利要求1中所述的方法,其中对于至少一种专业技术,每个倍性态假说统计概率的测定包括将对等位基因集合取平均值的基因分型输出数据的强度与预期强度进行对比。
10.根据权利要求1中所述的方法,其中至少一种专业技术使用定相的亲代等位基因调用数据。
11.根据权利要求1中所述的方法,其中至少一种专业技术对性染色体是特定的。
12.根据权利要求1中所述的方法,其中目标个体中每个染色体倍性态的确定是在筛查染色体状态的条件下进行的,所述染色体状态选自整倍体、缺对染色体、单体、单亲源二体、三体、匹配的复制错误、不匹配的复制错误、四体、其它非整倍体、不平衡易位、删除、插入、嵌合体及其组合。
13.一种确定目标个体、目标个体的父母一方或双方,任选一个或多个相关个体的等位基因集合中等位基因状态的方法,包含从目标个体、父母一方或双方、任何相关个体获得基因数据;对目标个体、父母一方或双方,任选一个或多个相关个体创立至少一个等位基因假说的集合,其中所述假说描述了等位基因集合中可能的等位基因状态;测定考虑了所得基因数据的假说集合中每个等位基因假说的统计概率;以及基于每个等位基因假说的统计概率,确定目标个体、父母一方或双方,和任选一个或多个相关个体的等位基因集合中每个等位基因的等位状态。
14.根据权利要求13中所述的方法,其中相关个体是目标个体的同胞。
15.根据权利要求13中所述的方法,其中等位基因状态测定在体外受精的情形下进行,并且目标个体是胚胎。
16.根据权利要求13中所述的方法,其中等位基因状态测定在无创性产前诊断的情形下进行,并且目标个体是胎儿。
17.根据权利要求13中所述的方法,其中在确定了目标个体等位基因集合的等位基因状态后做出临床决定。
18.根据权利要求13中所述的方法,其中确定个体等位基因集合中每个等位基因的等位状态包括确定所述个体的一组等位基因上的定相基因型。
19.根据权利要求13中所述的方法,其中所得的基因数据包括由基因分型阵列和DNA 序列数据测量的单核苷酸多态性。
20.根据权利要求13中所述的方法,其中使用平台响应模型确定基因分型技术的特性测量偏差。
21.根据权利要求13中所述的方法,其中该方法考虑了可能在减数分裂过程中出现 DNA基因转换的概率。
22.根据权利要求13中所述的方法,其中目标个体是胚胎,并且确定目标个体等位基因集合中等位基因的状态,以选择至少一个在体外受精(IVF)情形中用于转移的胚胎,其中相关个体选自一个或多个来自相同亲代、来自父方的一个或多个精子及其组合的胚胎。
23.根据权利要求13中所述的方法,其中该方法与确定相关个体中存在的特定染色体片段许多复制份数的方法同时进行或联合进行,并且两种方法使用来自目标个体的相同细胞或细胞组作为基因数据来源。
24.一种确定目标个体中至少一个染色体的倍性态的方法,该方法包含从目标个体、从目标个体的父母双方以及从目标个体的一个或多个同胞获得基因数据,其中基因数据包括关于至少一个染色体的数据;通过使用一种或多种专业技术,确定目标个体以及目标个体一个或多个同胞至少一个染色体的倍性态,其中所述的专业技术均不需要定相的基因数据作为输入;使用信息化方法,确定目标个体、目标个体的父母、目标个体一个或多个同胞的定相的基因数据,所述由目标个体、目标个体的父母和目标个体一个或多个同胞获得的基因数据确定为那个染色体上的整倍体;以及使用一种或多种专业技术,再次确定目标个体至少一个染色体的倍性态,所述专业技术至少有一种需要输入定相的基因数据,和由目标个体、目标个体的父母、目标个体的一个或多个同胞确定的定相的基因数据。
25.根据权利要求M中所述的方法,其中确定的目标个体染色体倍性态被用来对目标个体做临床决定。
26.根据权利要求M中所述的方法,其中倍性态确定在体外受精的情形下进行,并且目标个体是胚胎。
全文摘要
本发明涉及进行等位基因调用、确定一个或少数细胞或当可用的基因数据数量有限时的倍性态的体系和方法。使用目标基因组之间可预期的相似性以及有关基因相关个体基因组的知识,可重建测量不充分或不准确的碱基对、缺失的等位基因和缺失的区域,以及确定单体型。在一个具体实施方式
中,使用来自父母双方和可能的一个或多个精子和/或同胞胚胎的基因数据,重建了胚胎细胞多个基因座上不完整的基因数据。在另一个具体实施方式
中,染色体的拷贝数可使用相同的输入数据确定。在另一个具体实施方式
中,这些测定是为了体外受精(IVF)过程中的胚胎选择、无创性产前诊断或进行表型预测。
文档编号G01N33/483GK102171565SQ200980139431
公开日2011年8月31日 申请日期2009年8月4日 优先权日2008年8月4日
发明者A·瑞安, G·杰梅罗斯, J·斯威特凯德-辛格, M·班杰维齐, M·罗比诺威特茨 申请人:吉恩安全网络公司