专利名称:用于预测hiv病毒趋向性和分类氨基酸序列的技术的制作方法
用于预测HIV病毒趋向性和分类氨基酸序列的技术与相关专利申请交叉引用本专利申请要求于2008年10月17日提交的美国临时专利申请No. 61/106,405 的优先权,所述美国临时专利申请通过弓I用并入。
背景技术:
本发明的实施方案一般涉及基于序列进行测试的技术。更特别地,本发明涉及改进用于预测HIV病毒趋向性(tropism)的计算技术。HIV是慢病毒(逆转录病毒科的一个成员),HIV感染可导致获得性免疫缺陷综合征(AIDS),这是人的病症,其中免疫系统在病毒的影响下开始失效。HIV主要影响人免疫系统中极其重要的细胞,如辅助T细胞(特定地CD4+ T细胞)、巨噬细胞和树突细胞,这可导致降低的免疫应答。当CD4+ T细胞数量降至低于临界水平时,细胞介导的免疫缺失,机体逐渐变得对机会性感染更加易感。HIV病毒进入人宿主细胞的一个途径是识别并结合细胞膜上的⑶4,并募集两种共受体(co-rec印tor)CCR5或CXCR4中至少一种。仅募集CCR5的被病毒感染的患者可以用基于CCR5-拮抗剂的药物治疗。因此,正确地鉴定病毒趋向性以帮助药物的有效施用是有帮助的。不幸的是,目前用于HIV趋向性测定的技术具有许多限制。已经进行了许多尝试,基于HIV病毒上GP120蛋白的V3环来构建预测趋向性的分类器(classifier),所述V3环目前被认为是趋向性的支配性决定簇并由35左右个氨基酸组成。首先由de Jong, et al, J Virol 66(2) :757-765 (1992)和 Fouchier et al., J.Clin Microbiol. 33(4) :906-911(1995)提出了简单的电荷规则(charge rule)来预测HIV趋向性。在一个版本中,如果在第11或25位上存在带正电荷的氨基酸,则所述规则将病毒分类为“使用CXCR4”,否则分类为“不使用CXCR4”。2001年,Resch, et al., Virology 288(1) =51-62(2001)提出了使用V3环中16个氨基酸预测趋向性的神经网络模型。Pillai,et al. ,AIDS Res Hum Retroviruses 19(2) :145-149(2003)提出了包括决策树(decision trees)和支持向量机(Support Vector Machines, SVM)在内的机器学习方法(machine learning method)。Jensen et al. (J. Virol 77(24) : 13376-13388 Q003))提出了一种用于预测趋向性的位置特异性得分矩阵(Position Specific Score Matrix, PSSM)。2004 年,Sing et al. (Learning mixtures of localized rules by maximizing the area under the ROC curve. Jose Hernandez—OralIo, editor,1st International Workshop on ROC Analysis in Artificial Intelligence, pages 89-96, Valencia, Spain, August 2004)提出为了趋向性预测的目的使用通过最大化ROC曲线下面积而学习的局部规则(localized rules)的混合物。2004年 Sing (Master' s thesis, Max Planck Institute for Informatics, 2004) 使用从Los Alamos National Lab (LANL)下载的公开数据进行了这些方法和其他方法的精确比较。这些方法中一些在99%、95%和90%特异性下灵敏度方面的表现概括于图IA和 IB中。
灵敏度和特异性是任何多种二元分类测试表现的统计学度量。在统计学中,特异性被定义为被正确鉴定的阴性的比例,例如,被正确鉴定为不患有病症的健康人的百分比。 特异性被定义为被正确鉴定的阴性的比例,例如,被正确鉴定为不患有病症的健康人的百分比。这些概念也与I型和II型误差的一般概念密切相关。从图IA和IB中可以看出,通常特异性的提高伴随着灵敏度的降低,反之亦然。例如,在99%的特异性下,灵敏度范围是从22%到44%。例如在95%的特异性下,灵敏度范围是从55%到74%。在90%的特异性下,灵敏度的范围是从66%到79%。当具有CXCR4趋向性或二重趋向性的病毒可以被有效地鉴定为一组而仅具有 CCR5趋向性的病毒被鉴定为不同和单独的一组时,在临床环境中可以更有效地施用基于 CCR5-拮抗剂的药物。发明概述发明人目前发明了满足更迫切的临床需要的一种改进的计算预测方法。申请人在此公开了改进的HIV病毒趋向性预测的技术。根据本发明的一个实施方案,公开了将测试序列归类为第一类(例如CXCR4)或第二类(例如⑶肪)的技术。示例性的技术包括提供包括数个数个第一类序列的第一训练组, 和包括数个第二类序列的第二训练组。所述技术包括确定与数个位置相关的数个概率,所述确定考虑相邻位置中元件之间的依赖性。一个实施方案提供的技术包括确定与数个位置相关的数个概率,其中所述数个位置包括位置、在先位置(preceding position)禾口在后位置(succeeding position)。考虑到第一类序列上的在先位置和测试序列上的在先位置被属于第二特定类别的元件占据,并且考虑到第一类序列上的在后位置和测试序列上的在后位置被属于第三特定类别的元件占据,技术包括确定第一类序列上的位置和测试序列上的位置被属于第一特定类别的元件占据的概率。考虑到第二类序列上的在先位置和测试序列上的在先位置被属于第五特定类别的元件占据,并且考虑到第二类序列上的在后位置和测试序列上的在后位置被属于第六特定类别的元件占据,技术包括确定第二类序列上的位置和测试序列上的位置被属于第四特定类别的元件占据的概率。根据一个实施方案,如果每一对相应的元件属于特定的预定的氨基酸类别,则两群数个元件(一群在第一序列上,另一群在第二序列上)被认为是同一类型。根据多个实施方案,预定的氨基酸类别可以被不同地定义。归类可以被用于降低比较序列相似性所需要的计算的复杂性。根据一个实施方案,20种已知的氨基酸被分成四个类别。第一个类别由H、K和 R(分别为组氨酸、赖氨酸和精氨酸)组成;第二个类别由A、F、I、L、M、P、V和W(分别为丙氨酸、苯丙氨酸、异亮氨酸、亮氨酸、甲硫氨酸、脯氨酸、缬氨酸和色氨酸)组成;第三个类别由C、G、N、Q、S、T和Y(半胱氨酸、甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸和酪氨酸) 组成;第四个类别由D和E(天冬氨酸和谷氨酸)组成。在另一个实施方案中,20种已知的氨基酸被分成十二个类别。第一个类别由A和 P组成;第二个类别由F和W组成;第三个类别由I、L和V组成;第四个类别由M组成 ’第五个类别由H组成;第六个类别由K和R组成;第七个类别由D组成;第八个类别由E组成;第九个类别由N、S和T组成;第十个类别由Q组成;第十一个类别由C和G组成;第十二个类别由Y组成。根据一个实施方案,将测试序列归类为第一类(例如CXCR4)或第二类(例如 CCR5)的技术包括基于上述数个概率确定测试序列的得分,和基于所述得分将测试序列归
类为第一类或第二类。本发明的另一实施方案提供了基于多种分类器的表决对测试数据点分类的技术。 技术包括提供包括数个数据点的训练组,并将数个数据点再分成数个数据亚组。在一个特定的实施方案中,从具体场所(例如城市)的患者采取的数据点可被替代地分类进一个特定的数据亚组中。所述技术包括形成数个训练组(每个形成的组具有来自每个数据亚组的一个数据点)并训练数个分类器(每个分类器基于数个训练组之一)。在来自每个患者的多个数据点被归类在特定的数据亚组中的一个实施方案中,每个训练组由下述数据点组成,其中每个数据点得自单独的患者,并且数据点的总数等于患者的数量。在来自每个场所的数据点被归类在特定数据亚组中的一个实施方案中,每个训练组由下述数据点组成,其中每个数据点得自单独的场所,并且数据点的总数等于场所的数量。所述技术还包括使用在上文确定的训练组上训练过的数个分类器,针对测试数据确定数个试验性归类。技术包括基于数个试验性归类的表决对测试数据点进行归类。可与该实施方案相关的数个数据点可包括生物标记物、氨基酸序列、核苷酸序列等等。本发明的另一实施方案提供了训练分类器的技术,该技术的基础是根据到一些参照性的数个数据点的距离对各个数据点加权。参照性的数个数据点可以被全局性地定义为全体数据点,或者对每个个体数据点而言被个别地定义为除所考虑的每个个体数据点之外的全体数据点。根据实施方案,加权可基于线性距离、几何距离或其他类型的距离。通过对异常值少量取样的数据点(即远离参照性的数个数据点的点)进行过量加权,方法尝试相对于过量取样的数据点(即接近参照性的数个数据点的点)对少量取样的数据点进行补偿。在所述实施方案中,一些数据点来自于过量取样的来源,而其他数据点来自于相对少量取样的来源。技术包括根据到一些参照性的数个数据点均值的距离来对数个数据点的每一个加权。可与所述实施方案相关的数个数据点包括生物标记物、氨基酸序列、核苷酸序列等等。附图
概述图IA是简化的ROC曲线,展示了预测HIV病毒趋向性的多种现存技术的表现;图IB是简化的图片,着重于预测HIV病毒趋向性的感兴趣的示例性区域;图2是简化的图表,一般性阐述了根据本发明的一个实施方案对测试数据点分类的技术;图3是简化的图表,阐述了根据本发明的一个实施方案使用位置特异性得分矩阵确定一个测试数据点属于一个预定类别的技术;图4A、4B和4C阐述了根据本发明的多个实施方案用于预测趋向性的与位置特异性得分矩阵相关的三种数学模型;图5A和5B阐述了根据本发明的一个实施方案对氨基酸归类的两个实施方案;
图6是简化的流程图,阐述了基于数个分类器的表决对数据点分类的技术;图7是简化的流程图,阐述了对本发明一个实施方案的训练组加权的技术;和图8是可用于实施本申请中所述本发明多种实施方案的计算机系统的简化模块图。发明详述本发明的多个实施方式可应用于基于基因进行测试的技术。更特别地,本发明可用于改进用于预测HIV病毒趋向性的计算技术。A.考虎了序列上相邻位置中元件之间依赖件的,用于对测试序列归类的技术本发明的一个实施方案提供了以改进的基于PSSM的模型为基础的,对测试序列归类的技术。位置特异性得分矩阵提供了在训练组中表示概率方面信息的一种方式,其中一个元件会占据假定的序列上一个具体的位置。位置特异性得分矩阵可以被用于通过比较两条假定序列上每个元件的特异性来评估两条假定的序列属于相同种类的概率。在一个示例性的PSSM中,每一列(或行,根据情况,取决于实施方案)可表示一种类型的元件(例如对DNA序列而言A、C、G或T ;对蛋白质序列而言二十种已知氨基酸之一)。例如,如果A类型的元件I在所有已知结合位点间强烈保守,则标准化版本的矩阵在 i = I、j =A时可以是1,在i = I、j乒A时可以是0。通常,独立于相邻位置中的元件,测定每个位置含有某一类型元件的概率。然而,根据一个实施方案,相邻位置被独立元件占据的假设在实际中并非总是存在。申请人引入了一种概率模型,所述概率模型考虑了元件之间适量的依赖性。根据一个实施方案,申请人引入了具有依赖性概率的PSSM模型,以便更好地处理序列的联合分布 (joint distribution),来评估 HIV 趋向性。在一个实施方案中假定了 Markov概率模型,其中每个位置依赖于该位置之前的位置。通过放松序列中单向依赖性的负担也可以创建更专用的Markov模型,所述模型假定每个位置依赖于所述位置的紧邻位置。图IA是简化的ROC曲线,展示了预测HIV病毒趋向性的多种现存技术的表现。沿 X轴描述的是假阳性率,其定义等于(1-特异性)。在y轴上描述的是真阳性率,其定义等于灵敏度。基于从Los Alamos National Lab (LANL)下载的公开数据进行了这些方法的精确比较。图IB是简化的图片,着重于根据本发明的多个实施方案的示例性区域。该图展示了预测HIV病毒趋向性的先前已知技术的表现以及其他。根据所述实施方案的感兴趣的范围是从90%到99%的特异性。对应的灵敏度范围从少许延伸到20%到约80%。
权利要求
1.将测试序列归类为第一类或第二类的方法,所述方法包括提供第一训练组,所述第一训练组包括数个第一类序列;提供第二训练组,所述第二训练组包括数个第二类序列;确定与数个位置相关的数个概率,所述数个位置包括位置、在先位置和在后位置,所述多个概率包括所述第一类序列上的位置和所述测试序列上的位置被属于第一特定类别的元件占据的概率,其中所述第一类序列上的在先位置和所述测试序列上的在先位置被属于第二特定类别的元件占据,并且其中所述第一类序列上的在后位置和所述测试序列上的在后位置被属于第三特定类别的元件占据;和所述第二类序列上的位置和所述测试序列上的位置被属于第四特定类别的元件占据的概率,其中所述第二类序列上的在先位置和所述测试序列上的在先位置被属于第五特定类别的元件占据,并且其中所述第二类序列上的在后位置和所述测试序列上的在后位置被属于第六特定类别的元件占据;基于所述数个概率确定所述测试序列的得分;和基于所述得分将所述测试序列归类为第一类或第二类。
2.如权利要求1所述的方法,还包含确定除序列上起始位置和最终位置之外所述序列上每个位置的数个概率。
3.如权利要求1所述的方法,其中确定所述得分包括通过加权因数对所述数个概率中的每个加权。
4.如权利要求1所述的方法,其中所述数个概率还包括所述第一类序列上的起始位置和所述测试序列上的起始位置被属于第七特定类别的元件占据的概率;所述第一类序列上的最终位置和所述测试序列上的最终位置被属于第八特定类别的元件占据的概率;所述第二类序列上的起始位置和所述测试序列上的起始位置被属于第九特定类别的元件占据的概率;所述第二类序列上的最终位置和所述测试序列上的最终位置被属于第十特定类别的元件占据的概率。
5.如权利要求1所述的方法,其中所述测试序列、所述数个第一类序列和所述数个第二类序列是氨基酸序列。
6.如权利要求5所述的方法,其中所述第一类序列包括由CXCR4型人免疫缺陷病毒 (HIV)GP120蛋白的V3环组成的氨基酸序列,并且其中所述第二类序列包括由CCR5型人免疫缺陷病毒(HIV)GP120蛋白的V3环组成的氨基酸序列。
7.如权利要求5所述的方法,其中氨基酸被分入四个预定的类别之一,所述四种预定的类别包括包括H、K和R的第一类别,包括A、F、I、L、M、P、V和W的第二类别,包括C、G、 N、Q、S、T和Y的第三类别,和包括D和E的第四类别。
8.如权利要求5所述的方法,其中氨基酸被分入十二种预定的类别之一,所述十二种预定的类别包括包括A和P的第一类别,包括F和W的第二类别,包括I、L和V的第三类别,包括M的第四类别,包括H的第五类别,包括K和R的第六类别,包括D的第七类别,包括E的第八类别,包括N、S和T的第九类别,包括Q的第十类别,包括C和G的第十一类别, 和包括Y的第十二类别。
9.如权利要求5所述的方法,其中氨基酸被分入数个预定的类别之一,所述预定的类别以每种氨基酸的物理-化学特性为基础。
10.如权利要求5所述的方法,其中二十种氨基酸的每一种组成二十种预定类别之一。
11.如权利要求1所述的方法,其中所述测试序列、所述数个第一类序列和所述数个第二类序列是核酸序列。
12.基于数个数据点对数据点进行归类的方法,所述方法包括 提供数个数据点;将数个数据点再分进数个数据亚组中,所述数个数据亚组的每一个满足一个标准; 确定数个训练组,所述数个训练组的每一个是通过从所述数个数据亚组的每一个中选择一个数据点而形成;训练数个分类器,所述数个分类器的每一个在所述数个训练组上被训练; 针对与所述数个分类器相关的数据点确定数个试验性归类;和基于所述数个试验性归类的表决,对所述数据点进行归类。
13.如权利要求12所述的方法,其中所述数据点表示与数个人免疫缺陷病毒(HIV) GP120蛋白的V3环相关的数个测量,所述方法被调整为将氨基酸序列分类为CCR5类序列或 CXCR4类序列。
14.如权利要求12所述的方法,其中所述归类基于多数表决。
15.如权利要求12所述的方法,其中所述数个数据点与和数个生物标记物相关的数个测量相关。
16.如权利要求12所述的方法,其中所述数个数据点与和数个核酸序列相关的数个测量相关。
17.如权利要求12所述的方法,其中所述数个数据点与和数个氨基酸序列相关的数个测量相关。
18.如权利要求13所述的方法,其中所述数个数据点得自一种或更多种人。
19.如权利要求13所述的方法,其中所述数个数据点得自一种或多种哺乳动物。
20.基于得自数个来源的数个数据点来训练分类器的方法,所述方法包括根据特定数据点到参照性数个数据点均值的距离对特定的数据点加权。
21.如权利要求20所述的方法,其中所述参照性数个数据点包括所有数个数据点,包括特定的数据点。
22.如权利要求20所述的方法,其中所述参照性数个数据点包括除特定数据点之外的所有数个数据点。
23.如权利要求20所述的方法,其中所述均值是算术平均值。
24.如权利要求20所述的方法,其中所述均值是几何平均值。
25.如权利要求20所述的方法,每个数据点是氨基酸序列的度量,两个数据点之间的每个距离是两条氨基酸序列之间不相似性的度量,其中更大的距离表示更大程度的不相似性,更小的距离表示更小程度的不相似性。
26.如权利要求20所述的方法,其中所述加权以线性距离为基础。
27.如权利要求20所述的方法,其中所述数个数据点与和数个生物标记物相关的数个测量相关。
28.如权利要求20所述的方法,其中所述数个数据点与和数个氨基酸序列相关的数个测量相关。
29.如权利要求20所述的方法,其中所述数个数据点与和数个核苷酸序列相关的数个测量相关。
30.如权利要求20所述的方法,其中所述数个数据点与和数个人免疫缺陷病毒(HIV) GP120蛋白V3环相关的数个测量相关,所述方法被调整为将氨基酸序列分类为CCR5类序列或CXCR4类序列。
全文摘要
本发明公开了对测试序列进行归类的技术。示例性的技术包括定义和利用考虑了相邻位置的依赖性的位置特异性得分矩阵。一个实施方案包括以改进的特异性和灵敏度预测HIV病毒趋向性。另一实施方案包括将训练数据组再分为一组数据亚组,基于数据亚组训练数个分类器,并进行数个分类器的表决。还有另一实施方案涉及在创建训练组时基于特定数据点到参照性的数个数据点均值的距离对特定数据点加权。
文档编号G01N33/48GK102203603SQ200980141385
公开日2011年9月28日 申请日期2009年10月15日 优先权日2008年10月17日
发明者廖国春, 郑明 申请人:豪夫迈罗氏有限公司