专利名称:利用l-eda筛选卵巢癌体液预后标记物的方法
技术领域:
本发明涉及分析化学、医学、模式识别等领域,是一种结合分析化学方法与模式识别算法对血清进行代谢组轮廓分析,筛选卵巢癌预后小分子代谢物标记物的新方法,具体为利用改进的分布估计算法(L-EDA)从体液代谢轮廓筛选卵巢癌预后标记物的方法。
背景技术:
卵巢癌也叫上皮性卵巢恶性肿瘤(EOC)(文献1. Williams Tl, Toups KL, Saggese DA, et al. J Proteome Res, 2007, 6(8)四36_2962·),是妇科常见恶性肿瘤之一,死亡率一直居高不下,为“妇科三癌”(卵巢癌,宫颈癌,子宫内膜癌)死亡率首位(文献 2. Jacobs IJ, Menon U. Mol Cell Proteomics, 2004,3(4) 355-366·)。因其盆腔位置深,部位隐蔽,难以发现,且症状不典型,缺乏早期诊断标志物,待能够发现和明确诊断时,往往已到了中、晚期。卵巢癌的病因尚不清楚,其发病可能与年龄、生育、血型、精神因素及环境等有关。由于卵巢的胚胎发育,组织解剖及内分泌功能较复杂,它所患的肿瘤可能是良性或恶性。目前常用血清标志物CA125 (癌抗原125)对于卵巢上皮性肿瘤有提示作用,但灵敏度不高,尤其是早期诊断的灵敏度只有30%左右(文献3. Rosen DG, Wang L, Atkinson JN, et al. Gynecol Oncol, 2005,99(2) 267-277·)。CA125 并非卵巢特异性的标志物,它容易与其他癌症、盆腔良性肿瘤、妇科炎症等导致的改变相混淆(文献4. An HJj Miyamoto S, Lancaster KSj et al. Profiling of glycans in serum for the discovery of potential biomarkers for ovarian cancer. J Proteome Res, 2006, 5(7): 16^-1635.),因而造成误诊。为了满足临床诊断日益提高的灵敏度和特异性要求, 开发新的血清肿瘤标志物势在必行。代谢组学(文献5. Nicholson, J. K. ; Lindon, J. C. ; Holmes, Ε. Xenobiotical^m, 29, 1181-1189.)是近年发展起来的一种全面考察受刺激或扰动后的生物体中小分子代谢物变化的方法。代谢组学方法寻找疾病标记物可以分为以下几个部分对被研究对象代谢物含量的测定即获取代谢组轮廓;利用化学计量学方法表征测得的代谢组轮廓,并通过一定的筛选手段获取在组内或组间含量变化有意义的重要化合物。因此建立稳健可靠、识别精确、分类预测准确的标志物筛选方法十分重要,是这一类研究的关键。在以往的研究中,代谢物筛选模型的建立常常采用基于显著性统计分析的方法, 如t检验、方差分析(ANOVA)等方法;以及多元统计分析算法,如主成份分析(PCA)、偏最小二乘判别分析(PLS-DA)、正交偏最小二乘判别分析法(OPLS-DA)等。基于显著性统计分析的方法常常要求假设采集的样本服从特定分布。由于研究问题的特殊性,样本集合的容量十分有限(通常只有几十个样本),而在少量样本基础上对采集的数据做显著性分析通常不够可靠。应用PCA对代谢轮廓复杂的数据建模时,由于没有利用到已知的样本类别信息、数据存在噪音变量等原因,导致PCA模型对于数据的解释程度低(PCA模型的R2值较小),往往难以得到令人满意的结果。对基于偏最小二乘(PLS)的方法,由于建模过程中使用到已知
3的样本类别信息,所构建的模型通常能够清晰的表征各类别数据的代谢轮廓。正是因为在建模过程中使用到了样本的类别信息,模型可能过度依赖当前的数据和类别之间的关系, 导致模型的预测能力不够理想(Q2较小)、甚至过拟合(over-fitting),在这样的模型之上筛选潜在的代谢标记物是不可靠的。在模式识别领域,对于一组数据特征的描述,通常有属性提取和属性选择两类方法。属性提取算法通常是构建特定的模型对样本进行区分,在模型的构建过程中,对各个属性进行组合,组合后的属性称为主成份。之后,在按照属性在各个主成份中的贡献筛选出重要的属性。前面提到的PCA、PLS-DA、OPLS-DA等都属于属性提取类算法。而对于属性选择类算法来说,属性或属性子集被当作一个整体来评估,将评估结果好的属性或属性子集作为结果。分布估计算法(Estimation of Distribution Algorithms, EDAs)是一类基于概率分布模型的进化算法(Evolutionary Algorithms, EAs)。相比于经典的进化算法一遗传算法,分布估计算法有参数少、含义直观、概率模型指导搜索、以及结果稳定等诸多优点,被广泛的应用到生物信息领域来解决复杂的应用问题(文献6. Armafianzas, R.; Inza, I.; Santana, R. ; et al. BioData Mining 2008, 1(6).)。但是,作为一种进化算法,分布估计算法也同样具有执行速度慢、消耗资源多等缺点。本发明针对分布估计算法的缺点作出改进,对算法执行过程中产生的候选属性集合中包含的属性个数加以限定,同时给出了一种新的概率模型更新策略。利用改进的分布估计算法,将其应用到卵巢癌预后标志物的研究中,由该方法筛选出的标志物只体现了卵巢癌预后状态,与放疗化疗引起代谢状态改变无关。改进后的算法能够筛选出最能表征代谢组轮廓数据特征的属性集合,同时提高了算法的执行效率、减少了执行算法所需的资源。
发明内容
本发明涉及一种从体液代谢组轮廓利用改进的分布估计算法(L-EDA)筛选卵巢癌预后标记物的新方法,所述的新方法可基于代谢组学技术测定体液中小分子代谢组轮廓, 应用模式识别算法对卵巢癌预后标记物进行筛选。该方法具有筛选结果准确、误差率小、计算速度快、自动程度高、集成化程度高等特点,适于大规模样本的筛选,可广泛地应用于化学、医学等领域。为实现上述目的,本发明采用的技术方案如下
采用液相色谱质谱联用平台对体液(包括血液、尿液等)代谢物进行分析得到代谢组轮廓,构建概率分布模型筛选重要属性,分析卵巢癌病人和健康人的代谢组轮廓,筛选卵巢癌预后标记物。包括以下步骤 1)体液样本的收集和预处理。在相同采样条件下采集的m个健康人,N2个卵巢癌病人,N3个卵巢癌术后未复发妇女和N4个卵巢癌术后复发病人样本,采集体液样本后立即储存于一 80 !冰箱中。分析时,将样品从冰箱取出室温解冻。取180 μ L血清加入4倍体积(720 μ L)乙腈,乙腈中含有亮氨酸脑啡肽和溶血磷脂现胆碱(12:0) (Lyso PC (12:0))作为内标,充分震荡30秒,然后在4° C下15000g离心10分钟,取上清液冻干。分析前重溶于150 μ L水 乙腈(1/4,ν/ν)中,此时,内标浓度为亮氨酸脑啡肽3 ng/μ L和Lyso PC (12:0) 3 ng/ μ L0
2)液质谱联用仪分析血清的代谢物。色谱分析采用的是安捷伦1200系列快速分辨液相色谱(Rapid Resolution Liquid Chromatography , RRLC), feif tt^tffi 50 mm X 2. 1 mm 1. 7 μ m Waters BEH C18 柱。柱温度保持在50 ° C,流量为0.35 mL/min。流动相A是高纯水含有0. 1%甲酸和洲乙腈,流动相B为乙腈。洗脱梯度为5%B起始,在第4分钟时升至35%B,在第22分钟时变化至80%8,第M分钟时达到100%B,保持5分钟后进行柱平衡5分钟。自动进样器保持为 4 ° C,进样体积为5 UL0质谱分析采用的是安捷伦6510四极杆-飞行时间质谱Ο -TOF MS,Agilent, USA)。质谱在正离子模式下进行数据采集。质谱毛细管电压设为4000V,Fragmentor电压禾口 skimmer电压分别设为230 V和65 V。干燥气流量为llL/min,喷雾压力设为45 psig, 温度为350°C。采用嘌呤和六膦嗪(hexakis phosphazine)的混合物作为校正液用来保持质量数测量的精度以及稳定性。在正离子模式下它们分别产生质荷比为121.0508以及 922. 0097的离子。数据采集范围是质荷比80-1000,以质心模式采集。采集速率为500毫秒。3)采集的原始代谢组轮廓数据由Molecular Feathers Extraction (MFE,安捷伦)软件提取化合物信息,根据质谱数据计算准确分子量。随后,采用Genespring (安捷伦) 软件进行色谱峰匹配。匹配后的数据经过面积归一化以减少系统误差。然后使用80%规则减少缺失值对数据集的影响,即当一个离子在任一类80%的样品里都大于1时,才能够被采用。4)利用L-EDA算法筛选卵巢癌预后标志物。L-EDA将抽取的属性子集的大小限定在相对较小的范围之内,同时,给出了一种新的概率分布模型的更新策略。L-EDA包含四个主要部分构建概率分布模型,生成候选属性子集,评价候选属性子集,更新概率分布模型。A.构建概率分布模型
设属性总数为M,构建一个概率分布向量ρ [],向量的长度为M,向量中每一个元素的取值范围是
。概率分布向量中的元素p[i]代表第i个属性所代表的离子被选中作为潜在的代谢标记物的概率。算法执行之前,由于没有对属性进行评价,每一个属性都有均等的可能被选入或不被选入优化的属性子集,因此,概率分布向量P[]中每一个元素的值被设定为0.5。B.生成候选属性子集
设L-EDA将候选属性子集的大小限定为G,那么当生成一个包含G个属性的候选子集时,执行如下的操作。设生成的候选子集为S,初始为空集。当S包含的属性个数少于G时, 从尚未被加入S中的属性中随机选中一个属性i,再随机生成一个取值在
之中的数 η,如果n<p [i],则将第i个属性加入S ;否则,转入下一次循环。最终,将生成一个参照当前的概率分布并包含G个属性的候选集合S。C.评价候选属性子集
采用SVM在候选属性子集上构建分类模型,利用SVM的7倍交叉正确率作为度量候选属性子集的标准。交叉验证的正确率越高,对于候选子集的评价越好。D.更新概率分布模型
L-EDA给出了一种新的更新概率分布模型的策略。从当前一轮的候选属性子集中选出一定比例的评价最优的候选子集,新的策略采用单个属性在这些评价最好的候选集合中出现的频率作为评价属性优劣的度量。设属性i在评价最好的若干个候选集合中出现的频率为f[i],所有属性平均的出现频率为average,则在更新属性i的概率分布时,如果 f[i] >average,采用公式(1),否则,采用公式(2 )。ρ [i] = (l-r)*p[i]+r*(l-p[i])*(f[i]-average)(1) ρ [i] = (l_r) [i]+r*p [i] * (f [i] -average) (2)
其中,r是概率分布模型从当前候选子集集合中学习的比例。从公式(1)、(2)可以看出,在概率分布模型更新时,只有具有竞争力的属性才可能被奖励,否则,将被惩罚。L-EDA算法流程如下首先,按照A中的方法初始化概率分布向量。之后,进入迭代搜索过程按照参数设定,按照B中的方法生成T个候选属性子集;对于每一个候选子集, 按照C中的方法进行评价。选出评价最优的若干个候选子集,按照D中的方法更新概率分布向量。至此,第一轮的迭代搜索结束,进入下一轮的搜索过程。当迭代搜索进行到预先设定的最大搜索轮数时,算法终止搜索过程。最后,算法按照概率分布向量值的降序将所有的属性进行排序,并输出属性排序表。由L-EDA算法中概率分布向量的含义可以看出,被L-EDA排在前面的属性是与类别信息最为相关、区分能力最强的属性,可以根据具体需要,筛选出前面一定比例的属性进行分析、研究。本发明具有的效果是
1、体液的处理均为离体完成,步骤简单,操作方便,处理速度快,适用于大规模样本的处理和筛选。2、液相色谱质谱联用方法重复性、可靠性高。样品分析时间短,分析通量大。3、算法对于参数的设置具备稳定性,在不同的参数设置下,能够取得一致的属性排序结果。4、算法对于属性的评价精确,被算法排在前面的属性能够体现样本集合的特征。5、算法的执行效率高、节约时间、适于应用。
图1是实施例中血清代谢组轮廓图。其中(A)健康妇女血清液相色谱质谱总离子流图,(B)卵巢患者血清液相色谱质谱总离子流图,(C)卵巢术后未复发妇女血清液相色谱质谱总离子流,(D)卵巢术后复发患者血清液相色谱质谱总离子流。图2是对L-EDA排名靠前的属性集合进行7倍交叉验证的正确率变化曲线图。图3是L-EDA与传统的EDA的运行时间对比图。图4是对原始的代谢组轮廓数据构建PLS-DA模型的得分图。图5是对L-EDA对代谢组轮廓数据筛选出的排名前20%属性构建PLS-DA模型的得分图。
具体实施例方式下面结合附图对本发明的实施例作详细的说明;本实施例在本发明技术方案的指导下实施,但本发明的保护范围不限于下述的实施例,本发明的下述实施例仅作为本发明的事例而不是限制。在不违反本发明主旨及范围的情况下,可对本发明进行各种改变和改进,但所有这些改变和改进,均应在本发明保护范围之内。实施例基于血清代谢组轮廓的卵巢癌预后标记物筛选。( 1)人血清样本的收集和预处理。采集前,纳入者签署知情同意书,在相同采样条件下采集,采集的血清样本立即储存于一 80 !冰箱中。本实施例中共采集人血浆样本106份,其中收集了 M例健康妇女、21 例卵巢癌患者、36例卵巢癌术后复发患者以及25例卵巢癌术后未复发妇女。代谢物分析前,将血浆样本从超低温冰箱中取出并于室温条件下解冻。解冻后震荡30秒混勻。分别取106份血浆样本,在每份180 μ L血清加入4倍体积(720 μ L)乙腈,乙腈中含有亮氨酸脑啡肽和Lyso PC (12:0)作为内标,充分震荡30秒,然后在4° C下15000g离心10分钟,取上清液冻干。分析前重溶于150μ L水乙腈(1/4,ν/ν)中。此时,内标亮氨酸脑啡肽浓度为3 ng/yL和Lyso PC (12:0)浓度为3 ng/yL。(2)液相色谱质谱联用技术分析血清中的代谢物。色谱分析采用的是安捷伦1200系列快速分辨液相色谱(Rapid Resolution Liquid Chromatography,RRLC),色谱柱采用 50mm X 2. 1 mm 1. 7 ym Waters BEH C18 柱。柱温度保持在50° C,流量为0. 35mL/min。流动相A是高纯水含有体积百分数0. 1%甲酸和1乙腈,流动相B为乙腈。洗脱梯度为5%B起始,在第4分钟时升至35%B,在第22分钟时变化至80%B,第M分钟时达到100%B,保持5分钟后进行柱平衡5分钟。自动进样器保持为4° C,进样体积为5 μ L。质谱分析采用的是安捷伦6510四极杆-飞行时间质谱Ο -TOF MS,Agilent, USA)。质谱在正离子模式下进行数据采集。质谱毛细管电压设为4000V,Fragmentor电压和skimmer电压分别设为230 V和65 V。干燥气流量为11 L/min,喷雾压力设为45 psig, 温度为350°C。采用嘌呤和六膦嗪(hexakis phosphazine)的混合物作为校正液用来保持质量数测量的精度以及稳定性。在正离子模式下它们分别产生质荷比为121.0508以及 922. 0097的离子。数据采集范围是质荷比80-1000,以质心模式采集。采集速率为500毫秒。(3)代谢组轮廓数据的生成。采集的原始代谢组轮廓数据由Molecular Feathers Extraction (MFE,安捷伦) 软件提取化合物信息,并计算准确分子量。随后,采用Genespring (安捷伦)软件进行色谱峰匹配。质谱质荷比窗口设为0. 01,保留时间窗口设为0. aiiin。匹配后的数据经过面积归一化以减少系统误差,归一化后每个样本中所有峰面积的总和等于10000。然后使用80%规则减少缺失值对数据集的影响,即当一个离子在某一类 80%的样品里都大于1时,才能够被采用。(4)对代谢组轮廓数据进行标准化与处理,可供优化和选择的数据预处理方法有 centering, autoscaling, Pareto scaling, range scaling, sK^ji^iEM^iSfll^ ,^ 实施例采用Pareto scaling的标准化方法。对L-EDA算法的参数进行设置最大的迭代搜索轮数设为100,每一轮生成的候选属性子集数取值集合{400,700, 1000},候选属性子集包含的属性个数取值集合{40,70,100},每一轮选取评价最优的候选子集的比例设为0. 2, 概率分布模型从当前最优候选子集集合中学习的比例设为0. 3。(5)按照属性个数构建概率分布向量并初始化,根据(4)中设定的每一轮生成的候选属性子集数和候选属性子集包含的属性个数和当前的概率分布向量生成第一轮搜索的候选属性子集集合。(6)采用支持向量机构建分类模型,对每一个候选属性子集进行7倍交叉验证,记录交叉验证的正确率,并对候选属性子集按照交叉验证正确率有高到低的顺序排序。在执行交叉验证时,样本被划分为7个子集。每次抽取其中1个子集,用剩余6个子集的样本建立SVM模型,并用抽取的子集作为验证集来验证分类的准确性。该过程不断重复,直到每个子集至少被用作预测集1次,然后计算总的交叉验证准确率。(7)按照(4)中设定的最优的候选子集的比例,选出最优候选子集集合。统计每一个属性在最后候选子集集合中出现的频率,并计算平均的属性出现频率。(8)根据(7)中统计的信息,对概率分布向量采用提出的更新策略进行更新,得到新的概率分布向量。(9)根据(4)中设定的每一轮生成的候选属性子集数和候选属性子集包含的属性个数和新的概率分布向量生成第一轮搜索的候选属性子集集合。(10)反复执行迭代搜索步骤(6)到(9),直到已经达到(4)中设定的最大的迭代搜索轮数为止。最终得到L-EDA对属性进行排序后的顺序表。(11)本实验中,选取L-EDA输出的排序表中前20%的属性进行分析(78个属性)。 表1给出了在不同的参数设置下,L-EDA排序在前20%的属性集合利用支持向量机进行7倍交叉验证的正确率,结果表明在不同参数下,L-EDA所筛选的属性都能够对样本进行准确的分类。表2给出了在不同的参数设置下,L-EDA排序在前20%的属性集合之间的percentage of overlapping genes- related (POGR)值(文献 7. Zhang Μ. ; Zhang L. ; Zou J. ; et al. Bioinformatics2QQ9, 1:1662-1668.),可以看出,在不同参数下,L-EDA所筛选的属性都具有较高的相似程度(P0GR值越大,两个属性集合的相似程度越高)。综合表1、表2可知,L-EDA对于每一轮生成的候选属性子集数和候选属性子集包含的属性个数两个参数具有稳定性。鉴于L-EDA算法对于参数并不敏感,接下来的分析过程选用将每一轮生成的候选属性子集数和候选属性子集包含的属性个数分别设定为700、70时L-EDA选出的排名前 20%的属性子集。(12)图2给出的是按照L-EDA的排序,依次分别选用前若干个属性时,支持向量机的7倍交叉验证的正确率变化曲线。从正确率曲线的变化可以发现,当属性个数很少时 (少于10个)正确率曲线迅速上升,表明L-EDA排名最靠前的属性具有很强的区分能力;同时,随着属性个数不断增加,正确率曲线保持在很高的水平上且波动很小,表明L-EDA排名靠前的属性都是与类别信息相关的、能够体现样本集合特征的属性。(13)对候选属性子集的评价是分布估计算法最为耗时的部分,候选属性子集包含的属性越多,分类算法构建模型时需要的时间就越长,因此,L-EDA对候选属性子集的容量加以限定,提高算法的执行效率。图3给出了传统的分布估计算法和L-EDA在时间消耗上的对比。从图3中可以看出,相对于传统的EDA,L-EDA能够节省约50%至65%的时间。同时须注意到,图3中给出的L-EDA的运行时间是在候选属性子集包含的属性个数设为70时测定的,如果这个参数设置成更小的值,可以预期L-EDA还能够节省更多的时间。(14)图4和图5分别是使用多元统计分析工具SIMCA (soft independent modeling of class analogy)对L-EDA筛选前、后的代谢组轮廓数据进行PLS-DA建模, 得到的得分图显示。在图4中,PLS-DA没有能够将术后非复发组的样本与术后复发组及卵巢癌组区分开来,说明术后复发与非复发的差异被掩盖。同时,作为一种有监督学习方法, PLS-DA构建的模型可能对数据过拟合,导致模型不可信。对于PLS-DA构建的模型,进行200 次的置换有效性检验,得到模型的R2截距和Q2截距分别是0. 419和-0. 678。根据之前的研究(文献 8. L Eriksson ;Ε. J. ;N Kettaneh-ffold ;et al. Vffleiric1^OOl. ),R2 截距应小于 0. 4、Q2截距应小于0. 05,置换有效性检验所得的参数表明PLS-DA构建模型时,过度依赖当前的数据和类别信息,出现了过拟合现象。而L-EDA提取变量构建的PLS-DA模型中,可以发现术后非复发组的样本有明显的靠近正常组的趋势(图5),且有别于术后复发组和癌症组。由置换响应检验结果证实,该模型不存在过拟合现象。这表明L-EDA找出的属性很好的体现了术后是否复发的特征,这些属性可以作为潜在的预后标记物来进行分析。(15)根据临床应用的需求,潜在的标记物需要在不同类别之间有显著性差异。对 L-EDA筛选的到的78个属性进行Wilcoxon秩和检验(ρ < 0. 05),得到了 6个属性(5种代谢物)满足在不同类别之间有显著性差异的要求(P < 0. 05),表3中给出了这5种代谢物的具体信息。(16)利用(15)中得到的5种代谢物,分别对术后复发组与术后非复发组以及“无病组”(正常组和非复发组)与“带病组”(复发组和卵巢癌组)构造支持向量机(SVM)分类模型,进行7倍交叉验证,正确率分别是86. 9%和88. 7%。分别对两个模型进行200次的置换检验,得到模型参数R2截距、Q2截距分别是-0. 601、-1. 079和-0. 729,-1. 172。由此可以得出结论,使用本方法筛选出来的标记物具有优异的区分能力且模型可靠,具备应用前景。表1不同参数设置下,L-EDA排序前20%的属性子集的交叉验证正确率
权利要求
1.利用L-EDA筛选卵巢癌体液预后标记物的方法,其特征在于采用液相色谱质谱联用仪分别对健康妇女、卵巢癌患者、卵巢癌术后未复发妇女、卵巢癌术后复发患者的体液代谢物进行分析得到代谢组轮廓,将代谢组轮廓利用L-EDA算法构建变量的概率分布模型, 通过迭代抽取2个或3个以上属性集合、交叉验证来更新该分布模型,最终得到其属性重要性排序列表,并根据该列表进行Wilcoxon秩和检验筛选出潜在卵巢癌预后标记物集合。
2.根据权利要求1所述的方法,其特征在于采用液相色谱质谱联用仪对体液代谢物进行分析得到代谢组轮廓,包括如下步骤1)体液样本的收集和预处理取于<一 60 ° C下保存的,健康妇女、卵巢癌患者、卵巢癌术后未复发妇女、卵巢癌术后复发患者的体液样本;将样品从冰箱取出室温解冻,加入3-5倍体积乙腈,充分震荡10-40秒,然后在4-8 ° C下,取10000-20000 g离心5-20分钟,取上清液冻干;分析前重溶于水乙腈=1/4 (ν/ ν)的混合溶液中;2)液相色谱质谱联用仪分析血清中的代谢物色谱柱采用50mm X 2. 1 mm,1. 7 μπι Waters BEH的Cw柱;柱温度保持在 35-60° C,流量为0. 3-0. 4mL/min ;流动相A是含有体积百分数0. 1-1%甲酸和0. 1-5%乙腈的高纯水,流动相B为乙腈;自动进样器保持为4-8° C,进样体积为I-IOyL;质谱分析采用的是安捷伦6510四极杆-飞行时间质谱Ο -TOF MS, Agilent, USA); 质谱在正离子模式下进行数据采集;数据采集范围是质荷比80-1000。
3.根据权利要求1所述的方法,其特征在于将得到的代谢组轮廓运行L-EDA算法对代谢组数据进行分析,算法中的一个属性对应代谢组轮廓中的一种代谢物;1)抽取候选属性子集通过迭代抽取2个或3个以上属性集合每个属性集合为一个候选属性子集;L-EDA将候选属性子集包含的属性数统一限定为G个,G为正整数,通常为属性总数的5-20% ;2)更新概率分布模型对L-EDA算法的参数进行设置每一轮选取评价最优的候选子集的比例设为0. 1-0. 3, 概率分布模型从当前最优候选子集集合中学习的比例设为0. 2-0. 4 ;将属性在最优候选属性子集集合中出现的平均频率这一平均标准来体现所有属性的平均表现;3)构建概率分布模型,反复执行以下步骤,直到搜索过程执行了预先定义的次数按照步骤1)的方法抽取候选属性子集集合,评价每一个候选属性子集,按照2)的方法更新概率分布模型,进入下一轮搜索过程;算法运行结束之后,输出算法对于所有属性的排序列表;4)筛选潜在的卵巢癌预后标记物集合依据步骤3)最终输出的所有属性的排序列表,对排名靠前的10-30%的属性进行分析;如果属性在代谢组数据要求的各组别之间在Wilcoxon秩和检验中具有显著性差异 (p<0. 05),则找出该属性对应的代谢物;最终,将该代谢物作为潜在的卵巢癌预后标记物。
全文摘要
本发明公开了一种利用改进的分布估计算法(L-EDA)从体液代谢组轮廓筛选卵巢癌预后标记物的方法。采用液相色谱质谱联用仪对体液代谢物进行分析得到代谢组轮廓,构建概率分布模型对代谢组轮廓进行分析,筛选潜在的卵巢癌预后标记物。不同于传统的分布估计算法,L-EDA对迭代搜索过程中生成的候选属性子集的大小加以限定,并给出一种新的概率分布模型更新策略,使得对于属性的评价更为精确、合理,同时提高了算法的执行效率。L-EDA筛选出的属性子集能够体现代谢组轮廓数据各个组别之间的特征,构建支持向量机(SupportVectorMachine,SVM)分类模型进行交叉验证分析,正确率达到99.06%。
文档编号G01N30/88GK102478562SQ20101055838
公开日2012年5月30日 申请日期2010年11月25日 优先权日2010年11月25日
发明者张洋, 林晓惠, 许国旺, 路鑫, 陈世礼, 陈静, 黄强 申请人:中国科学院大连化学物理研究所, 大连理工大学