专利名称:用于疾病诊断的分子表达谱的方法和组合物的制作方法
用于疾病诊断的分子表达谱的方法和组合物交叉引用本申请要求于2008年11月17日提交的名为"Methods and Compositions of Molecular Profiling for Diagnosis of Cancer” 的美国临时申请 No. 61/199,585 和于 2009 if- B 13and Compositions of Molecular Profiling for Diagnosis of Cancer”的美国临时申请No. 61/270,812的优先权,这两个申请的全部通过引用方式结合在本文中。
背景技术:
癌症是美国第二位的主要死亡原因,也是全球的重要死亡原因之一。目前,将近有 2500万人患有癌症,而每年新诊断的案例就达1100万。此外,随着总体人群持续老化,癌症更将成为日益严重的问题。世界卫生组织预期,到2020年,全球的癌症率将增长50%。成功的癌症治疗从早期和准确的诊断开始。目前的诊断方法包括由活组织检查所采集的组织样品的细胞学检查或组织和器官的成像以证实异常的细胞增殖。尽管这些技术已证实为有益和经济的,但它们也具有一些缺点。第一,用于癌症诊断的细胞学分析和成像技术通常需要主观评估以确定恶性的可能性。第二,这些技术日益增加的使用已使得不确定性结果的数目大量急剧增加,其中不能做出明确的诊断。第三,这些常规诊断方法缺少用于确定准确诊断的概率的严格方法。第四,这些技术可能不能够在非常早的阶段检测出恶性的生长。第五,这些技术没有提供有关异常细胞增殖的基础的信息。许多新生代的癌症治疗方法在显示出极大降低的副作用的同时特异性地靶向于特定代谢或信号传导途径,且将仅有效对抗依赖于该途径的癌症。此外,任何治疗的费用可能对于个体、保险提供商或政府机关而言是过高的。该费用可以至少部分地通过在早期阶段准确地诊断癌症和癌症所依赖的途径的改进方法所抵消。这些改进的方法对于防止不必要的治疗干预和指导治疗均是有用的。在甲状腺癌的情况中,据估计在美国每年由于怀疑恶性肿瘤而进行的大约 130,000例甲状腺切除手术中,仅有约54,000例是必要的。因此,每年进行约76,000例不必要的手术。此外,由于需要终身的药物治疗来替代丧失的甲状腺功能,存在持续的治疗费用和并发症。因此,需要改进的检测手段和商业行为,它们可改进目前的癌症诊断方法。甲状腺具有至少两种产生激素的细胞。滤泡细胞产生甲状腺激素,其影响心率、体温和能量水平。C细胞产生降钙素(cacitonin),其是一种帮助控制血液中的钙水平的激素。甲状腺的异常生长可导致形成可为良性或恶性的结节。甲状腺癌包括至少四种不同种类的甲状腺的恶性肿瘤乳头状、滤泡性、髓样和未分化的甲状腺恶性肿瘤。
发明内容
本发明包括在受试者中诊断甲状腺疾病的方法,该方法包括(a)提供来自受试者的核酸样品;(b)检测选自表2中列举的基因或转录本或它们的互补物的一种或多种基因、基因产物或转录本的量;和(c)基于步骤(b)的结果确定所述受试者是否具有或可能具有恶性或良性甲状腺状况。
本发明还包括包含一种或多种结合试剂的组合物,该结合试剂特异性地结合一种或多种选自表中列举的多态体(polymorphism)的多态体。以引用方式的结合本说明书所提到的所有出版物和专利申请均通过引用方式结合在本文中,就好像每个出版物或专利申请均具体和单独地表明通过引用方式结合在本文中一样。附图简述本发明的新特征特别描述在所附权利要求书中。通过参考下面给出了采用本发明原理的说明性实施方式的具体描述和附图将会更好地理解本发明的特征和优势,附图为
图1为列举了 75种甲状腺样品的表,这些甲状腺样品使用Affymetrix Human Exon IOST阵列被用于基因表达分析的检验,以鉴定在恶性、良性和正常样品之间显著差异表达的或可可选择地剪接的基因。列出了各样品的名称和病理学分类。图2是列举了在基因水平上前100种差异表达的基因的表。数据来自良性、恶性和正常的甲状腺样品在基因水平进行比较的数据集。在错误发现率(FDR)的Benjamini和 Hochberg校正后,基于统计学显著性来选择标志物(maker)。正数表示表达的上调,而负数表示表达的下调。图3是列举了前100种可选择剪接的基因的表。数据来自良性、恶性和正常的甲状腺样品在基因水平上进行比较的数据集。在错误发现率(FDR)的Benjamini和Hochberg 校正后,基于统计学显著性来选择标志物。图4是列举了在探针组(probe-set)水平的前100种差异表达的基因的表。数据来自探针组数据集。正数表示基因表达的上调,而负数表示基因表达的下调。图5是列举了通过基因水平分析确定的前100种重要的诊断标志物的表。在该列表中的标志物既显示差异的基因表达,也显示可选择外显子剪接。正数表示上调,而负数表示下调。该表列举了对于任何特定标志的三组计算的倍数改变,以允许恶性对良性组、良性对正常组和恶性对正常组之间的比较。图6是列举了被确定为有益于通过基因表达水平的分子表达谱和/或选择性外显子剪接的甲状腺癌诊断的基因的表。从其中良性、恶性和正常的样品在基因水平被分析的数据集中鉴定的标志物在数据源栏中被称为BMN;类似地,从其中良性和恶性样品在基因水平被分析的数据集中鉴定的标志物在数据源栏中被称为BM。同理,从其中良性和恶性样品被分析的数据集中在探针组水平鉴定的标志物在数据源栏中被称为探针组。图7是列举了被检验用于基因表达分析的组织样品的表。这些样品通过病理学分析被分类为良性(B)或恶性(M)。良性样品被进一步分类为滤泡性腺瘤(FA)、淋巴细胞性甲状腺炎(LCT)或结节性增生(NHP)。恶性样品被进一步分类为许特莱氏细胞癌(Hurthle cell carcinoma) (HC)、滤泡性癌(FC)、乳头状甲状腺癌的滤泡性变型(FVPTC)、乳头状甲状腺癌(PTC)、甲状腺髓样癌(MTC)或未分化甲状腺癌(ATC)。图8是列举了被检验用于基因表达分析的细针吸取物样品的表。这些样品通过病理学分析被分类为良性(B)或恶性(M)。良性样品被进一步分类为滤泡性腺瘤(FA)、淋巴细胞性甲状腺炎(LCT)、许特莱氏细胞腺瘤(HA)或结节性增生(NHP)。恶性样品被进一步分类为许特莱氏细胞癌(HC)、滤泡性癌(FC)、乳头状甲状腺癌的滤泡性变型(FVPTC)、乳头状甲状腺癌(PTC)、甲状腺髓样癌(MTC)或未分化甲状腺癌(ATC)。
图9是列举了从图7列举的组织样品的表达分析鉴定的基因的表,如通过使用用于恶性对良性样品分类的LIMMA(微阵列数据的线性模型)和SVM(支持向量机)进行特征选择所确定的,这些基因在恶性和良性样品之间显示出显著的表达差异。经过用于错误发现率(FDR)的Benjamini和Hochberg校正后,分级表示标志物的显著性(分级越低,显著性越高)。基因符号表示基因的名称。TCID表示用于Affymetrix Human Exon IOST阵列中的基因的转录簇ID。Ref Seq表示用于该基因的相应参照序列的名称。标记为“新发现的标志物”的栏表示之前未被描述为在恶性相对于良性甲状腺组织中差异表达的基因表达标志物。图10是列举了从图8列举的组织样品的表达分析中鉴定的基因的表,如通过使用用于MTC相对于其他样品分类的LIMMA (微阵列数据的线性模型)和SVM(支持向量机)进行特征选择所确定的,这些基因在甲状腺髓样癌(MTC)和其他病状之间显示显著的表达差异。经过用于错误发现率(FDR)的Benjamini和Hochberg校正后,分级表示标志物的显著性(分级越低,显著性越高)。基因符号表示基因的名称。TCID表示用于Affymetrix Human Exon IOST阵列中的基因的转录簇ID。P值表示MTC和非MTC样品之间的差异表达的统计学显著性。倍数改变表示MTC和非MTC样品之间的差异表达的程度。标记为“新发现的标志物”的栏表示之前未被描述为在恶性相对于良性甲状腺组织中差异表达的基因表达标志物。图11是列举了从图7和图8所列举的样品的表达分析鉴定的基因的表,如通过基于重复性的荟萃分析(meta-analysis)分类算法确定的,这些基因在良性和恶性样品之间显示出显著的表达差异。图12是列举了从图7和图8所列举的样品的表达分析鉴定的基因的表,如通过差异表达基因的贝叶斯分级(Bayesian ranking)确定的,这些基因在良性和恶性样品之间显示显著的(后验概率> 0. 9)表达差异。从之前公开的研究获得I型和II型误差率来确定先验概率,将这些先验概率与从图10中列举的样品的表达分析获得的数据集的输出相结合来估算差异基因表达的后验概率,然后将从图11中列举的样品的表达分析的结果与估算的后验概率相结合来计算差异基因表达的最终后验概率。然后使用这些后验概率对差异表达的基因进行分级。图13是列举了从图7所列举的样品的表达分析鉴定的基因的表,如通过使用用于分类的LIMMA(微阵列数据的线性模型)和SVM(支持向量机)进行特征选择所确定的,这些基因在被归类为FA、LCT、NHP、HC、FC、FVPTC, PTC、MTC或ATC的样品之间显示出差异表达。图14是列举了使用Agilent Human v2 miRNA微阵列芯片检验用于微RNA(miRNA) 表达分析的细针吸取样品的表。这些样品通过病理学分析被分类为良性(B)或恶性(M)。 良性样品被进一步分类为滤泡性腺瘤(FA)或结节性增生(NHP)。恶性样品被进一步分为滤泡性癌(FC)、滤泡型乳头状甲状腺癌的滤泡性变型(FVPTC)、乳头状甲状腺癌(PTC)或甲状腺髓样癌(MTC)。图15是列举了使用Illumina Human v2 miRNA微阵列检验用于微RNA (miRNA)表达分析的细针吸取样品的表。这些样品通过病理学分析被分类为良性(B)、非诊断性或恶性 (M)。良性样品被进一步分类为良性结节(BN)、滤泡性赘生物(FN)、(LCT)或(NHP)。恶性样品被进一步分为(FVPTC)或(PTC)。图16是列举了从图14中所列举的样品的分析鉴定的微RNA(miRNA)的表,该微 RNA在被分类为良性或恶性的样品之间显示出差异表达。miRNA栏表示miRNA的名称。CHR 栏表示miRNA定位于其上的染色体。P栏表示该分析提供的统计学置信度或P值。DE栏表示所列举的miRNA是否在恶性样品中上调(1)或在恶性样品中下调(-1)。专利栏表示描述这些miRNA的任何专利或申请。图17是列举了从图15中所列举的样品的分析鉴定的微RNA(miRNA)的表,该微 RNA在被分类为良性或恶性的样品之间显示出差异表达。miRNA栏表示miRNA的名称。探针ID栏表示illumina阵列中的相应探针ID。CHR栏表示miRNA定位于其上的染色体。P 栏表示该分析提供的统计学置信度或P值。DE栏表示所列举的miRNA是否在恶性样品中上调(无符号)或在恶性样品中下调(负号)。R印栏表示通过杂交数据(hybridization data)的“热探针(hot probe)”型分析所提供的重复性评分。专利栏表示描述这些miRNA 的任何专利或申请。图18是描述分子表达谱(molecular profiling)可如何用于改进常规细胞学检验的准确性的流程图。图18A和图18B描述了分子表达谱业务的可选实施方式。图19是由分子表达谱业务提供的试剂盒的示意图。图20是分子表达谱结果报告的示意图。图21描述了用于显示、存储、回收或计算分子表达谱的诊断结果、,用于显示、存储、回收或计算来自基因组或核酸表达分析的原始数据或用于显示、存储、回收或计算用在本发明的方法中的任何样品或客户信息的计算机。图22描述了使用基于SVM的分类算法的误差率相对于基因数目的滴定曲线。当分类算法检验200-250种基因时,该滴定曲线达到平稳。这些数据表明目前算法的总体误差率是 4% (5/138)。
具体实施例方式I.介绍本公开内容提供了用于从生物检测样品诊断异常细胞增殖的新方法、及相关试剂盒和组合物。本发明还提供了用于差异诊断异常细胞增殖的类型的方法和组合物,这些异常细胞增殖类型例如癌包括滤泡性癌(FC)、乳头状甲状腺癌滤泡性变型(FVPTC)、许特莱氏细胞癌(HC)、许特莱氏细胞腺瘤(HA)、乳头状甲状腺癌(PTC)、甲状腺髓样癌(MTC)和未分化癌(ATC);腺瘤包括滤泡性腺瘤(FA)、结节增生(NHP)、胶质结节(CN)、良性结节(BN)、 滤泡性赘生物(FN)、淋巴细胞性甲状腺炎(LCT)包括淋巴细胞性自身免疫甲状腺炎、甲状旁腺组织、至甲状腺的肾癌转移、至甲状腺的黑素瘤转移、至甲状腺的B细胞淋巴瘤转移、 至甲状腺的乳腺癌、良性(B)肿瘤、恶性(M)肿瘤和正常(N)组织。本发明还提供了用于诊断、表征和治疗细胞增殖的新的标志物(包括微RNA (miRNA)和基因表达产物标志物)和新的基因和标志物的组。此外,本发明提供了用于提供细胞增殖的增强诊断、差异诊断、监控和治疗的商业方法。癌症在美国是导致死亡的主要原因。癌症的早期和准确的诊断对于有效控制这种疾病是至关重要的。因此,研发那些使得癌症的诊断能够更加准确和更早地进行的检测手段和商业行为是重要的。表达产物谱(也称为分子表达谱)为从生物样品早期和准确地诊断肿瘤或其他类型的癌症提供了有力的方法。通常,筛选肿瘤或其他类型的癌症的存在包括分析通过各种方法如,举例来说,活组织检查采取的生物样品。然后本领域技术人员制备和检查该生物样品。制备方法可包括但不限于各种细胞学染色和免疫组织化学方法。遗憾的是,传统的癌症诊断方法具有许多缺陷。这些缺陷包括1)诊断可能需要主观的评估,因此易于导致不准确和缺乏再现性,2) 这些方法可能不能确定导致发病的基础遗传、代谢或信号传导途径,幻这些方法可能不能提供检测结果的定量评估,和4)这些方法可能不能提供对某些样品的明确的诊断。癌症的一个特征是正常转录调控的失调,从而导致基因或其他转录本如miRNAW 异常表达。异常表达的转录本包括参与细胞转化的基因,例如肿瘤抑制基因和致癌基因。 当于正常组织相比时,肿瘤中的肿瘤抑制基因和致癌基因可被上调或下调。已知的肿瘤抑制基因和致癌基因包括但不限于 brcal、brca2、bcr-abl、bcl-2、HER2、N-myc、C-myc、BRAF、 RET、Ras、KIT、Jun、FOS*p53。这种异常表达可通过多种不同的机理发生。在本发明中不是必须了解异常表达的机理或致癌作用发生的机理。但是,发现与正常样品相比其在样品中的表达被上调或下调的标志物或标志物组可以指示癌症。此外,特定的异常表达的标志物或标志物组可以指示特定类型的癌症或甚至于指示推荐的治疗方案。而且,本发明的方法不意图仅局限于常规定义的肿瘤抑制基因或致癌基因。相反,应该理解的是,任何确定为其表达水平或可选择基因剪接方面具有与良性、恶性或正常诊断的统计学显著相关性的标志物、基因或者基因或标志物的组均包括在本发明内。在一个实施方式中,本发明的方法要求提高目前的癌症诊断方法的准确性。提高的准确性可由多种基因和/或表达标志物的测量、以高诊断力或统计学显著性对基因表达产物如miRNA、rRNA、tRNA和mRNA基因表达产物的鉴别或以高诊断力或统计学显著性对基因和/或表达产物的组的鉴别,或者它们的任意组合来获得。例如,多种受体酪氨酸激酶的表达增加涉及癌发生。对已知在癌症细胞中差异表达的特定受体酪氨酸激酶的基因表达产物水平的测量可能提供错误的诊断结果,从而导致低准确率。多种受体酪氨酸激酶的测量可以通过要求出现替代表达基因的组合而提高准确性水平。因此,在一些情况中,多种基因的测量可以通过降低样品可能由于随机出现的可能性而显示异常基因表达谱的可能性增加诊断的准确性。类似地,组内一些基因表达产物如受体酪氨酸激酶,当它们的表达水平高于或低于正常值时,可能指示疾病或状况。测量该同一组内的其他基因产物的表达水平可提供诊断用途。因此,在一个实施方式中,本发明测量一个组内的两种或更多种基因表达产物。例如,在某些实施方式中,一个组内的 1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45 或 50 种基因表达产物被测量。本说明书中定义了各种不同的组,例如用于诊断甲状腺癌的亚型的组或落入特定本体论(ontology)组的基因表达产物的组。在另一实施方式中,测量从多个组准确地表明是否存在癌症的基因的组的表达水平是有利的。例如,本发明包括使用1、 2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45 或 50 个基因表达组,每个组测量 1、2、3、4、5、 6、7、8、9、10、15、20、25、30、35、40、45 或 50 种基因表达产物。此外,生物样品中其他致癌基因(如,举例来说,Ras)的表达增加也可能指示癌性细胞的存在。在一些情况中,确定几种不同类的致癌基因(如,举例来说,受体酪氨酸激酶、细胞质酪氨酸激酶、GTPase、丝氨酸/苏氨酸激酶、脂质激酶、丝裂原、生长因子和转录因子)的表达水平可能是有利的。在一些情况中,确定参与癌症进程的不同类或组的基因的表达水平和/或外显子使用(exon usage)可增强本发明的诊断能力。表达标志物的组可包括代谢或信号传导途径中的标志物,或遗传或功能上同源的标志物。例如,一组标志物可包括上皮生长因子信号传导途径中涉及的基因。另一组标志物可包括丝裂原活化的蛋白激酶。本发明还提供了用于检测(即测量)来自多个和/或独立的代谢或信号传导途径的基因表达标志物的方法和组合物。在一个实施方式中,本发明的表达产物标志物可通过使用多种表达产物标志物和统计学分析来提供更高准确性的癌症诊断。具体而言,本发明提供但不限于与甲状腺癌相关的RNA表达谱。本发明还提供了表征甲状腺组织样品的方法以及用于应用该方法的试剂盒和组合物。本公开内容还包括用于运营分子表达谱业务的方法。本公开内容提供了用于改进癌症诊断的现有技术状态的方法和组合物。在某些实施方式中,本发明提供了诊断癌症的方法,包括步骤获得包含基因表达产物的生物样品;确定该生物样品中一种或多种基因表达产物的表达水平;和当基因表达水平指示该生物样品中存在甲状腺癌时,确认该生物样品为癌性的。这可通过将基因表达水平与生物样品中甲状腺癌的存在相关联来进行。在一个实施方式中,基因表达产物选自图6。在某些实施方式中,该方法还包括将一种或多种基因表达产物的表达水平与对照样品中各基因表达产物的对照表达水平相比较的步骤,其中如果该生物样品和对照样品中的基因表达产物的基因表达水平之间存在差异的话,该生物样品被鉴定为癌性的。在某些实施方式中,本发明提供了诊断癌症的方法,包括步骤获得包含可选择地剪接的基因表达产物的生物样品;确定该生物样品中一种或多种基因表达产物的表达水平;和当基因表达水平指示该生物样品中存在甲状腺癌时,确认该生物样品为癌性的。这可通过将基因表达水平与生物样品中的甲状腺癌的存在相关联来进行。在一个实施方式中, 可选择地剪接的基因表达产物选自图6,其中比较生物样品和对照样品之间的差异基因表达产物可选择的外显子使用;和如果在规定的置信度水平下生物样品和对照样品之间的基因表达产物可选择外显子的使用存在差异的话,确认该生物样品为癌性的。在某些实施方式中,选自图6的基因还选自图2、图3、图4或图5中所列的基因。在某些实施方式中,本发明提供了使用本文描述的本发明的方法获得大于70%的特异性或灵敏度的诊断癌症的方法,其中,比较生物样品和对照样品之间的基因表达产物的水平;和如果在规定的置信度水平下生物样品和对照样品之间的基因表达水平存在差异的话,确认该生物样品为癌性的。在某些实施方式中,本发明方法的特异性和/或灵敏度为至少 70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、 96%、97%、98%、99% 或更高。在某些实施方式中,名义特异性(nominal specificity)大于或等于70%。名义阴性预测值(NPV)大于或等于95%。在某些实施方式中,NPV为至少95%、95. 5%、96%、 96. 5%,97%,97. 5%,98%,98. 5%,99%,99. 5%或更大。灵敏度通常是指TP/ (TP+FN),其中TP是真阳性,FN是假阴性。将持续不确定结果的数目除以基于判定的组织病理学诊断的恶性结果的总数。特异性通常是指TN/ (TN+FP), 其中TN是真阴性,FP是指假阳性。将良性结果的数目除以基于判定的组织病理学诊断的良性结果的总数。阳性预测值(PPV) :TP/(TP+FP);阴性预测值(NPV) :TN/(TN+FN)。标志物小组被选择以适应良性表达谱与非良性表达谱的充分分离。该多维分类器 (即算法)的训练是在超过500个甲状腺样品(包括> 300个FNA)上进行的。许多训练/ 测试集用于开发初步的算法。示例性的数据集示于图22中。首先,总体算法误差率显示为良性对非良性样品的基因数目的函数。使用支持向量机模型获得所有的结果,该模型以交叉验证(cross-validated)模式(30倍)在样品上进行训练和测试。在某些实施方式中,基因表达水平的差异为至少10%、15%、20%、25%、30%、 35^^40^^45%或50%或者更大。在某些实施方式中,基因表达水平中差异为至少2、3、 4、5、6、7、8、9、10倍或更多。在某些实施方式中,生物样品以大于75 %、80 %、85 %、90 %、 95%、99%或更高的准确性被鉴定为癌性的。在某些实施方式中,生物样品以大于95%的灵敏度被鉴定为癌性的。在某些实施方式中,生物样品以大于95%的特异性被鉴定为癌性的。在某些实施方式中,生物样品以大于95 %的灵敏度和大于95 %的特异性被鉴定为癌性的。在某些实施方式中,使用训练的算法计算准确性。在某些实施方式中,本发明提供了对应于选自表3、表4和/或表5的基因的基因表达产物。在某些实施方式中,本发明提供了诊断癌症的方法,包括使用来自一个或多个以下信号传导途径的基因表达产物。基因可以从其中选择的信号传导途径包括但不限于急性骨髓性白血病信号传导、生长激素抑制素2信号传导、cAMP介导的信号传导、细胞周期和 DNA损伤检验点信号传导、G蛋白偶联受体信号传导、整联蛋白信号传导、黑素瘤细胞信号传导、松弛肽信号传导和甲状腺癌信号传导。在某些实施方式中,多于一种基因选自单个信号传导途径以确定和比较生物样品与对照样品之间的差异基因表达产物水平。其他信号传导途径包括但不限于adherens、ECM、甲状腺癌、粘着斑(focal adhesion)、细胞凋亡、p53、 紧密连接、TGFbeta、ErbB、Wnt、癌症概览(cancer overview)中的途径、细胞周期、VEGF、 Jak/STAT、MAPK、PPAR、mTOR或自身免疫性甲状腺途径。在其他实施方式中,至少两种基因选自至少两个不同的信号传导途径以确定和比较生物样品和对照样品之间的差异基因表达产物水平。本发明的方法和组合物可以以任何组合具有选自1、2、3、4、5、6、7、8、9、10、15、 20、25、30、35、40、45、50或更多个信号传导途径的基因和可具有来自各信号传导途径的1、 2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多种基因表达产物。在某些实施方式中,组合的基因的组提供大于 70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、 92%、93%、94%、95%、96%、97%、98%、99%或 99. 5% 的特异性或灵敏度,或至少 95%, 95. 5%,96%,96. 5%、97%、97. 5%、98%、98. 5%、99%、99. 5%或更高的阳性预测值或阴性预测值。在某些实施方式中,本发明提供了诊断癌症的方法,包括选自至少两个不同的本体论组的基因。在某些实施方式中,基因可以从其中选择的本体论组包括但不限于细胞老化、细胞皮层、细胞周期、细胞死亡/细胞凋亡、细胞分化、细胞分裂、细胞连接、细胞迁移、 细胞形态发生、细胞运动、细胞投射(cell projection)、细胞增殖、细胞识别、细胞本体、细胞表面、细胞表面连接受体的信号转导、细胞粘附、转录、免疫应答或炎症。在某些实施方式中,多于一种基因选自单个本体论组以确定和比较生物样品和对照样品之间的差异基因表达产物水平。在其他实施方式中,至少两种基因选自至少两个不同的本体论组以确定和比较生物样品和对照样品之间的差异基因表达产物水平。本发明的方法和组合物可以以任何组合具有选自1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多个基因本体论组的基因和可具有来自各基因本体论组的1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、 45、50或更多种基因表达产物。在某些实施方式中,组合的基因的组提供大于70%、75%、 80%,85%,86%,87%,88%,89%,90%,91 %,92%,93%,94%,95%,96%,97%,98%, 99%或 99. 5%的特异性或灵敏度,或至少 95%,95. 5%,96%,96. 5%,97%,97. 5%,98%, 98. 5%,99%,99. 5%或更高的阳性预测值或阴性预测值。在某些实施方式中,本发明提供了对癌症分类的方法,包括步骤获得包含基因表达产物的生物样品;确定该生物样品的一种或多种基因表达产物的表达水平,该基因表达产物在不同亚型的癌症中差异表达;和当基因表达水平指示癌症的亚型时,确认该生物样品为癌性的。在某些实施方式中,该方法还包括将一种或多种基因表达产物的表达水平与对照样品中各基因表达产物的对照表达水平相比较的步骤,其中,如果生物样品和对照样品中的基因表达产物的基因表达水平存在差异的话,该生物样品被鉴定为癌性的。在某些实施方式中,本方法区分滤泡性癌和髓样癌。在某些实施方式中,本发明区分良性甲状腺疾病和恶性甲状腺肿瘤/癌。在某些实施方式中,本方法的基因表达产物是蛋白质,并比较蛋白质的量。蛋白质的量可通过以下一种或多种方法测定ELISA、质谱分析、印迹或免疫组织化学。RNA可通过以下一种或多种方法测量微阵列、SAGE、印迹、RT-PCR或定量PCR。在某些实施方式中,可用于诊断癌症的生物样品与对照样品之间的基因表达水平 (如mRNA、蛋白质或可选择地剪接的基因产物)的差异为至少1. 5、2、2. 5、3、3. 5、4、4. 5、5、 5. 5、6、6· 5、7、7· 5、8、8. 5、9、9· 5、10 倍或更多。在某些实施方式中,生物样品以大于75%、80%、85%、86%、87%、88%、89%、 90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或 99. 5%的准确性被分类为癌性的或对于癌症亚型为阳性的。本文使用的诊断准确性包括特异性、灵敏度、阳性预测值、阴性预测值和/或错误发现率。当对用于诊断癌症的生物样品进行分类时,通常由二元分类器得到四种可能的结果。如果预测的结果是P,实际值也是P,则被称为真阳性(TP);但是,如果实际值为n,则被称为假阳性(FP)。相反,当预测结果和实际值均为η时出现真阴性,当预测结果是η而实际值是P时,则是假阴性。在一个实施方式中,考虑试图确定某人是否患有某种疾病的诊断测试。当这个人测试为阳性但事实上并未患有该疾病时,在这种情况下出现假阳性。另一方面,当这个人测试为阴性而表明其是健康的,但他实际上患有该疾病时,出现假阴性。在某些实施方式中,可以通过以相关比例重复采样在可获得样品上获得的误差产生假设现实世界的亚型流行度的ROC曲线。疾病的阳性预测值(PPV)或精确率或后验概率是具有阳性测试结果的患者被正确诊断的比例。这是诊断方法的最重要的量度,因为它反映了阳性测试反映测试的基础状况的概率。但是,它的值确实依赖于疾病的流行度,并可发生变化。在一个实例中,FP(假阳性);TN(真阴性);TP(真阳性);FN(假阴性)。假阳性率(α ) = FP/ (FP+TN)-特异性假阴性率(β ) = FN/ (TP+FN)—灵敏度
能力=灵敏度=1-β阳性似然率=灵敏度/ (I-特异性)阴性似然率=(1-灵敏度)/特异性阴性预测值是具有阴性测试结果的患者被正确诊断的比例。PPV和NPV量度可使用适当的疾病亚型流行度估计值来获得。汇集的恶性疾病流行度的估计值可从通过手术大致分为B和M的不确定事件的集合计算。对于亚型特异性的估计值,在某些实施方式中,疾病的流行度有时是无法计算的,因为不存在任何可获得的样本。在这些情况下,亚型疾病流行度可由汇集的疾病流行度估计值替代。在某些实施方式中,表达产物水平或可选择外显子使用指示以下之一滤泡细胞癌、未分化癌、髓样癌或肉瘤。在某些实施方式中,使用本发明的方法选择的用于诊断癌症的一种或多种基因包含对应于指示癌症的一组代谢或信号传导途径的代表性序列。在某些实施方式中,本发明方法的表达分析的结果提供了给出的诊断正确的统计学置信水平。在某些实施方式中,该统计学置信水平是大于85%、90%、91 %、92%、93%、 94%、95%、96%、97%、98%、99%或 99. 5%。在另一方面,本发明提供了用于诊断癌症的组合物,包含含有图6中所列的一种或多种基因或它们的互补物的一部分的寡核苷酸,以及该寡核苷酸共价连接于其上的基底。本发明的组合物适用于在特定的置信水平下使用训练的算法来诊断癌症。在一个实施例中,本发明的组合物用于诊断甲状腺癌。在本公开的一个方面,已经过细胞学公司处理的、进行常规方法和染色的、诊断和分类的样品随后进行分子表达谱分析作为第二诊断筛选。该第二诊断筛选使得能够1)显著降低假阳性和假阴性,幻确定造成所产生的病理学状态的基础遗传、代谢或信号传导途径,3)能够赋予诊断准确性的统计学概率,4)能够解决含糊的结果,和幻能够区分癌症的亚型。例如,在甲状腺癌的特定情况中,本发明的分子表达谱还可提供对于甲状腺癌的特定类型(例如乳头状、滤泡性、髓样和未分化的甲状腺癌)的诊断。分子表达谱的结果还可进一步允许本领域的技术人员(如科学或医学专业人员)建议或指定特定的治疗干预。 生物样品的分子表达谱还可用于监测初始诊断后特定治疗的效力。还可以理解的是,在某些情况下,分子表达谱可用于取代而不是补充已确立的癌症诊断方法。在一个方面,本发明提供了可用于诊断和监测遗传障碍的算法和方法。遗传障碍是由基因或染色体的异常引起的疾病。尽管某些疾病(如癌症)部分地由于遗传障碍导致, 但它们也可以由环境因素引起。在某些实施方式中,本文公开的算法和方法用于诊断和监测癌症,如甲状腺癌。遗传疾病通常可分为两类单基因障碍及多因素和多基因(复杂)的障碍。单基因障碍是单个突变基因的结果。据估计,超过400种人类疾病是由单基因缺陷引起的。单基因障碍可以以几种方式传递到后续世代。遗传单基因障碍有几种类型,包括但不限于 常染色体显性、常染色体隐性、X-连锁显性、X-连锁隐性、Y-连锁和线粒体遗传。对于受常染色体显性障碍的人,仅必需基因的一个突变拷贝。常染色体显性类型的障碍的实例包括但不限于亨廷顿病(Huntington' s disease)、神经纤维瘤病1、马凡氏综合征(Marfan Syndrome)、遗传性非息肉病性结直肠癌(Hereditary nonpolyposis colorectal cancer)和遗传性多发性外生骨疣(Hereditary multiple exostose) 0在常染色体隐性障碍中,人受到常染色体显性障碍的影响必需有基因的两个拷贝发生突变。这一类型的障碍的实例包括但不限于囊性纤维化、镰刀细胞病(并且部分镰刀细胞病)、Tay-Sachs病、尼曼-匹克氏病(Niemann-Pick disease)、脊髓性肌萎缩和干耳垢(dry earwax)。X-连锁显性障碍是由X染色体上的基因的突变引起的。仅有几种障碍具有这种遗传模式,最理想的例子是X连锁低血磷性佝偻病。男性和女性均受这些疾病的影响,男性通常比女性的影响更严重。一些X-连锁显性状况(如雷特氏综合征、2型色素失调症和艾卡尔迪综合征(Aicardi Syndrome))通常在出生前或刚出生后的男性中是致命的,且因此主要在女性中观察到。 X-连锁隐性疾病也是由X染色体上的基因突变引起的。这一类型的障碍的实例包括但不限于血友病A、杜兴肌营养不良(Duchenne muscular dystrophy)、红绿色盲、肌营养不良症和雄激素性脱发。Y连锁障碍是由Y染色体上的突变引起的。实例包括但不限于男性不育症和耳廓多毛症(hypertrichosis pinnae)。线粒体遗传,也称为母体遗传,适用于线粒体DNA 中的基因。这种类型的障碍的例子是Leber' s遗传性视神经病(Leber‘ s Hereditary Optic Neuropathy)。遗传障碍也可以是复杂的、多因素或多基因的,这意味着它们很可能与多种基因的效应(其与生活方式和环境因素结合)相关。尽管复杂的疾病通常簇集在家族中,但它们不具有清晰的遗传模式。这使得难以确定人们遗传或传递这些疾病的风险。复杂的疾病也难以研究和治疗,因为导致引起大多数这些疾病的特定因素还未确定。可以使用本发明的算法和方法诊断、表征和/或监测的多因素或多基因疾病包括但不限于心脏病、糖尿病、 糖尿病、哮喘、孤独症、自身免疫性疾病如多发性硬化、癌症、纤毛病(ciliopathies)、腭裂、 高血压、炎性肠病、智力迟钝和肥胖。可以使用本发明的算法和方法诊断、表征和/或监测的其他遗传疾病包括但不限于1ρ36缺失综合征、21-羟化酶缺乏症、22qll.2缺失综合征、47,XYY综合征、48,XXXX, 49,XXXXX、无铜蓝蛋白血症、软骨成长不全,II型、软骨发育不全、急性间歇性卟啉症、腺苷酸琥珀酸裂解酶缺乏症、肾上腺脑白质营养不良、ALA不足卟啉病、ALA脱水酶缺乏症、亚历山大病、尿黑酸尿症、α-1抗胰蛋白酶缺乏症、阿耳斯特雷姆综合征(Alstrom syndrome), 阿尔茨海默氏病(1、2、3和4型)、釉质生长不全、肌萎缩性侧索硬化症、2型肌萎缩性脊髓侧索硬化症、4型肌萎缩性脊髓侧索硬化症、4型肌萎缩性侧索硬化症、雄激素不敏感综合征、贫血、Angelman综合征、阿佩尔综合征(Apert syndrome)、共济失调毛细血管扩张症、 比尔-史蒂文生皮肤回旋综合征(Beare-Mevenson cutis gyrata syndrome)、本杰明综合征、β-地中海贫血、生物素酰胺酶缺乏症、Birt-Hogg-DuW综合征、膀胱癌、布卢姆综合征、骨疾病、乳腺癌、CADASIL、弯肢发育不良(Camptomelic dysplasia)、卡纳万病(Canavan disease)、癌症、乳糜泻、CGD慢性肉芽肿病、夏科-马里-图思病(Charcot-Marie-Tooth disease)、1型夏科-马里-图思病、4型夏科-马里-图思病、夏科-马里-图思病,2型、夏科-马里-图思病,4型、科凯恩综合征、Coffin-Lowry综合征、II和XI型colIagenopathy、 结肠直肠癌、输精管先天性缺失、输精管先天性双侧缺失、先天性糖尿病、先天性红细胞生成性卟啉病、先天性心脏病、先天性甲状腺功能减退症、结缔组织病、Cowden综合征、猫叫综合征、克罗恩病、fibrostenosing、克鲁宗综合征、Crouzonodermoskeletal综合征、囊性纤维化、德-格罗乌稀综合征(De Grouchy Syndrome)、神经退行性疾病、Dent病、发育性病废(developmental disabilityes)、DiGeorge综合征、V型远端脊髓性肌萎缩、唐氏综合症、 侏儒症、埃莱尔-当洛综合征(Hilers-Danlos syndrome)、关节松弛症(arthrochalasia) 型埃莱尔-当洛综合征、经典型埃莱尔-当洛综合征、皮肤松弛症(dermatosparaxis)型埃莱尔-当洛综合征、脊柱后侧凸型埃莱尔-当洛综合征、脉管型、红细胞生成原卟啉症、 法布瑞氏症(Fabry' s disease)、面部受伤和疾病、因子V莱顿血栓形成倾向、家族性腺瘤性息肉病、家族性自主神经异常、范可尼贫血、re综合征、脆性X综合征、弗里德里希共济失调、弗里德里希氏共济失调、G6PD缺乏症、半乳糖血症、戈谢病(1、2和3型)、遗传性脑失调、甘氨酸脑病(Glycine enc印halopathy)、2型血色病、4型血色病、丑角鱼鳞病 (Harlequin Ichthyosis)、头和脑畸形、听力障碍和耳聋、儿童听力问题、血色素沉积症(新生儿、2型和3型)、血友病、肝红细胞生成性卟啉症、遗传性粪卟啉症、遗传性多发性外生骨疣、具有压力麻痹的倾向的遗传性神经病、遗传性非息肉病性结直肠癌、高胱氨酸尿症、 亨廷顿舞蹈病、早年衰老综合症(Hutchinson Gilford Progeria Syndrome)、高草酸尿症、原发性高苯丙氨酸血症、软骨生成低下、软骨形成不足症(hypochondrogenesis)、idic 15、色素失调症、婴儿戈谢病、婴儿发作的上行性遗传性痉挛性瘫痪、不孕、Jackson-Weiss 综合征、Joubert综合征、少年原发性侧索硬化症、肯尼迪病、克兰费尔特综合征、Kniest 发育不良、克拉伯病、学习不能、Lesch-Nyhan综合症、脑白质营养不良、李-法美尼综合征(Li-Fraumeni syndrome)、家族性脂蛋白脂肪酶缺乏症、男性性器失调、马方综合征、 McCune-Albright综合征、McLeod综合征、家族性地中海热、MEDNIK、门克斯病、门克斯综合征、代谢紊乱、高铁血红蛋白血症β-球蛋白型、高铁血红蛋白血症先天性正铁血红蛋白血症、甲基丙二酸血症、微综合征(Micro syndrome)、小头畸形、运动障碍、Mowat-Wilson综合征、粘多糖贮积病(MPS I)、Muenke综合症、肌营养不良、Duchenne和Becker型肌营养不良、Duchenne和Becker型肌肉营养不良、强直性肌营养不良症、1型和2型强直性肌营养不良、新生儿血色素沉着病、神经纤维瘤病、神经纤维瘤病1、神经纤维瘤病2、I型神经纤维瘤病、II型神经纤维瘤病、神经病、神经肌肉障碍、尼曼-匹克病、非酮性高甘氨酸血症、非综合征性耳聋、常染色体隐性非综合征性耳聋、努南综合征、成骨不全症(I型和III 型)、耳脊椎骨骺发育不良(otospondylomega印iphyseal dysplasia)、泛酸盐激酶相关神经退化、帕套综合症(Patau syndrome)(三体13)、彭德莱综合征(Pendred syndrome)、波伊茨-耶格综合征(Peutz-Jeghers syndrome)、Pfeiffer综合征、苯丙酮尿症、卩卜啉症、 迟发性皮肤卟啉症、普拉德-威利综合征O^ader-Willi syndrome)、原发性肺动脉高血压、朊病毒病、早衰症、丙酸血症、蛋白C缺乏症、蛋白S缺乏、伪戈谢病、弹性假黄瘤、视网膜障碍、眼癌、眼癌FA-弗里德共济失调、雷特氏综合症(Rett syndrome)、鲁宾斯坦-泰比综合征(Rubinstein-Taybi syndrome)、SADDAN、桑德霍夫病(Sandhoff disease)、III 型感觉和自主神经病、镰状细胞贫血、骨骼肌再生、皮肤色素沉着症、Smith Lemli Opitz综合征、语言及沟通障碍、脊髓性肌萎缩、脊髓延髓肌萎缩症、脊髓小脑共济失调、Strudwick 型脊椎骨骺发育不良(spondyloepimetaphyseal dysplasia)、先天性脊椎骨骺发育不良 (spondyloepiphyseal dysplasia)、其jf蒂克勒综合征(Stickler syndrome)、其jf蒂克勒综合征C0L2A 1、泰萨二氏病(Tay-Sachs disease)、四氢生物蝶呤缺乏症、致死性骨发育不良 (thanatophoric dysplasia)、伴有糖尿病糖尿病和感觉神经性耳聋的硫胺反应性巨幼细胞性贫血、甲状腺病、图雷特综合症(Tourette syndrome)、特-柯二氏综合征(TreacherCollins syndrome)、三X染色体综合征、结节性硬化症、特纳综合征、Usher综合征、混 t生口卜(variegate porphyria)、i 二氏病(von Hippel-Lindau disease) >
Waardenburg ^^|iE>ffeissenbacher-Zweymuller ^^11^1 ^ (ffil son disease)、 Wolf-Hirschhorn综合征、着色性干皮病、X-连锁严重联合免疫缺陷、X连锁铁粒幼细胞性贫血,以及X-连锁脊髓延髓肌肉萎缩。在一个实施方式中,本发明的方法和算法用于诊断、表征和监测甲状腺癌。可使用本发明的算法和方法诊断、表征和/或监测的其他类型的癌症包括但不限于肾上腺皮质癌、肛门癌、再生障碍性贫血、胆管癌、膀胱癌、骨癌、骨转移、中枢神经系统(CNQ癌、外周神经系统(PNS)癌、乳腺癌、Castleman病、子宫颈癌、儿童非霍奇金氏淋巴瘤、结肠和直肠癌、子宫内膜癌、食道癌、尤文氏肿瘤家族(如尤文氏肉瘤)、眼癌、胆囊癌、胃肠道类癌瘤、 胃肠道间质瘤、妊娠滋养细胞病、毛细胞性白血病、霍奇金氏病、卡波济氏肉瘤、肾癌、喉咽癌、急性淋巴细胞性白血病、急性骨髓性白血病、儿童白血病、慢性淋巴细胞性白血病、慢性粒细胞性白血病、肝癌、肺癌、肺类癌瘤、非霍奇金氏淋巴瘤、男性乳腺癌、恶性间皮瘤、多发性骨髓瘤、骨髓发育异常综合征、骨髓增殖性障碍、鼻腔和鼻侧癌、鼻咽癌、成神经细胞瘤、 口腔和口咽癌、骨肉瘤、卵巢癌、胰癌、阴茎癌、垂体瘤、前列腺癌、成视网膜细胞瘤、横纹肌肉瘤、唾液管癌(salivary gland cancer)、肉瘤(成人软组织癌)、黑素瘤皮肤癌、非黑素瘤皮肤癌、胃癌、睾丸癌、胸腺癌、子宫癌(如子宫肉瘤)、阴道癌、阴户癌和Waldenstrom巨球蛋白症。在某些实施方式中,本发明的基因表达产物标志物可以通过使用低数量和质量的多种基因表达产物标志物和利用本发明算法的统计学分析,提供更高的遗传疾病或癌症诊断的准确性。特别是,本发明提供但不限于诊断、表征和分类与甲状腺癌有关的基因表达谱的方法。本发明还提供了用于表征和分类甲状腺组织样品的算法、及用于应用所述方法的试剂盒和组合物。本公开还包括用于运营分子表达谱业务的方法。在本发明的一个实施方式中,标志物和基因可被鉴定为与甲状腺良性样品相比在甲状腺癌样品中具有差异表达。具有良性病理学的示例性的例子包括滤泡性腺瘤、许特莱氏细胞腺瘤、淋巴细胞性甲状腺炎和结节性增生。具有恶性病理学的示例性的例子包括滤泡性癌、乳头状甲状腺癌的滤泡性变型、髓样癌和乳头状甲状腺癌。可以处理生物样品来提取核酸如DNA或RNA。核酸可在允许杂交的条件下与本发明的探针阵列接触。杂交度可使用本领域已知的多种方法以定量方式进行分析。在某些情况下,探针位置处的杂交度可以与分析所提供的信号强度相关,因而其与样品中存在的互补核酸序列的量相关。可以使用软件在人类基因组或转录物组(包括表达的基因、外显子、 内含子和miRNA)上提取、标准化、总结和分析来自探针的阵列强度数据。在某些实施方式中,良性或恶性样品中特定探针的强度可相对于对照组进行比较,以确定样品中是否出现差异表达。在对应表达的序列的阵列上标志物位置处的相对强度的增加或降低分别指示相应表达序列的表达的增加或降低。或者,相对强度的降低可以指示表达序列的突变。各样品的获得强度值可使用如下特征选择技术进行分析,包括通过考察数据的内在性质来评估特征的关联性的过滤器技术、在特征亚集搜索内嵌入模型假设的包装器方法和将特征的优化集的检索内建在分类器算法中的嵌入技术。用在本发明的方法中的过滤器技术包括(1)参数方法,如使用两个样品t检验、ANOVA分析、Bayesian框架和Gamma分布模型,(2)无模型方法,如使用Wilcoxon秩和检验 (ffilcoxon rank sum test)、类|1]—内平方禾口检验(between—within class sum of squares test)、秩积方法(rank products method)、随机排列方法或TNoM(其包括设置两个数据集之间的表达倍数改变差异的阈值点和然后检测使错分类的数目最小化的各基因的阈值点),和( 多变量方法,如二变量方法,基于相关性的特征选择方法(ere)、最小冗余最大相关性方法(MRlffi)、Markov覆盖过滤器方法(Markov blanket filter method)和不相关的收缩质方法(uncorrelated shrunken centroid method)。用在本发明中的包装器方法包括序列检索方法、遗传算法和分布算法的估算。用在本发明中的嵌入方法包括随机森林算法、支持向量机算法的权重向量和逻辑回归算法的权重。Bioinformatics. 2007 Oct 1 ;23 (19) :2507-17提供了上述用于强度数据分析的过滤器技术的相对优点的概述。然后可使用分类器算法将选择的特征进行分类。示例性的算法包括但不限于减少变量数目的方法,如主要成分分析算法、部分最小平方法和独立分量分析算法。示例性的算法还包括但不限于直接操作大量变量的方法,如统计学方法和基于机器学习技术的方法。 统计方法包括惩罚logistic回归、微阵列的预测分析(PAM)、基于收缩质心的方法、支持向量机分析和正则化线性判别分析。机器学习技术包括bagging方法、boosting方法、随机森林算法和它们的组合。Cancer Inform. 2008 ;6 :77-97提供了上述用于微阵列强度数据分析的分类技术的概述。本发明的标志物和基因可用于表征细胞或组织的癌性或非癌性状态。本发明包括诊断区分良性组织或细胞和恶性组织和细胞的方法,包括确定受试者的甲状腺样品中标志物或基因的差异表达,其中所述标志物或基因是图2-6、9-13、16或17中列举的标志物或基因。本发明还包括用于诊断甲状腺髓样癌的方法,包括确定受试者的甲状腺样品中标志物或基因的差异表达,其中所述标志物或基因是图10中列举的标志物或基因。本发明还包括用于诊断甲状腺病理亚型的方法,包括确定受试者的甲状腺样品中标志物或基因的差异表达,其中所述标志物或基因是图13中列举的标志物或基因。本发明还包括诊断区分恶性组织或细胞和良性组织或细胞的方法,包括确定受试者的甲状腺样品中miRNA的差异表达, 其中所述miRNA是图16或17中列举的miRNA。根据以上内容,本文公开的基因、多种基因、标志物、miRNA或它们的组合的差异表达可使用northern印迹和采用如本文中确定的序列开发用于该目的探针而测定。这类探针可由DNA或RNA或合成核苷酸或以上的组合组成,且可有利地由与图2-6、9-13、16或 17中确定的序列匹配或互补的连续核苷酸残基延伸(stretch)组成。这类探针最有利地包含源自图2-6、9-13、16或17中确定的一个或多个序列的至少15-200个或更多个残基的连续延伸,包括 15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、 36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、 61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、80、85、90、95、100、110、120、130、140、 150、160、175或200个或更多个残基。因此,当单个探针多次结合癌性或怀疑为癌性或倾向成为癌性的细胞样品的转录物组,而相同的探针与类似量的源自相同器官或组织的另外非癌性细胞的基因组的转录物组结合产生显著较多或较少的结合时,这表示包含或对应于图2-6、9-13、16或17中确定的序列(其中测序的探针由其获得)的基因、多种基因、标志物或miRNA的差异表达。
在一个这样的实施方式中,与相同器官的正常细胞和/或组织相比,表达升高通过测量RNA的相对转录率来确定,如通过产生相应的cDNA,然后使用由图2-6、9-13、16或 17中确定的基因序列开发的探针来分析所得到的DNA。因此,通过使用怀疑为癌性的细胞全RNA互补序列利用逆转录酶产生的cDNA的水平产生了相应量的cDNA,其然后可使用聚合酶链反应或一些其他方法(如线性扩增、等温扩增、NASB或滚环扩增)扩增以确定所得到的cDNA的相对水平,从而确定基因表达的相对水平。表达的增加还可以使用选择性结合而因此检测本文公开的基因的表达产物的存在的试剂来确定。例如,可以产生针对包含图2-6和9-13中确定的序列的一种多肽的抗体 (可能是适当标记的抗体,如抗体与荧光或放射性标记结合的情况),且该抗体然后与对应于本文公开的序列的一种基因编码的多肽反应(选择性或特异性地结合)。然后,结合的这种抗体(特别是,与其它非癌性细胞和组织相反,从怀疑癌性的细胞和组织获得的样品中这种结合的相对程度)可用作本文中确定的癌症相关基因的表达(或过表达)程度的量度。因此,本文确定为在癌性细胞和组织中过表达的基因可以由于增加的拷贝数或由于过量转录(例如当过表达是由于激活基因和导致RNA聚合酶的反复结合的转录因子的过量产生布导致的情况下)而过表达,因而产生多于正常量的RNA转录本,其随后被翻译成多肽, 如包含图2-6和9-13中确定的氨基酸序列的多肽。这种分析提供了查明本发明确定的基因的表达并因而确定来自待测试患者的样品中癌性状态的存在、所述患者在随后时间内发生癌症的倾向的另外的手段。在应用本发明的方法时,应该注意的是,指示癌性状态的基因或标志物的表达并不需要每一细胞的特征被发现是癌性的。因此,本文公开的方法用于检测组织内癌性状况的存在,其中不是所有的细胞显示完整的过表达模式。例如,使用适当的探针(DNA或RNA) 可以发现包含与图2-6、9-13、16或17中确定的至少一种序列在严格条件下同源或至少 90%、优选95%相同的序列的一组选择的基因或标志物存在于源自肿瘤或恶性组织样品的少至60%的细胞中,而在来自对应的非癌性(或另外的正常)组织的多至60%的细胞中不存在(而因此在多至40%的这种正常组织细胞中存在)。在一个实施方式中,这种表达模式发现存在于由癌性组织获取的至少70%的细胞中,而在对应的正常(非癌性)组织样品的至少70%细胞中不存在。在另一实施方式中,这种表达模式发现在由癌性组织获取的至少80%的细胞中存在,而在相应的正常(非癌性)组织样品的至少80%细胞中不存在。在另一实施方式中,这种表达模式可在由癌性组织获取的至少90%的细胞中存在,而在相应的正常(非癌性)组织样品的至少90%细胞中不存在。在另一实施方式中,这种表达模式发现在由癌性组织获取的至少100%的细胞中存在,而在相应的正常(非癌性)组织样品的至少100%细胞中不存在,尽管后一实施方式可能罕有出现。在某些实施方式中,分子表达谱包括核酸(DNA或RNA)、蛋白质或它们的组合的检测、分析或定量。通过本发明的方法诊断的疾病或状况包括例如受试者的一种或多种组织中的异常生长状况,该组织包括但不限于皮肤、心脏、肺、肾、乳房、胰脏、肝、肌肉、平滑肌、 膀胱、胆囊、结肠、肠、脑、食道或前列腺。在某些实施方式中,通过本发明的方法分析的组织包括甲状腺组织。在某些实施方式中,通过本发明的方法诊断的疾病或状况包括良性和恶性过度增殖性疾病,包括但不限于癌症、增生或瘤形成。在某些情况下,通过本发明的方法诊断的过度增殖性疾病包括但不限于乳腺癌,如乳腺中导管组织的导管癌、髓样癌、粘液癌、管状癌和炎性乳腺癌;卵巢癌,包括上皮卵巢肿瘤如卵巢中的腺癌和从卵巢迁移到腹腔中的腺癌; 子宫癌;子宫颈癌如子宫颈上皮中的腺癌,包括鳞状细胞癌和腺癌;前列腺癌,如选自以下的前列腺癌腺癌或迁移至骨的腺癌;胰癌如胰管组织中的上皮样癌和胰管中的腺癌;膀胱癌如膀胱中的移行细胞癌、尿路上皮癌(移行细胞癌)、内衬膀胱的尿路细胞中的肿瘤、 鳞状细胞癌、腺癌和小细胞癌;白血病如急性骨髓性白血病(AML)、急性淋巴细胞性白血病、慢性淋巴细胞性白血病、慢性粒细胞性白血病、毛细胞白血病、脊髓发育不良、骨髓增殖性疾病、急性髓性白血病(AML)、慢性骨髓性白血病(CML)、肥大细胞病、慢性淋巴细胞性白血病(CLL)、多发性骨髓瘤(MM)和骨髓发育异常综合症(MDS);骨癌;肺癌如非小细胞肺癌 (NSCLC),其分为鳞状细胞癌、腺癌和大细胞未分化癌,及小细胞肺癌;皮肤癌如基底细胞癌、黑素瘤、鳞状细胞癌和光化性角化病(其是有时候发展成为鳞状细胞癌的皮肤状况); 眼视网膜母细胞瘤;皮肤或眼内(眼)黑素瘤;原发性肝癌(始于肝脏中的癌症);肾癌; AIDS相关淋巴瘤如弥漫型大B细胞淋巴瘤、B细胞免疫母细胞淋巴瘤和小无裂细胞淋巴瘤;卡波济氏肉瘤;病毒诱导的癌症,包括乙型肝炎病毒(HBV)诱导的癌症、丙型肝炎病毒 (HCV)诱导的癌症和肝细胞癌;人类嗜淋巴细胞病毒1型(HTLV-I)和成人T细胞白血病/ 淋巴瘤;和人类乳头状瘤病毒(HPV)和子宫颈癌;中枢神经系统癌症(CNQ如原发性脑肿瘤,其包括神经胶质瘤(星形细胞瘤、间变型星形细胞瘤或多形性成胶质细胞瘤)、少突神经胶质瘤、室管膜瘤、脑膜瘤、淋巴瘤、神经鞘瘤和成神经管细胞瘤;外周神经系统(PNS)癌如听神经瘤和恶性外周神经鞘肿瘤(MPNST),包括神经纤维瘤和神经鞘瘤、恶性纤维细胞瘤、恶性细胞组织细胞瘤、恶性脑膜瘤、恶性间皮瘤和恶性混合MUllerian瘤;口腔和口咽癌如下咽癌、喉癌、鼻咽癌和口咽癌;胃癌如淋巴瘤、胃基质瘤和类癌瘤;睾丸癌如生殖细胞瘤(GCT)(其包括精原细胞瘤和非精原细胞瘤)和性腺基质肿瘤(其包括莱迪希细胞瘤和睾丸支持细胞瘤);胸腺癌如胸腺瘤、胸腺癌、霍奇金氏病、非霍奇金氏淋巴瘤类癌或类癌瘤;直肠癌;和结肠癌。在某些情况下,通过本发明的方法诊断的疾病和状况包括但不限于甲状腺疾病,如,举例来说,良性甲状腺障碍,包括但不限于滤泡性腺瘤、许特莱氏细胞腺瘤、淋巴细胞性甲状腺炎和甲状腺增生。在某些情况下,通过本发明的方法诊断的疾病或状况包括但不限于恶性甲状腺疾病,如,举例来说,滤泡性癌、乳头状甲状腺癌的滤泡性变型、 髓样癌和乳头状癌。在某些情况下,本发明的方法提供了用于判定组织为患病或正常的诊断。在其他情况下,本发明的方法提供了正常、良性或恶性的诊断。在某些情况下,本发明的方法提供了用于良性/正常或恶性的诊断。在某些情况下,本发明的方法提供了用于本文规定的一种或多种特定疾病或状况的诊断。II.获得生物样品在某些实施方式中,本发明的方法用于从受试者获得样品。如本文所使用的,术语受试者是指任何动物(如哺乳动物),包括但不限于人类、非人类灵长动物、啮齿类、狗、猪等。本文提供的获得方法包括活组织检查方法,包括细针吸取、芯针活组织检查、真空辅助活组织检查、切开式活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查。样品可获自本文规定的任何组织,包括但不限于皮肤、心脏、肺、肾、乳腺、 胰、肝、肌肉、平滑肌、膀胱、胆囊、结肠、肠、脑、前列腺、食道或甲状腺。或者,样品可获自任何其他来源,包括但不限于血液、汗液、毛囊、口腔组织、眼泪、经血、粪便或唾液。在本发明的某些实施方式中,医疗专业人员可获得用于测试的生物样品。在某些情况下,医疗专业人员可向受试者推荐提交生物样品的检测中心或实验室。在其他情况下,受试者可提供样品。 在某些情况下,本发明的分子表达谱商业机构可获得样品。样品可通过本领域已知的方法获得,例如本文提供的活组织检查方法、擦、刮、放血术或本领域已知的任何其他方法。在某些情况下,样品可使用本发明的试剂盒的组件获得、储存或转运。在某些情况下,可获得多个样品(如多个甲状腺样品)以通过本发明的方法诊断。在某些情况下,可获得多个样品(如来自一种组织类型(如甲状腺)的一个或多个样品和来自另一组织(如口腔)的一个或多个样品)以通过本发明的方法进行诊断。在某些情况下,可在相同或不同的时间获得多个样品(如来自一种组织类型(如甲状腺)的一个或多个样品和来自另一组织(如口腔)的一个或多个样品)。在某些情况下,在不同时间获得的样品通过不同的方法储存和/或分析。例如,样品可获得和通过细胞学分析方法 (常规染色)分析。在某些情况下,进一步的样品也可基于细胞学分析的结果从受试者获得。癌症的诊断可包括由医生、护士或其他医疗专业人员对受试者的检查。检查可以是常规检查的一部分,或检查可以是由于特定的疾患,包括但不限于以下之一疼痛、病状、病状预期、可疑肿块或胞块的存在、疾病或状况。受试者可以意识到或未意识到该疾病或状况。 医疗专业人员可获得用于测试的生物样品。在某些情况下,医疗专业人员可向受试者推荐提交生物样品的检测中心或实验室。在某些情况下,可将受试者推荐专家(如肿瘤学家、外科医生或内分泌学家)以进行进一步的诊断。专家也可同样地获得用于测试的样品或向受试者推荐提交生物样品的检测中心或实验室。在任何情况下,生物样品可由医生、护士或其他医疗专业人员(例如医学专家、内分泌学家、细胞学家、抽血者、放射学家或肺脏学家(pulmonologist))获得。医疗专业人员可指定在样品上所进行的适当的测试或分析,或本公开的分子表达谱商业机构可商讨哪些分析或测试是最适当地指明。分子表达谱商业机构可向个人或者其医疗或保险供应商收取咨询工作的费用、样品获取和/或储存的费用、材料的费用或用于所提供的所有产品和服务的费用。在本发明的某些实施方式中,医疗专业人员不需要参与初始诊断或样品获取。可选择地个人可通过使用非处方(overthe counter)试剂盒获取样品。所述试剂盒可包括用于获得本文所述的样品的工具、用于储存所述样品以用于检查的工具和正确使用该试剂盒的说明书。在某些情况下,分子表达谱服务包括在购买试剂盒的费用中。在其他情况下,分子表达谱服务单独收费。适于分子表达谱商业机构使用的样品可为任何包含待测试个体的组织、细胞、核酸、基因、基因片段、表达产物、基因表达产物或基因表达产物片段的材料。提供了用于确定样品适用性和/或充分性的方法。样品可以包括但不限于个体的组织、细胞或来自细胞或源自细胞的生物材料。样品可为异源或同源的细胞或组织群体。生物样品可使用本领域已知的任意方法获得,这些方法可提供适于本文所述的分析方法的样品。样品可通过非侵入性方法获得,包括但不限于皮肤或子宫颈的刮擦、颊擦拭、唾液收集、尿液收集、粪便收集、经血收集、眼泪或精液的收集。在其他情况下,样品是通过侵入性过程获得,包括但不限于活组织检查、肺泡或肺灌洗、针式吸取或放血术。活组织检查的方法可进一步包括切开式活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查。针式吸取方法可进一步包括细针吸取、芯针活组织检查、真空辅助活组织检查或大芯活组织检查。在某些实施方式中,可通过本文的方法获得多个样品以确保足够量的生物材料。获得合适的甲状腺样品的方法是本领域已知的,且还描述在ATA Guidelines for thryoid nodule management (Cooper 等人 Thyroid Vol. 16 No. 22006) 中,其全部通过引用方式结合在本文中。用于获得生物样品的通用方法也是本领域已知的, 且还描述在例如 Ramzy,Ibrahim Clinical Cytopathology and Aspiration Biopsy 2001 中,其全部通过引用方式结合在本文中。在一个实施方式中,样品是甲状腺结节或怀疑的甲状腺肿瘤的细针吸取物。在某些情况下,细针吸取物取样过程可通过使用超声、X射线或其他成像设备指导。在本发明的某些实施方式中,分子表达谱商业机构可直接从受试者、从医疗专业人员、从第三方或从分子表达谱商业机构或第三方提供的试剂盒获得生物样品。在某些情况下,生物样品可以在受试者、医疗专业人员或第三方获取和向分子表达谱商业机构发送生物样品后由分子表达谱商业机构获得。在某些情况下,分子表达谱商业机构可提供合适的容器和用于储存和运输生物样品至分子表达谱商业机构的赋形剂。III.储存样品在某些实施方式中,本发明的方法用于在获得样品后和在通过本发明的一种或多种方法分析样品之前储存样品一段时间,例如几秒、几分钟、几小时、几天、几周、几月、几年或更长时间。在某些情况下,在储存或进一步分析的步骤之前,从受试者获得的样品被细分,从而样品的不同部分进行不同的下游方法或过程,包括但不限于储存、细胞学分析、充分性测试、核酸提取、分子表达谱或它们的组合。在某些情况下,样品的一部分可被储存,而所述样品的另一部分可被进一步操作。 这类操作可包括但不限于分子表达谱;细胞学染色;核酸(RNA或DNA)提取、检测或定量; 基因表达产物(RNA或蛋白质)提取、检测或定量;固定;和检查。样品可在储存之前或储存过程中使用本领域已知的任何方法(如使用戊二醛、甲醛或甲醇)固定。在其他情况下,样品被获得和储存,并在储存步骤后细分以用于进一步分析,从而样品的不同部分进行不同的下游方法或过程,包括但不限于储存、细胞学分析、充分性测试、核酸提取、分子表达谱或它们的组合。在某些情况下,获得样品,并通过例如细胞学分析方法进行分析,得到的样品材料进一步通过本发明的一种或多种分子表达谱方法分析。在这些情况下,样品可在细胞学分析步骤和分子表达谱步骤之间储存。样品可在获取时储存以利于运输或等待其他分析的结果。在另一实施方式中,可以储存样品而同时等待医生或其他医疗专业人员的指令。获得的样品可置于合适的介质、赋形剂、溶液或容器中以进行短期或长期储存。所述储存可能需要将样品保持在冰冻或冷冻的环境中。在冷冻环境中储存之前,样品可经过快速冷冻。冷冻的样品可与合适的深低温保存介质或化合物接触,该深低温保存介质或化合物包括但不限于甘油、乙二醇、蔗糖或葡萄糖。合适的介质、赋形剂或溶液可包括但不限于hankS盐溶液、盐水、细胞生长培养基、铵盐溶液如硫酸铵或磷酸铵,或水。合适的铵盐浓度包括约 0. lg/ml、0. 2g/ml、0. 3g/ml、0. 4g/ml、0. 5g/ml、0. 6g/ml、0. 7g/ml、0. 8g/ml、 0. 9g/ml、l. Og/mlU. lg/mlU. 2g/ml、l. 3g/ml、l. 4g/ml、l. 5g/ml、l. 6g/ml、l. 7g/ml、l. 8g/ ml、l. 9g/ml、2. 0g/ml、2. 2g/ml、2. 3g/ml、2. 5g/ml或更高。介质、赋形剂或溶液可以是或不是无菌的。
样品可以储存在室温或降低的温度下,如冷的温度(例如约20°C -约0°C之间), 或冷冻温度下包括例如 0°C、-1 °C、-2°C、-3°C、-4°c、-5°C、-6°C、-7°C、-8°C、-9°C、-10°c、-1 2°C、44°C、_15°C、_16°C、_20°C、_22°C、_25°C、_28°C、_30°C、_35°C、_40°C、_45°C、_50°C、_60°C、_7 o°c、-8o°c、-ioo°c、-i2(rc、-i4(rc、-i8(rc、-i9(rc或约-2oo°c。在某些情况下,样品可以储存在冰箱中、冰或冷冻凝胶袋上、冷冻机中、低温冷冻机中、干冰上、液氮中或用液氮平衡的汽相中。介质、赋形剂或溶液可包含防腐剂,以维持样品处于对于后续诊断或操作的适当状态中或防止凝结。所述防腐剂可包括柠檬酸盐、乙二胺四乙酸、叠氮化钠或thimersol。 培养基、赋形剂或溶液可包含合适的缓冲剂或盐如Tris缓冲液或磷酸盐缓冲液、钠盐(如 NaCl)、钙盐、镁盐等。在某些情况下,样品可以储存在适于储存用于后续细胞学分析的细胞的商业制剂中,例如但不限于Cytyc ThinPr印、SurePath或Monopr印。样品容器可为任何适于储存和/或运输生物样品的容器,包括但不限于杯子、带盖杯子、管、无菌管、真空管、注射器、瓶、载玻片或任何其他合适的容器。容器可以是或不是无菌的。IV.样品的运输本发明的方法用于样品的运输。在某些情况下,样品从诊所、医院、医生办公室或其他场所运输到样品可在此被储存和/或通过例如细胞学分析或分子表达谱进行分析的第二场所。在某些情况下,样品可被运输到分子表达谱公司以进行本文所述的分析。在其他情况下,样品可以运输到实验室,例如经授权或以其它方式能够进行本发明的方法的实验室,如 Clinical Laboratory Improvement Amendments (CLIA)实验室。样品可由样品所来源的个体运输。所述的个体运输可包括出现在分子表达谱商业机构或指定样品接受点并提供样品的个体。所述提供样品可包括本文所述的样品获取的任何技术,或样品可能已被获取并储存在本文所述的合适容器中。在其他情况下,可使用信使服务、邮政服务、货运服务或能够以合适的方式运输样品的任何方法将样品运输到分子表达谱商业机构。在某些情况下,样品可通过第三方测试实验室(例如细胞学实验室)提供给分子表达谱商业机构。在其他情况下,样品可通过受试者的主治医生、内分泌学家或其他医疗专业人员提供给分子表达谱商业机构。运输费用可向该个体、医疗供应商或保险供应商收取。分子表达谱商业机构可在收到样品后立即开始样品的分析,或可以以本文描述的任意方式储存样品。储存方法可以与在分子表达谱商业机构接受样品之前所选择的储存方法相同或不同。样品可以在任何介质或赋形剂中运输,包括本文提供的适于储存样品的任何介质或赋形剂,如深低温保存介质或基于液体的细胞学制剂。在某些情况下,样品可以冷冻或冷藏运输,如在本文提供的任何合适的样品储存温度下。在分子表达谱商业机构、其代表或被许可人、医疗专业人员、研究人员或第三方实验室或测试中心(例如细胞学实验室)接受到样品后,可以使用本领域已知的多种常规分析来分析样品,如细胞学分析和基因组分析。这类测试可以指示癌症、癌症类型、任何其他疾病或状况、疾病标志物的存在、或者癌症、疾病、状况或疾病标志物的不存在。测试可采取细胞学检查的形式,包括如下所述的显微镜检查。测试可包括使用一种或多种细胞学染色。 生物材料可在进行测试之前通过本领域已知用于生物样品制备的任何合适的方法操作或制备以用于测试。进行的特定分析可由分子表达谱公司、订购测试的医生或第三方(如咨询医疗专业人员、细胞学实验室、样品来源的受试者或保险供应商)确定。可以基于获得确定诊断的可能性、分析的成本、分析的速度或该分析对提供的材料类型的适用性来选择特定的分析。V.充分性测试在样品获取后或期间(包括储存样品的步骤之前或之后),生物材料可被收集和用于充分性的评估,例如评估样品用于本发明的方法和组合物中的适用性。该评估可由获得样品的个体、分子表达谱商业机构、使用试剂盒的个体或第三方如细胞学实验室、病理学家、内分泌学家或研究令人人员进行。样品可由于多种因素而确定为对于进一步分析是充分的或不充分的,该因素包括但不限于不充足的细胞、不充足的遗传材料、不充足的蛋白质、DNA或RNA、对于指定测测不适当的细胞、或对于指定测试不适当的材料、样品的存在时间、获取样品的方式或者储存或运输样品的方式。可以使用本领域已知的多种方法如细胞染色方法、细胞数或组织量的测量、总蛋白质的测量、核酸的测量、视觉检查、显微镜检查或者温度或PH确定来确定充分性。在一个实施方式中,样品的充分性将从进行基因表达产物水平分析实验的结果确定。在另一实施方式中,样品的充分性将通过测量样品充分性的标志物含量来确定。该标志物包括元素如碘、钙、镁、磷、碳、氮、硫、铁等;蛋白质(例如但不限于甲状腺球蛋白);细胞胞块和细胞组分如蛋白质、核酸、脂质或碳水化合物。在某些情况下,碘可通过化学方法测量,如美国专利No. 3645691中描述的方法, 其全部内容通过引用方式结合在本文中,或本领域已知用于测量碘含量的其他化学方法。 用于碘测量的化学方法包括但不限于基于Sandell和KolthofT反应的方法。所述反应根据以下方程式进行2Ce4++As3+ — 2Ce3++As5+I。碘对于反应的进程中具有催化效应,即待分析的制剂中存在的碘越多,反应进行得越快。反应速度与碘的浓度成比例。在某些情况下,这一分析方法可以以下方式进行将预先确定量的三氧化二砷As2O3的浓硫酸或硝酸溶液加入生物样品中,并将混合物的温度调节至反应温度,即通常是20°C -60°C之间的温度。将预先确定量的硫酸铈 (IV)的硫酸或硝酸溶液加入其中。此时,使得混合物在预定的温度下反应确定的一段时间。 根据待测定的碘量的数量级和各自选择的反应温度来选择所述反应时间。反应时间通常为约1分钟-约40分钟。随后,以光度法测定测试溶液的铈(IV)离子含量。光度法确定的铈(IV)离子浓度越低,反应的速度越高,且因此催化剂(即碘)的量越大。在这种方式中, 样品的碘可直接和定量地测定。在其它情况下,甲状腺组织样品的碘含量可通过检测碘的特定同位素来测量,例如,举例来说,123I、124I、125I和131L在再其他情况下,标志物可以是另一放射性同位素,如碳、氮、硫、氧、铁、磷或氢的同位素。在某些情况下,可在样品收集之前施用放射性同位素。 适于充分性测试的放射性同位素施用方法是本领域公知的,且包括注射到静脉或动脉中, 或通过消化。施用同位素和获取甲状腺结节样品之间采取时间间隔从而实现一部分同位素吸收进入甲状腺组织的合适时间段可包括约1分钟-几天或约1周之间的任意时间段,包括约1分钟、2分钟、5分钟、10分钟、15分钟、1/2小时、1小时、8小时、12小时、24小时、48 小时、72小时或约1周、1. 5周或2周,并可容易地由本领域普通技术人员确定。或者,可以测量样品的同位素天然水平,如碘、钙、镁、碳、氮、硫、氧、铁、磷或氢的放射性同位素。
(i)细胞和/或组织含量的充分性测试用于确定组织的量的方法包括但不限于称重样品或测量样品的体积。用于确定细胞的量的方法包括但不限于记数细胞,例如,这在某些情况下可在用例如酶(如胰蛋白酶或胶原酶)或通过物理方法(如使用组织均化器)的解聚后进行。用于确定回收的细胞的量的可选方法包括但不限于定量与细胞物质结合的染料或测量离心后获得的细胞沉淀的体积。用于确定存在充足数量的特定类型细胞的方法包括PCR、Q-PCR、RT-PCR、免疫组织化学分析、细胞学分析、显微镜检和/或目视分析。(ii)核酸含量的充分性检测样品可在从生物样品提取(使用本领域已知的多种方法)后通过确定核酸含量进行分析。在某些情况下,核酸如RNA或mRNA在核酸含量分析之前从其他核酸中提取出来。 核酸含量可被提取、纯化和使用分光光度计通过紫外吸收测量(包括但不限于在260纳米处的吸收)。在其他情况下,核酸含量或充分性可在使样品与染料接触后通过荧光计测量。 在再其他的情况下,核酸含量或充分性可在电泳后或例如使用仪器(如Agilent生物分析仪)测量。应该理解,本发明的方法不限于测量核酸含量和/或完整性的特定方法。在某些实施方式中,在纯化后立即使用NanoDrop分光光度计在纳克至微克的范围内测量给定样品的RNA量或产率。在某些实施方式中,使用Agilent 2100生物分析仪仪器测量RNA的量,并通过计算的RNA完整性指数(RNA Integrity Number) (RIN, 1-10)进行表征。NanoDrop是没有比色杯的分光光度计。它使用1微升来测量5ng/ μ l-3,000ng/y 1的样品。NanoDrop的关键特征包括样品的小体积和无比色杯、大的动态范围5ng/y 1-3, OOOng/μ 1和它允许定量DNA、RNA和蛋白质。NanoDrop 2000c允许分析 0·5μ 1-2.0μ 1的样品,不需要比色杯或毛细管。RNA的量可通过计算的RNA完整性指数(RIN)测量。RNA完整性指数(RIN)是用于向RNA测量赋予完整性值的算法。RNA的完整性是基因表达研究的主要考虑因素,且通常使用^S与18S的rRNA比例进行评价,该方法证明是不一致的。RIN算法应用于电泳RNA测量中,并基于提供有关RNA完整性的信息的不同特征的组合,以提供更稳定的通用测量方法。在某些实施方式中,使用Agilent 2100生物分析仪仪器测量RNA的量。用于测量RNA 的量的方案是已知的,并可商购得到,例如在Agilent网站上。简而言之,第一步,研究人员将总RNA样品沉积在RNA Nano LabChip中。第二步,将LabChip插入Agilent生物分析仪中并运行分析,从而产生数字电泳图谱(electropherogram)。第三步,然后新的RIN算法分析RNA样品的整个电泳痕迹,包括降解产物的存在或不存在,以确定样品的完整性。然后, 该算法赋予1-10的RIN评分,其中10级的RNA是完全完整的。由于电泳图谱的解释是自动的,而不进行个体的解释,因而能够获得普遍的和无偏倚的样品比较,且实验的可重复性也得到改善。使用神经网络和适应性学习与真核细胞总RNA样品的大型数据库结合开发了该RIN算法,该真核细胞总RNA样品主要是从人类、大鼠和小鼠组织中获得的。RIN的优势包括获得RNA完整性的数值评估;直接比较RNA样品,例如归档之前和之后,在不同实验室之间比较同一组织的完整性;和确保实验的可重复性,例如如果RIN显示特定的值并适于微阵列实验,则相同值的RIN总是可用于类似的实验,只要使用相同的生物体/组织/提取方法(Schroeder A,等人 BMC Molecular Biology 2006,7 :3(2006)) 在某些实施方式中,以1-10的RIN评分计量RNA的质量,10代表最高的质量。一方面,本发明提供了分析来自具有等于或小于6. OWRNA RIN值的样品的基因表达的方法。 在某些实施方式中,使用本发明的所述方法和算法来分析包含具有1. 0,2. 0,3. 0,4. 0,5. 0 或6. 0的RIN数的RNA的样品的微阵列基因表达。在某些实施方式中,样品是甲状腺组织的细针吸取物。样品可以降解为具有低至2.0的RIN。给定样品中基因表达的测定是复杂的、动态的和昂贵的过程。具有RIN ( 5. 0 的RNA样品通常不用在多基因微阵列分析中,而是相反可仅用于单基因的RT-PCR和/或 TaqMan分析中。因此,根据质量的RNA有用性中的这一两分性大大限制了样品的有用性并阻碍了研究的努力。本发明提供了低质量的RNA可用于从含有低浓度RNA的样品(如甲状腺FNA样品)获得有意义的多基因表达结果的方法。此外,可以使用本发明的所述方法和算法测量和分析具有通常认为对于多基因表达谱而言不足够的低的和/或不可通过NanoDrop测量的RNA浓度的样品。目前在实验室中用于测量核酸产率的最灵敏的和“现有技术状态”的装置是NanoDrop分光光度计。正如许多这一类的定量仪器一样,NanoDrop测量的准确性在非常低的RNA浓度下显著降低。用于输入微阵列实验中所必需的RNA的最低量也限制了给定样品的有用性。在本发明中,通过使用NanoDrop和Bioanalyzer两种仪器的测量的组合,可以评估包含非常低的核酸量的样品,从而优化了用于多基因表达试验和分析的样品。(iii)蛋白质含量的充分性检测在某些情况下,可以使用本领域已知的多种方法来测量生物样品中的蛋白质含量,这些方法包括但不限于在280纳米处的紫外吸收、本文所述的细胞染色或使用如考马斯蓝或二辛可宁酸(bichichonic acid)的蛋白质染色。在某些情况下,在测量样品之前从生物样品中提取蛋白质。在某些情况下,多种样品的充分性测试可以平行进行,或一次进行一种。在某些情况下,样品可被分为等分试样以用于在评估充分性之前、期间或之后进行多种诊断测试。在某些情况下,在小量样品上进行充分性测试,该样品可能适合或不适合进一步的诊断检测。在其他情况下,整个样品用于充分性评估。在任何情况下,充分性的测试可向受试者、医疗供应商、保险供应商或政府单位收费。在本发明的某些实施方式中,样品可以在收集之后不久或立即进行充分性测试。 在某些情况下,当样品充分性测试没有显示具有足够量的样品或具有足够质量的样品时, 可以采集另外的样品。VI.样品的分析一方面,本发明提供了用于以低数量和质量的多核苷酸(如DNA或RNA)进行微阵列基因表达分析的方法。在某些实施方式中,本公开描述了通过以低数量和质量的RNA分析基因表达来诊断、表征和/或监测癌症的方法。在一个实施方式中,癌症是甲状腺癌。甲状腺RNA可从细针吸取物(FNA)获得。在某些实施方式中,基因表达谱可从具有9. 0、8.0、 7. 0、6. 0、5. 0、4. 0、3. 0、2. 0、1. 0或更低的RNA RIN值的降解样品获得。在具体实施方式
中, 基因表达谱可从具有等于或小于6(即6. 0,5. 0,4. 0,3. 0,2. 0,1. 0或更低)的RIN的样品获得。本发明提供了低质量的RNA可用于从含有低浓度核酸的样品(如甲状腺FNA样品) 中获得有意义的基因表达结果的方法。样品有用性的另一估计是RNA的产率,通常以纳克-微克的量测量而用于基因表达分析。目的在实验室中用于测量核酸产率的最灵敏的和“现有技术状态”的装置是NanoDrop分光光度计。正如许多这一类的定量仪器一样,NanoDrop测量的准确性在非常低的RNA浓度下显著降低。用于输入微阵列实验中必需的RNA的最低量也限制了给定样品的有用性。在一些方面中,本发明通过使用NanoDrop和Bioanalyzer两种仪器的测量的组合解决了低RNA浓度的问题。由于从基因表达研究获得的数据的质量依赖于RNA量,有意义的基因表达数据可从具有如通过NanoDrop测量的低或不可测量的RNA浓度的样品产生。本发明的方法和算法能够1)进行包含低量和/或低质量的核酸的样品的基因表达分析;幻显著降低假阳性和假阴性;幻确定导致最终病理的基础遗传、代谢或信号传导途径;4)能够赋予有关遗传疾病诊断的准确性的统计学概率;5)能够解决含糊的结果;和 6)能够区分癌症的亚型。细胞学分析可以通过细胞染色与生物样品中细胞的显微镜检测结合来分析样品。细胞染色或细胞学检查可通过本领域已知的多种方法和合适的试剂进行,包括但不限于EA染色、苏木精染色、细胞染色(cytostain)、Papanicolaou染色、曙红、nissl染色、甲苯胺蓝、银染、 偶氮胭脂红染色、中性红或杰纳斯绿。在某些情况下,在染色过程之前或期间使用例如甲醇、乙醇、戊二醛或甲醛固定和/或渗透细胞。在某些情况下,不固定细胞。在某些情况下, 组合使用多于一种的染色。在其他情况下,根本不使用染色。在某些情况下,使用染色过程,例如使用溴化乙锭、苏木精、nissl染色和本领域已知的任何核酸染色进行核酸含量的测量。在本发明的某些实施方式中,可通过本领域公知的用于细胞学检查的标准方法将细胞涂片在载玻片上。在其他情况下,可以使用基于液体的细胞学(LBC)方法。在某些情况下,LBC方法提供了制备细胞学载玻片的改进的方式、更均质的样品、增加的灵敏度和特异性及更高的样品处理的有效性。在基于液体的细胞学方法中,将生物样品从受试者转移到包含液体细胞学制备溶液的容器或小瓶中,该液体细胞学制备溶液例如为如Cytyc ThirfrepjurePath或Monoprep或任何其他本领域已知的基于液体的细胞学制备溶液。此外,样品可以使用液体细胞学制备溶液从收集装置冲洗到容器或小瓶中,以确保样品的基本上定量转移。然后在基于液体的细胞学制备溶液中包含生物样品的溶液可被储存,和/ 或被机器或本领域技术人员处理以在载玻片上产生细胞层。样品可以以与常规细胞学制备相同的方式进一步染色和在显微镜下检查。在本发明的某些实施方式中,可以通过免疫组织化学染色分析样品。免疫组织化学染色通过在生物样品(如细胞或组织)中使用抗体提供了特定分子或抗原的存在、位置和分布的分析。抗原可以是小分子、蛋白质、肽、核酸或能够被抗体特异性识别的任何其他分子。样品可以在使用或不使用预先固定和/或渗透步骤的情况下通过免疫组织化学方法进行分析。在某些情况下,目标抗原可通过使样品与抗原特异性的抗体接触而被检测到,然后可通过一次或多次洗涤除去非特异性的结合。然后可以通过抗体检测试剂(例如如标记的二级抗体或标记的抗生物素蛋白/抗生蛋白链菌素)检测特异性结合的抗体。在某些情况下,抗原特异性的抗体可以替代地直接被标记。适用于免疫组织化学的标记包括但不限于荧光团如荧光素(fluorescein)和若丹明,酶如碱性磷酸酶和辣根过氧化物酶,和反射性核素如32P和1251。可通过免疫组织化学染色检测的基因产物标志物包括但不限于Her2/ Neu、Ras, Rho, EGFR、VEGFR、UbcHIO、RET/PTC1、细胞角蛋白 20、降血钙素、GAL-3、甲状腺过氧化物酶和甲状腺球蛋白。VII.分析结果常规细胞学或其他分析的结果可表明样品是阴性的(无癌症、疾病或状况)、模糊或可疑的(暗示存在癌症、疾病或状况)、诊断性的(对于癌症、疾病或状况的阳性诊断) 或非诊断性的(对于癌症、疾病或状况的存在或不存在不能提供充分的信息)。还可将诊断结果分为恶性或良性的。诊断结果还可提供表明例如癌症的严重性或等级、准确诊断的可能性(如通过P值、校正的P值或统计学置信度指示(confidence indicator))的评分。 在某些情况下,诊断结果可指示特定类型的癌症、疾病或状况,例如如滤泡性腺瘤、许特莱氏细胞腺瘤、淋巴细胞性甲状腺炎、增生、滤泡性癌、乳头状甲状腺癌的滤泡性变型、乳头状癌或本文提供的任何疾病或状况。在某些情况下,诊断结果可指示癌症、疾病或状况的特定阶段。诊断结果还可给出用于所诊断的特定癌症疾病或状况的类型或阶段的特定治疗或治疗干预的信息。在某些实施方式中,可将所进行的分析的结果输入数据库中。分子表达谱公司可向个人、保险供应商、医疗供应商或政府单位收取以下一项或多项的费用进行的分析、咨询服务、结果报告、数据库使用或数据分析。在某些情况下,除了分子表达谱外的所有或某些步骤通过细胞学实验室或医疗专业人员进行。VIII.分子表达谱细胞学分析标志着目前用于多种类型的可疑癌症(包括例如甲状腺肿瘤或结节) 的诊断标准。在本发明的一些实施方式中,经分析是阴性、不确定、诊断性或非诊断性的样品可经过后续分析以获得更多的信息。在本发明中,这些后续分析包括基因组DNA、RNA、 mRNA表达产物水平、miRNA水平、基因表达产物水平或基因表达产物可选择性剪接的分子表达谱的步骤。在本发明的某些实施方式中,分子表达谱是指确定生物样品中基因组DNA 的数目(例如拷贝数)和/或类型。在某些情况下,还可将数目和/或类型与对照样品或被认为是正常的样品相比较。在某些实施方式中,可以分析基因组DNA的拷贝数变异,如拷贝数增加(扩增)或减少,或变异体(如插入、缺失、截短等)。分子表达谱可使用本文描述的任意方法在同一样品、同一样品的一部分或新样品上进行。分子表达谱公司可通过直接联系个人或通过中间人(如医生、第三方检测中心或实验室或者医疗专业人员)要求另外的样品。在某些情况下,使用分子表达谱商业机构的方法和组合物与一些或所有的细胞学染色或其他诊断方法结合来分析样品。在其他情况下,使用分子表达谱商业机构的方法和组合物来直接分析样品而不预先使用常规细胞学染色或其他诊断方法。在某些情况下,分子表达谱单独的或与细胞学或其他分析结合的分子表达谱结果可使本领域普通技术人员能够诊断或建议用于受试者的治疗。在某些情况下,分子表达谱可以单独或与细胞学方法结合用于监控肿瘤或疑似的肿瘤随时间的恶性改变。本发明的分子表达谱方法用于从一种或多种来自受试者的生物样品提取和分析蛋白质或核酸(RNA或DNA)。在某些情况下,从获得的整个样品中提取核酸。在其他情况下,从获得的样品的一部分提取核酸。在某些情况下,未进行核酸提取的样品的部分可通过细胞学检查或免疫组织化学进行分析。从生物样品提取RNA或DNA的方法是本领域公知的,包括例如使用商用试剂盒,例如Qiagen DNeasy Blood and Tissue试剂盒或Qiagen EZ IRNA Universal Tissue 试剂盒。(i)组织类型的指纹识别
在许多情况下,生物样品(如本发明的方法提供的那些样品)可能包含几种细胞类型或组织,包括但不限于甲状腺滤泡细胞、甲状腺髓细胞、血细胞(RBC、WBC、血小板)、平滑肌细胞、导管、导管细胞、基底膜、内腔、小叶、脂肪组织、皮肤细胞、上皮细胞和浸润性巨噬细胞和淋巴细胞。在甲状腺样品的情况中,生物样品的诊断分类可主要地包括例如滤泡细胞(对于源自滤泡细胞的癌症如乳头状癌、滤泡状癌和未分化甲状腺癌)和髓细胞(对于髓样癌)。在某些情况下,对于来自甲状腺活组织检查的不确定生物样品的诊断关注滤泡性腺瘤与滤泡状癌的区分。因此,例如滤泡细胞的分子表达谱信号可因此被稀释,并可能被样品中存在的其他细胞类型混淆。类似地,来自其他组织或器官的生物样品的诊断通常包括在可能出现在样品中的许多细胞类型中诊断一种或多种细胞类型。在某些实施方式中,本发明的方法提供了确定特定生物样品的细胞构成的先期方法,从而得到的分子表达谱特征可针对由于存在其他细胞和/或组织类型导致的稀释效应进行校准。一方面,该先期方法是使用已知细胞和/或组织特异性的基因表达模式的组合作为样品各成分的先期微分类器的算法。该算法使用这一分子指纹来根据它们的组成进行样品的预分类,然后再应用校正/标准化因子。在某些情况下,随后可将这一数据输入最终的分类算法中,其引入该信息来辅助最终的诊断。(ii)基因组分析在某些实施方式中,可在样品上进行基因组序列分析或基因型分型。该基因型分型可采用突变分析的形式,例如单核苷酸多态性(SNP)分析、插入缺失多态性anDel)分析、数目可变串联重复(VNTR)分析、拷贝数变异(CNV)分析或者部分或全基因组测序。用于进行基因组分析的方法是本领域已知的,并可包括高通量测序,例如包括但不限于美国专利 No. 7,335,762 ;7,323,305 ;7,264,929 ;7,244,559 ;7,211,390 ;7,361,488 ;7,300,788 和7,280, 922中描述的那些方法。用于进行基因组分析的方法还可包括本文后面所描述的微阵列方法。在某些情况下,基因组分析可与本文的任意其他方法组合进行。例如,可以获得样品,测试充分性和将其分为等分试样。然后,一个或多个等分试样可用于本发明的细胞学分析,一个或多个可用于本发明的RNA表达谱方法,和一个或多个可用于基因组分析。还可以理解,本发明预期,本领域普通技术人员可能希望在生物样品上进行未明确记载在本文中的其他分析。(iii)表达产物谱基因表达谱是数千种基因的活性(表达)的一次性测量,以产生细胞功能的整体概况。这些表达谱可以例如区分活跃分裂的细胞或显示这些细胞如何对特定治疗发生反应。这一类的许多实验同时测量整个基因组,也就是说,特定细胞中存在的每一种基因。 微阵列技术测量之前确定的靶基因的相对活性。基于序列的技术如基因表达的系列分析 (SAGE、SuperSAGE)也用于基因表达谱。SuperSAGE是特别准确的,并可测量任意活性基因, 而不仅仅是预先确定的组。在RNA、mRNA或基因表达谱微阵列中,同时监测数千种基因的表达水平,以研究某些治疗、疾病和发育阶段对基因表达水平的影响。例如,基于微阵列的基因表达谱可用于表征本文公开的遗传疾病的基因标签或不同的癌症类型、癌症亚型和/或癌症阶段。表达谱实验通常包括测量在两个或更多个实验条件下表达的基因表达产物(如 mRNA)的相对量。这是因为基因表达产物的特定序列的水平改变表明对于该基因表达产物所编码的蛋白质的需要的改变,可能表明稳态响应或病理状况。例如,如果乳腺癌细胞表达比正常细胞更高水平的与特定跨膜受体相关的mRNA,则有可能该受体在乳腺癌中发挥作用。本发明的一方面包括作为遗传疾病和癌症(特别是甲状腺癌)的重要诊断测试的一部分的基因表达谱。在某些实施方式中,具有RIN彡5. 0的RNA样品通常不用于多基因微阵列分析,而是相反可仅用于单基因RT-PCR和/或I1aqMan分析。微阵列、RT-PCR和I1aqMan分析是相关领域公知的标准分子技术。基于TaqMan探针的分析广泛用于实时PCR中,包括基因表达分析、DNA定量和SNP基因型分型。在一个实施方式中,涉及本领域已知癌症的基因表达产物被表征。该基因表达产物已被描述,且包括但不限于美国专利No. 7,358,061 ;7, 319,011 ;5, 965, 360 ; 6,436,642 和美国专利申请 2003/0186248, 2005/0042222、2003/0190602、2005/0048533、 2005/0266443、2006/0035244、2006/083744、2006/0088851、2006/0105360、2006/0127907、 2007/0020657,2007/0037186,2007/0065833,2007/0161004,2007/0238119 禾口 2008/0044824中详细描述的基因表达产物。还可以预期,与癌症相关的其他基因表达产物可能会变得已知,且本文所述的方法和组合物可包括这些新发现的基因表达产物。在本发明的一些实施方式中,替代地或另外地分析基因表达产物的除表达水平以外的特征。例如,可以分析基因产物的可选择剪接。可选择剪接(也叫做可选择外显子使用)是其中原始基因转录本(前体mRNA)的外显子被分离和重新连接(即剪接)以产生同一基因的替代mRNA分子的RNA剪接变异机制。在某些情况下,这些线性组合骑兵经过翻译过程,其中特定的和独特的氨基酸序列被来自相同基因的各个替代mRNA分子规定,从而产生蛋白质异形体。可选择剪接可包括引入不同的外显子或不同的外显子组、保留特定内含子或使用交替剪接供体和受体位点。在某些情况下,标志物或标志物组可被确认为显示可选择剪接,该可选择剪接对于良性、恶性或正常样品是诊断性的。另外,可选择剪接标志物还可提供用于特定类型的甲状腺癌(例如乳头状、滤泡状、髓样和未分化甲状腺癌)的诊断。对于本领域已知的恶性肿瘤诊断性的可选择剪接标志物包括美国专利No. 6,436,642中列举的那些。在某些情况下,可通过本发明的方法分析不编码蛋白质的RNA表达产物(如miRNA 和siRNA)的表达。这些RNA表达产物的差异表达可以指示良性、恶性或正常样品。这些RNA 表达产物的差异表达还可指示良性样品U^^nFA、NHP、LCT、BN、CN、HA)或恶性样品(例如 FC、PTC、FVPTC、ATC、MTC)的亚型。在某些情况下,可通过本发明的方法分析miRNA、siRNA、 可选择剪接RNA异形体、mRNA或它们的任意组合的差异表达。在某些实施方式中,本发明提供了 16组生物标志物,各组为表征、排除和诊断甲状腺内的病理所需要的。这16组为1正常甲状腺(NML)2淋巴细胞性、自身免疫性甲状腺炎(LCT)3结节性增生(NHP)4滤泡性甲状腺腺瘤(FA)5许特莱氏细胞甲状腺腺瘤(HC)
6甲状旁腺(非甲状腺组织)7未分化甲状腺癌(ATC)8滤泡状甲状腺癌(FC)9许特莱氏细胞甲状腺癌(HC)10乳头状甲状腺癌(PTC)11乳头状癌的滤泡性变型(FVPTC)12甲状腺髓样癌(MTC)13至甲状腺的肾癌转移14至甲状腺的黑素瘤转移15至甲状腺的B细胞淋巴瘤转移16至甲状腺的乳腺癌转移各组包括一系列表征、排除和诊断甲状腺内的特定病理所需的生物标志物。组1-6 描述良性病理。组7-16描述恶性病理。甲状腺和其内发现的各种病理的生物特性表明一个组内的多种生物标志物与另一组内的多种生物标志物之间存在冗余性。在反映各病理学亚型时,各个诊断组与另一组中的生物标志物是异质的和半冗余性的。异质性和冗余性反映了在给定FNA中采样的组织的生物学以及表征各种病理学亚型的基因表达彼此之间的差异。一方面,本发明的诊断值在于比较i) 一个组中的一种或多种标志物,与ii)其他各组中的一种或多种标志物。本发明的用途在于在FNA中的诊断准确性比当前可能的其他任何方式都高。在某些实施方式中,各组内的生物标志物是可互换的(模块的)。所有组内的多种生物标志的可被取代、增加、减少或改进,以适应新的病理学亚型的定义(如从其他器官转移到甲状腺的转移新病例报告)。本发明描述了多种对甲状腺中发现的16种异质的、半冗余的和明显不同的病理中的各种进行定义的标志物。所有的16组均为达到精确的诊断所需要的,且任意给定的组单独不具有足够的能力来做出真正的诊断决定。在某些实施方式中,各组中的生物标志物与适当的生物标志物组合互换,从而各组中的多种生物标志物在检查定义所有其他病理学亚型的多种生物标志物的情况中仍定义给定的病理学亚型。本发明的方法和组合物可以任意的组合具有选自1、2、3、4、5、6、7、8、9、10、11、12、 13、14、15或16或者更多个生物标志物组的基因,并可具有来自各个生物标志物组的1、2、 3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多种基因表达产物。在某些实施方式中,组合的基因的组给出大于 70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、 92%、93%、94%、95%、96%、97%、98%、99%或 99. 5% 的特异性或灵敏度,或至少 95%, 95. 5%,96%,96. 5%、97%、97. 5%、98%、98. 5%、99%、99. 5%或更高的阳性预测值或阴性预测值。(1)确定表达产物水平的体外方法测定基因表达产物水平的一般方法是本领域已知的,并可包括但不限于一种或多种以下方法另外的细胞学分析、用于特定蛋白质或酶的活性的分析、用于特定表达产物包括蛋白质或RNA或特定的RNA剪接变异体的分析、原位杂交、完全或部分基因组表达分析、 微阵列杂交分析、SAGE、酶联免疫吸收分析、质谱法、免疫组织化学或印迹。基因表达产物水平可相对于内标标准化,如总mRNA或特定基因(包括但不限于甘油醛-3-磷酸脱氢酶或微管蛋白)的表达水平。在本发明的某些实施方式中,基因表达产物标志物和可选择剪接标志物可通过微阵列分析确定,例如使用Affymetrix阵列、cDNA微阵列、寡核苷酸微阵列、点样微阵列或来自BioracUAgilent或Eppendorf的其他微阵列产品。微阵列提供特别的优势,因为它们可包括可在单个试验中分析的大量基因或可选择剪接变异体。在某些情况下,微阵列装置可包括整个人基因组或转录物组或它们的大部分,从而允许全面评价基因表达模式、基因组序列或可选择剪接。可使用如 Sambrook Molecular Cloning a Laboratory Manual 2001 及 Baldi, P.禾口 Hatfield,W. G. , DNA Microarrays and Gene Expression 2002 中描述的标准分子生物学和微阵列分析技术来发现标志物。微阵列分析开始于使用本领域已知的方法从生物样品(如活组织检查或细针吸取物)提取和纯化核酸。对于表达和可选择剪接分析,从DNA提取和/或纯化RNA可能是有利的。从其他形式的RNA如tRNA和rRNA提取和/或纯化mRNA可能是更有利的。还可而用荧光、放射性核素或化学标记(如生物素或地高辛)通过例如逆转录、 PCR、接合、化学反应或其他技术来标记纯化的核酸。标记可以是直接或间接的,其可能进一步需要偶联阶段。偶联阶段可发生在杂交前,例如使用氨基烯丙基-UTP和NHS氨基反应性染料(如氰蓝染料),或在杂交后,例如使用生物素和标记的抗生蛋白链菌素。修饰的核苷酸以与常规核苷酸相比较低的比率(如以IaaUTP 4TTP的比例)酶促加入,通常得到每 60个碱基1个的结果(用分光光度计测量)。然后可用例如柱或透析过滤装置纯化aaDNA。 氨基烯丙基基团是连接到核苷碱基的长连接体上的氨基,其与反应性标记(如荧光染料) 反应。然后可将标记的样品与杂交溶液混合,该杂交溶液可包含SDS、SSC、硫酸右旋糖酐、封闭剂(如COTl DNA、鲑鱼精子DNA、小牛胸腺(thymum)DNA、聚A或聚T) ,Denhardt溶液、甲醛胺或它们的组合。杂交探针是不同长度的DNA或RNA的片段,其用于检测DNA或RNA样品中与探针序列互补的核苷酸序列(DNA靶)的存在。因此,探针与其碱基序列允许由于探针与靶之间的互补性而使得探针-靶碱基配对的单链核苷酸(DNA或RNA)杂交。首先,标记的探针变性(通过加热或在碱性条件下)成为单DNA链,然后再与靶DNA进行杂交。为了检测探针与其靶序列的杂交,探针用分子标志加标签(或标记);通常使用的标志是32P或洋地黄毒苷,其是非放射性的基于抗体的标志。与探针具有中等至高的序列相似性的DNA序列或RNA转录本然后通过经由放射自显影或其他成像技术使杂交的探针可视化来进行检测。具有中等或高相似性的序列的检测取决于采用何种严格性的杂交条件-高严格性(如高杂交温度和杂交缓冲液中的低盐)仅允许高度相似的核酸序列之间的杂交, 而低严格性(如较低温度和高盐)允许序列在具有较低相似性的情况下杂交。用于DNA微阵列中的杂交探针是指共价连接到惰性表面(如涂覆的载玻片或基因芯片)上的DNA,且可移动的cDNA靶与其杂交。然后可以通过加热或化学方式使该混合物变性,并将其添加到微阵列的端口。然后可以密封孔,且微阵列在例如杂交炉中进行杂交,其中微阵列通过旋转或在混合器中进行混合。经过杂交过夜后,非特异性的结合可被洗掉(例如使用SDS和SSC)。然后可以干燥微阵列,并在特别的仪器中进行扫描,其中激光激发染料,和检测器测量其发射。图像可与模板格栅重叠,且特征(几个像素构成一个特征)的强度可被量化。各种试剂盒可用于扩增核酸和产生本发明的探针。可用于本发明中的试剂盒的例子包括但不限于Nugen WT-Ovation FFPE试剂盒、带有Nugen Exon模块和Frag/ Label模块的cDNA扩增试剂盒。NuGEN WT-Ovation FFPE System V2是全转录物组扩增系统,其能够在源自FFPE样品的小的和降解的RNA的大量资料档上进行全面的基因表达分析。该系统由扩增少至50ng的总FFPE RNA所需的试剂和方案构成。该方案可用于qPCR、样品归档、片段化和标记。对于GeneChip 3’表达阵列分析,使用NuGEN’ s FL-Ovation cDNABiotin Module V2,扩增的cDNA可在不到2小时内被片段化和标记。 对于使用Affymetrix GeneChip i Exon and Gene ST阵列的分析而言,扩增的cDNA可与 WT-Ovation Exon Module—起使用,然后使用 FL-Ovation cDNA Biotin Module V2 进行片段化和标记。对于Agilent阵列上的分析,扩增的cDNA可使用NuGEN,s FL-Ovation cDNA Fluorescent Module进行片段化和标记。有关Nugen WT-Ovation FFPE试剂盒的更多信息可从 http://www. nugeninc. com/nugen/index, cfm/products/amplification-syste ms/ wt-ovation-ffpe/ 获得。在某些实施方式中,可以使用Ambion WT表达试剂盒。AmbionWT表达试剂盒允许直接扩增总RNA,而无需单独的核糖体RNA (rRNA)耗竭步骤。使用Ambion WT表达试剂盒,少至50ng总RNA的样品可在Affymetrix GeneChip 人类、小鼠和大鼠外显子和基因1. OST阵列上进行分析。除了降低输入RNA需求和Affymetrix 方法与TaqMan 实时 PCR数据之间的高一致性外,Ambion WT表达试剂盒提供了灵敏度的显著提高。例如,在背景之上检测到的较大量探针组由于信噪比的提高可在外显子水平上通过使用Ambion WT表达试剂盒获得。Ambion WT表达试剂盒可与另外的Affymetrix标记试剂盒组合使用。在某些实施方式中,AmpiTecTrinucleotide Nano mRNA扩增试剂盒(6299-A15)可用于所述方法中。ExpressArt TRinucleotide mRNA扩增Nano试剂盒适于较大范围,从 Ing到700ng的输入总RNA。根据输入总RNA的量和所需的aRNA的产率,其可用于1个轮回 (输入> 300ng总RNA)或2个轮回(最小输入量Ing总RNA),aRNA产率为> IOyg的范围。 AmpTec 所有的 TRinucleotide 原发技术(priming technology)导致了 mRNA 的优先扩增 (与通用的真核3'-聚(A)序列无关),与对rRNA的选择组合。有关AmpTec Trinucleotide Nano mRNA 扩增试齐[J盒的更多信息可在 http//www. amp-tec. com/products, htm 获得。该试剂盒可与cDNA转化试剂盒和AfTymetrix标记试剂盒组合使用。然后可通过例如减去背景强度和然后分割强度从而产生各相等通道上特征的总强度或参照基因的强度对原始数据归一化,然后可计算所有强度的t值。更加复杂的方法包括ζ比例、loess和Iowess回归和用于Affymetrix芯片的RMA(稳定多芯片分析)。(2)确定基因表达产物水平的体内方法还可以预期,本发明的方法和组合物可用于确定个体中的基因表达产物水平而无需首先获得样品。例如,基因表达产物水平可在体内确定,即在个体中确定。用于体内确定基因表达产物水平的方法是本领域已知的,且包括成像技术(如CAT、MRI、NMR, PET)和光学、荧光或使用抗体或分子信标来进行蛋白质或RNA水平的生物光子成像。这类方法描述在US 2008/0044824、US 2008/0131892中,通过引用方式结合在本文中。用于体内分子表达谱的另外方法也包括在本发明的范围之内。在本发明的一些实施方式中,分子表达谱包括将样品或样品的一部分结合到本发明的一种或多种探针上的方法。合适的探针结合待测量的样品组分,即基因产物,且包括但不限于抗体或抗体片段、适体、核酸和寡核苷酸。样品与本发明的探针的结合代表将物质从样品向结合一种或多种探针的样品的转化。基于分子表达谱的癌症诊断方法还包括检测样品的基因表达产物(即mRNA或蛋白质)和水平,将其与正常对照样品中的量比较以确定样品和对照之间的差异基因表达产物水平和通过将一种或多种差异基因表达产物水平输入本发明的训练算法来分类测试样品,使用本发明的选择和分类算法来验证样品的分类和识别样品为对于遗传疾病或癌症类型为阳性的步骤。(i)样品与正常的比较可将在个体提供的样品(测度样品)上进行的分子表达谱的结果与已知或怀疑为正常的生物样品相比较。正常样品是没有或预期没有任何癌症、疾病或状况的样品或在分子表达谱分析中对于任何癌症疾病或状况测试为隐性的样品。正常样品可来自与被测试个体不同的个体或来自相同个体。在某些情况下,正常样品是从个体(如被测试的个体)的口腔拭子获得的样品。正常样品可与测试样品在同一时间或不同时间进行分析。可将测试样品的分析结果与在正常样品上进行的相同分析的结果相比较。在某些情况下,在正常样品上的分析结果来自于数据库或基准。在某些情况下,在正常个样品上的分析结果是已知的或通常被本领域普通技术人员所接受的值。在某些情况下,比较是定性的。在其他情况下,比较是定量的。在一些情况下,定性或定量比较可包括但不限于以下一种或多种比较荧光值、点强度、吸光度值、化学发光信号、柱状图、关键阈值、统计学显著性值、基因产物表达水平、基因产物表达水平的改变、可选择外显子使用、可选择外显子使用的改变、蛋白质水平、DNA多态性、拷贝(coy)数变异、一种或多种DNA标志物或区域存在或不存在的指示或核酸序列。(ii)结果评估在某些实施方式中,使用本领域已知的方法评估分子表达谱结果以将基因产物表达水平或可选择外显子使用与特定表型如恶性、恶性类型(如滤泡状癌)、良性或正常性 (如不具有疾病或状况)相关联。在某些情况下,可以确定指定的统计学置信度水平以提供诊断置信水平。例如,可以确定,大于90%的置信度水平可以是恶性、恶性类型或良性的可用预测值。在其他实施方式中,可以选择更高或更低严格性的置信度水平。例如,可以选择大约 70%、75%、80%、85%、90%、95%、97. 5%,99%,99. 5% 或 99. 9% 的置信度水平作为有用的表型预测值。在某些情况下,所提供的置信度水平可与样品的质量、数据的质量、 分析的质量、所使用的特定方法和所分析的基因表达产物的数量相关。用于提供诊断的指定置信度水平可基于预期的假阳性或假阴性的数目和/或费用进行选择。选择用于实现指定的置信度水平或用于识别具有诊断能力的标志物的参数的方法包括但不限于受试者工作特征曲线分析(Receiver Operator Curve analysis, ROC)、副法线ROC、主成分分析、 部分最小平方分析、奇异值分解、最小绝对收缩和选择操作器(least absolute shrinkage and selection operator)分析、最小角回归禾口阔值梯度导向规则化(threshold gradient directed regularization)方法。(iii)数据分析
在某些情况下,原始基因表达水平和可选择剪接数据可通过应用设计用于归一化和/或提高数据的可信度的算法来改进。在本发明的某些实施方式中,由于处理的单个数据点的巨大数量,数据分析要求计算机或其他装置、机器或设备来应用本文所述的各种不同算法。“机器学习算法”是指用于表征基因表达谱的基于计算机的预测方法,本领域普通技术人员也称其为“分类器”。对应于特定表达水平的信号(其通过例如基于微阵列杂交分析获得)通常经过算法处理以分类表达谱。监管的学习通常包括“训练”分类器以识别类之间的区别,然后“测试”分类器在独立测试集上的准确性。对于新的未知样品,可使用分类器来预测该样品所属的类。在某些情况下,稳定多阵列平均(RMA)方法可用于归一化原始数据。RMA方法通过计算许多微阵列上各匹配细胞的背景校正强度开始。背景校正的值限于阳性值,如 Irizarry等人Biostatistics 2003April 4(2) J49-64所述。在背景校正后,随后获得各个背景校正的匹配细胞强度的基础-2算法。然后使用分位数归一化方法使各微阵列上背景校正的、对数转化的、匹配的强度归一化,其中对于各输入阵列和各探针表达值,阵列百分位探针值被所有阵列百分位点的平均值取代,该方法在Bolstad等人Bioinformatics 2003中有更完整的描述。分位数归一化后,随后可将归一化的数据拟合到线性模型中,以获得各个微阵列上各个探针的表达测量值。然后可使用Tukey中位数平滑算法(Tukey,J. W., Exploratory Data Analysis. 1977)来确定归一化的探针组数据的对数标度表达水平。还可进一步过滤数据以除去可以被认为可疑的数据。在某些实施方式中,从具有小于约4、5、6、7或8个鸟苷+胞嘧啶核苷酸的微阵列探针获得的数据可被认为是不可靠的,因为它们的异常杂交倾向或二级结构问题。类似地,从具有大于约12、13、14、15、16、17、 18、19、20、21或22个鸟苷+胞嘧啶核苷酸的微阵列探针获得的数据可以被认为是不可靠的,因为它们的异常杂交倾向或二级结构问题。在某些情况下,可以通过针对一系列参照数据集对探针组的可靠性分级选择不可靠的探针组以从数据分析中排除。例如,RefSeq或Ensembl (EMBL)被认为是非常高质量的参照数据集。在某些情况下,匹配RefSeq或Ensembl序列的探针组的数据由于它们预期的高可靠性可特别地包括在微阵列分析实验中。类似地,来自匹配较低可靠性的参照数据集的探针组的数据可从进一步分析中排除,或在各案基础上考虑包括在内。在某些情况下, Ensembl高通量cDNA (HTC)和/或mRNA参照数据集可单独地或一起用于确定探针组的可靠性。在其他情况下,探针组的可靠性可被分级。例如,完全匹配所有参照数据集(如RefSeq、 HTC和mRNA)的探针和/或探针组可被分级为最可靠的(1)。此外,匹配三个参比数据集中的两个的探针和/或探针组可被分级为次最可靠的( ,匹配三个参照数据集中的一个的探针和/或探针组可被分级为下一级(3),而不匹配参照数据集的探针和/或探针组可被分级为最低级G)。然后探针和/或探针组可基于它们的分级被包括在分析中或从分析中排除。例如,人们可以选择包括来自1、2、3和4类的探针组;来自1、2和3类的探针组;1和2 类的探针组或1类的探针组的数据用于进一步分析。在另一实施例中,探针组可通过与参照数据集项错配的碱基对的数目进行分级。可以理解,存在现有技术中理解为用于评估分子表达谱的给定探针和/或探针组的可靠性的许多方法,且本发明的方法包括任何这些方法和它们的组合。在本发明的一些实施方式中,如果它们不表达或以不可检测的水平(不高于背景)表达,则来自探针组的数据可从分析中排除。如果对于任何组存在以下情况,则探针组被判定为在高于背景表达标准正常分布的从TO至无穷大的积分<显著性(0. 01)其中TO = Sqr(GroupSize)(T-P)/Sqr(Pvar),GroupSize =组中CEL文件的数目,T =探针组中探针评分的平均值,P = GC含量的背景探针平均值的平均,和Pvar =背景探针差异的和/(探针组中探针的数目)~2,这允许包括其中组中探针组的平均值大于具有类似GC含量的背景探针的平均表达的探针组作为探针组的背景中心的探针组探针,并使得人们能够从背景探针组差异中获得探针组分散(probe-set dispersion)。在本发明的某种实施方式中,表现出没有或具有低差异的探针组可从进一步的分析中排除。通过Chi-方检验从分析中排除低差异的探针组。如果转化的差异在具有(N-I) 自由度的Chi-方分布的99%置信区间的左侧,则探针组被认为是低差异的。(N-I)*探针组差异/(基因探针组差异) Chi-Sq(N-I)其中N是输入CEL文件的数目,(N-I)是Chi-方分布的自由度,且“基因的探针组差异”是整个基因的探针组差异的平均。在本发明的一些实施方式中,如果给定基因或转录本簇的探针组包含少于通过前述用于GC含量、可靠性、差异等的过滤器步骤的最低数目的探针,则可以从进一步分析中排除它们。例如,在某些实施方式中,如果给定基因或转录本簇的探针组包含少于约1、2、3、
4、5、6、7、8、9、10、11、12、13、14、15或小于约20个探针,则从进一步分析中排除它们。基因表达水平或可选择剪接的数据分析方法还可包括使用如本文提供的特征选择算法。在本发明的某些实施方式中,特征选择通过使用LIMMA软件包(Smyth, G. K. (2005))提供。Limma :linear models for microarray data. In :Bioinformatics and Computational Biology Solutions using R and Bioconductor, R.Gentleman,V.Carey,
5.Dudoit,R. Irizarry, W.Huber(eds.),Springer,New York,397-420 页).基因表达水平和/或可选择剪接的数据分析的方法还可包括使用预分类器算法。 例如,算法可使用细胞特异性的分子指纹来根据它们的组成预先分类样品,然后再应用校正/归一化因子。然后可以将该数据/信息输入到最终分类算法中,其将整合该信息来辅助最终的诊断。基因表达水平和/或可选择剪接的数据分析的方法还可包括使用本文提供的分类器算法。在本发明的某些实施方式中,提供了支持向量机(SVM)算法、随机森林算法或它们的组合用于分类微阵列数据。在某些实施方式中,基于统计学显著性选择区分样品(如良性与恶性、正常与恶性)或区分亚型(如PTC与FVPTC)的鉴定标志物。在某些情况下, 在应用错误发现率(FDR)的Benjamini Hochberg校正后进行统计学显著性选择。在某些情况下,分类器算法可以荟萃分析方法补充,如Fishel和Kaufman等人 2007 Bioinformatics 23(13) :1599-606中描述的方法。在某些情况下,分类器算法可以荟萃分析方法补充,如可重复性分析。在某些情况下,可重复性分析选择出现在最少一个预测表达产物标志物组中的标志物。在某些情况下,可使用Bayesian事后分析方法分级特征选择和分类的结果。例如,可使用本领域已知的方法如本文提供的方法提取、归一化和总结微阵列数据。然后数据可经过特征选择步骤,如本领域已知的任何特征选择方法,如本文提供的方法,包括但不限于LIMMA中提供的特征选择方法。然后数据可经过分类步骤如本领域已知的任何分类方法,如使用本文提供的任何算法或方法,包括但不限于使用SVM或随机森林算法。然后可通过后验概率函数分级分类器算法的结果。例如,后验概率函数可从检验已知分子表达谱结果(如公开的结果)获得,以从将标志分配到类(如良性、恶性、正常、ATC、PTC、MTC、 FC、FN、FA、FVPTC CN、HA、HC、LCT, NHP等)的I型和II型误差率获得先验概率。可以基于各个研究报告的样品大小使用估计的倍数改变值(如1. 1、1. 2.、1. 3,1. 4,1. 5,1. 6,1. 7、 1.8、1.9、2、2.2、2.4、2.5、3、4、5、6、7、8、9、10或更大)计算这些误差率。然后这些先验概率可与本发明的分子表达谱数据集结合来估算差异基因表达的后验概率。最后,后验概率估算值可与本发明的第二数据集结合,以阐明差异表达的最终后验概率。导出后验概率以及将后验概率应用到微阵列数据分析的其它方法是本领域已知的,并已描述在例如Smyth, G. K. 2004Stat. Appl. Genet. Mol. Biol. 3 =Article 3中。在某些情况下,后验概率可用于分级由分类器算法提供的标志物。在某些情况下,标志物可根据它们的后验概率分级,且通过所选阈值的那些标志物可被选作其差异表达指示或诊断例如为良性、恶性、正常、ATC、PTC、 MTC、FC、FN、FA、FVPTC CN、HA、HC、LCT或NHP的样品的标志物。示例性的阈值包括0. 7、 0. 75,0. 8,0. 85,0. 9,0. 925,0. 95,0. 975,0. 98,0. 985,0. 99,0. 995 或更高的先验概率。对分子表达谱结果的统计学评估可提供表示以下的一种或多种的一个或多个定量值诊断准确的可能性、癌症、疾病或状况的可能性、特定癌症、疾病或状况的可能性、特定治疗干预成功的可能性。因此,不太可能经过遗传学或分子生物学训练的医生不需要理解原始数据。相反,数据可以其最有用的形式直接呈现给医生来指导患者的护理。分子表达谱的结果可使用本领域已知的多种方法进行统计学评估,包括但不限于students T检验、 双侧T检验、pearson秩和分析、隐马尔可夫模型分析(hidden markov model analysis)、 q-q作图分析、主成分分析、一元AN0VA、二元AN0VA、LIMMA等。在本发明的一些实施方式中,单独或与细胞学分析组合使用分子表达谱可提供约85%准确的至约99%或约100%准确的的诊断。在某些情况下,分子表达谱商业机构可通过使用分子表达谱和/或细胞学方法提供恶性、良性或正常的诊断,其为约85%、86%、 87 %,88 %,90 %,91 %,92 %,93 %,94%,95 %,96 %,97 %,97. 5 %,98 %,98. 5 %,99 99. 5%,99. 75%,99. 8%,99. 85%或 99. 9%准确的。在某些情况下,可通过随时间追踪受试者以确定原始诊断的准确性而确定准确性。在其他情况下,准确性可以以确定性的方式或使用统计学方法确定。例如,受试者工作特征(ROC)分析可用于确定最佳分析参数,以获得特定水平的准确性、特异性、阳性预测值、阴性预测值和/或错误发现率。在癌症诊断中使用ROC分析的方法是本领域已知的,并描述于例如美国专利申请No. 2006/019615中,其全部通过引用方式结合在本文中。在本发明的一些实施方式中,可选择被确定为在良性和正常、良性和恶性或恶性和正常之间表现出最大的表达水平差异或最大的可选择剪接差异的基因表达产物和编码该产物的核苷酸组合物用作本发明的分子表达谱试剂。该基因表达产物可通过提供比本领域已知的或所使用的其他方法更宽的动态范围、更大的信噪比、更高的诊断能力、更低的假阳性或假阴性可能性或者更大的统计学置信度水平而是特别有用的。在本发明的其他实施方式中,当与使用本领域已知的标准细胞学技术相比时,单独或与细胞学分析组合使用分子表达谱可降低评为非诊断性的样品的数目约100%、99%、 95%、90%、80%、75%、70%、65%或约60%。在某些情况下,当与本领域中使用的标准细胞学方法相比,本发明的方法可降低评为中间或疑似的样品的数目约lOO^jg^jS^、 97%、95%、90%、85%、80%、75%、70%、65% 或约 60%。在某些情况下,将分子表达谱分析的结果输入分子表达谱商业机构的代表或代理、个人或医疗供应商或保险供应商可访问的数据库中。在某些情况下,分析结果包括商业机构的代表、代理或咨询人员(如医疗专业人员)的解释或诊断。在其他情况下,自动提供数据的计算机或算法分析。在某些情况下,分子表达谱商业机构可以向个人、保险供应商、 医疗供应商、研究者或政府单位针对一种或多种如下内容收费进行的分子表达谱分析、咨询服务、数据分析、报告结果或数据库使用。在本发明的某些实施方式中,分子表达谱的结果作为计算机屏幕上的报告或纸件记录呈现。在某些情况下,报告可包括但不限于如作为一种或多种以下内容的信息差异表达的基因的数目、原始样品的适用性、显示差异可选择剪接的基因的数目、诊断、用于诊断的统计学置信度、癌症或恶性的可能性和指定的治疗。(iv)基于分子表达谱结果的样品分类分子表达谱的结果可分类到以下的一种中良性(没有癌症、疾病或状况)、恶性 (对于癌症、疾病或状况的阳性诊断)或非诊断性的(提供有关癌症、疾病或状况的存在或不存在的不充分的信息)。在某些情况下,诊断结果还可分类癌症、疾病或状况的类型。在其他情况下,诊断结果可表明在癌症、疾病或状况中涉及的特定分子途径或者特定癌症、疾病或状况的特定等级或阶段。在再其他情况下,诊断结果可告知适当的治疗干预,如特定的药物方案如激酶抑制剂(如格列卫)或本领域已知的任何药物,或手术干预如甲状腺切除术或偏侧甲状腺切除术。在本发明的一些实施方式中,使用训练的算法将结果分类。本发明的训练的算法包括使用已知的恶性、良性和正常样品(包括但不限于图1中列举的样品)的参照集开发的算法。适于分类样品的算法包括但不限于k最近邻近算法、概念矢量算法(concept vector algorithm)、朴素贝叶斯算法、神经网络算法、隐马尔可夫模型分析、遗传算法和互信息特征选择算法或它们的任意组合。在某些情况下,本发明的训练的算法可整合除了基因表达或可选择剪接数据以外的数据,例如,但不限于,DNA多态性数据、测序数据、本发明的细胞学家或病理学家的评分或诊断、本发明的预先分类器算法所提供的信息或有关本发明的受试者的医疗史的信息。(ν)通过分子表达谱监控受试者或治疗干预在某些实施方式中,可使用本发明的方法和组合物监控受试者。例如,受试者可诊断为患有癌症或遗传疾病。这一初始诊断可包括或不包括使用分子表达谱。受试者可开具治疗干预的处方,如对疑似患甲状腺癌的受试者进行甲状腺切除术。治疗干预的结果可通过分子表达谱进行性地进行监控,以检测治疗干预的有效性。在另一实施例中,受试者可诊断为患有良性肿瘤或癌前病变损伤或结节,且肿瘤、结节或损伤可进行性地通过分子表达谱进行监控,以检测肿瘤或病变状态中的任何改变。分子表达谱还可在特定治疗干预施用于受试者之前用于确定该特定治疗干预的潜在有效性。例如,受试者可被诊断为患有癌症。分子表达谱可表明已知参与癌症恶性的基因表达产物的上调,如,举例来说,RAS致癌基因。可使用本领域已知的方法体外获得和培养肿瘤样品。然后可针对肿瘤细胞系的生长抑制测试异常活跃或失调的途径的各种抑制剂或已知抑制该途径活性的药物的应用。分子表达谱还可用于监控这些抑制剂在例如所指途径的下游靶点的作用。(vi)作为实验工具的分子表达谱在某些实施方式中,分子表达谱可用作研究工具来鉴定用于诊断疑似肿瘤的新的标志物,用于监控药物或候选药物对生物样品如肿瘤细胞、细胞系、组织或生物体的影响或用于揭示肿瘤发生和/或肿瘤抑制的新途径。(vii)基于分子表达谱的生物标志物分组根据以下组描述甲状腺基因1)良性与恶性,2)可选择基因剪接,3)KEGG途径,4) 正常甲状腺,5)甲状腺病理学亚型,6)基因本体论和7)从非甲状腺器官到甲状腺的转移的生物标志物。本发明的方法和组合物可以以任意组合方式具有选自上述列举的一个或多个组和/或选自上述列举的任意组的1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多个亚组(如一个或多个不同的KEGG途径)的基因,并可具有来自各组的1、2、3、4、5、6、 7、8、9、10、15、20、25、30、35、40、45、50或更多种基因表达产物。在某些实施方式中,组合的基因的组给出大于 70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、 94%,95%,96%,97%,98%,99%^; 99. 5%的灵敏度,或至少 95%,95. 5%,96%,96. 5%, 97%,97. 5%,98%,98. 5%,99%,99. 5%或更高的阳性预测值或阴性预测值。在某些实施方式中,细胞外基质、adherens、粘着斑和紧密连接基因被用作甲状腺癌的生物标志物。在某些实施方式中,信号传导途径选自以下三种途径中的一种adherens 途径、粘着斑途径和紧密连接途径。在某些实施方式中,至少一种基因选自这三种途径中的一种。在某些实施方式中,至少一种基因选自这三种途径中的两种。在某些实施方式中,选择参与所有三种途径的至少一种基因。在一个实施例中,参与adherens途径、粘着斑途径和紧密连接途径的基因的组被选择作为诊断癌症(如甲状腺癌)的标志物。内衬甲状腺滤泡的滤泡细胞是高度极化和结构组织化的,因而需要在它们的内腔和顶端细胞膜具有独特的作用。在某些实施方式中,细胞骨架、质膜和细胞外间隙基因被用作甲状腺癌的生物标志物。在某些实施方式中,覆盖所有四种途径即(ECM、粘着斑, adherens和紧密连接途径)的基因被用作甲状腺癌的生物标志物。在一个实施例中,本发明提供了良性与恶性组(n = 948)作为甲状腺分类基因的列表。该列表根据可选择剪接、 KEGG途径和基因本体论进行了分组。KEGG途径还进一步描述在表1中。在某些实施方式中,本发明提供了诊断癌症的方法,包括来自一种或多种信号传导途径的基因表达产物,所述信号传导途径包括但不限于以下急性骨髓性白血病信号传导、生长激素抑制素受体2信号传导、cAMP介导的信号传导、细胞周期和DNA损伤检验点信号传导、G蛋白偶联受体信号传导、整联蛋白信号传导、黑素瘤细胞信号传导、松弛肽信号传导和甲状腺癌信号传导。本发明的方法和组合物可以以任意组合方式具有选自1、2、3、4、 5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多个信号传导途径的基因并可具有来自各信号传导途径的1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多种基因表达产物。在某些实施方式中,组合的基因的组给出大于70%、75%、80%、85%、86%、87%、88%、 89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或 99. 5% 的特异性或灵敏度,或至少 95%,95. 5%,96%,96. 5%,97%,97. 5%,98%,98. 5%,99%,99. 5%或更高的
阳性预测值或阴性预测值。在某些实施方式中,本发明提供了诊断癌症的方法,包括来自一个或多个本体论组的基因表达产物,所述本体论组包括但不限于细胞衰老、细胞皮层、细胞周期、细胞死亡 /细胞凋亡、细胞分化、细胞分裂、细胞连接、细胞迁移、细胞形态发生、细胞运动、细胞投射、 细胞增殖、细胞识别、细胞本体、细胞表面、细胞表面连接受体的信号转导、细胞粘附、转录、 免疫应答或炎症。本发明的方法和组合物可以任意组合方式具有选自1、2、3、4、5、6、7、8、 9、10、15、20、25、30、35、40、45、50或更多个本体论组的基因并可具有来自各本体论组的1、 2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多种基因表达产物。在某些实施方式中,组合的基因的组给出大于 70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、 92%、93%、94%、95%、96%、97%、98%、99% 或 99. 5 % 的特异性或灵敏度,或至少 95%, 95. 5%、96%、96. 5%、97%、97. 5%、98%、98. 5%、99%、99. 5%或更高的阳性预测值或阴性预测值。表1. KEGG途径中涉及的基因
前948种B与前948种B与M列表中的M列表中的基途径中的KEGG途径%因总基因ECM231884p53141069PPAR141069曱状腺癌14429粘着斑1326201Adherens12977紧密连接1114134癌症概览中的途径1033332Jak/STAT1014155细胞周期79129TGFbeta7687Wnt71015权利要求
1.一种诊断受试者中的甲状腺癌的方法,包括以下步骤(a)从所述受试者获得包含基因表达产物的生物样品;(b)确定所述生物样品中的一种或多种基因表达产物的表达水平,其中,所述一种或多种基因表达产物对应于选自图6的基因;和(c)通过在所述生物样品中将基因表达水平与甲状腺癌的存在相关联来鉴定生物样品为癌性的。
2.如权利要求1所述的方法,其中所述生物样品包含甲状腺细胞。
3.如权利要求1所述的方法,其中所述生物样品包含组织样品。
4.如权利要求1所述的方法,其中所述样品通过针式吸取、细针吸取、芯针活组织检查、真空辅助活组织检查、大芯活组织检查、切开式活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查获得。
5.如权利要求1所述的方法,其中所述基因表达产物是RNA。
6.如权利要求5所述的方法,其中所述基因表达产物是mRNA、rRNA、tRNA或miRNA。
7.如权利要求5所述的方法,其中所述RNA的表达水平通过微阵列、SAGE、印迹、RT-PCR 或定量PCR测量。
8.如权利要求1所述的方法,其中所述基因表达产物是蛋白质。
9.如权利要求8所述的方法,其中所述蛋白质的基因表达水平通过ELISA、质谱分析、 印迹、蛋白质组学技术或免疫组织化学方法确定。
10.如权利要求1所述的方法,还包括将所述一种或多种基因表达产物的表达水平与对照样品中各基因产物的对照表达水平相比较的步骤,其中如果所述生物样品和所述对照样品之间的基因表达产物的基因表达水平存在差异的话,该生物样品被鉴定为癌性的。
11.如权利要求10所述的方法,其中使用训练的算法来比较生物样品和对照样品之间的mRNA水平的差异。
12.如权利要求1所述的方法,其中所述一种或多种基因表达产物对应于选自表3、表 4或表5的基因。
13.如权利要求1所述的方法,其中所述一种或多种基因表达产物对应于选自列表 1-31或表6中的任何一种或多种基因。
14.如权利要求1所述的方法,其中所述基因表达产物是来自急性骨髓性白血病、生长激素抑制素受体2、cAMP介导的细胞周期和DNA损伤检验点、G蛋白偶联受体、整联蛋白、黑素瘤细胞、松弛肽或甲状腺癌信号传导途径。
15.如权利要求1所述的方法,其中所述一种或多种基因表达产物是来自adherens、 ECM、甲状腺癌、粘着斑、细胞凋亡、p53、紧密连接、TGFbeta, ErbB, Wnt、癌症概览中的途径、 细胞周期、VEGF、Jak/STAT、MAPK、PPAR、mTOR或自身免疫性甲状腺途径。
16.如权利要求15所述的方法,其中所述基因表达产物是来自adherens途径。
17.如权利要求15所述的方法,其中至少两种基因表达产物被测定,且所述基因表达产物是来自至少两种不同的途径。
18.如权利要求17所述的方法,其中至少一种基因表达产物是来自adherens途径,且至少一种基因表达产物是来自粘着斑途径。
19.如权利要求18所述的方法,还包括来自紧密连接途径的第二基因表达产物。
20.如权利要求15所述的方法,其中所述基因表达产物归类为多于一种途径。
21.如权利要求20所述的方法,其中所述基因表达产物归类为adherens途径和粘着斑途径。
22.如权利要求21所述的方法,其中所述基因表达产物还归类为紧密连接途径。
23.如权利要求1所述的方法,其中所述基因表达产物是来自细胞衰老、细胞皮层、细胞周期、细胞死亡/细胞凋亡、细胞分化、细胞分裂、细胞连接、细胞迁移、细胞形态发生、细胞运动、细胞投射、细胞增殖、细胞识别、细胞本体、细胞表面、细胞表面连接受体的信号转导、细胞粘附、转录、免疫应答、血管生成、细胞膜、罕见膜成分、顶端细胞膜、基侧或侧细胞膜、整联蛋白、细胞表面、细胞外间隙、细胞骨架或炎症本体论的组。
24.如权利要求1所述的方法,其中图6中所列的一种或多种基因包含对应于指示癌症的一组代谢途径或信号传导途径的代表性序列。
25.如权利要求1所述的方法,其中步骤(d)的结果进一步包括提供建议的治疗干预。
26.如权利要求1所述的方法,其中所述表达分析的结果提供了表明特定诊断正确的大于90%的统计学置信水平。
27.如权利要求1所述的方法,其中所述表达分析的结果提供了表明特定诊断正确的大于95%的统计学置信水平。
28.如权利要求1所述的方法,还包括在步骤(a)后在部分生物样品上进行细胞学分析的步骤,以获得初步诊断。
29.如权利要求观所述的方法,其中具有中间样品和非诊断样品的初步诊断的样品还通过步骤(b)和(c)的方法进行分析。
30.如权利要求1所述的方法,其中选自图6的基因还选自图2、图3、图4或图5中所列的基因。
31.如权利要求1所述的方法,包括测定所述生物样品的基因表达产物中至少两种的表达水平。
32.如权利要求1所述的方法,包括测定所述生物样品的基因表达产物中至少五种的表达水平。
33.如权利要求1所述的方法,包括测定所述生物样品的基因表达产物中至少十种的表达水平。
34.如权利要求1所述的方法,其中所述基因表达水平的差异为至少10%。
35.如权利要求1所述的方法,其中所述基因表达水平的差异为至少25%。
36.如权利要求1所述的方法,其中所述基因表达水平的差异为至少50%。
37.如权利要求1所述的方法,其中所述基因表达水平的差异为至少两倍。
38.如权利要求1所述的方法,其中所述基因表达水平的差异为至少五倍。
39.如权利要求1所述的方法,其中所述基因表达水平的差异为至少十倍。
40.如权利要求1所述的方法,其中所述生物样品以大于75%的准确性被鉴定为癌性的。
41.如权利要求1所述的方法,其中所述生物样品以大于70%的灵敏度被鉴定为癌性的。
42.如权利要求1所述的方法,其中所述生物样品以大于70%的特异性被鉴定为癌性的。
43.如权利要求1所述的方法,其中所述生物样品以大于70%的灵敏度和大于70%的特异性被鉴定为癌性的。
44.如权利要求1所述的方法,其中所述生物样品以大于95%的阳性预测值被鉴定为癌性的。
45.如权利要求1所述的方法,其中所述生物样品以大于95%的阴性预测值被鉴定为癌性的。
46.如权利要求40-45中任一项所述的方法,其中使用训练的算法计算所述准确性。
47.如权利要求1所述的方法,其中所述对照样品获自于与测试样品相同的个体、与测试样品不同的个体、组织或细胞库。
48.如权利要求1所述的方法,其中所述对照样品的基因表达产物基因水平来自数据库。
49.如权利要求1所述的方法,其中所述样品是手术前标本。
50.如权利要求1所述的方法,其中所述样品是手术后标本。
51.如权利要求1所述的方法,其中所述方法将恶性甲状腺癌与良性甲状腺疾病区分开。
52.如权利要求1所述的方法,其中所述方法鉴定生物样品中的滤泡性腺瘤、滤泡性癌、淋巴细胞性甲状腺炎、滤泡性变型乳头状甲状腺癌、乳头状甲状腺癌、结节性增生、甲状腺髓样癌、许特莱氏细胞癌、许特莱氏细胞腺瘤或未分化甲状腺癌。
53.如权利要求1所述的方法,其中所述方法鉴定生物样品中的转移性非甲状腺癌。
54.如权利要求1所述的方法,其中所述方法鉴定生物样品中的转移性甲状旁腺癌、转移性黑素瘤、转移性肾癌、转移性乳腺癌或转移性B细胞淋巴瘤。
55.如权利要求1所述的方法,还包括传送一组具有鉴定信息的结果的步骤。
56.如权利要求55所述的方法,其中所述信息通过互联网传送。
57.一种分类癌症的方法,包括步骤(a)获得包含基因表达产物的生物样品;(b)测定所述生物样品中一种或多种基因表达产物的表达水平,其中所述一种或多种基因表达产物对应于选自图6的基因;(c)将所述一种或多种基因表达产物的表达水平与对照样品中各基因表达产物的对照表达水平相比较;和(d)如果在特定置信水平下所述生物样品和所述对照样品之间的基因表达水平存在差异的话,该生物样品被鉴定为对于癌症亚型是阳性的。
58.如权利要求57所述的方法,其中所述方法鉴定所述生物样品中的滤泡性腺瘤、滤泡性癌、淋巴细胞性甲状腺炎、滤泡性变型乳头状甲状腺癌、乳头状甲状腺癌、结节性增生、 甲状腺髓样癌、许特莱氏细胞癌、许特莱氏细胞腺瘤或未分化甲状腺癌。
59.如权利要求57所述的方法,其中所述方法鉴定所述生物样品中的转移性非甲状腺癌。
60.如权利要求57所述的方法,其中所述方法鉴定所述生物样品中的转移性甲状旁腺癌、转移性黑素瘤、转移性肾癌、转移性乳腺癌或转移性B细胞淋巴瘤。
61.一种用于诊断癌症的组合物,包含结合图6中所列的一种或多种基因表达产物或它们的互补物的一部分的探针。
62.如权利要求61所述的组合物,其中所述探针是抗体。
63.如权利要求61所述的组合物,其中所述探针是寡核苷酸。
64.如权利要求61所述的组合物,还包含所述探针共价连接于其上的基底。
65.如权利要求64所述的组合物,其中所述组合物适用于在特定置信度水平下使用训练的算法来诊断癌症。
66.如权利要求65所述的组合物,其中所述癌症是甲状腺癌。
67.如权利要求61所述的组合物,其中所述探针结合一种或多种对应于选自表3、表4 或表5的基因的基因表达产物。
68.如权利要求61所述的组合物,其中所述探针结合一种或多种对应于选自列表1-30 或表6中的任何一种或多种基因的基因表达产物。
69.如权利要求61所述的组合物,其中所述探针结合来自急性骨髓性白血病、生长激素抑制素受体2、cAMP-介导的细胞周期和DNA损伤检验点、G蛋白偶联受体、整联蛋白、黑素瘤细胞、松弛肽或甲状腺癌信号传导途径的所述一种或多种基因的一部分。
70.如权利要求61所述的组合物,其中所述探针结合来自adherens、ECM、甲状腺癌、 粘着斑、细胞凋亡、P53、紧密连接、TGFbeta、ErbB、Wnt、癌症概览中的途径、细胞周期、VEGF、 Jak/STAT、MAPK、PPAR、mTOR或自身免疫性甲状腺途径的所述一种或多种基因的一部分。
71.如权利要求61所述的组合物,其中存在至少两种结合来自至少两种不同的途径的基因表达产物的探针。
72.如权利要求71所述的组合物,其中至少一种基因表达产物是来自adherens途径, 和至少一种基因表达产物是来自粘着斑途径。
73.如权利要求72所述的组合物,还包含来自紧密连接途径的基因表达产物。
74.如权利要求61所述的组合物,其中所述基因表达产物归类为多于一种途径。
75.如权利要求74所述的组合物,其中所述基因表达产物归类为adherens和粘着斑途径。
76.如权利要求75所述的组合物,其中所述基因表达产物也归类为紧密连接途径。
77.如权利要求61所述的组合物,其中所述基因表达产物包含来自细胞衰老、细胞皮层、细胞周期、细胞死亡/细胞凋亡、细胞分化、细胞分裂、细胞连接、细胞迁移、细胞形态发生、细胞运动、细胞投射、细胞增殖、细胞识别、细胞本体、细胞表面、细胞表面连接受体的信号转导、细胞粘附、转录、免疫应答、血管生成、细胞膜、罕见膜成分、顶端细胞膜、基侧或侧细胞膜、整联蛋白、细胞表面、细胞外间隙、细胞骨架或炎症本体论的组的一种或多种所述基因的一部分。
78.—种运营分子表达谱业务的方法,包括(a)提供通过测定权利要求1的基因表达产物水平来诊断或监控癌症的服务;或(b)使用权利要求61的组合物来测定权利要求1的一种或多种基因表达产物的量;(c)基于(a)或(b)的获得数据来提供诊断、预后和指示的疗法的咨询;和(d)协作或独立地向医生、医院和诊所销售(a)、(b)或(c)的服务。
全文摘要
本发明涉及用于分子表达谱和癌症诊断学的组合物、试剂盒和方法,包括但不限于与癌症相关的基因表达产物标志物、可选择的外显子使用标志物和DNA多态性。具体而言,本发明提供了与甲状腺癌相关的分子表达谱、确定分子表达谱的方法和分析结果以提供诊断的方法。
文档编号G01N33/574GK102272325SQ200980153735
公开日2011年12月7日 申请日期2009年11月17日 优先权日2008年11月17日
发明者B·安德森, D·I·丘多瓦, E·T·王, G·C·肯尼迪, J·I·威尔德, M·帕甘, N·拉比, 王辉 申请人:威拉赛特公司