专利名称:用于识别药效基团的方法
技术领域:
本发明涉及一种用于识别分子的药效基团的方法,以及涉及一种相应的计算机程序和计算机系统。
在实验数据中寻找分子的药效基团是在寻找新的活性物质时的一个决定性的步骤。从现有技术已知,检验大量的在物质库中定义的物质与预先定义的目标分子、所谓的靶子的反应以获得实验数据。根据与靶子的反应将物质库的物质进行分类。在此,一种分类的可能是二元分类,也就是说例如根据逻辑“0”、即无反应,以及根据逻辑“1”、即发生反应。
对于活性物质的研制,从单个物质以及其已知化学结构的分类中识别出药理上重要的子单元(药效基团)是至关重要的。这也包含识别所谓的主导结构,其涉及在化学上很好定义的、相关联的分子子单元。对于与靶子的反应能力重要的分子子单元被称为药效基团,尤其被称为主导结构。在此,子单元的贡献是否增强或抑制了反应,是无关紧要的。所述药效基团不是一定要必然地构成紧密的分子子单元。空间上分离的分子子单元共同协作地为药效作出贡献是完全可能的。
生物的或化学的描述符或分子结构被编码成输入向量。效应特征是依赖于分子结构的推理的未知函数。因此,该函数此外被称为结构-效应关系(SWB)。通过将输入变量的效应贡献与共同产生SWB的效应单元联系起来,从其函数形式可以推导出药效基团(参见J.Bajorath,“Selected Concepts and Investigations in Compound Classification,Molecular Descriptor Analysis,and Virtual Screening”,J.Chem.In.Comput.Sci.,2001,41,233-2459)。
如果药效基团被识别出,那么可以通过系统的变化来优化该活性物质。对于已识别的药效基团的系统优化存在已确定的方法。
为识别药效基团,使用不同方法的组合1)定义分子结构(酶解图谱)在结构上的子群,以及确定单个分子结构的化学的和/或生物的描述符。描述符是特定分子的化学变量(例如酸性,OH组合的数量等等)或生物变量(例如毒性)。酶解图谱以二进制字符串的形式被编码。在此,字符串的每一位表示一个分子子群。如果在分子结构中存在相应的子群,那么在字符串的数位上置1,否则置0。根据经验,分子子群的选择对于成功地识别药效基团是决定性的,并且是当前研究的对象(参见USPatent No.6.240.374和US Patent No.6.208.942)。在酶解图谱的情况下,不仅可以对子群的存在进行编码,而且可以对分子化学结构中的子群的相互联系进行编码。然而,最优的、一般可用的酶解图谱的研究等效于药效基团的识别,并且还没有被解决。
2)数据减少方法被应用于酶解图谱。在此,最常用的是主要成分分析(PCAPrincipal Component Analysis)和组团方法。由此,明显减少了很长的字符串,其中降低了识别药效基团的问题的复杂性。因为所有为此而存在的方法都是启发式的并且绝对不包含关于效应结构的信息,所以在减少对效应来说重要的信息时存在消除的危险。不存在系统地避免这个问题的方法。
3)已建立的数据挖掘方法被应用于(已减少的)数据集,以便找到在酶解图谱/描述符和药理效应之间的结构-效应关系。
最常用的方法是-决策树,-关联规则,-神经网络。
在决策树和关联规则的情况下,用不同的组合的方法,尝试在使用尽可能少的变量的情况下获得结构-效应关系的描述。因此,这种方法可以将对效应来说相关的和不相关的结构变量互相分离。缺点是在此,原则上只能识别出这些不依赖于其他的结构变量的分布而对效应作出积极的或消极贡献的相关的效应单元。在通常的情况下,在多个效应单元之间出现交互作用,只有当总效应总是增强或减弱时,才能识别出这种交互作用。
在所有由于结构化学的原因而在效应单元之间出现复杂的交互作用的情况下,上述的方法不能识别出该交互作用。在这些情况下,也不能识别出效应单元的结构变量的分组。所述方法的另一个缺点是基本上不能识别出效应单元之间的复杂的、多级的交互作用。
与决策树和关联规则相反,神经网络根据现有的数据“熟记”SWB。神经网络也能够正确地映射很多变量的复杂的交互作用。神经网络的决定性的缺点是其只能提供形式上的SWB。而不能获得关于SWB的函数结构的明确的信息。因此,神经网络对于识别药效基团的贡献被限制于只能简洁地描述SWB以及在已测量的变量分布之间的插值。由于其设计而不能对SWB的结构作出直接的贡献。因此,只能非常有限地对药效基团进行化学上相关的识别。第二个缺点在于,神经网络的高度灵活性导致在存在高维数的数据集时,由于过适应性,通过神经网络进行预测的可靠性大大降低。
允许明确地综合原有知识并且附加地从数据中产生关于SWB的函数结构的信息的方法还未公开。
另一方面,最近已能够在神经网络结构中以结构化的混合模型来表示原有知识的明确的综合,并且能够证明在模拟复杂的相互关联时由此而实现的效率提高(参见A.Schuppert,Extrapolability ofStructured Hybrid Modelsa Key to Optimization of ComplexProcesses,在Proceedings of EquaDiff 99,Fiedler,Groeger,Sprekels Eds.,World Scientific Publishing,2000中)。
结构化的混合模型包括对应于经推理而预先给定的SWB的函数结构而相互连接的神经网络。然后,像没有被结构化的神经网络一样,根据现有的数据来训练作为神经网络实现的的效应单元。可以表明,由此可以大大减小过适应性的问题。此外,结构化的混合模型可以实现用纯粹的神经网络在原则上不能实现的数据的外推。
只要所寻找的SWB的函数结构经推理为未知,那么结构化的混合模型就不能被运用于在药效基团识别中的应用。因为通常事实并非如此,即不满足使用结构化的混合模型的重要的前提条件。相反,弄清SWB的函数结构本身是在寻找药效基团时重要的组成部分。
然而,到目前为止还不能实现以相反的方法从现有数据中确定SWB的函数结构。也就是在现有技术中缺少用于为给定的靶子识别药效基团的可靠的方法。
因此,本发明所基于的任务是实现用于识别分子药效基团的方法以及实现相应的计算机程序和计算机系统。
本发明所基于的任务分别用独立权利要求的特征来解决。本发明的优选实施方案由从属权利要求给出。
本发明的优选的应用领域是为分析药理效应而识别分子药效基团。本发明尤其允许在根本上加快药理活性物质的研制并因此同时大大降低成本。
本发明的一个特别的优点在于,其允许从已测量的结构-效应数据中直接识别出SWB的函数结构。
根据本发明的一个优选实施方案,假定可以对所述数据这样进行分类,使得每个数据集的效应、也就是说对于状态“无效的”和“有效的”可使用二元描述。此外,根据本发明的另一个优选实施方案假定,药效基团的每个效应单元可以同样假设只有两个状态、即“活性的”或“无活性的”。在此,效应单元被看作是“黑盒子”。
根据本发明的另一个优选实施方案,将效应划分为多于两个的类别并进行编码。与二进制编码相比,除了区别“无效的”和“有效的”之外,该实施方案允许将效应的不同的等级包括到分析处理中。相应地,也可以允许每个效应单元有多于两个的状态。
本发明基于以下的知识,即明确定义的、不变的数据集合的系统属于SWB的每个函数结构是结构化的混合模型的特征。本发明方法是以从数据中过滤出(可能存在的)不变的集合以便从中重建SWB为基础。(结构化的混合模型在A.Schuppert,Extrapolability ofStructured Hybrid Modelsa Key to Optimization of ComplexProcesses,inProceedings of EquaDiff 99,Fiedler,Groeger,Sprekels Eds.,World Scientific Publishing,2000中已公开。)对于可以假设效应单元只有两个状态、即“活性的”和“无活性的”的情况,因此必须给出每个效应单元输入变量的分布的聚类,使得效应单元的输出对于一个有关变量的所有分布无论如何都为逻辑“0”,并且对于其他变量的所有分布总是为“1”。这种强制的输入变量的分布的聚类直接导致在SWB中不变的集合的存在。
本发明一个特别的优点在于尤其是当SWB具有树结构时,可以从预先给定的、SWB的不变的集合的系统中重建SWB的函数结构。为计算SWB的函数结构,本发明方法既不以对单个效应单元的输入和输出关系的精确分布进行明确地计算为前提,也不以所有可能的函数结构的组合变化为前提。基于此,本发明方法特别有效并且还允许用相对低的计算费用解决复杂的问题。
此外,参考附图详细描述本发明的优选实施例。其中
图1示出了用于识别药理上的结构-效应关系的原理描述。
图2示出了药效基团的形式结构的一个例子。
图3示出了结构化的混合模型的一个例子。
图4示出了由分别具有二元输入-输出行为的效应单元组成的结构-效应关系的一个例子。
图5示出了用于计算描述符不同变化的流程图。
图6示出了用于识别效应单元的流程图。
图7示出了用于通过实验检测目标分子上物质库的物质的方法的流程图。
图8示出了具有物质库的物质描述符和通过实验检测到的反应的表格。
图9示出了用于检测二元变化的实施方案的流程图。
图10示出了用于根据图9来确定二元变化的表格。
图11示出了用于确定三元变化的流程图。
图12示出了结构-效应关系的另一个例子。
图13示出了具有分配给共同的效应单元的候选变量对的表格以及具有带无冲突的组的候选变量对的变量集合的表格。
图1说明了尤其用于药理应用的、本发明所基于的识别问题。数据库1包含物质库的物质的描述符。在此,优选地对描述符进行二进制编码,并且该描述符描写了物质的结构。这样的描述符也被称为“酶解图谱”。这样的“酶解图谱”本身已在现有技术中公开了(参见J.Bajorath,Selected Concepts and Investigations in CompoundClassification,Molecular Descriptor Analysis,and VirtualScreening,J.Chem.In.Comput.Sci.,2001,41,233-245)。
数据库1的描述符可作为数据库1的输出端上的向量x而被使用,并且通过待检测的结构-效应关系SWB(x)的效应机制被映射到效应特征上。该效应特征涉及通过实验检测到的、储存在数据库2中的数据。为了确定该效应特征,尽可能地借助于实验为每个单个的描述符检测有关物质是否与目标分子、所谓的靶子反应。
通过目标分子来执行借助于描述符而描述的、到效应特征的物质的映射Y=SWB(x)。现在识别问题在于从SWB的输入和输出量、也就是从描述符和效应特征推断出SWB的结构。
根据图2,3可描绘作为所谓的药效基团的SWB。一个药效基团可以包含一个或多个主导结构。
图2示出了具有效应单元4,5,6和7的药效基团3。效应单元4具有作为输入的变量V1,V3,V4和V5。效应单元具有作为输入的变量V6,V7和V8。效应单元6具有输入V9和V10。效应单元4,5和6分布具有与效应单元7的输入相连接的输出。于是效应单元7的输出表明了总效应、也就是“活性的”或“无活性的”。
图3示出了“结构化的混合模型”的典型结构的一个例子。通过图3的关系图描绘了输入变量和输出变量之间的函数关系。在此,通过黑色的矩形定量地描绘了未知的函数,与此相反白色的矩形定量地描绘了已知的关系。为了能够利用结构化的混合模型的优点,不必在模型中包含完全已知的关系(白色的矩形)。本发明利用该认识以用于从描述符和鉴于靶子所检测到的效应特征中自动地找到SWB。
图4示出了本发明的另一个优选实施例,其中可以假设单个的效应单元分别只有两个状态、也就是对应于“活性的”或“无活性的”的逻辑“0”和逻辑“1”。
图5示出了本发明方法的实施例的流程图。在步骤50中提供物质库的物质的描述符,为这些描述符已检测了效应特征。以由相应的具有单位长度n的分子结构的二进制描述符产生的文件形式实现该提供。
事先已根据待检验的效应为每个分子结构确定了活性的或无活性的分子组的分配;这种分配以效应特征的形式存在。在步骤51中使在步骤50中提供的二进制描述符多样化,也就是说将二进制描述符分配给各自的效应。这里多样化意味着对于每个可能的长度n的描述符的二进制字符串,所属的效应必须为已知的。
如果给定的数据并非如此,那么必须在数据预处理步骤中,或者通过将数据集聚类到单个的分子结构中具有更低变化的组中,或者通过借助于神经网络的插值来人工地执行该多样化。通过所述的聚类实现在每个组中,可以通过具有更短的长度m<n的二进制字符串来描述所有的分子结构。在单个的组内,可以比整个混合物更容易地实现多样化。实现多样化的另外的可能性是从二进制描述符中系统地去除相关的子字符串。
在步骤51中实现多样化之后,在步骤52,53和54中计算二元的、三元的或一元的变化。这被用于计算数据集合中不变的组合的完整系统。在此,所有的元组由二进制描述符-字符串的变量Vi,Vj构成。为每个元组Vi,Vj计算两个变量-二元变化v2(i,j)。通过以下方式计算该变化a)对于变量(i,j)((0,0),(0,1),(1,0),(1,1))所有的4个分布,分别为剩余参数的所有组合寻找整个系统的效应。
b)然后这样计算(i,j)的分布之间的效应结构的相关性cor(k,1),k,1=1...4,使得当在剩余变量的所有变化情况下对于两种分布整个系统的效应总是相同时,则分布(例如(0,0))与另一个分布(例如(0,1))是相关的。在数据集有误差时,不要求精确地相同,而是要求剩余变量变化中的效应以预先给定的概率而相同。如果分布k与分布1如上所述是相关的,那么cor(k,1)被准确地置为1,否则将cor(k,1)置为0。
c)在下一步中,借助于已知的方法这样聚类所述的分布,使得在每个组中只包含互相相关的分布。
d)二元变化v2(i,j)是检测到的组的数量。
-三元变化v3(i,j;k),根据下面的算法计算该三元变化a)对于变量元组(i,j)(i,j=1,...,n)4个分布中的每个分布,以及对于附加的变量k的两个分布中的每个分布,分别为剩余变量的所有变化寻找效应。
b)为每个元组(i,j)和剩余变量的所有变化检查在变量k的分布跳越时,效应是否从0变化到1。在效应依赖于变量(i,j)的分布的情况下,检查对于k=0和k=1,关于(i,j)的分布是否存在效应的相同分组。
c)三元变化v3(i,j;k)是剩余变量的所有变化的数量,其中不仅对于k=0的情况而且对于k=1的情况,效应依赖于变量(i,j)的分布,以及对于k=0并且k=1,鉴于效应而分别出现(i,j)分布中的不同分组。
-附加地计算变化v1(k),其表明了剩余变量的变化的数量,其中如果将变量k从0置为1时,那么效应就发生变化。
图6示出了如何从步骤52,53和54继续该方法。
借助于二元和三元变化v2(i,j)和v3(i,j;k)可以明确地识别SWB的函数结构。为此,首先识别不相关的变量(步骤55)。对效应一点也没有影响的那些变量被称为不相关的变量。可以借助于v1(k)立即识别出这些变量●当v1(k)=0时,变量k是不相关的。
从输入字符串中去除所有不相关的变量。之后(步骤56)识别作为元组而构成2个变量的效应单元(2-WE)的那些变量元组●当v2(i,j)=2时,不包含不相关的成分的变量元组构成2-WE。之后,为所有不包含在2-WE中的变量检查其是否被包含在更复杂的效应单元中(步骤57)。
为此,按照下面的算法采取措施a)对于所有的(i,j),借助于所属的三元变化v3(i,j;k),k=1,...,n,寻找使v3(i,j;k)=0成立的那些k变量的集合Mk(i,j)。
b)然后从(i,j)元组中寻找所有的组,对于这些组每个所属的组元素具有相同的Mk(i,j)。
c)在属于相同组的元组中出现的所有变量构成效应单元。
该算法不仅允许从测量到的数据中识别出不相关的变量,而且允许用直接的方式从测量到的数据中确定SWB的函数结构。
在包含噪声的数据中、也就是说其中将效应分配给分子结构可能有误差,下面对所述算法的修正可以达到目的在步骤55中不再检查是否v1=0,v2=2和v3=0,而是允许有一个误差带宽。也就是说,当v1小于预先给定的极限v1_crit时,则变量被看作为不相关的。已在识别算法的描述中指出了识别2-WE时的误差补偿。在识别复杂的效应单元时,这样实现误差补偿,使得在步骤a)中调节Mk(i,j)中的所有的k-变量,对于这些k-变量,v3(i,j;k)小于预先给定的量v3_crit。
通过直接从数据中构造SWB的函数结构,所述算法是一种直接的方法。与检查可能的结构与数据的兼容性的间接方法相反,所述方法具有以下优点,即通过结果必须是一致的来支持临界参数v1_crit,v2_crit和v3_crit的最优化选择。这意味着●所有的变量必须被明确地分配给效应单元或必须表明是不相关的变量。
●不允许在分配中存在交叠。
到目前为此,所有的测试已表明在选择导致一致结构的变量时,总是产生正确的结构。因此一致性检查是对于SWB的已找到的函数结构的有效性的有力检查。
在图6的流程图的步骤58中,检查已识别出的效应单元的一致性。如果不产生一致性,那么在步骤59中调整用于测量误差补偿的校正参数的选择。然后重新执行步骤55和/或56和/或57,以及在步骤58中对相应的结果重新进行一致性检查。如果产生一致性,那么因此结束对效应单元的识别。
此外,根据图7至11详细描述本发明方法的优选实施例。
图7首先说明了用于获得执行所述方法所需的实验数据的优选方法。图7的方法很大程度上可以由实验室自动机全自动地实现。
在步骤70中,首先初始化指标p,也就是p=0。
在步骤71中,访问描述符-数据库(参见图1的数据库1),以便为物质库中的物质Sp挑选描述符。在数据库中总共存在q个描述符的集合。
然后在步骤72中,通过实验检查相应的物质Sp是否与目标分子发生反应,也就是说是否显示特定的效应。如果出现反应,那么就在步骤73中将物质Sp的描述符的数据区Rp置为1,在相反的情况下则在步骤74中将该数据区Rp置为0。
之后在步骤75中,将指标p的值递增。然后为递增的指标、也就是为下一个物质重新执行步骤71,72和73或74。
在图8的表格80中总结通过实验检测到的结果、也就是效应特征。对于每个物质S1,S2,...,Sp,表格80包含具有变量V1,V2,V3,...,Vn的描述符。此外,为每个这样的描述符分配一个数据区Rp,该数据区以二进制编码的形式表明在实验中是否发生了反应。在表格80的第一行中,为物质S1的描述符相应地分配数据区R1,该数据区根据物质S1在实验中是否与靶子发生了反应而或者具有值0或者具有值1。表格80还包含多样化的数据(参见图5的步骤51)。
图9示出了用于计算二元变化(参见图6的步骤52)的方法的实施方案的流程图。
在步骤90中,首先构成变量Vi和Vj的所有可能的二元组,其中i≠j。如果使用分别具有n个变量V1,V2,V3,...,Vn的二进制描述符,那么就检测不同变量Vi和Vj的所有可能的配对。
然后,在步骤91中,为每个在步骤90中所检测的二元组构造一个表格。在图10中描述了这种表格的结构图10示出了表格100,其中变量Vi和Vj可能的分布被用作为列指标。假定使用二进制描述符,那么对于2个变量Vi和Vj有四个不同的分布对、即(0,0),(0,1),(1,0),(1,1)。在此,在图10中所示的这样的表格100的例子涉及具有i=1并且j=2的变量Vj,Vj的二元组。
在表格100中,剩余变量可能的分布被用作为行指标。这里,具有不等于i并且不等于j的下标的所有变量称为剩余变量。在所观察的图10的例子情况下,所述剩余变量也就是剩余变量V3,V4,...,Vn。在表格100中,也就是为每一行分配这些剩余变量的一个特定的分布。
然后如下得出表格100特定的行和列的一个单元的内容为得到有关行的剩余变量的分布以及为得到有关列的二元组Vi,Vj的分布,访问表格80(参见图8),以便为变量V1,V2,...,Vn的分布计算数据区Rp的值。然后数据区Rp的这个值被表格100中的有关单元采用。
在图9的步骤91中,在为每个二元组Vi,Vj构造了一个对应于图10的表格100的表格之后,在步骤92中,为每个这样的表格计算不同的列数。
然后在步骤93中,为每个表格检查所观察的表格的不同的列数是否为1,也就是说检查分配给变量的特定的二元组Vi,Vj的表格是否由完全相同的列组成。如果情况如此,那么在步骤94中得出有关的变量Vi,Vj是不相关的。
在相反的情况下,为所观察的表格检查不同的列数是否为2。如果情况如此,那么由此在步骤96中得出有关的变量Vi,Vj属于刚好具有两个输入的效应单元。
在相反的情况下,在步骤97中构造三元变化。为所有在步骤91中构造的表格执行步骤93以及也许执行步骤95,以便尽可能地在这里去除不相关的变量或将变量分配给刚好具有两个输入的效应单元。对于用这种方法或者已经作为不相关的变量而去除的变量或者被分配给刚好具有两个输入的效应单元的变量,于是剩下步骤97的确定三元变化。在步骤97中,只要求为那些或者在步骤94中可以作为不相关的变量而去除的变量,或者在步骤96中可以被分配给刚好具有两个输入的效应单元的变量而确定三元变化。
图11示出了用于确定三元变化(参见图9的步骤97)的实施方案。
在步骤110中,为每个二元组Vi,Vj、更确切地说为具有“0”的变量Vk的分布构造表格100(参见图10)形式的表格。也就是为所有的三元组Vi,Vj和Vk构造这样的表格,其中Vk总是为0。
在步骤111中,为每个元组Vi,Vj、更确切地说为具有Vk=1的分布而构造相应的表格。
在步骤112中,检查对于特定的元组Vi,Vj、也就是对于i和j的特定的选择,两个相应的表格、也就是当Vk=0(步骤110)时和当Vk=1(步骤111)时的表格是否相同。如果情况如此,由此在步骤113中得出变量Vk可以作为不相关的变量而去除。
如果是相反的情况,在步骤114中分别为这两个所观察的表格确定列的关系。为了确定列的关系,这样采取措施,即为表格中的特定的列确定这一列的元素与同一个表格的其他列中相同行的对应元素有何关系,也就是确定这些元素对是否是相同的关系或是不同的关系。在步骤114中为每个表格检测关于有关表格的所有列的相同或不同的关系。
然后在步骤115中检查对于Vk=0和Vk=1,在属于变量的相同二元组Vi,Vj的表格对中的列的关系是否相同。如果情况不是如此,那么在步骤116中可以没有结论。如果情况如此,那么在步骤117中由此得出变量Vi,Vj涉及分配给同一个效应单元的候选变量对,其中该效应单元可以涉及具有两个或多个变量的效应单元。此外,在步骤117中由此得出如果变量Vi,Vj涉及正确的候选变量对,那么变量Vk必须属于不同于变量Vi和Vj的效应单元的另一个效应单元。
作为图11的方法的结果,产生候选变量对Vi和Vj的列表,以及对于每个候选变量对,如果有关的候选变量对是正确的,那么必须为另一个效应单元分配变量Vk的集合。然后在分别分配给确定的候选变量对的变量Vk的集合的并集中,查找变量的相同集合的无冲突的组。然后由此直接得出药效基团的所寻找的结构。
图12示出了通过为具体的应用情况而使用图11的方法所获得的相应结果。在具体的应用情况下,从1024个数据集中精选出360个相关的三元变化。数据集的每个描述符有10个不同的变量(V1,V2,...,V10),已识别出变量V2是不相关的。识别出变量V1,V2属于刚好具有两个变量的效应单元(参见图9的步骤96)。
于是在去除了不相关的变量和2-效应单元的变量之后,剩下作为候选者的变量对Vi和Vj以作为剩下的相关的变量元组。这在图12上面的表格中示出了。
在图12下面的表格中,在每一行中给出了变量Vk的集合,该集合属于图12上面的表格的相应的行、也就是属于确定的候选变量对Vi和Vj。在图12下面的表格中,0总是表示一个空位。从下面的表格Mk(i,j)中识别出具有效应单元21 3 4 5效应单元36 7 8的剩余变量的分布。在图12的表格中用“x”标出了相应的组。在图13中描绘了对应于所述组的具有效应单元4,5,6和7的药效基团。从图12上面的表格中得出具有变量V1,V3,V4和V5的效应单元的分布,以及从为集合Mk(i,j)而构造的组中得出效应单元5的分布。变量V9和V10被分配给刚好具有两个输入的效应单元,而变量V2不分配给任何效应单元,因为该变量对总效应、也就是效应单元7的输出没有影响。
参考标记列表数据库 1数据库 2药效基团 3效应单元 4效应单元 5效应单元 6效应单元 7表格 80表格 100
权利要求
1.用于识别药效基团的方法,具有下列步骤-输入物质的描述符,其中每个描述符具有多个变量(V1,V2,...,Vn),并且输入分配给所述描述符的效应(Rp),-为变量的二元组确定二元变化,-将变量对(Vi,Vj)分配给药效基团的效应单元,其中当所述变量对的所述二元变化为2时,所述效应单元刚好具有两个变量,-为变量(Vi,Vj,Vk)的三元组确定三元变化,-从所述三元变化中确定候选变量对以分配给共同的效应单元,其中所述共同的效应单元具有两个或更多变量,以及为每个候选变量对确定变量的集合,所述集合包含这样的变量,这些变量在候选变量对分配给共同的效应单元时必须分配给不同于所述共同的效应单元的一个效应单元,-为识别所述共同的效应单元,确定变量集合的无冲突的组。
2.如权利要求1所述的方法,其中所述描述符涉及物质库的二进制描述符。
3.如权利要求1或2所述的方法,具有对所述二进制描述符进行数据压缩的步骤。
4.如权利要求1,2或3所述的方法,其中所述效应涉及分配给所述描述符的物质对目标分子的效应,优选地对所述效应进行二进制编码。
5.如上述权利要求1至4之一所述的方法,其中为了确定所述二元变化以及为了将变量对分配给刚好具有两个变量的效应单元,执行下列步骤-构造变量(Vi,Vj)的二元组,-为每个二元组构造效应的表格,其中使用剩余变量的排列并且使用变量的二元组的可能分布作为表格指标,-为每个分配给二元组的表格确定不同的列数,-当所述相应的表格的不同的列数为2时,将作为变量对的变量二元组分配给刚好具有两个变量的所述效应单元。
6.如权利要求5所述的方法,其中对于二元组,所述相应的表格的不同的列数为1时,则去除不相关的二元组的变量。
7.如权利要求5或6所述的方法,其中只有存在不同的列数为3和更多的表格时,才确定所述三元变化。
8.如权利要求1至7之一所述的方法,其中为了确定所述三元变化以及为了确定分配给共同的效应单元的候选变量对,执行下列步骤-为变量(Vi,Vj)的二元组以及为另一个变量(Vk)的第一个效应构造第一个表格,-为变量(Vi,Vj)的二元组以及为另一个变量(Vk)的第二个效应构造第二个表格,-确定相应的第一和第二个表格的彼此的列关系,所述表格具有所述另一个变量的不同效应,-从所述相应的具有相同的列关系的第一和第二个表格中检测出候选变量对以及变量的集合。
9.如权利要求8所述的方法,其中当所述另一个变量的第一和第二个表格基本上相同时,则去除不相关的另一个变量。
10.如权利要求8或9所述的方法,其中在无冲突的组中,所述无冲突的候选变量对的变量的集合相同。
11.如上述权利要求1至10之一所述的方法,其中为了去除不相关的变量,为了构造二元变化和/或为了构造三元变化,允许有容差。
12.如上述权利要求1至11之一所述的方法,其中基于三维参数空间的搜索而自动地选择产生无冲突的解决方法的允许限制。
13.具有用于实现如上述权利要求1至12之一所述的方法的编程工具的计算机程序产品。
14.具有用于实现如上述权利要求1至12之一所述的方法的工具的计算机系统。
全文摘要
本发明涉及一种用于识别分子药效基团的计算机系统和方法,具有下列步骤输入物质的描述符,其中每个描述符具有多个变量(V
文档编号G01N33/68GK1585955SQ02822617
公开日2005年2月23日 申请日期2002年11月11日 优先权日2001年11月15日
发明者A·舒佩尔特 申请人:拜尔技术服务有限责任公司