撰稿马克阿奇博尔德。
在以前的文章中(在ChemSpider的幕后)我们在整个世界上最大的化学品数据库之一维护数据质量的讨论了一些挑战。远用更多的记录比人类可以合理地处理交易时,我们确定自动过滤的关键工具。在这篇文章中,我们将进入更详细了解如何过滤那个作品,所面临的挑战是什么,角色通过人工干预播放。
要执行此过滤我们使用KNIME,一个开源的数据处理平台。广泛KNIME节点通过主动化学信息学社区开发允许我们问我们处理数据的化学处理具体问题。新利手机客户端简单来说,符合我们标准的输入化学结构传递到下一个节点,而那些没有被写到一个错误文件。处理所有的结构后,其结果是,已经成功通过所有的过滤器和几个(通常较小)拒绝以各种理由结构的文件,通过结构的文件。
这是不可能的审查所有生成的文件的完全,因为这会消除自动处理的节省时间的优势。但是,所有类型的输出文件点检查的准确性和迭代地改进过滤标准。某些输出文件有假阳性高电位,所以我们在充分审查。
格式和标识
提交的文件可以在几个不同的格式之一。最常见的是SDF(结构数据文件含有多个结构与相关联的数据字段的化学结构格式)。这种格式的优点是,它包含2或3维结构,所以我们可以立即开始处理文件,而无需一个标识符转换的结构。这意味着,最终的结构,我们的存款很可能原来的完全匹配。自卫队格式的缺点是,它是专门 - 许多用户不熟悉,或不会有软件来创建和显示文件。
我们也收到不同格式的电子表格(EXCEL,CSV,TSV)与基于文本的符号系统等编码结构微笑要么InChI。这种格式的优点是,它不需要专门的软件(提供的提交者具有SMILES或InChIs所述化合物)。该缺点是结构需要转换到SDF处理和沉积到ChemSpider之前。此外,这些格式包含有关原子和它们的连接信息,但缺乏布局信息。这可以引入误差作为不同结构图软件包能够解析这些结构略有不同,从而导致改变到最终沉积结构。
过滤条件
由此我们判断化学结构的标准是明确的化学物品条例,并根据我们的经验和化学知识不太明确定义的“经验法则”的混合物。双方后续的例子。
空结构,查询原子和不正确的价
第一个过滤器是最简单的 - ChemSpider是一个结构为中心的数据库中,所以它不是可以沉积缺乏一个结构的任何输入的条目。
类似地,每个ChemSpider记录需要一个单一的定义的化学结构,因此,我们使用查询原子来表示可变原子或附连点排除任何东西。
另一种简单的过滤器是排除其中原子具有无效化合价的结构。
电荷不平衡
一般来说,在ChemSpider项应代表现实世界的可分离化合物。这意味着,我们筛选出结构与非零全面负责。然而,我们为特定的例子中例外情况的抗衡一般是不重要的,单独考虑电荷的物质,如胆碱是非常有用(ChemSpider记录)。
包含未定义立构结构
未定义立体中心本身并不能代表一个化学错误。然而,经常发生,并且这样的如下所示(胆固醇而没有任何限定的立体中心)的结构,虽然化学有效的,这是非常不可能的,他们代表预期的结构。
因此,我们有经验,包含两个以上的未定义的立体中心不包括结构的规则。这不是一个硬性的快治,而是试图打击不含结构类似上面的一个,并包括在不确定的立体中心是故意的,正确的结构之间的平衡。
未定义立体中心的计数(通过检查INCHI确定)有时包括的情况下常规的做法是排除立体化学楔。例如,磷酸上没有楔形的核酸和没有显式立体化学的金刚烷基——用楔形来画这些化合物是不常见的,用户在他们的搜索中很少使用楔形。新利手机客户端这些潜在的假阳性被过滤掉并手动检查。然后馆长可以决定是否将它们包括在沉积中,从而提高过滤器的整体精度。
包含许多组件的结构
这是另一个经验法则——一个正确描述的化学物质可以有多少个独立的成分没有上限。然而,根据经验,我们发现排除包含四个以上独立组件的结构可以删除最明显的无意义条目(例如,描绘合金的尝试),同时保留大部分正确的条目。
当应用这一规则时,药物分子是假阳性的一个主要来源,因为它们通常是多个水合物和/或与多个反离子的盐类。盐酸伊立替康三水合物)。排除的结构是水合物或含有常见的药物盐标记为人类审查。
同义词过滤器
该过滤器将分配给给定结构的同义词与其分子式进行比较,并执行一些“常识”检查。例如,一个比较常见的错误是将salt形式的名称(例如,mozavaptan盐酸盐)与自由基地的结构(mozavaptan)。在这种情况下,过滤器会删除包含“盐酸”的同义词,因为分子式不包含Cl。
智慧
智慧(维基百科页面是描述一般化学结构的一种方式。它基于smile,但是有附加的功能,允许指定可变链长、键数、氢原子数、可变键序,或者在一个位置上有多个潜在元素。
我们使用智能来识别结构中常见的错误特征。这些包括:
- 叠氮和重氮基团用五价氮表示
- 与主体结构不相连的“浮动”烷烃(可能是绘图程序中的意外单击引起的)
- 以质子化羧酸和元素金属原子描述的金属羧酸盐
- 六氟磷酸盐(和类似种类),描述为五氟化磷和单独的氟离子
笑了起来
假笑是微笑的进一步延伸,用来描述反应。我们不使用它来表示真实的反应,而是定义结构转换——允许我们修复简单的结构错误,这些错误可以通过破坏和创建化学键来解决。
一个例子是连接电荷分离的格里纳德试剂,以提供更准确的描述:
有机金属化合物
用机器可读格式编码有机金属结构的困难是有据可查的(J。化学。信息。模型。51、12、3149-3157)。有一个正在进行的IUPAC项目扩展InChI的功能但就目前而言,挑战依然存在。
每个ChemSpider记录基本上都是基于InChI的,因此我们受到当前限制的约束。这意味着我们不能描述配位键或非整数顺序的键——任何键都被解释为标准的共价键,每个原子贡献一个电子。
虽然我们通常不能以人类化学家所喜欢的方式来代表有机金属结构,但我们仍然试图从各种可能的妥协中选择“最少错误”的结构。
二茂铁是这个问题的一个经典例子,它说明了我们必须考虑的几个问题。以下是几种常用的二茂铁绘制方法(还有很多)。
所展示的大多数结构利用了化学绘图包的扩展特性,以一种对人类化学家有吸引力且容易理解的方式来表示二茂铁的结合。不幸的是,一旦转换成简化但通用的mol格式,其中的一些特性就会丢失,从而导致荒谬的结构。虽然结构D没有改变,但这种表征也存在其他问题:Fe的配价不正确,环戊二烯基配体的芳香性没有表征。
我们只能用有限的几种方法来描述ChemSpider中二茂铁及其相关结构,但这些方法都不能准确地描述其成键过程,也不能给出令无机化学家满意的观点。然而,我们可以选择“最不坏”的妥协,并允许机器可读性:
虽然这个结构(ChemSpider记录)没有捕捉到二茂铁的偶合性,单个碳上的电荷定位也不准确,它保留了正确的总体电荷和价电子,并且没有显示出与sigma结合的配体。
更一般地,我们应用一些规则和转换来标准化有机金属结构的表示。根据金属和配体的性质,许多规则涉及到选择是将金属碳(或金属杂原子)描述为共价还是离子。同样,当在机器可读结构的限制下工作时,妥协是必要的,但是我们试图区分“更多的离子”和“更多的共价键”。一些例子:
- 从1组和2组金属上断开氧气
- 把氧气和其他金属连接起来
- 断开碳与钠、钾和钙的连接
- 将碳连接到11族和12族金属、p-块状金属和一些类金属上
正如预期的那样,这样的一般规则在某些情况下会失败。因此,我们有额外的、更具体的规则来覆盖异常,我们会迭代地细化这些规则。
但是这些错误仍然出现在ChemSpider中!
目前,所描述的过滤只适用于进入ChemSpider的新数据。整个ChemSpider数据库,建立了多年,当然包含了这里描述的每一个错误的例子。为了修复这些遗留错误,我们打算通过相同的质量过滤器运行整个数据库。这是一项具有特定挑战的重要任务:需要人工审查的文件数量级变大,处理时间和内存/CPU开销高,数据集越大,我们越有可能遇到误报。为了应对这些挑战,我们花时间在新沉积上改进我们的工艺,并通过我们的过滤器运行完整ChemSpider数据库的子集来定期检查我们的工艺。我们知道你需要访问你可以信任的数据,所以我们要确保我们得到正确的。我们将继续更新您的项目进展,所以请继续关注!