Chemspider预沉积过滤器

作者:马克·阿奇博尔德。

在上一篇文章中(在Chemspider的幕后)我们讨论了在世界上最大的化学数据库中维护数据质量的一些挑战。当处理的记录远远超过人类可以合理处理的数量时,我们将自动过滤确定为一个关键工具。在这篇文章中,我们将详细介绍过滤的工作原理,挑战是什么,以及人为干预所起的作用。

为了进行过滤,我们使用knime,一个开源的数据处理平台。由活跃的化学信息学团体开发的广泛的knime节点允许我们对我们处理的数据提出化学方面的具体问题。新利手机客户端简单来说,输入符合我们标准的化学结构传递到下一个节点,而那些没有写入错误文件的。处理完所有结构后,其结果是成功地通过所有过滤器的结构文件和由于各种原因被拒绝的结构的几个(通常较小)文件。

结构被过滤。检查标记结构,并将通过的结构添加到Chemspider中。

无法完整地查看所有生成的文件,因为这将消除自动化处理的省时优势。然而,对所有类型的输出文件进行抽样检查,以确保准确性,并迭代地改进过滤条件。某些输出文件具有很高的误报可能性,因此我们会对其进行全面审查。

格式和标识符

提交的文件可以是几种不同格式中的一种。最常见的是SDF(结构数据文件,一种化学结构格式,包含具有相关数据字段的多个结构。这种格式的优点是它包含2维或3维结构,因此,我们可以立即开始处理文件,而不必将标识符转换为结构。这意味着我们存放的最终结构更有可能与原始结构完全匹配。SDF格式的缺点是它是专门化的——许多用户不熟悉它,或者没有软件来创建和显示文件。

我们还接收不同的电子表格格式(Excel,猪瘟病毒使用基于文本的符号系统编码的结构,如微笑英奇.这种格式的优点是不需要专门的软件(前提是提交者对化合物有微笑或英寸)。缺点是结构需要在处理和沉积到Chemspider之前转换为SDF。此外,这些格式包含有关原子及其连接性的信息,但缺少布局信息。这可能会导致错误,因为不同的结构绘图包可以稍微不同地解析这些结构,导致最终沉积结构的改变。

筛选条件

根据我们的经验和化学知识,我们判断化学结构的标准是确定的化学规则和不太明确的“经验法则”的混合物。下面两个例子。

空结构,查询原子和不正确的价

第一个过滤器是最简单的——Chemspider是一个以结构为中心的数据库,因此,不可能存储任何缺少结构的输入项。

同样地,每个Chemspider记录都需要一个单独定义的化学结构,因此,我们排除使用查询原子来表示变量原子或连接点的任何内容。

另一个简单的过滤器是排除原子具有无效价的结构。

电荷不平衡

一般来说,Chemspider中的条目应代表真实世界,可隔离化合物。这意味着我们过滤掉总电荷为非零的结构。然而,对于某些反离子一般不重要的例子,我们也有例外,只考虑带电粒子是有用的,比如胆碱(Chemspider记录

含有未定义立体中心的结构

单是未定义的立体中心并不代表化学误差。然而,如下图所示的结构(胆固醇没有任何固定的立体中心)经常出现,并且,虽然化学上有效,它们极不可能代表预期的结构。

没有明确立体化学的胆固醇骨架新利手机客户端

无立体化学的胆固醇骨架新利手机客户端

因此,我们有一个经验法则,排除含有两个以上未定义立体中心的结构。这不是一个硬性和快速的规则,而是试图在排除像上面这样的结构和包括那些不确定的立体中心是有意且正确的结构之间取得平衡。

不确定立体中心的计数(通过检查inchi确定)有时包括常规排除立体化学楔子的情况。例如,没有明确立体化学的磷酸基和金刚烷基上没有楔形物的核酸——用楔形物来提取这些化合物是不常见的,新利手机客户端而且用户在搜索中很少使用楔子。这些潜在的误报将被过滤掉并手动审查。然后馆长可以决定是否将它们包括在证词中,提高过滤器的整体精度。

包含许多组件的结构

这是另一个经验法则——正确描述的化学物质可以有多少个独立成分没有上限。然而,根据经验,我们发现,排除具有四个以上独立组件的结构会删除最明显的无意义条目(例如试图描绘合金)同时保留大部分正确条目。

应用此规则时,药物分子是假阳性物质的主要来源,因为它们通常是多种水合物和/或具有多种反离子的盐(例如盐酸伊立替康三水合物)排除的结构是水合物或含有常见的药用盐标记供人类审查。

同义词过滤器

该过滤器将分配给给定结构的同义词与其分子式进行比较,并执行一些“常识”检查。例如,比较常见的错误是将盐形式的名称(例如,盐酸莫扎维坦)自由基结构(莫扎帕坦)在这种情况下,由于分子式不含Cl,过滤器删除了含有“盐酸盐”的同义词。

聪明的人

聪明(维基百科页面)是描述一般化学结构的一种方法。这是基于微笑,但是它还有一些附加功能,可以指定不同的链长,债券数量,氢的数量,可变债券订单,或者一个地点有多个潜在元素。

我们使用Smarts来识别结构中常见的错误特性。这些包括:

  • 用五价氮描述的叠氮化物和重氮基团
  • 与主结构不连接的“浮动”烷烃(可能是由于绘图程序中的意外单击所致)
  • 金属羧酸盐,描述为具有元素金属原子的原代羧酸。
  • 六氟磷酸盐(及类似物种)描述为五氟化磷和一个单独的氟离子。

傻笑

微笑是微笑的进一步延伸,用来描述反应。我们不会用它来代表真实的反应,但是定义结构转换——允许我们修复简单的结构错误,这些错误可以通过破坏和创建键来解决。

一个例子是连接电荷分离的格氏试剂,以给出更准确的描述:

重新连接断开的格氏试剂

重新连接Grignards

有机金属化合物

以机器可读格式对有机金属结构进行编码的困难已被充分记录在案。(J化学。信息模型。51,12,3149-3157年)正在进行的IUPAC项目扩展inchi的功能,但是现在,挑战依然存在。

每个Chemspider记录基本上都是以一个inchi为基础的,因此,我们受到了当前的限制。这意味着我们不能描述配位键或非整数级的键——任何一个键被解释为一个标准的共价键,每个原子贡献一个电子。

虽然我们通常不能用人类化学家所喜欢的方式来表示有机金属结构,我们仍然试图从各种可能的妥协中选择“最小错误”的结构。

二茂铁是这个问题的一个典型例子,说明了我们必须考虑的几个问题。下面显示了几种常用的绘制二茂铁的方法(还有很多方法)。

二茂铁在转换成分子文件时丢失键合信息的常见描述

将二茂铁结构转化为分子式会导致分子式的错误。键序或价

所示的大多数结构都利用了化学绘图包的扩展特性,以一种对人类化学家有吸引力且易于理解的方式来表示二茂铁的结合。不幸的是,一旦转换为简化但通用的MOL格式,有些功能丢失了,导致无意义的结构。虽然结构d不变,这种表示还有其他问题:铁的化合价不正确,并且没有环戊二烯配体的芳香性表示。

我们可以用有限的方法来描绘Chemspider中的二茂铁及其相关结构,它们都不能准确地表示键合,也不能满足无机化学家的观点。然而,我们可以选择可能的折衷方案中的“最小坏处”,并允许机器可读性:

Fe2+和(C5H5-)2

我们的妥协

尽管这个结构(Chemspider记录)不捕捉二茂铁的触觉,单一碳的电荷定位不准确,它保留了正确的总电荷和化合价,并且没有显示配体是sigma键合的。

一般来说,我们应用一些规则和转换来标准化有机金属结构的表示。其中许多规则涉及选择将金属-碳(或金属-杂原子)描述为共价或离子,取决于金属和配体的性质。再一次,在机器可读结构的限制范围内工作时,必须作出让步,但我们试图将“更多离子”和“更多共价”键分类。以下是一些例子:

  • 从1组和2组金属上断开氧气
  • 把氧气和所有其他金属连接起来
  • 断开碳与钠的连接,钾和钙
  • 将碳连接到11组和12组金属,P块金属和一些类金属

果不其然,像这样的一般规则在某些情况下会失效。因此我们有额外的,更具体的规则来涵盖例外情况,我们反复改进。

但是这些错误仍然出现在Chemspider中!

目前所描述的过滤仅适用于进入Chemspider的新数据。完整的Chemspider数据库,经过多年积累,当然包含了这里描述的每个错误的例子。要修复这些遗留错误,我们打算通过相同的质量过滤器运行整个数据库。这是一项重要的任务,有一些具体的挑战:需要人工审查的文件数量将增加一个数量级,处理时间和内存/CPU开销很高,数据集越大,我们越有可能遇到误报。为了应对这些挑战,我们正在花时间完善新的存款流程,并通过过滤器运行完整Chemspider数据库的子集,定期检查我们的进度。我们知道你需要访问你可以信任的数据,所以我们要确保我们做对了。随着项目的进展,我们将继续更新您的信息,所以请注意!

注释已关闭。