存档为“数据质量”类别

ChemSpider Pre-Deposition过滤器

作者马克·阿齐布尔德。

在以前的文章中(在ChemSpider幕后)我们讨论了在全球最大的化学数据库之一维持数据质量所面临的一些挑战。当处理远超过人类合理处理能力的记录时,我们将自动过滤视为一个关键工具。在这篇文章中,我们将更详细地讨论过滤是如何工作的,面临的挑战是什么,以及人为干预所扮演的角色。

为了执行这种过滤,我们使用KNIME,一个开源的数据处理平台。活跃的化学信息学社区开发的广泛的KNIME节点允许我们对我们处理的数据提出化学方面的具体问题。新利手机客户端简单地说,符合我们标准的输入化学结构将被传递到下一个节点,而不符合的则被写入错误文件。在处理完所有的结构之后,结果是一个结构文件,它已经成功地通过了所有的过滤器和几个(通常较小的)由于各种原因被拒绝的结构文件。

结构进行过滤。被举报的结构进行审查,并通过结构被添加到ChemSpider。

不可能全部检查所有生成的文件,因为这将消除自动处理的节省时间的优点。但是,对所有类型的输出文件进行抽查,以确保准确性,并迭代地改进过滤条件。某些输出文件有很高的误报可能性,因此我们全面检查它们。

格式和标识符

提交的文件可以有几种不同的格式。最常见的是SDF (结构数据文件,一种化学结构格式,包含多个具有相关数据字段的结构)。这种格式的优点是它包含2维或3维结构,因此我们可以立即开始处理文件,而不必将标识符转换为结构。这意味着我们最终存放的结构更有可能与原始结构完全匹配。SDF格式的缺点是它是专门的-许多用户将不熟悉它或没有软件来创建和显示文件。

我们还接收不同的电子表格格式(excel、csv、tsv),它们的结构用基于文本的符号系统编码,比如SMILESINCHI。这种格式的优点是它不需要专门的软件(只要提交者对化合物有smile或InChIs)。缺点是这些结构在加工和沉积到ChemSpider之前需要转换成SDF。此外,这些格式包含关于原子及其连接性的信息,但缺少布局信息。这可能会引入错误,因为不同的结构图包对这些结构的解析略有不同,从而导致最终沉积结构的更改。

过滤条件

根据我们的经验和化学知识,我们判断化学结构的标准是确定的化学规则和不太明确的“经验规则”的混合物。下面是两个例子。

空结构,查询原子和不正确的原子价

第一个过滤器是最简单的——ChemSpider是一个以结构为中心的数据库,因此不可能存放任何缺少结构的输入条目。

类似地,每个ChemSpider记录需要一个单独定义的化学结构,因此我们排除了使用查询原子表示可变原子或附附点的任何内容。

另一种简单的过滤方法是排除原子中原子价无效的结构。

电荷不平衡

通常,ChemSpider中的条目应该表示一个真实的、可隔离的化合物。这意味着我们过滤掉了总电荷非零的结构。然而,在某些情况下,反离子通常是不重要的,但我们有例外,只考虑带电的种类是有用的,如胆碱(ChemSpider记录)。

包含未定义的立体中心的结构

未定义的立体中心本身并不代表化学误差。然而,如下图所示的结构(没有任何确定的立体中心的胆固醇)经常出现,尽管从化学上来说是有效的,但它们极不可能代表预期的结构。

胆固醇骨架没有定义的立体新利手机客户端

胆固醇骨架无立体新利手机客户端

因此,我们有一个经验法则,即排除包含两个以上未定义的stereocentres的结构。这不是一个硬性的规则,而是试图在排除像上面这样的结构和包括那些有意且正确的未定义的体中心结构之间取得平衡。

未定义的立体中心的数量(通过检查InChI确定)有时包括常规排除立体楔形物的情况。例如在磷酸盐和金刚烷基上没有楔形物的核酸,如果没有明确的立体化学——用楔形物画这些化合物是不寻常的,用户在搜索时很少使用楔形物。新利手机客户端这些潜在的假阳性将被过滤掉并手动审查。然后,馆长可以决定是否将它们包括在沉积中,从而提高过滤器的整体精度。

包含多个组件的结构

这是另一个经验法则——一种正确描述的化学物质可以含有多少个独立成分没有上限。然而,从经验中我们发现,排除包含四个以上独立成分的结构会删除最明显的无意义条目(例如试图描绘合金)同时保留大部分正确的条目。

在应用这一规则时,药物分子是假阳性的主要来源,因为它们通常是具有多种反离子的多种水合物和/或盐(例如。盐酸伊立替康三水)。排除在外的结构是水合物或含有常见的药物盐类被标记为人类审查。

同义词筛选

此筛选器将指定给给定结构的同义词与其分子式进行比较,并执行一些“常识”检查。例如,一个相对常见的错误是将盐形式的名称关联起来(例如,mozavaptan盐酸盐)自由基结构(mozavaptan)。在这种情况下,过滤器会删除包含“盐酸盐”的同义词,因为分子式不包含Cl。

聪明的

聪明的(维基百科页面)是描述一般化学结构的一种方法。它是基于smiles的,但是有额外的特性允许指定可变链长、键的数目、氢的数目、可变键的顺序,或者一个位置上的多个潜在元素。

我们使用智能识别结构中常见的错误特征。其中包括:

  • 与五价氮描绘叠氮化物和重氮基
  • A“浮动”烷烃未连接到主结构上(可能由意外点击在绘图程序引起的)
  • 金属羧酸盐描绘为质子化的羧酸与元素金属原子
  • 六氟磷酸盐(以及类似的物质)描绘为五氟化磷和一个单独的氟离子

傻笑

微笑是微笑的进一步延伸,用来描述反应。我们不使用它来表示真实的反应,而是定义结构转换——允许我们修复简单的结构错误,这些错误可以通过破坏和创建键来解决。

一个例子是连接电荷分离格氏试剂,以给出更准确的描述:

重新连接断开的格氏试剂

重新连接格氏试剂

有机金属

用机器可读格式对有机金属结构进行编码的困难是有据可查的(J.化学。天道酬勤。模型。51,12,3149-3157)。有一个正在进行的iupac项目延长INCHI的功能但目前,挑战依然存在。

每一个chemspider记录基本上都基于inchi,因此我们受到当前限制的约束。这意味着我们不能描述配位键或非整数级键-任何键被解释为一个标准共价键,每个原子贡献一个电子。

虽然我们通常不能以人类化学家所希望的方式来表示有机金属结构,但我们仍然试图从各种可能的妥协中选择“最不错误”的结构。

二茂铁是这个问题的典型例子,说明了我们必须考虑的几个问题。以下是几种常用的二茂铁绘图方法(还有很多)。

二茂铁的共同描绘转换为基摩尔文件时失去结合信息

二茂铁结构转换为摩尔格式可以引入分子式中的错误,键级或价

所示的大多数结构利用了化学绘图包的扩展功能,以一种吸引人的方式来表示二茂铁的键合,并且对人类化学家来说易于理解。不幸的是,一旦转换成简单但通用的MOL格式,这些特性中的一些就会丢失,从而导致无意义的结构。尽管结构d没有改变,但这种表征还存在其他问题:fe上的价态不正确,环戊二烯配体的芳香性没有表征。

我们可以在Chemspider中描绘二茂铁及其相关结构的方法有限,但没有一种方法能准确地描述键合或给出一种能使无机化学家满意的观点。但是,我们可以从可能的妥协中选择“最不坏的”,并允许机器可读性:

Fe2 +和(C5H5-)2

我们妥协

尽管这个结构(ChemSpider记录)没有捕捉到二茂铁的触觉,单个碳上的电荷定位是不准确的,它保留了正确的总电荷和价态,没有显示配体是sigma键合的。

更一般地,我们应用一些规则和变换来标准化有机金属结构的表示。根据金属和配体的性质,许多规则都涉及到选择是将金属-碳(或金属-杂原子)描述为共价还是离子。同样,当在机器可读结构的限制下工作时,妥协是必要的,但是我们试图将“更多的离子”和“更多的共价”键分类。以下是一些例子:

  • 来自组1和2族的金属氧断开
  • 连接氧气所有金属
  • 选自钠,钾和钙断开碳
  • 连接碳基团11和12族金属,p区的金属和准金属的一些

正如所料,像这样的一般规则在某些情况下会失败。因此,我们有额外的、更具体的规则来覆盖异常,我们迭代地完善这些规则。

但这些错误仍然出现在Chemspider中!

目前,所述过滤仅适用于进入Chemspider的新数据。全ChemSpider数据库,建立了多年,当然包含这里描述的每一个错误的例子。要解决这些遗留的错误,我们打算通过相同品质的过滤器来运行整个数据库。这是一些具体的挑战显著的任务:将文件需要人工审核成为数值较大的订单,处理时间和内存/ CPU开销高,大的数据集就越有可能我们会遇到误报。为了应对这些挑战,我们都抽出时间来完善新的沉积我们的流程,并通过我们的过滤器运行完整ChemSpider数据库的子集定期检查我们的进步。我们知道您需要访问你可以信任的数据,所以我们要确保我们得到这个权利。我们将继续为这一项目的进展更新您,敬请期待!

在ChemSpider幕后

在偷看我们是谁,我们如何经营这个网站,以及我们如何管理数据质量。

什么是ChemSpider和谁运行服务?

ChemSpider是世界上最大的化学品数据库之一,包含在超过6500万的化学结构的数据。这个数据是免费提供给公众ChemSpider.com,由出版网站英国皇家化学学会新利手机客户端

如何皇家化学学会支持ChemSpider?新利手机客户端

ChemSpider.com是不依赖于直接或科研补助经费独立的服务。皇家化学学会支持使用我们的出版活动产生的盈新利手机客户端余,使我们能够提供一个可持续和可靠的服务的网站。我们也产生从广告和收入提供有偿的网络服务,如我们的API,对于非学术的用户。这些活动有助于保持ChemSpider财务上可持续,并帮助支持我们的服务器成本,人员时间和发展。

这些服务使我们能够在世界上的网站提供免费的任何人,我们达到了六百多万的独立用户在2017年。这些用户的范围从寻找与他们的家庭作业帮助在校学生,在学术界和工业界合作,以谁想要保持自己的化学知识是最新的一般用户的研究人员。他们来自各大洲除南极洲外,和几乎地球上的每一个国家。

什么进入ChemSpider?

ChemSpider数据来自化学科学界本身 - 提交的研究人员,数据库出版,化学新利手机客户端品供应商等等。

我们有ChemSpider数据两个主要入选标准:

  1. 机器可读性- 存款必须提供结构以机器可读的格式,通常为.MOL文件,它是由解释INCHI- 开源化学结构表示algorithm.The .MOL格式描述的化合物是如何安排,一个原子接一个原子和键按键。这意味着它只能精确地示出了具有限定的结构的小分子。对Chemspider来说,“小”是指高达4000道尔顿的结构,包括短肽、寡核苷酸和其他结构。大的蛋白质、扩展的晶格或长的核苷酸太大,无法在Chemspider中进行合理的描述,但是可以从其他适合大分子的数据库中获得。

    由于需要描述分子中的每一个重原子,我们也只接受“定义结构”——具有精确链长、完全表达的官能团和整数键序的化合物。这意味着我们只能接受能够生成有效inchi的结构。

    大多数化学蜘蛛结构都是有机分子。然而,我们确实接受一些无机和有机金属化合物,并采用特定的方法来固化这些化合物。

  2. 真实化合物–我们不接受虚拟或预言性化合物。

尽可能,我们只接受已合成或在物理形式分离的化合物。这意味着我们不从专利厂商或预言化合物接受过渡态理论预测化合物,虚拟化合物。

谁是我们的数据来源?

我们已经从近250唯一的数据来源,包括从化学品供应商,专家数据库,个人,研究团体和出版商的数据接收到的数据。这些来源穿越化学科学的广度 - 包括生物化学,药理学和毒理学,天然产物,光谱和结晶。新利手机客户端新利手机客户端每个ChemSpider记录包括链接到所有的该化合物的数据源,使用户能够找到并检查数据的出处。

我们的数据源列表不断变化,因为我们发现新的数据源的添加和删除过时的或低质量的数据源。

我们不再接受来自其他数据整合数据。我们已经迈出了这一步,以配合我们与其他数据库的质量要求,并减少从预言的来源产生算法产生错误的传播。这方面的一个例子是棋盘,它源于光学结构识别程序解释包含在专利作为化学结构内的数据表。其结果是一个81 - 碳网格结构,错误地识别为一个复杂的环烷烃,其上沉积在公共库和多个聚合器之间共享。

正因为如此,我们只能直接从原始来源,我们在那里有关于数据的来源和准确性更大的确定性,并正在努力仍然在ChemSpider策划遗留数据寻找数据。

因为像Chessboardane例子,我们是谨慎从文本和数据开采源的存款人编程方式从文本中提取或在专利或科学文献中编码的图像数据接受。审查后,我们增加了一些开采源的最高质量的数据。我们将继续审查的情况下,逐案潜在的新的数据挖掘资源,以确保他们的数据符合我们的质量标准。

自动过滤器

每一个的手工检查65万条记录中ChemSpider将采取个别超过600年才能完成日以继夜地工作 - 即使我们只投入了创纪录的每一次策五分钟。

相反,我们通过运行一系列的自动过滤器每个沉积挑选出不合适的结构,如那些不正确价,不平衡的收费,或缺少立体。新利手机客户端除了构建过滤器,我们还运用基本的名称和同义词过滤并定期复查处理的文件,使我们可以提高我们的过滤器。

我们提供了以下这个过程的一个简单的概述,并提供我们的过滤器的更详细的描述中单独的博客文章

结构是通过KNIME过滤器运行。那些没有过滤器被删除,审核。传递结构被沉积以ChemSpider

策展由ChemSpider人员

ChemSpider由运行一小队专职馆长,谁的工作,增加新的化合物,删除错误和用户的反馈作出回应。我们的员工既有化学数据和实际的化学丰富的经验,在领域的背景,如有机合成和艺术涵养,以及丰富的其他皇家学会工作化学数据库的经验,如新利手机客户端默克指数*在线的分析摘要

社区策展

因为我们不能审查每记录自己,我们真的很感谢我们的用户评论或更正。帮助我们改进ChemSpider最简单的办法是离开反馈或给我们发电子邮件,当你发现一个错误。我们试图在几天内用户的反馈作用 - 更快更简单的查询。请让我们知道,如果你找到留在相关ChemSpider记录注释错误,或通过电子邮件我们(chemspider@rsc.org网站)。

希望获得更多的参与可以直接存入结构和关系到他们的研究或工作的副牧师的同义词,而不必通过电子邮件发送ChemSpider球队用户。

我们是为我们所有的社区博物馆馆长们多年来所作的贡献非常感激。

继续使用和促进ChemSpider

要访问超过6500万的化学结构信息,请访问ChemSpider.com,它是由结构,名称或高级查询完全可搜索的,从任何设备,任何地点,是免费的。

要存入数据,告诉我们一个错误,成为策展人,或其他任何疑问,请不要犹豫,给我们发电子邮件chemspider@rsc.org网站

* Merck索引由默沙东公司,默克制药公司,白宫站,新泽西州,USA的子公司所有,并授权给皇家化学学会在U.S.A.使用名称新利手机客户端和加拿大。