在ChemSpider的幕后

通过

看看我们是谁,我们如何运行网站,以及我们如何管理数据质量。

什么是ChemSpider ?谁运行服务?

ChemSpider是世界上最大的化学数据库之一,包含超过6500万个化学结构的数据。本资料于ChemSpider.com,一个由。出版的网站英国化学学会新利手机客户端

英国皇家化学学会如何支持ChemSpider?新利手机客户端

ChemSpider.com是一个独立的服务,不依赖于直接或研究资助。英国皇家化学学会用我们出版活动产生的盈余来新利手机客户端支持这个网站,让我们提供持续可靠的服务。我们还通过广告和提供付费网络服务来创收,如我们的api,非学术用户。这些活动帮助ChemSpider保持财务上的可持续性,并帮助支持我们的服务器成本,员工工作时间和发展。

这些服务使我们可以使网站免费提供给世界上任何人,在2017年,我们已经拥有了超过600万的独立用户。这些用户包括寻求家庭作业帮助的学生,对于在学术界和工业界工作的研究人员,一般用户谁想保持他们的化学知识的最新。他们来自除南极洲以外的每一个大陆,几乎地球上的每一个国家。

什么进入了ChemSpider?

ChemSpider的数据来自化学科学界本身——由研究人员提交,新利手机客户端数据库,出版商,化学品供应商等等。

我们对ChemSpider数据有两个主要的纳入标准:

  1. 机可读性-存款人必须提供机器可读的结构,通常是一个.mol文件,可以通过InChI–开源化学结构表示算法.mol格式描述了化合物的排列方式,一个原子和键逐键。这意味着它只能准确地描述具有特定结构的小分子。ChemSpider,“小”是指高达4000道尔顿的建筑,包括短肽,寡核苷酸,和其他结构。大的蛋白质,在ChemSpider中,扩展的晶格或长核苷酸太大而无法合理描述,但是可以从其他适合大分子的数据库中获得。

    我们也只接受“定义结构”——链长精确的化合物,全表达官能团,和整数键阶-因为要求描述分子中每个重原子。这意味着我们只能接受可以生成有效InChI的结构。

    大多数ChemSpider结构是有机分子。然而,我们接受一些无机和有机金属化合物,有具体的方法来管理这些。

  2. 真正的化合物-我们不接受虚拟或预言的化合物。

尽可能地,我们只接受以物理形式合成或分离的化合物。这意味着我们不接受过渡状态,理论上预测的化合物,来自供应商的虚拟化合物或来自专利的预言化合物。

谁是我们的数据源?

我们已经收到来自近250个独特数据源的数据,包括来自化学品供应商的数据,专家数据库,个人,研究小组和出版商。这些资料涉及化学科学的各个领域,包括生物化学、新利手机客户端新利手机客户端药理学和毒理学,天然产物,光谱和晶体学。每个ChemSpider记录都包含到该化合物的所有数据源的链接,使用户能够查找和检查数据的来源。

我们的数据源列表在不断变化,当我们找到新的数据源来添加和删除过时的或低质量的数据源时。

我们不再接受来自其他数据聚合器的数据。我们采取这一步是为了与其他数据库匹配我们的质量需求,并减少由预测源产生的算法错误的传播。一个例子是Chessboardane,它起源于一种光学结构识别程序,将专利中包含的数据表解释为化学结构。结果是一个81碳的网格结构,错误地识别为复杂环烷烃,存储在公共存储库中,并在多个聚合器之间共享。

由于这个原因,我们只直接从原始资料中寻找资料,当我们对数据的来源和准确性有更大的把握时,并致力于在ChemSpider中管理遗留数据。

因为像棋盘游戏这样的例子,对于存款人以编程方式从专利或科学文献中的文本或编码图像中提取的来自文本和数据挖掘来源的数据,我们持谨慎态度。审查后,我们添加了一些高质量的数据挖掘源。我们将继续逐一审查可能的新数据挖掘来源,以确保其数据符合我们的质量标准。

自动过滤

对ChemSpider中的6500万条记录中的每一条进行手动检查 即使我们在每张唱片上只花了五分钟的策展时间,一个人也要花600多年的时间才能昼夜不停地工作。

相反,我们用一系列的自动过滤器过滤每一层沉积物,从中挑选出不合适的结构,比如价电子不正确的,不平衡的指控,或丢失立体化学。新利手机客户端除了结构过滤器,我们还应用基本名称和同义词过滤,并定期检查处理的文件,以便改进过滤器。

我们在下面提供了这个过程的简化概述,并将提供一个更详细的描述我们的过滤器在a独立博客:

结构在KNIME中通过过滤器运行。那些过滤器失败的将被删除并检查。传递的结构被沉积到ChemSpider

策展人:ChemSpider staff

ChemSpider正在运行一个由全职策展人组成的小团队,他们致力于添加新的化合物,删除错误,并回应用户的反馈。我们的员工拥有丰富的化学数据和实践化学的经验,新利手机客户端具有有机合成和艺术保护等领域的背景,以及在其他皇家化学学会数据库方面的丰富经验,新利手机客户端如默克索引*在线 分析摘要

社区管理

因为我们不能自己审查每一份记录,我们非常感谢用户的评论或更正。帮助我们改进Chemspider的最简单方法是在发现错误时留下反馈或发送电子邮件给我们。我们试着在几天内根据用户的反馈采取行动——对于更简单的查询来说,越快越好。如果您在ChemSpider的相关记录中发现错误,请留下评论,并告知我们。或透过电邮(chemspider@rsc.org)。

想要更多参与的用户可以直接存储与他们的研究或工作相关的结构和管理同义词,不用给ChemSpider团队发邮件。

我们非常感谢社区策展人多年来所作的贡献。

继续使用和贡献ChemSpider

获取超过6500万个化学结构的信息,去ChemSpider.com,这是完全可搜索的结构,的名字,或高级查询,从任何设备,任何地方,免费的。

存款数据,告诉我们一个错误,成为一个管理者,或任何其他查询,请不要犹豫给我们发电子邮件chemspider@rsc.org

*默克指数的名称为默克夏普和Dohme Corp.所有,默克公司的子公司,公司,怀特豪斯车站,新泽西州美国、并被授权给皇家化学学会在美国使用新利手机客户端和加拿大。

评论都关门了。