昔日的“幕后”类别

ChemSpider预沉积过滤器

撰稿马克阿奇博尔德。

在以前的文章中(在ChemSpider的幕后)我们在整个世界上最大的化学品数据库之一维护数据质量的讨论了一些挑战。远用更多的记录比人类可以合理地处理交易时,我们确定自动过滤的关键工具。在这篇文章中,我们将进入更详细了解如何过滤那个作品,所面临的挑战是什么,角色通过人工干预播放。

要执行此过滤我们使用KNIME,一个开源的数据处理平台。广泛KNIME节点通过主动化学信息学社区开发允许我们问我们处理数据的化学处理具体问题。新利手机客户端简单来说,符合我们标准的输入化学结构传递到下一个节点,而那些没有被写到一个错误文件。处理所有的结构后,其结果是,已经成功通过所有的过滤器和几个(通常较小)拒绝以各种理由结构的文件,通过结构的文件。

结构是过滤。对标记的结构进行检查,并将通过的结构添加到ChemSpider中。

这是不可能的审查所有生成的文件的完全,因为这会消除自动处理的节省时间的优势。但是,所有类型的输出文件点检查的准确性和迭代地改进过滤标准。某些输出文件有假阳性高电位,所以我们在充分审查。

格式和标识

提交的文件可以在几个不同的格式之一。最常见的是SDF(结构数据文件含有多个结构与相关联的数据字段的化学结构格式)。这种格式的优点是,它包含2或3维结构,所以我们可以立即开始处理文件,而无需一个标识符转换的结构。这意味着,最终的结构,我们的存款很可能原来的完全匹配。自卫队格式的缺点是,它是专门 - 许多用户不熟悉,或不会有软件来创建和显示文件。

我们也收到不同格式的电子表格(EXCEL,CSV,TSV)与基于文本的符号系统等编码结构微笑要么InChI。这种格式的优点是,它不需要专门的软件(提供的提交者具有SMILES或InChIs所述化合物)。该缺点是结构需要转换到SDF处理和沉积到ChemSpider之前。此外,这些格式包含有关原子和它们的连接信息,但缺乏布局信息。这可以引入误差作为不同结构图软件包能够解析这些结构略有不同,从而导致改变到最终沉积结构。

过滤条件

由此我们判断化学结构的标准是明确的化学物品条例,并根据我们的经验和化学知识不太明确定义的“经验法则”的混合物。双方后续的例子。

空结构,查询原子和不正确的价

第一个过滤器是最简单的 - ChemSpider是一个结构为中心的数据库中,所以它不是可以沉积缺乏一个结构的任何输入的条目。

类似地,每个ChemSpider记录需要一个单一的定义的化学结构,因此,我们使用查询原子来表示可变原子或附连点排除任何东西。

另一种简单的过滤器是排除其中原子具有无效化合价的结构。

电荷不平衡

一般来说,在ChemSpider项应代表现实世界的可分离化合物。这意味着,我们筛选出结构与非零全面负责。然而,我们为特定的例子中例外情况的抗衡一般是不重要的,单独考虑电荷的物质,如胆碱是非常有用(ChemSpider记录)。

包含未定义立构结构

未定义立体中心本身并不能代表一个化学错误。然而,经常发生,并且这样的如下所示(胆固醇而没有任何限定的立体中心)的结构,虽然化学有效的,这是非常不可能的,他们代表预期的结构。

胆固醇骨架,没有明确的立体化学新利手机客户端

没有立体化学的胆固醇骨架新利手机客户端

因此,我们有经验,包含两个以上的未定义的立体中心不包括结构的规则。这不是一个硬性的快治,而是试图打击不含结构类似上面的一个,并包括在不确定的立体中心是故意的,正确的结构之间的平衡。

未定义立体中心的计数(通过检查INCHI确定)有时包括的情况下常规的做法是排除立体化学楔。例如,磷酸上没有楔形的核酸和没有显式立体化学的金刚烷基——用楔形来画这些化合物是不常见的,用户在他们的搜索中很少使用楔形。新利手机客户端这些潜在的假阳性被过滤掉并手动检查。然后馆长可以决定是否将它们包括在沉积中,从而提高过滤器的整体精度。

包含许多组件的结构

这是另一个经验法则——一个正确描述的化学物质可以有多少个独立的成分没有上限。然而,根据经验,我们发现排除包含四个以上独立组件的结构可以删除最明显的无意义条目(例如,描绘合金的尝试),同时保留大部分正确的条目。

当应用这一规则时,药物分子是假阳性的一个主要来源,因为它们通常是多个水合物和/或与多个反离子的盐类。盐酸伊立替康三水合物)。排除的结构是水合物或含有常见的药物盐标记为人类审查。

同义词过滤器

该过滤器将分配给给定结构的同义词与其分子式进行比较,并执行一些“常识”检查。例如,一个比较常见的错误是将salt形式的名称(例如,mozavaptan盐酸盐)与自由基地的结构(mozavaptan)。在这种情况下,过滤器会删除包含“盐酸”的同义词,因为分子式不包含Cl。

智慧

智慧(维基百科页面是描述一般化学结构的一种方式。它基于smile,但是有附加的功能,允许指定可变链长、键数、氢原子数、可变键序,或者在一个位置上有多个潜在元素。

我们使用智能来识别结构中常见的错误特征。这些包括:

  • 叠氮和重氮基团用五价氮表示
  • 与主体结构不相连的“浮动”烷烃(可能是绘图程序中的意外单击引起的)
  • 以质子化羧酸和元素金属原子描述的金属羧酸盐
  • 六氟磷酸盐(和类似种类),描述为五氟化磷和单独的氟离子

笑了起来

假笑是微笑的进一步延伸,用来描述反应。我们不使用它来表示真实的反应,而是定义结构转换——允许我们修复简单的结构错误,这些错误可以通过破坏和创建化学键来解决。

一个例子是连接电荷分离的格里纳德试剂,以提供更准确的描述:

重新连接断开的格氏试剂

重新连接格氏体

有机金属化合物

用机器可读格式编码有机金属结构的困难是有据可查的(J。化学。信息。模型。51、12、3149-3157)。有一个正在进行的IUPAC项目扩展InChI的功能但就目前而言,挑战依然存在。

每个ChemSpider记录基本上都是基于InChI的,因此我们受到当前限制的约束。这意味着我们不能描述配位键或非整数顺序的键——任何键都被解释为标准的共价键,每个原子贡献一个电子。

虽然我们通常不能以人类化学家所喜欢的方式来代表有机金属结构,但我们仍然试图从各种可能的妥协中选择“最少错误”的结构。

二茂铁是这个问题的一个经典例子,它说明了我们必须考虑的几个问题。以下是几种常用的二茂铁绘制方法(还有很多)。

二茂铁在转换成mol文件时丢失键信息的常见描述

将二茂铁结构转换成分子形式会导致分子式、键序或价态的错误

所展示的大多数结构利用了化学绘图包的扩展特性,以一种对人类化学家有吸引力且容易理解的方式来表示二茂铁的结合。不幸的是,一旦转换成简化但通用的mol格式,其中的一些特性就会丢失,从而导致荒谬的结构。虽然结构D没有改变,但这种表征也存在其他问题:Fe的配价不正确,环戊二烯基配体的芳香性没有表征。

我们只能用有限的几种方法来描述ChemSpider中二茂铁及其相关结构,但这些方法都不能准确地描述其成键过程,也不能给出令无机化学家满意的观点。然而,我们可以选择“最不坏”的妥协,并允许机器可读性:

Fe2+和(C5H5-)2

我们的妥协

虽然这个结构(ChemSpider记录)没有捕捉到二茂铁的偶合性,单个碳上的电荷定位也不准确,它保留了正确的总体电荷和价电子,并且没有显示出与sigma结合的配体。

更一般地,我们应用一些规则和转换来标准化有机金属结构的表示。根据金属和配体的性质,许多规则涉及到选择是将金属碳(或金属杂原子)描述为共价还是离子。同样,当在机器可读结构的限制下工作时,妥协是必要的,但是我们试图区分“更多的离子”和“更多的共价键”。一些例子:

  • 从1组和2组金属上断开氧气
  • 把氧气和其他金属连接起来
  • 断开碳与钠、钾和钙的连接
  • 将碳连接到11族和12族金属、p-块状金属和一些类金属上

正如预期的那样,这样的一般规则在某些情况下会失败。因此,我们有额外的、更具体的规则来覆盖异常,我们会迭代地细化这些规则。

但是这些错误仍然出现在ChemSpider中!

目前,所描述的过滤只适用于进入ChemSpider的新数据。整个ChemSpider数据库,建立了多年,当然包含了这里描述的每一个错误的例子。为了修复这些遗留错误,我们打算通过相同的质量过滤器运行整个数据库。这是一项具有特定挑战的重要任务:需要人工审查的文件数量级变大,处理时间和内存/CPU开销高,数据集越大,我们越有可能遇到误报。为了应对这些挑战,我们花时间在新沉积上改进我们的工艺,并通过我们的过滤器运行完整ChemSpider数据库的子集来定期检查我们的工艺。我们知道你需要访问你可以信任的数据,所以我们要确保我们得到正确的。我们将继续更新您的项目进展,所以请继续关注!

在ChemSpider的幕后

看看我们是谁,我们如何运行网站,以及我们如何管理数据质量。

什么是ChemSpider,谁负责这项服务?

ChemSpider是世界上最大的化学数据库之一,包含超过6500万种化学结构的数据。此数据可在ChemSpider.com网站,一个由皇家化学学会新利手机客户端

皇家化学学会如何支持ChemSpider?新利手机客户端

ChemSpider.com是一个独立的服务,不依赖直接或研究资助。皇家化学学会利用我们的出版活动产生的剩余资新利手机客户端源支持该网站,使我们能够提供可持续和可靠的服务。我们还通过广告和提供付费网络服务来获得收入,例如我们的API,对于非学术用户。这些活动有助于保持ChemSpider的财务可持续性,并有助于支持我们的服务器成本、员工工时和开发。

这些服务使我们能够让世界上任何人都可以免费使用该网站,2017年,我们的独立用户超过600万。这些用户包括在作业中寻求帮助的在校学生、在学术界和工业界工作的研究人员,以及希望保持化学知识最新的一般用户。它们来自除南极洲以外的每一个大陆,以及地球上几乎每一个国家。

ChemSpider怎么了?

ChemSpider的数据来自化学科学界本身——由研究人员、数据库、出版商、化学新利手机客户端供应商等提交。

我们有两个主要的ChemSpider数据包含标准:

  1. 机读–储户必须提供机器可读格式的结构,通常是.mol文件,可由InChI–开源的化学结构表示算法,.mol格式描述了化合物的排列方式,原子对原子,键对键。这意味着它只能精确地描绘具有特定结构的小分子。对ChemSpider来说,“小”是指高达4000道尔顿的结构,包括短肽、寡核苷酸和其他结构。大的蛋白质、扩展的晶格或长的核苷酸太大,无法在ChemSpider中进行合理的描述,但是可以从其他适合大分子的数据库中获得。

    我们也只接受“定义的结构” - 化合物与精确的链长,充分表达的官能团,和整数键级 - 由于对描述分子中每重原子的要求。这意味着我们只能接受它我们可以生成有效的INCHI结构。

    最ChemSpider结构是有机分子。然而,我们也接受一些无机和有机金属化合物,与策划这些具体方法。

  2. 真正的化合物–我们不接受虚拟或预言性化合物。

我们尽可能只接受以物理形式合成或分离的化合物。这意味着我们不接受过渡态,理论上预测的化合物,来自供应商的虚拟化合物或来自专利的预言性化合物。

我们的数据来源是谁?

我们收到了近250个独特数据源的数据,包括来自化学品供应商、专业数据库、个人、研究小组和出版商的数据。这些来源跨越了化学科学的广度,包括生物化学、药理学和毒理学、天然产物、光谱学和晶体学。新利手机客户端新利手机客户端每个ChemSpider记录都包含指向化合物的所有数据源的链接,使用户能够查找和检查数据的来源。

我们的数据源列表不断变化,因为我们发现了新的数据源来添加和删除过时或低质量的数据源。

我们不再接受来自其他数据聚合器的数据。我们已经采取了这一步骤,以使我们的质量要求与其他数据库相匹配,并减少由预测源产生的算法错误的传播。一个例子是棋盘源于光学结构识别程序,该程序将专利中包含的数据表解释为化学结构。结果是一个81碳网格结构,被错误地识别为一个复杂的环状烷烃,它被存放在一个公共存储库中,并在多个聚合器之间共享。

因此,我们只能直接从原始数据源中寻找数据,在原始数据源中,我们对数据的出处和准确性有更大的确定性,并且正在致力于管理仍在ChemSpider中的遗留数据。

由于像棋盘一样的例子,我们在接受来自文本和数据挖掘源的数据时非常谨慎,这些数据是存款人在专利或科学文献中通过编程从文本或编码图像中提取的。在回顾之后,我们添加了一些高质量的数据挖掘源。我们将继续逐案审查潜在的新数据挖掘来源,以确保其数据符合我们的质量标准。

自动过滤器

对ChemSpider 6500万条记录中每一条的手动检查一个人要花600多年的时间来完成24小时的工作——即使我们每一张唱片只投入5分钟的策展时间。

相反,我们通过一系列的自动过滤器运行每个沉积挑选出不合适的结构,如那些不正确价,不平衡的收费,或缺少立体。新利手机客户端除了结构的过滤器,我们还运用基本的名称和同义词过滤并定期复查处理的文件,使我们可以提高我们的过滤器。

我们提供了一个简化低于这个过程的概述,并提供我们的过滤器的更详细的描述中单独的博客文章

结构是通过KNIME过滤器运行。那些没有过滤器被删除,审核。传递结构被沉积以ChemSpider

策展由ChemSpider人员

ChemSpider由运行一小队专职馆长,谁的工作,新的化合物,去除误差,并添加响应用户的反馈。我们的员工既有化学数据和实际的化学丰富的经验,在领域的背景,如有机合成和艺术涵养,以及化学数据库的其他英国皇家学会了丰富经验的工作,如新利手机客户端默克指数*线上分析摘要

社区策展

因为我们不能审查每记录自己,我们真的很感谢我们的用户评论或更正。帮助我们改进ChemSpider最简单的办法是离开反馈或给我们发电子邮件,当你发现一个错误。我们试图在几天内用户的反馈作用 - 更快更简单的查询。请让我们知道,如果你留下对有关ChemSpider记录评论发现错误,或通过电子邮件我们(chemspider@rsc.org网站)。

希望获得更多的参与可以直接存入结构和关系到他们的研究或工作的副牧师的同义词,而不必通过电子邮件发送ChemSpider球队用户。

我们是为我们所有的社区博物馆馆长们多年来所作的贡献非常感激。

继续使用和促进ChemSpider

要在超过6500万的化学结构的访问信息,请访问ChemSpider.com网站,它是由结构,名称或高级查询完全可搜索的,从任何设备,任何地点,是免费的。

要存入数据,告诉我们一个错误,成为策展人,或其他任何疑问,请不要犹豫,给我们发电子邮件chemspider@rsc.org网站

*名Merck索引由默沙东公司,默克制药公司,白宫站,新泽西州,USA的子公司所有,并授权给皇家化学学会在U.S.A.使用新利手机客户端和加拿大。

介绍新ChemSpider网站

博客文章由大卫·夏普写的。

该ChemSpider队在皇家化学学会是自豪地宣布,我们的新面貌ChemSpider网站新利手机客户端已经启动。正如我们讨论最后一篇文章这种新设计的主要特点之一就是让尽可能多的设备(从台式机到移动电话)ChemSpider工作。

ChemSpider主页

ChemSpider主页可能出现在桌面计算机(左)和移动电话(右)上

如上述屏幕截图示出了,在尺寸,形状和与页面交互的方法的差异意味着该网站,你需要的视图是设备之间有很大不同。一个负责任的网站设计的性质也意味着一些截图,我们提供可能与你看到访问该网站时的观点有一点不同,但方差应该是清楚的。我们希望这个结果在实用性和可读性不牺牲功能的体验。

发生了什么变化?。.。。。。什么也保持不变?

要开始与已经保持不变的东西:仍然是基于相同的质量数据ChemSpider并为用户提供和牧师数据的机制。我们还没有改变的搜索查询是如何工作的,所以搜索你以前运行还是应该返回相同的结果。

主要变化

1。新的页头

我们将所有的旧菜单项的成条在每个页面的最顶端(一)我们还显示一个搜索栏正上方的主网页内容(二)。在较小的显示器,你会看到图标快速搜索框,登录和帮助的项目,所有其他选项可以在“汉堡包”符号下找到(三)

大小屏幕上ChemSpider页眉的比较

2。较短的记录页

一个使在移动ChemSpider工作的最大挑战之一是如何显示所有的,我们有一个更小的屏幕上的信息。我认为,我们的解决方案,实际上使ChemSpider更好地为每个人 - 无论他们如何查看网站。

此前,ChemSpider纪录是一个大长页面中,关于该化学结构在页面的顶部,随后是一些可以打开或关闭,并重新排序资讯盒基本细节。这工作得很好在多数情况下反而导致在那里你必须做大量的向上和向下滚动的情况下,可能不会能够发现你正在寻找的信息框。现在,我们仍显示有关的化学结构的一些信息,在页面的顶部(一)但是,下面有一个窗格(二)其中包含标签(三)允许您选择记录的部分,你想显示。这意味着,它总是容易看一些资料,看到与其相关的结构。

ChemSpider记录布局

新的页面布局由复合页眉组成(一)还有一块玻璃(二)显示信息选项卡的内容(三)

3。没有Java,无后顾之忧

很多浏览器不再支持Java applet。在过去的18个月里,没有java的化学工具已经开始有了新利手机客户端很好的发展,现在是时候开始转换了。这意味着该站点现在集成了支持JSmol的3D结构视图、CIF查看器和NMR/IR/MS光谱显示,以及用于结构输入/编辑的Ketcher和Elemental。

4.结构搜索简化

之前,创建一个结构搜索有点痛苦的你:在弹出打开结构编辑器,把你的结构,然后将其保存到搜索页面——现在我们的结构编辑器嵌入到界面,减少步骤的数量需要得到你的结果,使其更容易调整搜索。

对于通过平板电脑或手机访问网站的人来说,一个特别有用的功能是转换结构制表符可以用来加载在复杂结构中作为查找的基础,例如使用“二苄胺”在结构转换中给出一个可以快速阐述的结构辛普金斯手性碱前体胺如截图所示。

接下来是什么?

等一下!我们只是刚刚把所有这些伟大的功能到网站!我是开玩笑的,但我们将花时间调整和完善新的设计。如果我推测的话,我们将会把重点放在进一步的开发上——我建议我们将会考虑更多的(非java的)工具,这些工具可以整合到站点中,提供更好的体验,以及改进记录数据质量的新方法。

同时,请浏览该网站,并在chemspider给我们发邮件-在-让我们知道你对这个新网站的看法。

ChemSpider有什么新鲜事吗?

博客文章由大卫·夏普写的。

这个博客的订阅者可能已经注意到我们最近有点沉默。我想说的是,这并不意味着我们一直在固步自封。事实上,我们一直致力于ChemSpider的一系列改进——改进我们的基础设施,开发提高数据质量的方法,并为我们的记录设计一个新的布局。

我们将分别在不同的文章中讨论数据质量工作和网站重新设计工作的更多细节,但是在新网站设计发布之前,我想提供一些关于变化进行时的预期。

为什么我们现在要换网站?

原因有很多:

  1. 首先,我们需要有一个符合现代互联网标准的网站。这意味着该网站不仅需要在台式电脑上可用,还需要在平板电脑或手机上可用。这通常被称为响应式网页设计
  2. ChemSpider的记录中总是充满了丰富而多样的信息类型,这在呈现这些信息时是一个挑战,因为一旦发现,这些信息就可以被发现并易于理解。我们希望新的布局将以直观和清晰的方式呈现数据,为每个人提供更好的体验。
  3. 我们需要摆脱那些广泛使用的浏览器不支持的技术。基于Java的工具对于某些平台上的用户来说已经是一个问题了一段时间,而且这只会变得更糟。长期以来,我们在Java工具的同时提供了非Java结构编辑器(该站点的当前版本包含元素Ketcher用于结构图。此次发布将采用JSmol为不支持Java的设备启用3D结构视图和频谱显示小部件。目前,我们同时提供Java和非Java解决方案,但希望在不久的将来逐步淘汰Java小程序。
  4. 提高ChemSpider与更广泛的皇家化学学会新利手机客户端网络族

网站的运作方式还会有什么变化吗?

网站的某些方面肯定会有一些变化,因为:用户反馈和bug修复。我们也会研究如何使更复杂的界面,如高级搜索,更实用,但我们希望不会有任何重大变化的网站。

您使用的所有功能是否仍然可以访问?

总的来说,答案是;是的!可能现在它们的外观略有不同,或者可以通过不同的接口访问。有两个注意事项:

  1. 当访问移动设备上的网站

    页面的小屏幕和平板电脑上的布局往往需要是不同的 - 只要有可能,这是通过重新排列页面中的元素,并增加新的控制来实现的。但对于ChemSpider接口,我们的一些地方认识到,没有一个很好的方式来显示所有的数据,唯一的解决方案是不显示这些小屏幕的页面的一部分。

  2. 删除的功能

    有一对夫妇的,我们觉得不再适用于新的设计或需要重新设计,使其更加有用的功能(如打印按钮)。

新网站何时推出?

我们希望新网站能在下周发布。

这些变化将如何影响你?

我们希望每个人都能顺利过渡。一旦新设计开始运行,您可能需要刷新/清除您的浏览器缓存。新的设计确实需要一个支持HTML 5规范的现代浏览器。我们将尽力确保该网站在尽可能多的浏览器和平台上可用,但预计该网站将无法在IE7等较老的浏览器上良好运行。

仍然可以使用旧的界面访问站点吗?

不幸的是,旧的接口将不能与新接口一起使用。

你怎样才能对新设计提供反馈?

提供反馈的最佳方式是在chemspider给我们发电子邮件-在-rsc.org

密切关注新设计——当它上线时,我们将写一篇关于这些变化的博客文章。

南安普顿大学实习,将论文数据传输到LabTrove和ChemSpider

作者:戴爱玲。

今年夏天,南安普顿大学(University of Southampton)与英国皇家化学学会(Royal Society of Chemistry)和ChemSpider联合开展了一些实习项目。新利手机客户端这些学生中有三个人一直在筛选过去成员的论文理查德·惠特比的研究小组为了提取其中的化合物、光谱和反应数据(以及链接的实验室笔记和存档光谱文件),并在LabTrove、ChemSpider和CSSP中共享这些数据。这些学生——Alex Hartke, Wai Lee和Josh Whittam(均为二年级本科生)——与他们数字化的论文数据、实验室笔记和光谱打印输出的盒子一起被展示在下面。

南安普敦大学实习生

南安普敦大学实习生

他们把7篇论文数字化,由A。亨德森,L。说话的人,D。欧文,D。Macfarlane, F.朱,G。Saluste, J。这导致了1035个LabTrove页面被发布到惠比集团的LabTrove博客

这些论文是化合物信息的丰富来源,包括化合物的结构、名称、性质和光谱,所有这些信息都被存入ChemSpider,从而导致208个新复合页,以及600光谱

在这个项目中,学生们手工将化合物信息存入LabTrove,然后将化合物和光谱存入ChemSpider。然而,我们目前正在开发一系列的ChemSpider jquery小部件,这些小部件可以集成到基于web的eln中,例如LabTrove,这样可以更容易地将来自ChemSpider的化合物信息输入到实验中,还可以将来自eln的化合物和反应数据发布到ChemSpider、CSSP和ChemSpider反应中。这将从最初的概念证明检索ChemSpider信息并将其输入LabTrove页面。

考虑到这一长期目标,实习生存储复合和反应数据的LabTrove页面是使用LabTrove模板构建的,这种结构将使发布小部件更容易理解数据并以正确的方式处理数据。这样,该项目在一定程度上是一个测试,以确保模板适合在LabTrove中存储复合数据。以及ChemSpider化合物和相关数据模板(与相应的帮助页,由于论文主要集中在化合物的合成上,因此还编写了模板以格式化的方式存储反应数据。最简单的是,基本的反应数据可以用化学蜘蛛反应模板(和相应的帮助页,最终以这种格式编写的帖子将很容易发布到ChemSpider上。可以使用ChemSpider合成页面样式反应模板(和相应的帮助页。最初的目的是将所有这些反应数据存入化学蜘蛛合成纸但很明显,除了进行反应的研究人员或他们的主管之外,任何人都很难为提交的CSSP提供必要的详细程度,尤其是通过回顾性地摘要论文很难达到。结果,只有少数反应提交给CSSP,大多数(500多个)存储在LabTrove中,以便将来提交给ChemSpider反应。

如果从ELN反应到ChemSpider反应都能很容易地发表,而且在进行新的反应时,其他研究人员和他们的应用也很容易质疑,这将是朝着拨号分子(EPSRC大挑战网络)。需要捕获的反应数据的一个重要部分是反应中使用和产生的物质的化学计量表。但是,这些化学计量表太复杂,无法合并到LabTrove模板中,因此LabTrove反应模板将与一个新的ChemSpider jquery小部件一起使用,该小部件目前正在与LabTrove集成(稍后将提供更多详细信息!)这将构建它们。这个小部件执行ChemSpider查找以检索化合物信息,并计算等价物,从而节省了研究人员计算所需反应物量或所获得产品产量的时间。最初使用化学蜘蛛反应模板然后使用ChemSpider编辑化学计量表小部件向其添加化学计量表作为补充在这里

如果您是LabTrove用户并希望使用ChemSpider模板,则可以通过上面的链接获得它们的源代码,并记录了在LabTrove中使用模板的说明在这里

ChemSpider搜索的最新改进(第2部分)

上次在最近的网站更新中,我们已经向ChemSpider添加了一些改进,包括组合子结构和属性搜索以及按分子公式范围搜索。正如所承诺的那样,这次我们将讨论如何通过熔点或外观等性质进行搜索。

按补充信息搜索

到目前为止,虽然你可以在已经记录在案的情况下查看属性,但没有办法通过熔点、折射率、外观或生物活性进行搜索。此更新已实现新建搜索界面它允许您搜索此数据。您现在可以找到报告从酵母中分离的化合物,或熔点为32-35°C的化合物。

我们的辅助搜索界面有两个主要部分。

文本属性搜索

文本属性包括外观、化学类别、药物状态或安全性数据。您可以使用关键字搜索这些属性中的任何一个。当您开始键入时,会出现许多建议的搜索词,这可以帮助您缩小要使用的搜索词的范围。

您也可以通过输入*因此,如果你的未知是蓝色的水晶材料,那么搜索“蓝色水晶*”会出现所有提到“蓝色”的记录,以及“水晶”(如水晶或水晶)开始的任何单词。

数值属性搜索

数值属性包括物理属性,如实验或预测沸点、旋光性或LogP。由于我们从广泛的数据源中提取数据,所以并不是所有这些信息都以相同的格式或以相同的方式来描述单元发送给我们。为了使您能够搜索我们数据库中的所有属性,无论这些属性是如何提供给我们的,我们在整理和标准化这些数据方面做了大量的后台工作。

所有数值属性都可以用最小/最大或用a来搜索+/-范围和搜索词可以输入多种单位-例如。华氏的要么摄氏度温度,或磅/平方英寸要么毫米汞柱为压力。因为材料的沸点取决于测量时的压力,而不是所有的沸点都是在大气压下测量的,所以我们创造了一个试图弥补这一点的特性。它使用Clausius-Clapeyron方程要创建估计的(标准化的)搜索沸点,请在查看结果时记住这一点。

如您所见,您可以搜索各种各样的实验性质,包括沸点、LogP、熔点、比重和溶解度。请注意虽然许多更常见的化合物都有一些属性,但这些属性只在我们记录的一个子集中可用——所以如果你在属性搜索中没有得到结果,那可能是因为我们还没有添加这些信息。

希望这篇文章能让您对我们对ChemSpider搜索所做的改进有一个很好的了解,以及这些新特性是如何让您比以往更容易地找到您要查找的内容的。请看下面的案例研究,它展示了这些文章中涉及的几个新特性。

ChemSpider搜索的最新改进(第1部分)

我们最近发布了ChemSpider网站的更新,除了修复了一些bug之外,还添加了一些有用的新特性。这篇文章突出了其中的三个特性——其中一个您可能已经注意到了,另外两个您可能还没有发现。

自动完成

我们已经恢复了自动完成特性在ChemSpider的主页上。现在,当您开始在搜索框中输入内容时,ChemSpider会根据您输入的内容提供建议。这使得你比以往任何时候都更容易找到你要找的东西——即使你不太确定如何拼写它。

在ChemSpider主页上自动完成

结合结构/属性搜索

人们经常问是否有一种方法可以同时搜索子结构和其他属性,比如分子量或分子式。这个更新现在可以执行这种组合搜索从我们的改进高级搜索页

例如。如果你有兴趣找到结构上与安定相似的化合物,你可以输入一个苯二氮卓酮亚结构,并限制其分子量为275-325的化合物。


然后这个搜索返回安定和其他类似的药物一样氯硝西泮,硝西泮劳拉西泮

还有许多其他搜索选项可以与子结构/相似度搜索相结合,请查看高级搜索页玩一玩。

分子式范围搜索

你也可以一次搜索一系列的分子式。要指定给定元素的范围,请将范围放在元素后面的括号中。例如。C7H(10-12)O(0-1)会返回所有恰好含有7个碳和10到12个氢的化合物,这些化合物可能含有氧,也可能不含有氧。可以从。执行此类搜索简单搜索页面,作为an的一部分高级搜索或从ChemSpider主页

最妙的是,它可以与其他任何搜索参数组合在一起高级搜索页面包括子结构搜索。例如,如果你想找到至少含有三种氯的多氯联苯,你可以用分子式为C12H(0-7)Cl(3-10)的联苯进行子结构搜索。


在下一篇文章中,我们将介绍一些新的方法,您可以通过存储在我们的记录中的属性进行搜索,如熔点、密度等。