昔日的“新闻”分类

化工验证和标准化平台(CVSP)

化学验证和标准化平台(CVSP)1打开PHACTS IMI项目中的开发2处理通过测试验证和标准化协议的化学结构的文件。其目的是提供与它们的化学结构文件的严谨分析的社区,以确保通过在线数据库发布到公共领域数据预先验证。在线CVSP网站提供了一个有用的方法来测试规则集,并允许用户验证其结构的文件,但独立网站于2018年11月下线。作为一种传统的,基本代码和规则集已经被发展并在deposit.chemspider.com施加到ChemSpider沉积系统3.和周围的化学结构文件适当的标准化社区讨论仍在继续。原来的代码也可以从GitHub。4

  1. 化学验证与标准化平台(CVSP):化学结构数据集的大规模自动验证,J。Cheminf。,2015,7:30,https://doi.org/10.1186/s13321-015-0072-8
  2. https://www.openphacts.org
  3. https://deposit.chemspider.com/
  4. https://github.com/openphacts/ops-crs/tree/master/CVSP

化学续签合作与ACD /实验室的皇新利手机客户端家社会继续提供业界领先的数据给全球研究社区

ACD/实验室算法将继续装备ChemSpider的物理化学属性值和化学命名十年后的里程碑。

加拿大多伦多(2018年7月26日)-ACD /实验室,信息学公司,开发并支持R&d的商业化解决方案,今天宣布与继续合作ChemSpider是一家领先的化学品数据库,拥有由皇家化学学会,继续装修预测理化性质和化学术语来不断扩展的平台。新利手机客户端十多年来,科学家们已经访问这个公开可用的免费资源,收集有关化学物质的信息准备的研究或实验。

至于物理化学预测软件的行业标准,ACD / Labs的选择产生财产信息,包括日志P,登录D(在不同pH),里宾斯基原则进行的5个值,和沸点,以及提供名称到结构(反之亦然)的能力。双方合作的进一步更新体现了平台的成功和它作为最强大的在线化学结构数据库为科学界的一个持续的重要性。随着平台的不断进步,ChemSpider将继续使用ACD / Labs的算法,以提供高质量的见解的研究人员。

“我们的出发点与化学数据的全面视图,通知R&d举措授权研究者的使命,”理查德·基德,出版商,英国皇家化学学会说。新利手机客户端“通过与ACD / Labs合作,并利用其财产信息,我们已经能够满足我们用户的知识,这反映在公司的快速成长,因为皇家化学学会十年前收购ChemSpider需要。新利手机客户端最新由ACD人口属性信息/ Labs的算法已跻身于ChemSpider最常访问,并保持在我们的服务的主要驱动力。”

虽然ChemSpider了一倍,数据库的大小,但它仍致力于维持从选择性来源的高质量数据。随着平台的不断增长,ChemSpider将使用ACD / Percepta预测算法和ACD /名称工具分批的方式来填充数据库,增强公开可用化学情报。

“启用化学知识的传播和提供解决方案,以加速R&d是我们在ACD / Labs的首要任务之一,”说加布里埃拉Cimpan,高级销售总监,欧洲,ACD /实验室。“ChemSpider被赋予知识在整个化学社区,我们感到很荣幸能够支持世界各地的学习。”

有关ACD / Percepta,更多信息请访问https://www.acdlabs.com/percepta

有关ACD / Labs的化学命名工具,更多信息请访问https://www.acdlabs.com/name

有关ChemSpider,更多信息请访问http://www.chemspider.com

关于高级化学发展有限公司新利手机客户端

ACD /实验室是科学信息学技术依赖于分析数据和决策,解决问题,和产品生命周期控制的分子信息R&d组织的领先供应商。我们的软件自动化和加速分子特征,产品开发和知识管理。我们与现有的信息学系统集成,承接定制项目,包括企业级自动化。

ACD / Labs的解决方案在各种行业,包括制药/生物技术,化工,消费品,农用化学品,石油化工和学术/政府机构的全球使用。我们提供全球的销售和支持,以及超过20年的成功经验和帮助企业加快R&d,并充分利用企业的智力。欲了解更多信息,请访问:www.acdlabs.com。在推特上关注我们@ACDLabs

关于皇家化学学会新利手机客户端

皇家化学学会是全球领先的化学界,在化学科学新利手机客户端推进卓越。新利手机客户端我们拥有超过50000名成员和遍布全球的知识企业,是英国化学科学家的专业机构;一个非营利组织,有175年的历史和对未来的国际视野。我们提倡、支持和庆祝化学。新利手机客户端为了科学和人类的利益,我们努力塑造化学科学的未来。新利手机客户端

向ChemSpider添加RSC CIFS

作者:爱玲·戴。

我们很高兴地宣布,我们刚刚向ChemSpider进口了1047个CIFs晶体结构,这些晶体结构以前在RSC论文中报告过(这些晶体结构可用作ESI),并将这些晶体结构与原始文章和CCDC的WebSD链接起来,例如。示例化合物与RSC文章CIF(参见CIF信息框)。由于上传到ChemSpider的每个CIF都必须与一种ChemSpider化合物相关联,因此这项任务的难点在于计算出一个二维分子结构(在.mol文件格式)对于每个3D晶体结构(in.cif文件格式)–这尤其困难,因为CIFs只包含有关每个原子位置的信息,而不包含原子在晶体中如何相互结合或是否带电的信息。
最终,我们希望这个CIF到mol的转换(以及整个上传)能够在没有人为干预的情况下以编程方式执行。然而,目前还没有可靠的方法可以做到这一点,尽管诸如OpenBabel可用于从每个到岸价中提取MOL,此转换的可靠性不是100%。
作为我们今年夏天在南安普敦大学实习的学生项目之一南安普顿大学的另一个学生实习项目在ChemSpider分享论文数据)我们使用OpenBabel(版本2.3.2,从命令行运行,选项为-i cif inputfilename.txt-o mol-m–unique-d–AddPolarH)来提取RSC存档中所有cif(超过43,2013年6月的000个文件,并征集Julija Kezina(如下所示),以审查这些转换的结果,以确保只有良好的结构和CIF对将沉积到CycSpple,并更好地了解转换过程中的问题,以期修复它们。一个显而易见的问题是,得到的2D结构仅仅是沿着细胞轴的三维结构的投影,这并不总是显示分子最清楚的取向,即使它们之间确实有化学连接,所以所有的摩尔结构都是贯穿的。OpenEye的审核前的清理算法。

Julija Kezina -南安普顿大学实习生,负责检验CIF到Mol的换算

Julija Kezina -南安普顿大学实习生,负责检验CIF到Mol的换算

Julija将输出mol文件中的每个结构与原始CIF文件中的结构进行了比较,以判断转换是否准确。此外,作为额外的检查,所有的输出分子结构都提交给ChemSpider验证和标准化平台过滤出有结构问题的分子(例如。立体化学、价新利手机客户端或拥挤问题)。
总体而言,Julija检查的CIF到MOL转换的大约30%是良好的,具有原子和离子的正确连接性(尽管其中大约30%需要原子位置重新定位以清洁或整理结构,无论是手动还是使用CeCdDy的清洗功能)。这些MOL1047只含有一个分子(不含溶剂分子或共晶等),是那些已经沉积到ChemSpider及其相应的CIFs中的MOL1047。
转化率最高的期刊是分子生物系统(57%),MedChemComm(51%),有机和生物分子化学新利手机客户端(44%)和绿色化学新利手机客户端(44%)——通常是关于小有机分子的期刊。
朱利娅在国家晶体学服务办公室在南安普敦大学,在西蒙·科尔斯教授的共同监督下,我们感谢他们对CIF文件格式的细节的帮助和建议。

CIF到mol转换不成功

在如此庞大和多样的结构集合上运行和评估OpenBabel给了我们一个识别和分类遇到的最常见问题的有用机会。在这里,我们将分享这些内容,并给出一些示例,这些示例可以帮助识别管道中的一些简单修复,这些修复可能会使整个社区受益,并在这样做时用作测试用例。我们会把这些错误报告给OpenBabel论坛而且由于OpenBabel是开源的,希望通过与其他开发人员的合作,在未来至少解决其中的一些问题。

以下OpenBabel错误看起来可能最容易修复:

细节 例子
  • 类别:BAD_NITRO
  • 频率:233
  • 说明:有在结构抽屉代表硝基基团的不同的方式 - OpenBabel当前由生产具有五价氮的摩尔这样做。在ChemSpider我们,我们会选择避免这样有利于与电荷分离硝基格式的。
  • 溶液:允许OpenBabel具有用于硝基不同的输出选项,输出它们如图校正摩尔文件。

  • 类别:BAD_MULT
  • 频率:434
  • 说明:重复(完全相同,包括立体化学)分子存在于所得到的摩尔文件尽管与-unique选项运行OpenBabel(其应当基新利手机客户端于其inchis滤除重复分子)
  • 解决方法:当与-unique选项,这样,它的工作原理运行修复OpenBabel。

  • 类别:BAD_MISSINGPARTOFMOLECULE
  • 频率:724
  • 说明:该分子的部分缺失
  • 原因:OpenBabel不理解晶体对称 - 仅在CIF显式与位置列出的原子被包括在所产生的摩尔文件,和那些由对称推断不是。
  • 解决办法:OpenBabel生成对称的CIF文件的完整分子,或建议的脚本/程序,它可以处理CIF生成与所有原子另一个到岸价OpenBabel之前运行。

  • 类别:BAD_PARTIALOCCUPANCY
  • 频率:432
  • 描述:多个站点的部分占据在CIF文件中的特定原子
  • Cause: In CIF files sometimes positions of multiple sites are specified with occupancy less than one – OpenBabel doesn’t recognise this and assumes that the occupancy of all sites is one effectively, so that there are duplicates of some atoms or fragments in the mol file.
  • 解决方案:当_atom_site_occupancy是小于1,组一起原子到那些彼此的替代品(按类型,接近度,以及那些加起来为1的总占用),并选择其中只有一个在最终包括 mol file (that with the highest site occupancy, or if two have equal occupancies of e.g.0.5,则随机选择一个)。需要注意的是,需要有一致性,这样,如果例如C被丢弃,那么所有的邻接H公司具有部分占用也被丢弃,但那些结合到包括被包括在C(如所附实施例)。

许多问题是由输入CIFs中的特殊同步性或错误引起的,但是OpenBabel并没有很好地处理这些问题(例如。通过编写错误消息并终止程序),但在大多数情况下,进入无限循环,程序挂起。正因为如此,而且由于OpenBabel转换是较长脚本的一部分,所有OpenBabel作业都必须以任意超时运行,因此如果在超时后仍在运行,它们将被终止,这可能会丢弃一些有效但运行时间较长的OpenBabel作业。我们将研究是否有一个可以在CIFs上自动执行的验证程序来过滤出有这些问题的验证程序(类似于中国疾控中心的EnCIFer但是,当OpenBabel遇到这些问题时,它可以很好地退出,这样就不需要预先验证,从而使OpenBabel更加可靠。这些问题列在下表:

细节 例子
  • 类别:CIF_NOCOORDINATES
  • 频率:378
  • 说明:到岸价不包含任何坐标
  • 原因:有些的CIF包含例如粉末衍射细化的数据,不包含坐标。
  • 解决方案:OpenBabel已经发出了一个错误:“CIF错误:没有发现原子!(数据块:XXX)” - 简单地中止程序如果被发现(而不是试图继续)。
  • 类别:CIF_MISSINGLOOP
  • 频率:85
  • 说明:CIF错过了“loop_”行
  • 解决方法:做一个初步检查,有试图做转换之前预期的地方至少一个loop_线。

  • 类别:CIF_COMMENTEDFIELD
  • 频率:36
  • 说明:如果有一个CIF字段名在CIF中的注释部分,OpenBabel不会忽略它,进入一个循环infinte
  • 解决方法:这将是微不足道的,以确保OpenBabel忽略了被注释掉(一对分号之间)CIF字段名。

下面的OpenBabel bug是最常见的,但是很难修复。它们的问题是,CIF格式没有记录原子/离子的电荷或它们之间的bong类型,所以OpenBabel需要解决这些问题,这很难正确地做到。

细节 例子
  • 类别:BAD_CHARGEMISSING
  • 频率:830
  • 说明:一个或更多的离子在分子中具有在其上的错电荷在所得到的摩尔文件

  • 类别:BAD_WRONGCOORDINATION
  • 频率:747
  • 说明:在分子中的一个或多个原子或离子有错误的协调 - 金属离子,S,P,Se和B看到问题

  • 类别:BAD_BONDMISSING
  • 频率:587
  • 说明:一个或多个分子内的键的是错误的顺序的例如一个单键,而不是双键。

  • 类别:BAD_WRONGBOND
  • 频率:452
  • 描述:单/双键错误序列。

  • 类别:BAD_NOCOORDL
  • 频率:52
  • 说明:配体没有协调。

  • 类别:BAD_MISSINGH
  • 频率:18
  • 说明:缺少氢。

还有一些问题摩尔文件生成,要么无法被OpenBabel固定(因为他们导致错误或限制输入的CIF文件不能固定回顾性)或太难以修复和/或太频繁发生是值得的:

    • 在CIF中有237个溶剂分子(其中许多缺少氢、分子的部分占用或分子的一部分等),在生成的mol文件中产生了假氧、分子碎片和自由基(见CIF:CCDC 213787和ChemSpider记录:68005706)。在这些案例中,有148个只是水溶剂分子,要么是氢原子缺失,要么是氢原子脱落。由于溶剂分子的定义很差,限制了CIF文件的衍射,所以OpenBabel不可能在导出它们的输出mol中更好地定义它们。然而,使用-r选项运行OpenBabel来移除除了最大的连续碎片之外的所有碎片是非常成功的,因此不需要采取进一步的行动来处理这个问题,我们将在未来使用这个选项。
    • 在最初的CIF中,有81个案例中至少少了一个氢(或在3个案例中,所有氢都少了)CCDC 259871
    • 一些CIFs包含晶体结构,这些结构对应于连续的网络而不是小分子(例如小分子)。聚合物,MOFs,沸石,POMs),这些物质不能被有效地以mol的形式捕获CCDC 206593
    • 有少数(24)例在得到的mol文件中的立体化学定义不正确。新利手机客户端然而,由于对立体深受OpenBabel解释,这些情况相对较少新利手机客户端,这可能是不值得打乱苹果车调查这些进一步的 - 见CCDC 238611ChemSpider 9419187

南安普顿大学实习,将论文数据传输到LabTrove和ChemSpider

作者:爱玲·戴。

今年夏天,南安普顿大学(University of Southampton)与英国皇家化学学会(Royal Society of Chemistry)和ChemSpider联合开展了一些实习项目。新利手机客户端这些学生中有三个人一直在筛选过去成员的论文理查德·惠特比的研究小组为了提取其中的化合物、光谱和反应数据(以及链接的实验室笔记和存档光谱文件),并在LabTrove、ChemSpider和CSSP中共享这些数据。这些学生——Alex Hartke, Wai Lee和Josh Whittam(均为二年级本科生)——与他们数字化的论文数据、实验室笔记和光谱打印输出的盒子一起被展示在下面。

南安普顿大学实习生

南安普顿大学实习生

他们把7篇论文数字化,由A。亨德森,L。说话的人,D。欧文,D。Macfarlane, F.朱,G。Saluste, J。这导致了1035个LabTrove页面被发布到Whitby集团的LabTrove博客

这些化合物是化合物信息的丰富来源,包括化合物的结构、名称、性质和光谱,所有这些都被沉积到化学蜘蛛中,从而产生了化学蜘蛛208新增复合页,大约600年光谱

在这个项目中,学生们手工将化合物信息存入实验室,然后将化合物和光谱存入ChemSpider。然而,我们正在开发一系列ChemSpider jquery插件等可以集成到基于web的eln LabTrove这将使它更容易从ChemSpider复合信息输入到实验,并发布化合物和反应的数据eln ChemSpider, CSSP和ChemSpider反应。这将从最初开始概念验证检索ChemSpider信息并将其输入LabTrove页面。

考虑到这个长期目标,实习生存储化合物和反应数据的LabTrove页面是使用LabTrove模板构建的,这种结构将使发布小部件更容易理解数据并以正确的方式处理数据。通过这种方式,这个项目在一定程度上是一个测试,以确保模板适合在LabTrove中存储复合数据。以及ChemSpider化合物和相关的数据模板(对应帮助页面由于这些论文主要集中在化合物的合成上,所以我们还编写了模板来以格式化的方式存储反应数据。最简单的,基本的反应数据可以存储在LabTrove使用ChemSpider反应模板(和相应的帮助页面,最终以这种格式编写的帖子将很容易发布到ChemSpider反应中。更详细的反应数据可以存储使用ChemSpider SyntheticPages风格的反应模板(和相应的帮助页面。最初的目的是将所有的反应数据存入ChemSpider SyntheticPages但很明显,除了进行反应的研究人员或他们的主管之外,任何人都很难为CSSP的提交提供必要的详细程度,特别是很难通过回顾性的论文摘要来达到。因此,只有少数反应被提交给CSSP,而大多数(超过500个)被保存在LabTrove中,以便将来提交给ChemSpider反应。

如果反应可以很容易地从ELNs发布到ChemSpider反应,而且其他研究人员及其应用程序在执行新反应时也可以很容易地进行查询,那么这将是朝着实现目标迈出的重要一步Dial-a-molecule(EPSRC大挑战网络)。需要获取的反应数据的一个重要部分是反应中使用和产生的物质的化学计量表。然而,这些化学计量表纳入LabTrove模板太复杂,所以LabTrove反应模板将使用与一个新的ChemSpider jquery插件目前的过程中被结合LabTrove(更多细节跟随在这个博客上不久!)将构建它们。这个小部件执行ChemSpider查找以检索化合物信息,并将计算当量,从而在计算所需反应物的数量或获得的产品的产量时为研究人员节省了时间。一个反应岗位的例子,它最初是用ChemSpider反应模板然后使用ChemSpider编辑化学计量表小部件向其添加一个化学计量表作为补充,如下所示在这里

如果您是LabTrove用户,并且希望使用ChemSpider模板,那么可以通过上面的链接获得它们的源代码,并且LabTrove中使用模板的说明已经文档化在这里