向ChemSpider添加RSC CIFS

通过

作者:戴爱玲。

我们很高兴地宣布,我们刚刚将1047个CIFs导入到ChemSpider的晶体结构中,这些晶体结构之前在RSC论文中有过报道(可作为ESI获取)。并链接到原始文章和CCDC的webCSD,如。示例化合物与RSC物品CIF(参见CIF信息框)。由于上传到ChemSpider中的每个CIF必须与ChemSpider化合物相关联,这项任务的难点是找出一个二维分子结构.mol文件格式)对于每个三维晶体结构(in.cif文件格式) -这是特别困难的,因为CIFs只包含关于每个原子位置的信息,而不包含原子如何在晶体中相互结合或它们是否带电的信息。
最终,我们希望这个CIF到mol的转换(以及整个上传)可以在没有人工干预的情况下以编程方式执行。然而,目前还没有可靠的方法来做到这一点——尽管像这样的程序OpenBabel可用于从每个CIF提取mols,这种转换的可靠性不是100%。
作为今年夏天我们在南安普顿大学的一个学生实习项目南安普敦大学的另一个学生实习项目,在ChemSpider中共享论文数据)我们使用OpenBabel(2.3.2版本,从命令行运行的选项我cif inputfilename.txt - o摩尔- m独特- d -AddPolarH)提取摩尔的CIFs RSC归档(超过43000文件截至2013年6月)和招募Julija Kezina(如下所示),这些转换的结果进行审核,以确保只有良好的结构和cif双ChemSpider沉积,并更好地理解转换过程中的问题,以解决它们。一个问题马上变得明显了因为得到的二维结构只是三维结构沿a细胞轴的投影,这并不总是分子最清晰的方向,即使它们有原子间的书面化学联系,所有的摩尔结构都经过了OpenEye的清洗算法被审查。

Julija ke吉娜-南安普顿大学实习生,负责研究CIF到Mol的转换

Julija ke吉娜-南安普顿大学实习生,负责研究CIF到Mol的转换

Julija将输出mol文件中的每个结构与原始CIF文件中的结构进行比较,判断转换是否准确。此外,作为额外的检查,所有的输出mol结构都提交给ChemSpider验证和标准化平台滤除有结构问题的分子。立体化学,新利手机客户端价或拥塞问题)。
总的来说,Julija检查的CIF到mol的转换大约有30%是好的,具有正确的原子和离子连接性(尽管其中大约30%的原子位置需要重新定位以清洁或整理结构,手动或使用ChemDraw的清洗功能)。这些mols中有1047个只含有一个分子(不含溶剂分子或共晶体等),这些mols是用相应的CIFs沉积在ChemSpider中的mols。
转化率最高的期刊为分子生物系统(57%),MedChemComm(51%),有机和生物分子化学新利手机客户端(44%)和绿色化学新利手机客户端(44%) -一般是关于有机小分子的期刊。
茱莉亚在国家晶体学服务办公室在南安普敦大学,在Simon Coles教授的共同指导下,我们非常感谢他们对CIF文件格式细节的帮助和建议。

CIF到mol转换失败

在如此大而多样的结构集合上运行和评估OpenBabel给了我们一个有用的机会来识别和分类最常见的问题。在这里,我们将分享这些,并给出一些示例,这些示例将支持识别管道中的一些简单修复,这些修复可能会使整个社区受益,并在这样做时用作测试用例。我们将向……报告这些错误OpenBabel论坛因为OpenBabel是开源的,希望通过与其他开发人员的合作,在未来至少能够解决其中的一些问题。

下面的OpenBabel bug看起来是最容易修复的:

细节 例子
  • 类别:BAD_NITRO
  • 频率:233
  • 描述:有不同的方式来表示结构抽屉中的硝基- OpenBabel目前是通过生产一摩尔与五价氮。在ChemSpider中,我们选择使用电荷分离硝基的格式来避免这种情况。
  • 解决方案:允许OpenBabel为硝基提供不同的输出选项,以输出正确的mol文件中所示的硝基。

  • 类别:BAD_MULT
  • 频率:434
  • 描述:完全相同,包括立体化学)分子存在于生成的m新利手机客户端ol文件中,尽管运行OpenBabel时带有-unique选项(它应该根据inchi过滤掉重复的分子)
  • 解决方案:在使用-unique选项运行时修复OpenBabel,使其正常工作。

  • 类别:BAD_MISSINGPARTOFMOLECULE
  • 频率:724
  • 部分分子缺失
  • 原因:OpenBabel不理解晶体对称性——只有CIF中明确列出的原子位置包含在生成的mol文件中,而那些由对称性推断出来的则不是。
  • 解决方案:让OpenBabel根据CIF文件中的对称性生成完整的分子,或者建议在OpenBabel之前运行一个脚本/程序,该脚本/程序可以处理一个CIF来生成另一个包含所有原子的CIF。

  • 类别:BAD_PARTIALOCCUPANCY
  • 频率:432
  • 描述:CIF文件中某个原子的多个位置的部分占用
  • 原因:在CIF文件中,有时多个站点的位置被指定为占用少于一个——OpenBabel没有认识到这一点,并假设所有站点的占用是一个有效的,所以mol文件中有一些原子或片段的副本。
  • 解决方案:当_atom_site_入住率小于1时,把原子聚在一起形成相互替代的原子(按类型,接近,和那些加起来总占用率为1),并且只选择其中一个包含在最终mol文件中(站点占用率最高的,或者如果两个的占据率相等。0.5然后随机选择一个)。注意需要有一致性,例如,如果一个C被丢弃,然后,所有与部分占用相邻的H也被丢弃,但是那些与包含的C相连的H也被包括在内(如附件中的例子)。

许多问题是由输入CIFs中的白痴同步或错误引起的,但总的来说,OpenBabel并没有很好地处理这些问题。通过编写错误消息并终止程序),但是,在大多数情况下,进入无限循环,程序挂起。由于这个原因,因为OpenBabel转换是一个更长的脚本的一部分,所有OpenBabel作业都必须在一个任意超时的情况下运行,这样,如果在超时之后仍在运行,它们就会被杀死,它可能丢弃了一些有效但长期运行的OpenBabel作业。我们将研究是否有一个可以在CIFs上自动执行的验证程序来过滤出有这些问题的验证程序(类似于中国疾控中心的EnCIFer但可以通过编程方式运行),但是,通过在OpenBabel遇到这些问题时能够很好地退出,从而不需要预先验证,从而使OpenBabel更加可靠,这是相对简单的。这些问题列于下表:

细节 例子
  • 类别:CIF_NOCOORDINATES
  • 频率:378
  • 描述:cif不包含任何坐标
  • 原因:一些cif包含粉末衍射细化数据不含坐标。
  • 解决方案:OpenBabel已经发出一个错误:“CIF错误:没有发现atom !”(在数据块中:xxx)“–如果找到了,只需终止程序(而不是尝试继续)。
  • 类别:CIF_MISSINGLOOP
  • 频率:85
  • 描述:cif遗漏了“loop_”行
  • 解决方案:在尝试进行转换之前,首先检查预期位置上至少有一条loop_线。

  • 类别:CIF_COMMENTEDFIELD
  • 频率:36
  • 描述:如果在CIF的注释部分有一个CIF字段名,OpenBabel没有忽略它,而是进入一个无限循环
  • 解决方案:确保OpenBabel忽略(在一对分号之间)注释掉的CIF字段名是很简单的。

以下OpenBabel bug是最常见的,但是很难修复。它们产生于CIF格式不记录原子/离子的电荷或它们之间的bong类型的问题,因此OpenBabel需要计算出它们,而这是很难正确完成的。

细节 例子
  • 类别:BAD_CHARGEMISSING
  • 频率:830
  • 描述:分子中的一个或多个离子在生成的mol文件中带有错误的电荷

  • 类别:BAD_WRONGCOORDINATION
  • 频率:747
  • 描述:分子中有一个或多个原子或离子的配位错误——在金属离子中观察到的配位问题,年代,P,Se和B

  • 类别:BAD_BONDMISSING
  • 频率:587
  • 分子中有一个或多个键的顺序不对。一个单键而不是双键。

  • 类别:BAD_WRONGBOND
  • 频率:452
  • 说明:单键/双键顺序错误。

  • 类别:BAD_NOCOORDL
  • 频率:52
  • 描述:与配体无配位。

  • 类别:BAD_MISSINGH
  • 频率:18
  • 描述:失踪的氢。

还有一些问题摩尔文件生成,要么无法被OpenBabel固定(因为他们导致错误或限制输入的CIF文件不能固定回顾性)或太难以修复和/或太频繁发生是值得的:

    • 在CIF中有237个溶剂分子(其中很多都缺少氢,分子的部分占用或分子的一部分等),从而产生假氧;mol文件中分子和自由基的片段(见CIF:控烟条例213787和ChemSpider记录:68005706)。其中148种情况只是水溶剂分子,要么是氢原子缺失,要么是氢原子脱离。溶剂分子的定义很差,这是由于CIF文件衍射的限制,所以OpenBabel不可能在它们的输出mol中更好地定义它们。然而,运行带有-r选项的OpenBabel,除去除了最大的连续片段以外的所有片段,非常成功地除去了这些问题溶剂分子,因此不需要采取进一步的行动来处理这个问题,我们将在未来使用这个选项。
    • 在最初的CIF中有81个案例中至少有一个氢缺失(或在3个案例中,所有氢都没了)-看控烟条例259871
    • 一些cif含有晶体结构,这些结构对应于连续的网络而不是小分子。聚合物,财政部,沸石,POMs),但不能以mol格式进行有意义的捕获控烟条例206593
    • mol文件中立体化学的定义有少数(24)错误。新利手机客户端然而,因为OpenBabel很好地解释了立体化学新利手机客户端这些案例相对较少,也许不值得进一步研究这些问题控烟条例238611ChemSpider 9419187

评论都关门了。