作者:戴爱玲。
我们很高兴地宣布,我们刚刚将1047个CIFs导入到ChemSpider的晶体结构中,这些晶体结构之前在RSC论文中有过报道(可作为ESI获取)。并链接到原始文章和CCDC的webCSD,如。示例化合物与RSC物品CIF(参见CIF信息框)。由于上传到ChemSpider中的每个CIF必须与ChemSpider化合物相关联,这项任务的难点是找出一个二维分子结构.mol文件格式)对于每个三维晶体结构(in.cif文件格式) -这是特别困难的,因为CIFs只包含关于每个原子位置的信息,而不包含原子如何在晶体中相互结合或它们是否带电的信息。
最终,我们希望这个CIF到mol的转换(以及整个上传)可以在没有人工干预的情况下以编程方式执行。然而,目前还没有可靠的方法来做到这一点——尽管像这样的程序OpenBabel可用于从每个CIF提取mols,这种转换的可靠性不是100%。
作为今年夏天我们在南安普顿大学的一个学生实习项目南安普敦大学的另一个学生实习项目,在ChemSpider中共享论文数据)我们使用OpenBabel(2.3.2版本,从命令行运行的选项我cif inputfilename.txt - o摩尔- m独特- d -AddPolarH)提取摩尔的CIFs RSC归档(超过43000文件截至2013年6月)和招募Julija Kezina(如下所示),这些转换的结果进行审核,以确保只有良好的结构和cif双ChemSpider沉积,并更好地理解转换过程中的问题,以解决它们。一个问题马上变得明显了因为得到的二维结构只是三维结构沿a细胞轴的投影,这并不总是分子最清晰的方向,即使它们有原子间的书面化学联系,所有的摩尔结构都经过了OpenEye的清洗算法被审查。
Julija将输出mol文件中的每个结构与原始CIF文件中的结构进行比较,判断转换是否准确。此外,作为额外的检查,所有的输出mol结构都提交给ChemSpider验证和标准化平台滤除有结构问题的分子。立体化学,新利手机客户端价或拥塞问题)。
总的来说,Julija检查的CIF到mol的转换大约有30%是好的,具有正确的原子和离子连接性(尽管其中大约30%的原子位置需要重新定位以清洁或整理结构,手动或使用ChemDraw的清洗功能)。这些mols中有1047个只含有一个分子(不含溶剂分子或共晶体等),这些mols是用相应的CIFs沉积在ChemSpider中的mols。
转化率最高的期刊为分子生物系统(57%),MedChemComm(51%),有机和生物分子化学新利手机客户端(44%)和绿色化学新利手机客户端(44%) -一般是关于有机小分子的期刊。
茱莉亚在国家晶体学服务办公室在南安普敦大学,在Simon Coles教授的共同指导下,我们非常感谢他们对CIF文件格式细节的帮助和建议。
CIF到mol转换失败
在如此大而多样的结构集合上运行和评估OpenBabel给了我们一个有用的机会来识别和分类最常见的问题。在这里,我们将分享这些,并给出一些示例,这些示例将支持识别管道中的一些简单修复,这些修复可能会使整个社区受益,并在这样做时用作测试用例。我们将向……报告这些错误OpenBabel论坛因为OpenBabel是开源的,希望通过与其他开发人员的合作,在未来至少能够解决其中的一些问题。
下面的OpenBabel bug看起来是最容易修复的:
细节 | 例子 |
|
|
|
|
|
|
|
|
许多问题是由输入CIFs中的白痴同步或错误引起的,但总的来说,OpenBabel并没有很好地处理这些问题。通过编写错误消息并终止程序),但是,在大多数情况下,进入无限循环,程序挂起。由于这个原因,因为OpenBabel转换是一个更长的脚本的一部分,所有OpenBabel作业都必须在一个任意超时的情况下运行,这样,如果在超时之后仍在运行,它们就会被杀死,它可能丢弃了一些有效但长期运行的OpenBabel作业。我们将研究是否有一个可以在CIFs上自动执行的验证程序来过滤出有这些问题的验证程序(类似于中国疾控中心的EnCIFer但可以通过编程方式运行),但是,通过在OpenBabel遇到这些问题时能够很好地退出,从而不需要预先验证,从而使OpenBabel更加可靠,这是相对简单的。这些问题列于下表:
细节 | 例子 |
|
|
|
|
|
|
以下OpenBabel bug是最常见的,但是很难修复。它们产生于CIF格式不记录原子/离子的电荷或它们之间的bong类型的问题,因此OpenBabel需要计算出它们,而这是很难正确完成的。
细节 | 例子 |
|
|
|
|
|
|
|
|
|
|
|
|
还有一些问题摩尔文件生成,要么无法被OpenBabel固定(因为他们导致错误或限制输入的CIF文件不能固定回顾性)或太难以修复和/或太频繁发生是值得的:
-
- 在CIF中有237个溶剂分子(其中很多都缺少氢,分子的部分占用或分子的一部分等),从而产生假氧;mol文件中分子和自由基的片段(见CIF:控烟条例213787和ChemSpider记录:68005706)。其中148种情况只是水溶剂分子,要么是氢原子缺失,要么是氢原子脱离。溶剂分子的定义很差,这是由于CIF文件衍射的限制,所以OpenBabel不可能在它们的输出mol中更好地定义它们。然而,运行带有-r选项的OpenBabel,除去除了最大的连续片段以外的所有片段,非常成功地除去了这些问题溶剂分子,因此不需要采取进一步的行动来处理这个问题,我们将在未来使用这个选项。
- 在最初的CIF中有81个案例中至少有一个氢缺失(或在3个案例中,所有氢都没了)-看控烟条例259871。
- 一些cif含有晶体结构,这些结构对应于连续的网络而不是小分子。聚合物,财政部,沸石,POMs),但不能以mol格式进行有意义的捕获控烟条例206593。
- mol文件中立体化学的定义有少数(24)错误。新利手机客户端然而,因为OpenBabel很好地解释了立体化学新利手机客户端这些案例相对较少,也许不值得进一步研究这些问题控烟条例238611和ChemSpider 9419187。