第五讲 化学结构的歧义性及其计算机表达方法

2019-09-06 02:02姚建华李佳徐雯丽蒋舒仰胡静
上海化工 2019年8期
关键词:化学键结构式歧义

姚建华 李佳 徐雯丽 蒋舒仰 胡静

1中国科学院能量调控材料重点实验室,中国科学院上海有机化学研究所(上海 200032)

2郑州工程技术学院 (河南郑州 450044)

截至目前,美国SCIFINDER数据库系统收录的化合物数据已达1.55亿,其中有很多化合物的化学结构有多种表达形式,被称为化学结构表示的歧义性。这种歧义性给化学结构的计算机处理带来了困难。结构歧义性产生的主要原因为:(1)有些化合物能够用多种都满足价键理论的结构式来表示;(2)某些化合物结构不能用数学上的图明确表示。

1 化学结构表达的歧义性

在众多的化合物分子中,有些化合物有不止一个满足价键理论的结构表示方式,即可有多个结构式表示同一个化合物分子。如化合物嘌啉,它的化学结构式可以用如图1所示的6种结构式表达,这6种表达式之间的主要区别是其中的双键位置不同,但它们都满足价键理论的要求。化学家在用结构式来描述或讨论嘌啉的化学物理性质时,可以从这6种结构表示式中随意挑选一个使用,但计算机自动识别这6种结构为同一个化合物,则需要采用专用的策略作预处理。

2 歧义结构的计算机处理策略

计算机处理歧义结构时遇到的问题主要有两大类:(1)化合物分子与其结构表达式之间缺少一对一的对应关系;(2)某些歧义结构不能用数学上的图来表示。

所谓化合物分子与其结构表达式之间缺少一对一的对应关系,即一个化合物可有多种结构表达式,如图1所示。

图1 嘌啉结构的6种表达方式

所谓某些歧义结构不能用数学上的图来表示,是由于图论的表达能力不能满足化学键理论所要表达内容的要求。如在价键理论中,将化学键描述为由原子间共享电子而形成。根据提供电子方式的不同,可以形成δ键、π键以及配价键等不同类型的化学键;根据共享电子云密度的不同,形成的化学键可分为单键、双键、三键等。δ键是成键的两原子各自提供一个电子;π键或配价键是由成键的两原子可以各自提供一个电子,也可以一个原子提供空轨道而另一个提供共享的电子对,甚至可以由成键的π电子来提供。遗憾的是,图论无法表达化学键的轨道或电子信息。

对于具体某一类型的化合物而言,出现的歧义结构的形式可能具有某种规律性。为此,不同的化学结构处理系统都有对应的处理策略和方法。这些方法主要包括:(1)输入所有结构式(Multiple-Acceptation);(2) 选择某一结构(Selection);(3) 转换成某一确定结构式(Transformation)。

2.1 输入所有结构式

这是3种方法中最简单的处理方式。即将一个化合物分子满足价键理论的所有结构都进行编码处理,并输入到对应的库文件中。当需要恢复时,可采用任何一种形式的结构式。注意,这里所谓的产生所有结构,并不是产生所有的同分异构体,而是在保持化合物分子的物理化学性质不变且满足价键理论时的化学结构表示形式的变化。为确保完整性和准确性,应尽可能穷尽一个化合物的所有结构式,这将大大增加输入结构式的工作量,而且在结构式的计算机处理过程中会遇到组合问题,这将涉及计算机资源因素。因此,这种方法适用于那些结构变化小,且不是很复杂的化合物,如碳水化合物和共振离子化合物。

对于碳水化合物而言,其存在方式处于一个动态平衡之中,习惯上可写成直链或环状(五或六元环)两种形式,如图2所示。在形成环状结构时,羰基碳原子有两种不同的构型,从环状形式到直链形式会丢失碳原子上的立体化学信息。此类结构歧义性问题可采用录入全部可能的结构形式的办法来解决。

2.2 选择某一确定结构

在输入结构时,采用一种基于结构式规则的自动测试方法,从所有各种可能的结构式中选出一个作为对应的标准结构式FG(Formal graph),并只输入该结构式。FG是在有限个不同结构中选择出来的最具代表性的一个,它是采用某种判别过程后所得到的结构式。显然,这种方法应满足一定的要求,或有一个统一的格式。对不同类型的化合物,应有不同的标准。

由于化学结构式的描述是基于化学键理论,而化学键理论自身的不完备性使得对一些类型的化合物分子很难实现结构描述。例如,采用Huckel规则或Craig规则来处理大环轮烯时,当轮烯(annulene)的n>26时,即使符合Huckel规则,也已不为共振所稳定,即已失去芳香性,再选用芳香键描述的结构作为代表时,似乎已不再合理。因而,该方法只对一些特定类型的化合物有效,如带离域电荷的离子、配价键化合物、无机化合物、氮盐及类似物、加成化合物及多肽等。

2.3 转换成某一确定结构式

这是一种规范化处理方法,即将代表一化合物的所有可能的不同结构表示形式都转换成一个统一的结构表达式,只对该规范化后的结构表达式进行编码处理。在这个转换过程中,需保留尽可能多的结构特征信息。为此,在转换过程中要对被转换的部分进行一定形式的标记。通常不带标记的转换,因为会丢失太多的信息而不予考虑,而只考虑在采用规范化标记图(Normalized graph)的同时也录入所有其他结构式的转换。规范化标记图是有限个不同结构式F1,F2,…,Fn的共有标志,它是对所考虑的结构式应用某种规则处理后产生的结构式。

这种方法的操作步骤主要包含4步:(1)对需录入化合物的歧义结构表达式进行描述;(2)产生规范化标记图;(3)对规范化标记图进行描述;(4)对有同一规范化标记图的化合物进行关联。

在结构描述文件中,一般只记录规范化标记图和无歧义的结构。每个标记图中应有指针指向放在称为“原始结构文件”的辅助文件中相应的歧义结构。这个文件被查询时,既可通过标记图也可通过出现过的结构进行查询。为了生成标记图,不可能只确定一个总规则,因为这涉及到许多特定的规则,例如共振异构、互变异构等。但是,生成标记图的规则必须与描述化合物结构的规则相一致。一般规范化标记图的产生不应十分复杂,以便简化文件的使用。因此,只有最常见的那些歧义结构是用标记图与结构文件相关联的。通常限于以下3种:互变异构化合物、交替键化合物、金属盐类。

由于这种方法会使某些非正规画法的化学结构式中包含的信息丢失。例如,当把用箭头表示配位键的结构式转换成其他形式时,就会丢失哪个原子给电子、哪个原子接受电子的信息。因而,这种方法的适用性有一定的范围。

关于化合物分子结构表示的歧义性问题,目前还没有一个通用的解决方法。以上提出的3种解决方法,各自有着不同的优缺点,不同的化学结构处理系统可根据所处理的化合物类型采用相对应的方法。在实际的结构处理过程中,比较合理的解决办法或一般原则,应该能够遵守化学中的近似原理,即输入化学结构应最大限度地反映出化学家的习惯。

猜你喜欢
化学键结构式歧义
向量题中关于结构式a=xb+yc的考点剖析与应用举例
eUCP条款歧义剖析
语文教学及生活情境中的歧义现象
English Jokes: Homonyms
有机物分子式、结构式的确定
基于学科观念建构的“化学键”教学尝试
基于微观认识的“化学键”教学设计
化学键与分子间作用力考点精析
基于关联理论的歧义消除研究
从时态入手探讨结构式医学论文英文摘要写作的教学