机器学习在离子液体设计和性能预测中的应用综述

2023-11-04 09:54王涛
山东化工 2023年17期
关键词:描述符电导率机器

王涛

(淄博新华-百利高制药有限责任公司,山东 淄博 255005)

离子液体因其迷人的特性而受到工业界和学术界越来越多的关注,2022年有7 685篇关于离子液体的文章出版(数据来自Web of Science)。离子液体是一种低温溶解的熔盐,完全由离子组成。第一代离子液体最初是由Paul Walden报道的硝酸乙酯铵。然而,由于其不稳定和爆炸性的缺点,并没有引起人们的注意。1982年,Wilkes等人[1]使用氯化铝和1-甲基-3-乙基咪唑合成了一种低黏度和极高电导率的室温离子液体。但由于其在空气中易水解,其实际应用有限。1992年Wilkes[2]合成了一种名为1-乙基-3-甲基咪唑四氟硼酸盐的离子液体([Emim][BF4]),其化学活性很低,可以长时间存在于水和空气中不发生变质。此后,又有很多特殊性质的离子液体问世,并应用于电化学、液-液平衡、有机合成和催化反应。仅经过20多年,离子液体就从最初发现到现在成为一个重要的科学研究领域,这表明越来越多的研究者对离子液体感兴趣。此外,不同科研领域之间的合作也促进了科学家对离子液体特殊性质的研究,包括材料、化学和环境科学。根据不同阴阳离子的结合使得离子液体的结构可以设计,结果上也表现出相差较大的性质和特点,包括黏度、密度、电导率、溶解性、毒性等。理论上,离子液体的种类可以达到千种以上,其中包括一些二元和三元系统。因此,离子液体在不同的应用场景中可以发挥不同的作用,可以根据具体的应用场景设计或调整合适的备选离子液体。

为了理解这种作用和复杂现象,科学家们通过结构-性能关系以及实验和理论计算方法的紧密结合揭示了潜在的规则。当人们谈到离子液体的结构会对其性质造成一定的影响时,通常的研究和理解是通过反复实验对离子液体进行概念化,并利用研究人员的经验知识来获得其性质。制备一些同源离子液体来验证某种结构或官能团的可能性质,并通过每次实验的反馈获得一定的经验知识。然而,大量的实验不仅十分耗时,而且由于实验误差或人为因素而带来很大的干扰。因此,如何使预测方法变得简单而高效是尤为重要的。

早期的结构-性能关系主要用于一些药物的研究,离子液体的定量结构-性能关系模型研究主要认为阴离子或阳离子的作用通常转化为离子液体的相应物理性质。离子液体的“血缘”决定其具有不同的性质。根据它们不同的家族,可以寻找一些特定的离子液体个体,如“低熔点”和“宽化学窗口”。然而,仅仅依靠这些来深入了解离子液体的性质是远远不够的。通过将特定结构与精确的属性结果相关联以创建数学模型来研究结构-性能关系是一个计算上具有挑战性的领域。定量结构-性质相关性的研究已广泛应用于离子液体各种性质预测的研究。定量结构-性能相关性的研究主要是找出离子液体的结构特性与性质之间的关系。通过这种关系可以反转计算机设计。结构-性能关系已成功应用于离子液体活性系数、熔点、黏度、溶解度和电导率的计算和预测。宏观性质与微观结构之间的内在关系可以通过理论上的微观结构的计算和分析得到。结构-性能关系的独特性质和结构特性使得设计目标离子液体成为可能。一些典型的热力学是宏观经验方法,可用于研究大结构方向的离子液体。结构-性能关系方法可以处理大量数据,可用于筛选大量可能的离子液体结构,也有望成为目标离子液体的计算机逆向设计的有力工具。而量子力学、分子力学等方法可以深入探索其内在规律。分子动力学可以在动力学方面对其理化性质进行更高程度的研究,特别是在一定研究的基础上做有针对性的、具体性质的综合研究。

机器学习(ML)方法广泛用于化学发现和分子从头设计,可以发现分子合成空间,可以帮助研究人员从庞大的数据统计中找到最优的合成路径,指导他们的科学研究。在过去的一段时间里,ML已被用于离子液体性质的预测和一些适合特定过程的离子液体设计。图1显示了通过机器学习预测离子液体特性的过程。

图1 用于预测离子液体特性的机器学习路线图

1 分子结构和分子描述符类型的建模

分子结构建模是定量构效关系研究中必不可少的关键步骤。该模型中使用的分子描述符决定了研究某些定量构效关系的可能性和成功率。如今,存在大量不同的描述符系统来准确“刻画”分子结构。分子描述符是数学思维和逻辑思考过程相互关联的结果,它将化学分子符号转变成计算机可识别的、有规律可循的数字演示结果,为了将数据科学应用于化学分子的表征,计算机必须理解分子结构编码的信息。分子的输入和处理通常基于字符串,例如SMILES,InChI和SMARTS。

物理化学描述符是用于表示物质的化学和物理性质的参数。分子描述符,分子的数值表示,定量描述相应的物理和化学性质。因此,研究人员可以根据分子描述符值的相似性来探索具有相似化学和物理性质的分子。描述符可分为基于物理或基于信息。基于物理的参数与实验推导的参数配对,具有可解释的优点,使化学家能够直观地从模型中获取额外的物理信息。要计算与静电势相关的描述符,第一步是优化分子结构。分子表面的静电势与分子之间的静电相互作用特别密切相关。

与分子结构相关的描述符是根据分子中原子的三维坐标计算的。这些描述符具有丰富的描述性信息,并能够区分具有相似分子构象和化学结构的分子。分子拓扑参数是分子结构的数学描述符,用于反映分子结构的分支、形状、大小、杂原子、不饱和键等结构特征,从而达到分子结构数字化、信息化的目的。它在建立生物活性、理化性质和药代动力学特性模型方面起重要作用。最常用的是维纳指数、基尔形状指数、连通性指数和萨格勒布指数。

Mordred是Moriwaki等人[3]在2018年提出的用于描述符计算的软件程序。该软件包易于使用,可以快速的计算速度生成大量的分子描述符。Mordred可以计算1 800多个描述符,并在短时间内计算出所有这些描述符。包括RDKit实现的所有描述符。它还可以计算大分子描述符,这是其他软件无法做到的。此外,人们可以通过使用生成描述符的术语来传递参数来使用替代描述符。例如,n元环的描述符计算;默认情况下,您可以计算n=3到n=12。如果需要更多数量的环,例如n=14,则可以通过传递大于12的n值轻松完成,而无需修改程序代码。这些显著优势大大提高了描述符的计算能力。

2 定量结构-活性关系模型的发展与应用

定量结构-活性关系作为一种常用且成功的研究方法,已广泛应用于化学计量学、药效学、药代动力学、毒理学等领域。近年来,定量结构-活性关系作为回归工具的数学方法得到了迅速发展。因此,在目前报道的定量结构-活性关系模型应用中,对早期定量结构-活性关系模型进行了全面回顾,如多元线性回归、偏最小二乘回归法(PLS)、SVM,包括目前主流的神经网络、综合学习模型等,模型图例解释如图2。

(a)线性回归模型;(b)支持向量机;(c)随机森林;(d)神经网络

多元线性回归模型是用于研究因变量和自变量之间关系的数学模型。由于多元线性回归模型简单直观,它已成为最流行的预测模型之一。与机器学习模型相比,多元线性回归可以在用户交互和预测结果分析方面提供更多控制。多元线性回归已应用于能源、新材料、农业、环境、商业等多个方面。

同样,作为线性监督模型,偏最小二乘可用于通过最小化误差平方和来找到最佳匹配集。PLS回归基于多元线性回归分析加上典型相关分析和主成分分析,提高了PLS的数据优化能力。使用PLS进行回归建模分析时,即使自变量的多重相关性严重,也能区分系统的有用信息和无用噪声,并且各个变量的回归系数更容易解释模型。PLS最初被提出作为解决化学计量学和计量经济学问题的数学模型。目前已广泛应用于信息学、机器学习、能源优化等领域。

随机森林是一种经典的监督学习算法,它由多个决策树集成而成。随机森林可用于回归分析和分类。在大多数实际应用中,当需要运行时性能时,随机森林算法足够快,但在某些情况下,其他方法可能更受欢迎。

在过去的几年中,深度学习模型因其令人满意的预测能力而成为机器学习的主导力量。他们的学习能力有助于解决研究人员面临的不同领域的问题。机器学习是人工智能的一个广泛使用的子领域,旨在解决计算机可以从数据中学习有用信息的问题。深度学习作为机器学习的一个内含部分,是研究样本数据的内部规则和关系。此外,与机器学习相比,它在学习文本、图像、声音等信息方面取得了更大的技术成就。与浅层神经网络类似,深度神经网络(DNN)模型是在输入层和输出层之间具有多个隐藏层的人工神经网络,可以模拟复杂的非线性关系。此外,随着层数的增加,DNN可以执行更复杂的计算,这当然会消耗更多的计算资源。卷积神经网络(CNN)不同于多层感知器。它采用本地连接和共享权重。一方面,减少的权重数量使网络易于优化,另一方面,它降低了过度拟合的风险。

3 离子液体物理性质预测

Fayyaz等人[4]使用基于支持向量机的模型来估计碳酸丙烯酯溶液中不同离子液体的电导率,该模型可应用于各种操作条件。同时,采用耦合模拟退火算法对模型进行了优化。与文献中的不同方式相比,该模型的结果更加可靠和准确。在最终的灵敏度分析中,离子液体的温度、浓度和分子量对离子液体的电导率影响最大。Koi等人[5]比较了由两种不同算法构建的模型——多元线性回归和支持向量机回归,其中真实溶剂的导体状筛选模型曾经用于产生离子液体阳离子-阴离子对的相互作用电和介电功率。结果表明支持向量机回归算法生成的模型在预测离子液体电导率方面更可靠。Gharagheizi等人混合了最小矩形帮助向量机和QSPR来识别离子液体电导率的预测。为了开发和确认模型的可靠性,收集了属于54种离子液体的977个电导率统计数据。同时,使用顺序搜索算法来确定分子描述符的最重要子集。最后,经过783条实验记录教育后,模型的偏差为1.8%,然后通过97个实验数据对模型的有效性进行评估,最终结果偏差为2.5%。可以证明该模型可以预测离子液体的电导率。第二年,Gharagheizi等人又开发了其他模型,可以精确预测离子液体的电导率,它被称为最小矩形帮助向量机群贡献。除了使用温度外,该模型还使用了总共22个半阴离子和半阳离子的子结构来区分阴离子和阳离子对离子液体电导率的影响。结果是平均相对偏差(AARD)低于3.3%。Wu等人创建了一个新的船员贡献方法模型,称为二阶团队贡献技术模型,可以获得纯离子液体电导率的高精度估计。该模型利用了二阶公司可以提供关于可实现的分子结构的额外主要事实的事实,例如离子液体异构体之间的差异。这个发现现在不仅涵盖了广泛的温度和电导率变化,而且还提到了温度和离子形状对电导率的结果,温度对离子液体的电导率有显著的影响,离子测量小,电导率随着烷基链长的放大而降低。

随着离子液体的广泛应用,其排放到环境中的概率和剂量也在增加。Cao等人[6]在其工作中预测了离子液体对白血病大鼠细胞系的毒性值。实验记录与计算事实之间的良好相关性证实,三种新方式的极限学习机(ELM)表明相关系数(R2)的结果最好,AARD%和均方根误差(RMSE)的结果最低,这验证了ELM在毒性估计中无与伦比的整体性能。这项研究还意外地发现,离子液体和离子液体阳离子侧链长度对离子液体的毒性影响巨大,为选择更多绿色离子液体提供了有用的信息,为离子液体的毒性评估带来了更可靠的平台。该概念通过量子化学描述符立即将化学形状和化学房屋联系起来。Kang等人[7]采取了不同的策略,使用原子表面碎片贡献提供了一种预测离子液体毒性的新方法,该方法主要基于片段/基团的西格玛底面积。在分析了140个实验数据后,该模型的R2和MSE分别为0.924和0.071。结果表明,通过新技术建立的ASFC模型具有过高的准确性和可靠性,在评估离子液体和其他化合物的各种性质方面具有广泛的应用潜力。

Abdi等人[8]升级了机器学习在预测离子液体中H2S气体溶解度方面的验证过程。在他们的研究中,他们使用了六个额外的高级模型,包括最小二乘支持向量机,MLP和广义回归神经网络模型,并带来了一个大型实验数据库(792个数据点)。结果表明,支持向量机准确预测了H2S在离子液体中的溶解度,其R2和AARD分别为0.997 98和4.03。最终研究发现,H2S在离子液体中的溶解度值不仅与温度有关,而且与压力直接相关。Nakhaei-Kohani等人[9]使用两种特殊技术来获得碳氢化合物气体在离子液体中的溶解度。研究人员使用热力学特性,化学结构和温度作为输入参数。最后,与状态方程的结果相比,机器学习模型具有更高的性能。

Zhao等人[10]使用基于量子化学电荷分布区域的多元线性回归和ELM数学算法来预测离子液体的热容。研究人员收集了46种离子液体的2 416个数据,温度范围为223~663 K,压力为大气压。结果显示,两种机器学习模型的AARD分别为2.72和0.60。这些数据表明,非线性模型(ELM)具有更高的预测水平,因为它能够确定复杂的非线性关系。Azadfar等人[11]使用分子量和分子结构中H、C、N、O和其他元素的原子数作为输入变量,成功地创建了一个基于ANN的新模型,可以计算离子液体的热容。该研究收集了1971年至2021年143种离子液体的7 059份实验数据,结果中平均绝对百分比偏差仅为1.14%,可以证明该模型具有更好的准确性。

4 结论

机器学习最近已成为一个广泛研究的领域,强大的学习能力和快速的计算速度使机器学习算法成为计算科学家非常有用的工具。在过去的几年中,随着对离子液体研究的深入,机器学习已被用于研究离子液体性质的定量关系。大多数关于离子液体性质的已发表文献都讨论了机器学习/深度学习在预测其物理性质(熔点、黏度、毒性)或气体溶解度(硫化氢、二氧化碳、氨气)中的应用。证明机器学习可以成为帮助科学家做好研究的有用工具。本文收集了一些机器学习和深度学习在离子液体性质预测中的应用文献,列举了一些新模型对离子液体性质的预测研究。虽然机器学习可以从大量数据中学习关联并处理大量数据,但由于数据及其来源的短缺,大量可靠的物理数据仍然需要许多研究人员的努力和配合。

猜你喜欢
描述符电导率机器
机器狗
机器狗
基于结构信息的异源遥感图像局部特征描述符研究
基于AKAZE的BOLD掩码描述符的匹配算法的研究
未来机器城
Linux单线程并发服务器探索
基于比较测量法的冷却循环水系统电导率检测仪研究
低温胁迫葡萄新梢电导率和LT50值的研究
利用CNN的无人机遥感影像特征描述符学习
高电导率改性聚苯胺的合成新工艺