基于CiteSpace的国内外CADD领域研究现状与趋势分析

2023-11-11 13:29王雨晴胡孔法胡晨骏
药学研究 2023年10期
关键词:聚类领域深度

王雨晴,胡孔法,胡晨骏

(1.南京中医药大学人工智能与信息技术学院,江苏 南京 210023;2.中国科学院上海药物研究所,上海 201210;3.江苏省中医药防治肿瘤协同创新中心,江苏 南京 210023)

计算机辅助药物设计(computer aided drug design,CADD)的理论诞生于20世纪80年代,Richards[1]首先提出计算机辅助分子设计的想法,随后Hopfinger[2]提出计算机辅助药物设计的概念。90年代,Suna等[3]将CADD定义为一种基于结构替代传统药物开发模式的新药物开发方法。21世纪后,Song等[4]对CADD的定义范围进行了补充,即CADD是一种基于化合物的存储、管理、分析和建模的计算工具和资源[5]。

CADD通过计算机模拟设计并分析化合物,在降低药物开发成本的同时,提高了药物的研发效率,对药物设计全阶段都有卓越的贡献[6]。在使用CADD进行全新的药物设计时,首先需要对化合物的合成路线进行整合,形成一个合成数据库,然后通过分子对接、虚拟筛选等方法找出可能有效的化合物,并对化合物进行药理活性预测和药效基团研究,筛选出其中可能有活性的化合物,进而完成整个全新药物设计流程[7]。然而,由于CADD理论诞生的时间相对较短,涉及学科方法众多,还存在计算方法迭代速度快等实际问题,在使用过程中给相关研究人员带来了一定的困扰[8]。因此,充分了解近年来CADD领域的研究热点,研判其未来的发展方向,对药物发现工具的持续改进具有十分重要的意义[9]。本文利用CiteSpace软件,对2010至2022年这一时间段内国内外核心期刊中CADD领域的相关论文进行整理和分析,以期为CADD的理论研究和实践操作提供基于论文数据的支撑,同时,预测该领域未来的研究趋势和发展方向。

1 研究方法及数据来源

1.1 研究方法CiteSpace是一个基于知识图谱对文献进行可视化计量分析的建模软件,由陈超美教授开发,旨在一个知识域或学科在一定时期的研究趋势与发展动向,形成若干研究前沿领域的演进历程[10-11]。本文使用CiteSpace绘制了包括关键词网络、分布时序图、突现图和聚类图在内的图谱,以分析CADD领域的相关文献。

1.2 数据来源本文分别研究了国内和国外在CADD领域的相关文献,其中国内文献来源为中国知网(CNKI)数据库,国外文献来源为Web of Science(WOS)核心合集数据库,语言选择为英文。尽管1995年CADD的概念就已经被引入国内,但是在之后的15年间,由于理论和科研条件的限制,仅有极少的论文被发表,且发表时间具有随机性,不具有统计学意义。在这个背景下,本文将文献的检索时间范围设定为2010.1.1—2022.12.31。根据表1的数据筛选方式对本文需要的数据进行初步筛选,关联词筛选全部使用模糊检索。同时,为了确保用于分析的文献质量,在筛选WOS数据库时舍去了所有Open Access文献,会议、书籍、报刊、已撤回等意义不大的文献。筛选之后,共计得到CNKI数据库文献1 096篇,WOS数据库文献2 859篇。最后,以人工的方式筛除所有相关性低的论文,并且导入CiteSpace进行去重,最终得到的可分析文献数量为CNKI数据库文献474篇,WOS数据库文献802篇。

表1 数据来源

根据上述数据可以发现,在CADD领域文献数量上,国内相较于国外有明显差距,仅有约60%的数量,说明国内在CADD领域相较于国外起步晚、研究少。参考国外已有的CADD方向的研究成果和进展,可以发现国内CADD领域仍有相当大的发展前景。因此,无论是借鉴国外已经研究的方向继续展开深入研究还是根据最新的方法提出全新的研究方向,都能够充分发挥后发优势,实现在CADD领域对国外的赶超。

2 CADD领域的研究热点及聚类分析

各研究领域的内容可以由文献中的关键词体现,关键词能够高度概括文献的主题和研究方法,而高频率的关键词往往被认为是该领域的研究热点[12]。CiteSpace提供针对“Keywords”的研究方法,将关键词作为节点,而节点大小则反应关键词的出现频率,连线代表共现关系,连线的粗细代表关系的强弱[13]。本文对国内外CADD领域相关文献分别进行关键词分析,绘制关键词网络,对比分析结果。

2.1 CADD领域的研究热点分析

2.1.1 国内研究热点图1所示的为国内CADD领域的关键词网络,图中共包括327个节点,521条连线。按照关键词出现的频率,对国内CADD领域的关键词进行排序,如表2所示。表2中同时包含了关键词出现频率和中心度,中心度量化了周围节点和中心节点之间的相关程度,反应节点在图中的重要程度。

图1 中文文献中CADD领域研究热点

表2 中文文献中CADD领域研究热点(前10)

根据表2可以发现,出现频率最高的5个关键词涉及的学科方法相似度较高,存在很强的关联性,如机器学习和深度学习都是计算机自主解决问题的方法,且都是人工智能下的重要分支[14],深度学习可以通过构建和训练多层神经网络来实现对数据的建模和学习,在分析大型数据集和识别变量之间的复杂关系和中发挥着重要作用。在分析大型数据集方面,深度学习的一个主要优势是可以自动从数据中学习特征表示[15]。与传统特征工程方法相比,深度学习能够从原始数据中学习到更高层次的抽象特征,而无需依赖领域专家的先验知识。这使得深度学习在处理复杂数据集时具有更好的灵活性和表达能力,能够发现数据中隐藏的模式和关联性。在识别变量之间的复杂关系方面,深度学习的多层神经网络结构使其能够捕捉到非线性的关系。相比于传统的线性模型,深度学习可以通过多层非线性变换来建模输入变量与输出变量之间的复杂映射关系。这使得深度学习在处理包含大量变量和复杂交互关系的问题时更为强大,可以应用于药物再利用,即发现已有的药物在其他疾病治疗中的潜在用途[16]。从表2中还可以看出,从第6个关键词开始,关键词的出现频率开始明显降低,由此说明国内CADD目前应用的领域尚未得到充分开发,现有的研究仍然只是集中在有限的几个领域,尚有许多潜力等待挖掘。

分析图1和表2可以发现CADD在国内的研究热点主要包括以下方面:

①“深度学习”和“人工智能”这两个关键词较高的出现频率表明其已经在药物设计中被广泛使用[16]。然而,其中心度还相对较低,说明它们目前仍不是目前CADD研究的必要方法。通过文献分析已经证明这两种方法的使用可以弥补已有方法的短板,因此提高其在CADD中的使用率,扩大其适用范围,将是未来药物设计的重要发展方向。

②关键词“机器学习”的出现频次排在第1位,中心度排在第2位,说明机器学习是目前CADD领域中使用最多,应用范围最广的方法。尽管“分子对接”的出现频次低于“机器学习”,但是中心度更高[17]。这是因为在基于结构设计药物的各类方法中,分子对接毋庸置疑是最重要的一种,也是目前业内使用最多,普及最广泛的一种方法,因为在使用其他设计方法时,同样需要利用分子对接来进行分子结构设计[18]。

2.1.2 国外研究热点图2为国外CADD领域的关键词网络,图中共包括455个节点,2 911条连线。按照关键词出现的频率,对国外CADD领域的关键词进行排序,如表3所示。

图2 英文文献中CADD领域研究热点

表3 英文文献中CADD领域研究热点(前10)

分析发现,现频率最高的5个关键词分别是“Machine learning”“Drug discovery”“Design”“Prediction”以及“Drug design”。其中“Drug discovery”“Design”和“Drug design”3个词虽然出现频次都很高,但是本质上都可视为药物设计这一关键词的不同表述。这一现象说明药物设计依旧是CADD的核心,而计算机只是药物设计的辅助工具。和国内的热点相同,“Machine learning”也是国外热点中出现频次最高的关键词,说明在CADD现有的方法中,机器学习是使用次数最多,使用范围最广,深受学者欢迎的一种方法[19]。相较国内,国外CADD领域每个关键词的频率都很高,而中心度数值不高且相对平均,由此说明,在国外CADD领域是一个研究热门,研究人员众多,热点百花齐放,整个领域呈现出一片欣欣向荣。

分析图2和表3的可以发现CADD在国外的研究热点主要包括以下方面:

①药物设计的概念。在药物设计的过程中,面对海量的化合物,合成并验证其有效性需要花费大量的成本。国外的研究发现使用计算机辅助可以最大限度地减少生物测定中需要筛选的配体数量,从而降低开发新药的研发成本[20]。

②CADD的方法。国外CADD所使用的方法是包括机器学习、深度学习在内的人工智能方法。在上述的方法中,遗传算法中心度最高,使用频率仅次于机器学习,这意味着专家学者和从业人员在使用人工智能方法进行药物设计,大都会使用到遗传算法[21]。遗传算法是一种启发式搜索方法,应用进化论原理模拟遗传中发生的复制、交叉和变异现象,通过随机选择、交叉和变异操作对给定的搜索问题提出近似最优解[22]。同时,遗传算法具有很好的收敛性,计算时间少,算法鲁棒性高,适用于处理各种问题,其理论依据与CADD的理论不谋而合[23]。

③CADD解决问题的方式。国外的研究发现,CADD能够对化合物和靶点进行识别,根据它们的相互作用关系,预测先导化合物,根据预测出的化合物进行分子对接,然后筛选出能合成且活性高的部分进行试验,达到设计药物的最终目的。

2.2 关键词聚类分析在关键词网络的基础上,根据K-means算法,绘制关键词聚类图用以了解近10年来的CADD的主要研究方向。聚类算法将相似度大的节点放在同一聚类中,尽可能保证不同聚类的差异性达到最大[24]。聚类编号越小,聚类的规模越大,聚类包含的数量也就越多。本文选择前7个较大的聚类进行分析。

2.2.1 国内关键词聚类分析图3所示的为国内CADD领域的聚类图。

图3 中文文献中CADD领域聚类图

表4所示的聚类结果反映了国内CADD的工作路线,该工作路线也是目前国内CADD主要的研究方向。“机器学习”“深度学习”和“人工智能”是CADD领域中所使用的方法。根据图3可以发现目前计算机对药物设计的影响主要体现在人工智能的算法领域,即使用合适的机器学习和深度学习算法对药物进行分析和设计。“分子对接”“虚拟筛选”和“合成”是计算机参与设计药物的具体手段,虚拟筛选中包括研究药物的药效基团,发现药物分子的关键药效特征,预测药物的药理活性筛除没有活性的化合物等具体方法,通过计算机合成分子式,对分子的作用靶点进行预测和筛选。设计者通过计算机合成分子式,对分子的作用靶点进行预测和筛选。“药物疗法”是CADD的目标,即利用计算机参与药物设计,从而进行新药开发的相关工作。

表4 中文文献中CADD领域聚类分析(前7)

2.2.2 国外关键词聚类分析图4所示的为国外CADD领域的聚类图,表5列出了英文文献中排在前7的聚类词。

图4 英文文献中CADD领域聚类图

表5 英文文献中CADD领域聚类分析(前7)

根据图4和表5显示,国外聚类规模最大是“scoring function”,而这个方向在国内聚类中没有体现。评分函数主要被用来对化合物进行评估,确定化合物的结构和结合靶点的能力。该函数的应用在实际进行药物设计时是绝对不可或缺的一步,尤其是在商用情况下。国外的CADD领域发展较早,已经完成从实验室到生产线的转化,而国内CADD由于发展较晚,目前和商业结合度较低,大多在高校或研究院中使用。聚类词“feature extraction”在国外的CADD中被广泛使用,包括定量构效关系、机器学习和深度学习算法。而国内,由于CADD起步较晚,发展较慢,目前理论分析仍大于实际应用,且更多是在中药靶点分析设计使用中,数据量相对较小,因此在特征提取方面没有得到深入研究[25]。聚类词“tool”则解释了CADD的属性,是一种用于药物设计的工具。而聚类词“machine learning”和“virtual screening”则与国内聚类结果相同,再一次证明了这两个方法对于CADD领域的重要性。聚类词“design”说明了国外的CADD的路线同样是利用相关算法进行包括分子对接在内的相关工作,最终实现目标药物的设计,这一点与国内是一致的。由此说明,国内CADD的相关工作大多仍是基于对国外的学习。

3 CADD领域的演进趋势分析

在进行可视化分析时,演进趋势能够清晰地表示目标领域的发展方向,本文利用CiteSpace提供的“Timezone”方式,根据关键词出现的时间节点和出现频率绘制了分布时序图。其中,关键词为节点,关键词之间的关系为连线,节点所在位置为该关键词在数据集中首次出现的年份,节点大小和颜色的深浅度反映了关键词出现的频率。通过对分布时序图的分析,能够清楚的了解CADD的演进趋势。

3.1 国内CADD领域的演进趋势分析图5为国内CADD的分布时序图,时间范围为2010—2022年。

图5 中文文献中CADD领域分布时序图

在20世纪80年代,虽然国外CADD理论的诞生和传播对国内的药物设计产生了影响,但直到21世纪该理论才逐渐被国内的学者应用在实践中[26]。从图5中可以发现在人工智能算法被引入CADD之前,国内就已经使用虚拟筛选和分子对接方法进行药物设计[27-28]。随着个人电脑的普及和国产超级计算机的出现,利用计算机进行药物设计逐渐走进研究人员的视野。尽管机器学习很早就以数据挖掘的方式被应用于硕博毕业论文中,但真正用于药物设计并被期刊发表则起始于2008年,且每年只有零星的相关论文发表[29]。直到2015年,机器学习在中文期刊中的数量才逐渐增多,但是数量依旧有限。同样的情况也体现在深度学习上,第一篇药物设计与深度学习相关的文献发表于2015年[30]。图5中大部分关键词都非常宽泛,这是由于虽然近5年国内相关文献的数量逐渐增多,但是对CADD的研究更多还是集中在理论研究上,主要包括对CADD的原理和适用范围等内容的研究[31]。同时,国内原本就有限的文章还大多为综述类文章,研究性文章数量很少,因此国内的CADD领域在具体实验方面还有很大的发展空间。

3.2 国外CADD领域的演进趋势分析图6为国外CADD的分布时序图,时间范围为2010—2022年。

图6 英文文献中CADD领域分布时序图

1985年,随着第一篇CADD文章在国外发表,标志着计算机正式被引入药物设计领域[32]。国外关于分子对接和虚拟筛选在药物设计的应用分别起始于1992年[33]和1995年[34],明显领先国内,但是近10年来,与二者相关的文章比例相对较小。造成这一现象的原因是,国外分子对接和虚拟筛选的方法在CADD中提出早,实现早,应用早,目前已经应用于商业药物研发,对它们的研究已经非常充分,在实验中很难有进一步的提升空间[35]。相较于国内,国外机器学习算法的应用甚至早于分子对接,1991年就提出用机器学习的方法来进行预测分子[36]。从21世纪开始,国外相关文献的数量稳步增加,每年发表的文献数量超过国内发表文献数量的10倍。根据图6可以发现,机器学习中的一系列算法逐步被应用在药物设计中,以解决遇到的实际问题。由机器学习延伸的深度学习算法尽管被使用的时间不长,但使用的频率却很高,尤其是复杂神经网络和深度神经网络等内容更是热门。去除代表药物发现、设计等缺乏具体意义的节点,遗传算法在该领域分布时序图中具有十分重要的地位,其可以被认为是人工智能算法中使用频率最高的算法之一[37]。目前,国外的研究人员还在不断地根据生物学的需要对算法进行优化改进,以期望达到更好的预测效果。

4 CADD领域的未来趋势分析

突变词是指关键词在某一年出现并随后出现爆发式增长,其可以利用CiteSpace中提供的“Burstness”方法找到。突变词可以用于了解一个领域在这个时间段内的研究热点并预测该领域未来的发展趋势。本文选择前十位关键词绘制CADD领域的突变词图谱,“Strength”代表突变强度,“Begin”代表突现开始时间,“End”表示突现结束时间,红色代表突现持续时间。

4.1 国内CADD领域的未来趋势分析图7为国内CADD的突变词图谱,时间范围为2010—2022年。

图7 中文文献中CADD领域突变词图谱

如图7所示,国内近几年CADD领域的研究热点在深度学习和机器学习,通过这两个方法进行药物研发。同时,深度学习的突现强度非常高,可预见国内CADD未来的研究方向将有如下变化:

①传统CADD中使用的分子对接和虚拟筛选方法经过一段时间大量使用后,技术层面已经发展非常成熟,因此使用频率已经趋于稳定。目前分子对接和虚拟筛选更多被应用于实践中,在未来也将更多作为成熟的药物发现手段,应用在药物合成实验之前,而不再是作为一个创新方法。同源建模是一种根据已知结构的蛋白和同源蛋白之间的结构差异来预测蛋白质功能和特异性变化的方法。该方法曾经风靡一时,但在实际使用过程中仍有较多问题难以解决,主要包括对较长的结构发散区域进行建模。因此,该方法目前实际上已经陷入瓶颈,不再成为未来研究的主要方向[38]。

②自人工智能方法被引入药物设计中后,很快在药物设计领域异军突起,直到当下仍然是研究重点。深度学习作为人工智能方法的一种,突现强度非常高,说明其受到了研究人员的广泛关注。在药物发现阶段,深度学习可以对大量化合物的结构和活性数据进行训练,从而预测新的化合物的活性和潜在药效[39]。通过对已有药物的药理数据和疾病信息进行学习,深度学习可以帮助识别出已有药物与其他疾病之间的关联性,从而推断其在新的治疗领域的潜在应用。此外,深度学习还可以用于预测药物代谢、药物相互作用和药物副作用等方面。通过对大量药物相关数据的学习,深度学习可以辅助预测药物的代谢途径、相互作用和潜在副作用,从而帮助药物研发人员在早期阶段对候选化合物进行筛选和评估[40]。随着研究的不断深入,深度学习会更加贴合药物设计的需求,其未来必将成为CADD领域研究的重要方法。

4.2 国外CADD领域的未来趋势分析图8为国外CADD的突变词图谱,时间范围为2010—2022年。

图8 英文文献中CADD领域突变词图谱

如图8所示,前十的关键词在2020年以前都已经结束突现,其中“genetic algorithm”的突现强度非常高。因此,可预见国外CADD未来的研究方向将有如下变化:

①前十的关键词的突变都出现在2020年以前,且突变强度都非常高。其中genetic algorithm的突变强度高达19.37,一度被认为是当时CADD领域研究的最前沿。但随着时间的推移,遗传算法逐渐成熟,已经成为CADD领域中常用的方法,虽然具有很强的实用价值,但是在研究领域很难有进一步的提升空间,无法代表国外CADD领域未来的研究方向。

②虽然关键词数量很多,且方向各不相同,在研究方向上呈现百花齐放的态势。但是,近两年有突现表现的关键词的突现强度都不高,说明国外CADD领域近两年没有普适性强的新方法提出,大多研究是在已经提出的大方向上进行细化,或者根据具体需要实现的目的进行分类研究。

5 结论与展望

使用CiteSpace作为研究工具,对从CNKI数据库和WOS数据库中2010—2022年的国内外CADD领域相关文献进行基于知识图谱的可视化分析,获得其在研究热点、演进趋势、未来发展方向的研究结论如下:

①从研究热点来看,国内CADD领域的研究更多在已经成熟的方法,包括虚拟筛选和分子对接,新方法仍然更多停留在理论阶段,且具体应用较少。国外CADD领域的研究更多偏向新方法的实际应用,目前已经做到将成熟的工具应用在工业生产中的同时,基于不同的需求开发针对性的算法。国内在新方法、新工具的使用上不能拘泥于已经证明有用的方法,应当积极尝试一些尚未应用于药物设计领域的新方法,提出具有自主知识产权的新方法,打破国外的知识壁垒,为未来行业发展夯实基础。

②从演进趋势来看,国内CADD领域的研究相较于国外具有起步晚、增长慢、应用少的不足,大多方法都是由国外研究人员首先提出后国内才开始使用。国外CADD领域随着计算机迭代更新不断发展,一直走在领域最前沿。相较于国外,国内在CADD领域一定程度上拥有后发优势,如何充分利用后发优势值得我们深思。充分汲取国外的成功经验,在研究中少走弯路,同时思维不受已有成果的影响,用自己的方法开创出真正适合国内CADD的研究成果是当下国内学者的共同目标。

③从未来发展来看,对于CADD本身而言,其最新发展是使用深度学习算法来预测潜在候选药物的特性,能够辅助CADD分析大型数据集和识别变量之间的复杂关系并最终帮助药物设计。国内CADD领域的研究需要提高实验比例,同时针对算法进行更加深度的研究,将算法真正用到药物设计的实际应用中。而国外CADD领域则将继续根据实际需求对算法做进一步细化修改,使其尽可能贴合药物设计的需求,从而提高设计任务完成的精确度。理论研究是实践的基础,但是空谈理论不加以应用,理论就失去了存在价值。只有将现阶段国内CADD领域的理论知识尽快应用于实践,才能进一步促进理论知识的更新和发展,跟上国外CADD研究的前沿方向。

结合上述结论和目前国内CADD领域的研究现状和,本文提出如下建议:①积极将理论应用于为实践,根据成功的实践推动理论的持续发展,实现CADD领域的良性循环;②加强CADD,特别是关于人工智能算法方向的实际应用,积极学习国外在应用方面的经验,打破国外在CADD领域的知识壁垒,提出具有自主知识产权的CADD设计方法;③密切关注计算机算法研究的最新动向,取其精华来补充CADD存在的不足,以期在推动国内CADD研究向前发展的同时,丰富CADD领域应用的新方向,使得国内的研究能够始终走在技术革新的最前沿,最终让国内在CADD领域真正获得全面发展,在未来实现对国外研究的超越。

猜你喜欢
聚类领域深度
深度理解一元一次方程
领域·对峙
深度观察
深度观察
深度观察
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
新常态下推动多层次多领域依法治理初探
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例