基于CiteSpace对新型冠状病毒肺炎疫苗文献的可视化分析

2022-05-11 03:00瞿心远应曜宇
现代医院 2022年2期
关键词:聚类可视化节点

蓝 蕾 瞿心远 应曜宇

1 浙江大学医学院附属第一医院传染病诊治国家重点实验室 浙江杭州 310003; 2 苏州市吴中区卫生监督所 江苏苏州 215000; 3 苏州大学附属第二医院 江苏苏州 215000

新冠肺炎(corona virus disease 2019,COVID-19)是一种以发热、乏力、干咳为主要临床表现,并以呼吸道飞沫和密切接触为主要传播途径的严重传染病。新型冠状病毒(SARS-CoV-2)进入人体后,常有1~14 d的潜伏期,多数在3~7 d发病。国家卫健委2020年1号文件将新冠肺炎纳入《中华人民共和国传染病防治法》规定的乙类传染病,并采取甲类传染病防控措施[1-2]。截止2021年8月底,全球新冠肺炎累计确诊病例超2亿例,累计死亡病例超过400万例,而新冠病毒的感染病例和死亡病例仍在持续增加。新冠肺炎疫苗相关的研究已经成为当前医学领域主要的研究热点之一[3]。全球已经有超过100种的疫苗处于临床试验中,包括灭活疫苗、重组亚单位疫苗、病毒载体疫苗等。疫苗接种已经成为预防新冠肺炎的最有效、经济、合理的手段[2, 4]。

文献计量学被广泛应用于发现研究热点、分析研究成果和研究趋势,有助于理解某一特定领域的知识库和研究前沿进展情况。而CiteSpace 软件是基于文献计量学进行可视化分析的重要软件,该软件由陈超美教授发明,较为直观地展示文献研究的动态变化,主要关注研究领域的主流方向、核心路径和关键环节,尤其适用于分析热点问题[5-6]。CiteSpace 软件通过不同的算法对文献中作者、研究机构和关键词等重要信息进行分析,从协作网络分析、共现关键词分析、作者共被引分析等多个方面对不同类型的文献进行计量研究,在医学、生态学等领域有着广泛的应用[5, 7-8]。CiteSpace 软件是将文献信息数据可视化的一种工具,其不仅可辅助分析科研领域的基本知识、研究热点及前沿,还可预测主题演变趋势以供指导[9-11]。本研究通过运用CiteSpace 软件对重型新冠肺炎研究文献进行可视化分析,客观了解该领域研究的热点与前沿,希望能为该领域的研究者提供研究思路[12-14]。本研究拟通过Excel 和CiteSpace 软件分析Web of Science 数据库中新型冠状病毒肺炎疫苗研究的相关文献进行可视化分析,探索当前新冠疫苗研究现状、研究热点和发展趋势,为该领域未来研究提供科学参考。

1 资料与方法

1.1 数据来源

在Web of Science 数据库进行主题检索,选择Web of Science核心合集数据库,检索时间设置为2019年12月1日-2021年7月15日,具体检索策略为,主题词=“COVID-19 vaccine*” OR “coronavirus disease 2019 vaccine*” OR “2019-ncov vaccine*” OR “2019 novel coronavirus vaccine*” OR “sars-cov-2 vaccine*” OR“sars coronavirus 2 vaccine*” OR “corona virus disease 2019 vaccine*” OR “severe acute respiratory syndrome coronavirus 2 vaccine*” OR “COVID 19 vaccine*” OR “2019 ncov vaccine*” OR “sars cov 2 vaccine*” OR “sarscov-2 vaccine*” OR “COVID-19 NEAR/5 vaccine*” OR“sars-cov-2 mrna vaccine*” OR“COVID-19 4mrna vaccine*”OR “Coronavac” OR“WIBP-Corv” OR “BBIBP-Corv” OR “Ad5-nCov” OR “Vaxzevria” OR“ AZD1222” OR“ BNT162b2”,文献类型限定为Article和 Review,语种限定为英语。在文献导出时选择“其他文件格式”,记录内容选择“全记录与引用参考文献”,文件格式选择“纯文本”。

1.2 方法

采用SATI 文献题录信息统计分析工具 (statistical analysis toolkit for informetrics)和Excel2019对导出的数据库进行处理,抽取主要的字段信息并进行统计分析。

采用CiteSpace 5.8. R2软件对COVID-19相关文献进行计量分析,主题节点包括国家/研究机构、期刊/杂志、作者、关键词和被引文献分析。其中网络图谱中节点的大小表示出现次数或被引频次的多少,节点间线条粗细表示节点之间联系紧密程度,线条越粗、颜色越深代表节点之间的联系越紧密,有着更深的合作关系。CiteSpace中使用中介中心性来量化节点在网络中地位的重要性,中介中心性越高,表示网络中越多的联系需要通过该节点,该节点在网络中常发挥桥梁作用,中介中心性≥0.1的节点常用紫色圆圈进行重点标注[12]。将检索到的文献导入CiteSpace 5.8. R2软件, 设置Time Slicing 为2020.1 -2021.12,Years Per Slice 为1,分别以研究机构(institution)、作者(author)、关键词(keywords)、文献(reference)为节点,选择最小生成树(MST)算法精简网络,生成可视化图谱进行可视化分析。

2 结果

根据本研究的检索策略,从Web of Science核心合集共检索出1 717篇英文文献(包括论著和综述),导入SATI工具和Excel2019进行信息提取和统计分析。同时导入CiteSpace软件的数据清洗(包括格式转化和去重复),最终纳入1 363篇进行可视化分析,其中2020年发文371篇,2021年发文992篇。

2.1 国家和研究机构分析

结果显示,共有128个国家参与COVID-19疫苗文献的发表。其中,美国发文量最多(690篇),第二位为中国(193篇),第三位为英国(192篇)。共有3 238个研究机构发表了COVID-19疫苗的文献,牛津大学发文量最多(106 篇),发文量第二位的为以色列的特拉维夫大学(53篇),第三位为华盛顿大学(52篇),复旦大学发文量为35篇,居第十位。居前10位的研究机构均为大学,且有7 所研究机构来自美国。结果见图1。

图1 COVID-19疫苗相关文献发表数量前10位的国家/研究机构

对研究机构的中心性分析显示,排名前十位的研究机构分别是多伦多大学、伦敦卫生与热带医学院、哈佛大学医学院、伦敦帝国理工学院、Gen Dynam Informat Technol、华盛顿大学、牛津大学、斯坦福大学、范德比尔特大学和中国科学院。见图2,以“institution”为网络节点,生成102个节点,116条连线的研究结构合作网络,网络密度为0.022 5。在图2中,以紫色圆圈标注的研究机构,中介中心性较高,在合作中发挥桥梁作用。而连线越粗则表示这些研究机构合作更为紧密。

图2 发表COVID-19疫苗相关文献的研究机构合作图谱

2.2 期刊/杂志分析

截止2021年7月15日,共有664个期刊发表了COVID-19疫苗相关的文献。被引期刊/杂志排名前三的分别是New Engl J Med (846次),Lancet(791次) 和Vaccine(696次),见表1。

表1 COVID-19疫苗相关文献被引数量前10位的期刊/杂志

2.3 作者分析

发文量前四的作者分别是Dan H Barouch(13篇)、Lambe Teresa(11篇)、Hanneke Schuitemaker(10篇)和Sarah C Gilbert(13篇),被引频次前十的作者分别是Dan H Barouch(9次)、Grace M Lee(8次)、H Keipp Talbot(8次)、Teresa Lambe(8次)、Megan Wallace(8次)、Beth P Bell(8次)、Jose R Romero(8次)、Sara E Oliver(8次)、Hanneke Schuitemaker(8次)、Sarah C Gilbert(8次)。由此可见,Dan H Barouch的发文数量和被引频次均排名第一,是COVID-19疫苗相关研究领域的代表作者,同时Hanneke Schuitemaker、Sarah C Gilbert、Megan Wallace和Grace M Lee的发文数量和被引频次也相对较高,是COVID-19疫苗相关研究领域值得关注的作者。

表2 COVID-19疫苗相关文献发文量和被引量前10的作者

对作者的被引频次分析显示,以“author”为网络节点,生成了303个节点,222条连线的研究结构合作网络,网络密度为0.004 9的作者合作网络。图中每个节点代表一个作者,连线代表作者之间的合作关系,字体越大,颜色越深,说明该作者越在领域中越有影响力。结合网络图谱分析可知,Dan H Barouch是COVID-19疫苗相关研究领域的代表作者,与前述分析一致。同时,目前主要有3个较大的团队对COVID-19疫苗进行研究,团队内部合作较为紧密,但各团队之间未出现合著发表的关系,联系不太紧密。

图3 发表COVID-19疫苗相关文献的作者合作图谱

2.4 关键词共被引及聚类分析

以“keyword”为网络节点,生成77个节点,88条连线,密度为0.030 1的关键词共现图谱,出现频次最高的关键词是COVID-19。一般认为,中心度≥0.1的节点在网络结构中有重要的位置,在知识结构的演变中扮演重要的角色,反映该研究的热点方向。见表3所示,可见COVID-19疫苗相关研究主要围绕对疫苗的接受度及担忧、免疫反应、急性呼吸综合征、流感、刺突蛋白及受体结合域、mRNA疫苗等方面开展。

表3 COVID-19疫苗相关文献中心性前10的关键词分布情况

对关键词进行聚类分析,聚类选择Find Cluster,算法选择LLR。研究结果显示,Q=0.696 2,S=0.884 3,Q值大于0.3说明划分出来的社团结构是显著的;S值大于0.7,说明聚类效果明显,信度较好。共形成7个聚类标签,分别为聚类#0 spike protein,聚类#1 sars-cov-2,聚类#2 vaccination,聚类#3 vaccine hesitancy,聚类#4 influenza,聚类#5 protective immunity,聚类#6 acceptance,聚类#7 clinical trials。聚类标签序号越小,包含节点越多。聚类#0 中的节点数最多,包含新型冠状病毒的分子结构、疫苗研制有关的主要靶点及重要方法等;聚类#1涵盖COVID-19疫苗开发的潜在方法和研究途径等;聚类#2关注COVID-19疫苗的接种、过敏反应、mRNA疫苗及第二针剂的接种情况;聚类#3包含疫苗接受度的横断面调查、不同人群的接种意愿;聚类#4为COVID-19疫苗与通用流感疫苗的比较、抗体依赖性增强效应的研究;聚类#5涉及基于不同方法对COVID-19疫苗接种策略及保护效果的研究;聚类#6关注不同地区人群对疫苗的认知及接受度情况;聚类#7包括了疫苗潜在的佐剂临床试验等。同一聚类为同一色块,每个聚类模块的关键词节点颜色与色块的颜色相同。见图4。

图4 COVID-19疫苗相关文献的关键词聚类图谱

2.5 文献共被引分析

以“reference”为网络节点,生成80个节点,79条连线,密度为0.025的文献共被引网络。其中,共被引频次最高的文献第一作者是Fernando P. Polack(287次),题目是“Safety and Efficacy of the BNT162b2 mRNA COVID-19 Vaccine”;其次是Lisa A. Jackson(166次),题目是“An mRNA Vaccine against SARS-CoV-2—Preliminary Report”;第三名是Pedro M. Folegatti(147次),题目是“Safety and immunogenicity of the ChAdOx1 nCoV-19 vaccine against SARS-CoV-2: a preliminary report of a phase 1/2, single-blind, randomised controlled trial”。通过对网络进行时间线图谱可视化,可以发现COVID-19疫苗相关文献所引用的第一篇参考文献发表在2016年。随着COVID-19疫情在全球的扩散,从2020年开始,COVID-19疫苗相关研究开始增多,同时出现了一些高被引的标志性文献。见图5。

图5 COVID-19疫苗相关文献的时间线图谱

3 讨论

文献的计量分析中,发文量最多的国家为美国,发文量居前10 位的机构均为高校或高校附属医院,且7 所机构位于美国,体现了高校在本次公共卫生事件中极高的参与度,也表明了美国学者在重症新型冠状病毒肺炎的研究最为广泛。从被引期刊频次可以看出老牌的医学期刊仍是大家认可的。除了疫苗专刊《Vaccine》,其他期刊影响因子均高于50,在后续研究时研究者可以重点关注这些杂志上的研究进展,减少文献过滤时间。

文献可视化分析中,裁剪算法Pathfinder 可简化网络并保留关键信息节点。作者合作的可视化图直观地体现了重症新型冠状病毒肺炎研究领域作者之间的合作关系。从关系图可以看出同一国家的作者合作较为紧密,但是国际间作者合作关系仍较少。其中最大团队中的中国学者Jingyou Yu隶属排名第一Barouch教授的实验室,主要研究免疫反应与病毒感染和新型疫苗。国内作者应积极与美国等国家的作者合作,共同致力于解决这一全球性问题[15-16]。

关键词共现和聚类主要用于体现研究领域的热点,关键词聚类是将相似关键词进行分类,在聚类分析中,Q即聚类模块值:Q>0.3提示聚类结构明显;S 即聚类平均轮廓值:S>0.7提示聚类结果内部具有高度一致性,是令人信服的。本研究中Q=0.696 2>0.3,S=0. 884 3>0.7,因此聚类结构明显且结果令人信服。关键词中COVID-19、疫苗、病毒说明了本次研究的中心;接种反应、疫苗犹豫、疫苗接受度等等体现了过去一年里研究者已经将疫苗的研究方向从基础研究、原理研究转向到了如何提高群众接受度和疫苗安全性,这也从侧面说明了新冠疫苗已经基本研究成熟。但仍需要#6、#7等研究者继续对疫苗进行大规模的流行病学调查和临床试验,不断改善疫苗质量[17-20]。在一定程度上,文献共被引频次与文献的学术影响力成正比。最高共被引与第三名均发表在《Lancet》上,内容均与疫苗临床试验有关,第二篇发表在《New Engl J Med》,内容也是疫苗的临床试验。这提示我们目前而言临床试验仍是金标准,这3篇文章可以认为是新冠疫苗研究的必读内容。以上两种期刊均为医学界的顶级期刊,在医学领域具有举足轻重的地位,具有高影响力、高传播性、高时效性的特点,为临床医务工作者以及政府管理部门提供疫苗接种的最新研究进展和方向[21-23]。

本研究也存在一些局限性:①从文献来源方面,纳入文献均来源于Web of Science 数据库,致使文献收录不够全面;②从文献语言方面,纳入文献的语言均为英语,未纳入相关的中文文献进行分析;③时间及时更新的限制。

综上所述,当前新冠疫苗接种的安全性、疫苗临床试验、流行病学调查是新冠疫苗研究的几个方向,全世界医务工作者应加强国际间合作与交流,开展更多高质量随机对照试验,为未来预防新型冠状病毒肺炎的研究提供更有价值的参考依据。

猜你喜欢
聚类可视化节点
一种傅里叶域海量数据高速谱聚类方法
自然资源可视化决策系统
基于知识图谱的k-modes文本聚类研究
思维可视化
基于图连通支配集的子图匹配优化算法
一种改进K-means聚类的近邻传播最大最小距离算法
一种基于链路稳定性的最小MPR选择算法
结合概率路由的机会网络自私节点检测算法
基于模糊聚类和支持向量回归的成绩预测
基于知识图谱的我国短道速滑研究可视化分析