基于CiteSpace 对中国高原高血压研究热点与演变的知识图谱分析※

2020-11-03 08:19王伟帅李阳兵刘鑫源罗勇军
中国高原医学与生物学杂志 2020年3期
关键词:图谱高原聚类

王伟帅,李阳兵,刘鑫源,罗勇军☆

(1.重庆师范大学地理与旅游学院,重庆 400047; 2.陆军军医大学陆军卫勤训练基地军事医学地理学教研室,重庆 400038)

高原高血压是高原地区高发的一种慢性心血管疾病,根据病因和持续时间可分为高原原发性高血压和高原高血压[1]。由于高原高血压的研究是一门跨学科体系的耦合过程,而跨学科研究具有一定的复杂性与学科创新性[2]。在国内外学术界对中国西藏、印度北部、秘鲁高海拔地区高血压患病率的实证研究中,均发现高海拔与高血压患病率存在一般相关性与空间异质性,高原环境特征与人文要素共同影响高原地区患病率特征[3-4]。综合回顾高原高血压研究结果,在地区患病率特征、高海拔地区地理环境因子作用方面取得一定成果,但对其发生反应机制、过程、空间分布规律等的研究还处于低水平阶段[5]。同时高原地理环境与高血压存在哪些相关性联系及其传导与反馈机制不够清晰,相关研究还有待进一步深入。

本研究采用定性、定量两种方法运用Citespace软件对CNKI数据库中高原环境与高血压的研究文献进行定量化的综述分析,了解高原高血压领域的研究进展、前沿、热点及发展趋势。

1.研究数据与分析方法

1.1 研究数据

在高原高血压相关文献研究中,经比对多个文献数据库,最终确定为CNKI数据库。其中最大的原因是文献数据较多。从数据库选取主题为“高原与高血压”“高原与血压”或者关键词为“高原环境高血压”的期刊文献有285篇,构成文本的全部分析数据。

1.2 数据转换与参数

数据转换方面,将文献数据库中筛选出的285篇文献进行Citespace格式转换:首先对所选文献以Refworks格式保存输出,然后将用Citespace 5.5.r2软件导出的数据格式转换为软件能够识别的TXT数据格式,创建数据文件夹Data和工程文件夹Project,最后将转换好的TXT数据文件复制到Data文件夹中分析[6]。

参数设置方面,由于文献量有限所以选择长时间尺度,定为1970~2020年。最后能够统计出文献的时间跨度为1981~2019年。时间层片设置为1阈值选择:Top N为50,Top N%为10.0%;剪切采用Pathfinder方式。[7]

1.3 分析方法

使用Citespace 5.5.r2软件对所选文献进行关键词共现分析、关键词聚类分析、关键词共现网络时区分析、关键词共现网络时间线分析、作者共现分析、机构共现分析[8];利用交叉分析功能进行关键词与作者、关键词与机构共现可视化图谱分析。

1.3.1 统计性指标分析

对年际发文量、被引数、参考数、下载数等相关统计性指标以数据库搜索结果为依据建立相关统图表分析其统计学意义。

1.3.2 关键词共现和聚类分析

关键词是一篇文章中作者对于整体研究内容的总体把握与高度概括,反映了文章的核心思想与研究重点,同时在一定程度上反映文章的学科结构与专业方向[9]。所以对关键词科学把握与剖析有利于发现该专业领域研究热点情况。Citespace软件对关键词具有强大的解析能力,利用关键词节点进行关键词共现、聚类分析绘制相关特征图谱,可科学直观地展示文献研究热点与研究前沿的动态变化过程[10]。关键词共现分析:利用Citespace软件进行关键词共现分析前,对软件的相应参数进行设置,选择软件节点(Keywords),设定阈值(Top N=50,Top N%=10),选择寻路径算法(Pathfinger),点击“go”生成高原高血压关键词共现知识图谱[11]。关键词聚类分析:在关键词共现分析操作的基础上点击Citespace软件聚类功能键,随后点击LSI算法。

1.3.3 关键词时区、时间线和突现分析

关键词时间线图谱单纯由关键词与时间尺度排列形成,而关键词时区图谱依据关键词聚类后的研究进展情况同时按照时间尺度排列而成。这两种图谱可以呈现研究前沿的动态情况。一种可以更直观反映研究前沿的图谱是利用Citespace软件中的“Burstness”功能绘制高原高血压研究的关键词突现率知识图谱,在Citespace软件中的“突现词”可以展示一个领域在某一时段的研究前沿内容[12]。对高原高血压研究前沿进行探测并绘制相关知识图谱,能够将研究前沿内容进行可视化展示。

3.1 量表汉化过程 本研究严格按照量表引进原则对英文版N-QOL进行汉化,对源量表及中文版量表进行比较、分析后基本实现了语义及内容的对等性。研究者运用标准化指导语对预试验对象进行指导后,对象能够准确理解各条目的含义并根据自身实际情况作答。

在关键词共现基础上,利用“Control panel”栏,将“Layout”任务键选在“Visualizations”视图框中点击“Timezone view”后运行得到关键词共现时区图。其直观反映出不同时间段下,所研究领域的前沿内容及其衍生关系。

在关键词聚类操作基础上,依旧采用lsi聚类算法,利用“Control panel”栏,将“Layout”任务键选在“Visualizations”视图框中点击“Timeline view”后运行得到关键词共现时间线图。其直观反映出研究热点在聚类标签下随时间动态演变的情况。

在关键词共现基础上,点选“CiteSpace”软件中功能栏选项后,点击“Burst detection”功能后运行得到关键词突现图谱,其能够探测关键词在某段时间内引用状态有较大变化的情况,进而反映某一个关键词或主题词兴起与衰落过程情况[13]。

1.3.4 作者、研究机构和关键词分析

利用CiteSpace软件对作者与研究机构合作情况进行分析:设置相关软件参数,节点分别选择“Author”和“Institution”,设定阈值(Top N=50,Top N%=10),选择“Pathfinger”,点击“go”分别生成高原高血压研究作者、机构共现知识图谱。继续对作者与关键词、机构与关键词进行交叉共现分析,调整相关参数设置,将节点分别选择为“Author”“keywords”“Institution”和“Keywords”后运行生成作者与关键词、研究与关键词共现知识图谱。

2.结果

2.1 统计性指标

2.1.1 年际发文数量

文献年际发文量统计折线图(图1)显示,高原高血压年际发文量呈现三阶段特征:1981~2007年,处于平稳波动、小幅上升阶段,但这段时间的发文量一直处于低水平阶段;2007~2011年,进入快速上升阶段,2011年是全部分析年份中的最高值达到35篇;2011年以后,波动性下降且下降幅度较快。2019年虽有部分文献还未录入数据库,但为了研究的完整性,本研究还是将2019年作为数据采集时间范围。

图1 1981~2019年CNKI来源期刊高原高血压研究文献年际发文量

以上三个阶段显示,第一阶段:探索阶段(1981~2007年),高原高血压研究处于探索时期,这段时间内学术界的研究以高血压相关临床症状、病理机制、动态变化与高原地理环境特点的相关性分析为主。第二阶段:快速发展阶段(2007~2011年),发文量与关键词都呈现快速增长趋势,研究内容集中在高原地理环境因子影响下的综合性研究。第三阶段:创新发展阶段(2011年以后),发文数量呈明显的波动性下降,研究内容集中在急进高原等服务于国家战略的新兴研究热点。

2.1.2 其他统计性指标

表1 2007年前后段文献统计指标数据

2.2 关键词共现和聚类

2.2.1 关键词共现

“关键词共现”结果见图2。图中每一个节点代表一篇文献,节点越大,该关键词词频越大,主题相关性越大;颜色越暖表示时间越近,颜色越冷表示时间越久远[14]。

图2 高原高血压关键词共现知识图谱

“关键词共现”分析结果显示,在图谱中一共形成节点57个,连线76条(N=57,E=76)。在高原高血压研究领域中发文数量大于10篇的关键词一共有6个,其中高血压出现的频次最多,达105篇,中心性高达0.38;其次为高原,达101篇,中心性为0.32;高原地区51篇,中心性为0.27。发文篇数大于4篇的所有关键词出现频次以及中心性情况见表2。

表2 发文篇数大于4篇的关键词出现频次以及中心性统计情况

表2显示,在高原高血压的研究中没有呈现显著的融合特征。

2.2.2 关键词聚类

关键词聚类分析是通过某种数学算法模型划分文献集群,进而表示该知识领域的整体性特征情况。CiteSpace软件提供了三种聚类分析算法模型,分别为LSI浅语义索引、LLR对数极大似然率、互信息算法[15]。为获得科学合理的聚类结果,对于所采用的聚类算法,经过反复调试和对比,最终采用LSI浅语义索引算法对高原高血压进行聚类,结果见图3。

图3 高原高血压LSI聚类结果图

高原高血压聚类结果显示,经过寻路径算法计算得到的Modularity Q=0.6679,表明高原高血压研究网络的聚类合理、网络社团结构显著;Mean Sihouette=0.4166,表明网络的同质性一般较高、聚类结果信度一般性较好[16]。

2.3 关键词共现时区、时间线和突现图谱

2.3.1 关键词共现时区视图谱

关键词共现时区视图谱见图4。图4显示,20世纪80年代前期至90年代中期,高原高血压的研究以医学学科为主要研究学科,同时配合以地理学的相关区域理论作为辅助学科进行相关性的综合研究。这段时间内的前沿研究领域以高血压的诱发因素、发病机制、机体变现等为主要研究内容,其中地理学的参与程度并不高。90年代以后开始以地理学视角来探讨高原高血压地域性特征及与高原环境的相关性,从对高血压的单一性研究转变为以地理环境为背景参考的高血压综合性研究。在21世纪以来的高原高血压研究中的学科交融渗透不断加强:从自然到人文地理要素的参与,从单纯的自然地理环境研究到人种、聚落文化、饮食习惯等人文地理要素的综合研究。

图4 高原高血压研究关键词共现时区图

2.3.2 关键词共现时间线视图谱

关键词共现时间线视图谱见图5。图5显示,从得到的六项聚类标识演变来看,氧化应激分类是最早研究的高原高血压相关问题。2000年以后,高原环境、高原地区、血氧饱和度成为研究热点;2010年以后的综合研究趋势明显,出现血管紧张素、健康教育聚类情况。高原高血压聚类情况的变化说明对其研究正不断深入并更加具有综合性。

图5 高原高血压研究关键词共现时间线视图

2.3.3 关键词突现图谱

关键词突现图谱见图6。图6显示,一共有16个关键词显示了不同时间段的研究热点,各关键词兴起与衰落的时间段显示,2000~2009年,依那普利、抗高血压药、高原等关键词成为该时间段内的热点问题;2011~2015年,亚高原、血氧饱和度、护理、高原病、低氧为热点问题;2015年以后的研究大体上是对之前的研究内容的进一步深入。

图6 高原高血压研究关键词突现图

2.4 作者、机构和关键词

2.4.1 作者与机构

高原高血压研究作者共现图见图7。图7显示,在高原高血压研究中,作者之间合作关系分散,没有形成完善的多科学融合的作者合作关系,通过共现图谱节点的大小与节点间的网络情况形成魏林节、董红让和魏玲、李丽娟、李琼两大作者群间的合作网络。

高原高血压研究机构共现图见图8。图8显示,在高原高血压研究中,各研究机构没有形成明显的合作网络;以军队研究机构为主是机构合作网络中最明显的特征;从机构来看,成都军区昆明总院、解放军115医院、第三军医大学为主要的军队研究机构,浙江大学、四川大学华西医学院为主要的地方研究机构。

图7 高原高血压作者共现图

图8 高原高血压研究机构共现图

2.4.2 作者、机构与关键词

高原高血压研究作者-关键词共现图、研究机构-关键词共现图见图9~10,其中关键词节点表示为“十字形”;作者、关键词节点表示为“中心圆”。 图9~10分别反映作者与关键词共现情况和机构与关键词共现情况,对各作者、研究机构所研究的主要内容形成可视化图谱。图9~10显示,作者与关键词共现网络复杂交错,以高原、高原地区、高血压为代表的关键词与绝大多数作者存在连线关系,研究机构与关键词共现网络更加复杂且联系性更强。从两图的结果来看,网络连接性强表示各个作者、机构都对该领域内的主流研究热点有所涉猎或者借鉴,各作者、研究机构在研究内容上较为全面。其中以血管紧张素为主要研究内容的作者、研究机构与关键词均没有连线,说明该内容具有独立性。

图9 高原高血压作者-关键词共现图

图10 高原高血压研究机构-关键词共现图

3.讨论

本研究借助Citespace软件对CNKI数据库中中国高原高血压学术研究成果进行了研究热点与演变的知识图谱分析,对检索到的285篇相关期刊关键词、关键词聚类、关键词突现、作者及研究机构共现情况绘制可视化图谱。发现:1)以2007年为特征年份,2007年前后高原高血压研究文献基础统计指标具有较明显的显著性差异,2007年以后相关文献研究数量与下载数量增加趋势较为明显。2)关键词共现情况说明高原高血压研究学科交叉融合研究不明显,虽存在学科合作研究,但没有形成独立的研究体系。3)研究热点、前沿显示,前期研究以医学为主,主要研究高血压、高原高血压临床表现、机制及动态变化,后期随着地理科学不断渗透,自然地理与人文地理关联性指标不断参与到高原高血压机制、动态的研究中,研究趋向综合化一体化。4)作者、研究机构研究合作情况显示,作者、研究机构各自均没有显著的合作网络存在或网络联系分散,存在以军队为主要研究机构的显著特征。5)作者与关键词、研究机构与关键词共现网络复杂,作者、研究机构均研究广泛,但其合作网络较分散且学科体系性不强。6)高原高血压演变趋势虽然已经显示出系统多学科参与的征象,但是学科研究方法、研究对象还有待进一步拓展。

本研究能够大体反映出高原高血压领域热点演变趋势。研究热点方面,应积极创建具有学科融合特征的综合化研究,对医学与地理学研究尺度进行科学融合,深入探讨地理关联要素的指标性作用以及不同地区间高原高血压的差异性。研究力量方面,军队具有研究高原问题的先天优势,在高原高血压的研究中军队应继续发挥研究主力作用,同时还应积极与地方研究机构进行合作,通过优势互补使研究进一步深入。

猜你喜欢
图谱高原聚类
高清大脑皮层发育新图谱绘成
基于图对比注意力网络的知识图谱补全
绘一张成长图谱
高原往事
迸射
高原往事
高原往事
基于高斯混合聚类的阵列干涉SAR三维成像
主动对接你思维的知识图谱
基于Spark平台的K-means聚类算法改进及并行化实现