基于CiteSpace的近十五年我国生物样本库文献计量学分析

2023-06-14 02:19杨家克周大智苏日古格王昊楠杨凯淇李嘉蔡雨阳李国东
中国医药生物技术 2023年3期
关键词:发文伦理聚类

杨家克,周大智,苏日古格,王昊楠,杨凯淇,李嘉,蔡雨阳,李国东

·调查与研究·

基于CiteSpace的近十五年我国生物样本库文献计量学分析

杨家克*,周大智*,苏日古格,王昊楠,杨凯淇,李嘉,蔡雨阳,李国东

150001 黑龙江,哈尔滨医科大学附属第四医院普外科/普外科生物样本库

生物样本库,又称生物银行(Biobank),根据国际经济与合作组织的定义,主要指标准化收集、处理、储存和应用健康或疾病生物体的生物大分子、细胞、组织和器官等样本,以及与这些生物样本相关的临床、病理、治疗、随访、知情同意等资料及其质量控制、信息管理与应用的系统[1]。

CiteSpace 在关键词、作者和机构等知识图谱绘制上有着其他可视化软件不可比拟的优势,能够更为清晰地呈现学科热点、前沿分析以及学科动态演化历程等[2]。本文运用可视化分析软件 CiteSpace 对我国生物样本库建设现状、前沿、热点和主要研究机构等相关内容进行可视化分析,以呈现我国生物样本库领域的进展情况。

1 资料与方法

1.1 数据来源

为保证数据的权威性与全面性,本文的数据来源为中国知网数据库(CNKI)。对生物样本库的关键词检索显示,最早一篇文章于 1981 年发表在《环境科学丛刊》杂志上,但其内容与通用生物样本库的概念相差较大。因此,本文根据2006 年《中国公共卫生》提出的有关生物样本库的研究将时间跨度设置为 2006 – 2022 年。采用背靠背文献查阅法,检索的主题词为“生物样本库”并手动剔除目录、会议、征稿通知、书评、研究机构介绍以及重复等无效文章,最终得到有效论文 481 篇。

1.2 统计学方法

使用统计分析软件 CiteSpace 对导出数据进行处理。本文将单个时区分割长度设置为一年,然后根据所需分析的内容选取作者、机构、关键词等节点型,再运行程序即可得到所需的知识图谱。

2 结果

2.1 时间分布

时间分布是衡量某一领域随着时间的变化而发展的重要指标。对文献分布进行统计并绘制出相应的时间分布曲线,有利于研究者加深对某一领域的了解。图1 显示了 2006 年 1 月 – 2022 年3 月 CNKI 生物样本库相关论文发表数量及趋势。

从图 1 可看出,2006 – 2009 年,我国生物样本库的发展速度非常缓慢。但是,自 2009 年中国医药生物技术协会组织生物样本库分会建立以来,我国生物样本库取得较为平稳且持续的发展,尤其在 2014 – 2015 年最为迅猛,发文量呈现出爆发式的增长,并于 2017 年迎来了高峰,发文量达到 56 篇,并且之后几年一直维持在 50 篇以上。这与我国启动“精准医疗计划”,并增加“精准医学研究”投入息息相关。从线性回归趋势线可见,未来我国生物样本库发文数仍有增长的可能。总之,我国生物样本库至今仍处于快速发展期。

图1 2006 – 2021 年生物样本库相关文献时间分布图(2022 年的数据仅为前 3 个月)

2.2 作者分析

通过对生物样本库文献作者进行分析,可以从侧面了解中国生物样本库领域的发展进程。

2.2.2 作者合作分析 合作图谱可展示某个研究领域学者、国家或研究机构之间的社会关系,为评价科研人员、国家或机构的学术影响力提供新的视角,有利于研究者发现值得关注的科研人员、国家或机构[4]。

表1 排序前 7 位的核心作者发表文献信息

排序核心作者发文量最新论文名称最新论文发表时间 1郜恒骏9核酸样本质量评价方法2021-11-26 2周君梅9可诱导表达 BMP4 的正常来源及隐睾特异性 iPSCs 的建立及分化研究2022-01-15 3徐美轩8生物大数据下人体基因信息的保护境遇及应对——以生物样本库为切入点2021-07-24 4张小燕7生物样本库建设过程中生物安全和生物危害指导文件——了解生物安全等级,满足生物样本库安全要求2020-04-10 5张允6新冠肺炎疫情下综合医院生物样本保藏的防范措施和建议2020-05-20 6刘世建6生物样本活库发展现状及伦理问题探讨2020-09-21 7何梅6研究生物样本库项目管理流程的规范化2020-10-05

发文作者是研究的主体,通过对发文作者及其合作网络分析,可明晰该领域的核心人物和研究团队。在 CiteSpace 的“Node Type”中选择“Author”可绘制出 CNKI 作者合作网络图谱,以发文作者为网络节点,连线代表作者之间的合作,连线越粗说明合作越密切,越鲜艳代表合作年份越近。如图 2 所示,我国已经出现了一些密切合作的小团队,人数以两至三人多见,但总体发文量不高。其中以何梅为核心的团队发文数量最多,团队规模最大,且多是近期合作,可见他们是近年生物样本库研究领域的领军者;以江帆、刘世建等为核心的团队发文量较高,但合作年份比较久远;郜恒骏和张小燕之间也有一条比较明显的连线,表明两人合作较为密切。

2.2.3 发文作者时区图 根据对发文作者进行时区图分析,可以了解中国各个时间段生物样本库领域的领军人物,阅读其发表的文献,可以进一步了解各时间段生物样本库发展状况以及发展趋势。

根据图 3 可见,郜恒骏于 2008 年开始发文,与其密切合作的张小燕于 2010 年也开始发表文章。自 2012 年开始,越来越多的科研工作者致力于生物样本库的建设,并逐渐形成了多个 3 ~ 5 人的合作团队。直至近些年,这种趋势仍然存在。

图2 CNKI 作者合作图谱

2.3 发文机构分析

通过对发文机构进行分析,可以从区域地理位置了解中国各个地区生物样本库的发展程度,从不同的单位也可以反映出该领域的方向变化以及研究前沿。这对全面了解中国生物样本库领域的研究现状有很重要的现实意义。

图3 发文作者时区图

2.3.1 机构发文量分析 国内生物样本库领域中较活跃和贡献较多的研究机构基本分为两大类,分别为大学院校和各大医院。我们以发文量 5 篇为阈值,列出发文数量前 8 位的发文机构(表 2)。华中科技大学法学院的累计发文数为 19 篇,远大于其他机构。有656 家机构发文量不达 5 篇,说明国内生物样本库领域各机构间发展仍存在较大差异。近年国内生物样本库领域注重伦理审查方面的发展,而华中科技大学法学院作为国内相关领域翘楚,在此发展过程中起到了重要的引导作用。

表2 生物样本库研究发文频数前 8 位发文机构

排序发文机构频次 1华中科技大学法学院19 2生物芯片上海国家工程研究中心8 3上海市儿童医院7 4四川大学华西第二医院出生缺陷与相关妇儿疾病教育部重点实验室6 5上海申康医院发展中心6 6上海市卫生和计划生育委员会5 7中国医学科学院医学信息研究所5 8首都医科大学科技处5

2.3.2 机构合作图谱分析 应用 CiteSpace 信息可视化分析软件,对检索的481 篇文献信息进行分析。将数据导入 CiteSpace 后设置选项,选择分析节点类型为机构(Institution)。确定起止时间为 2006 年1月1日–2022年 4 月 1 日,时间分区“Year Per Slice”设置为 1 年,术语来源(Term source)默认全选,数据筛选为(Top 30 perslice),即抽取每一时间段中被引频次或出现频次最高的30 项数据,图谱修剪的修正算法(Pruning)选择默认的最小生成树精简算法(Minimum spanning tree and pruning sliced networks),视图可视化方式(Visualization)选择经典视图(Cluster view-static, Show merged network)。然后点击“运行”开始绘制图谱,即可得到图 4 生物样本库领域研究机构合作网络图谱。图 4 共包含节点(N)664 个,连线(E)377 条,中心度(Density)0.0017。图中节点多且分散,说明国内各机构间合作分散,以内部研究为主,总体合作情况不佳。同一地区的上海市儿童医院、上海市卫生计生委、上海申康医院发展中心和上海医药临床研究中心四家研究机构合作密切。总体来看,北京和上海的不同研究机构间合作较密切,但仍主要局限于同一地区,鲜有跨省合作,且研究机构较分散,尚未形成核心研究群。

2.4 热点关键词分析

本研究将关键词作为生物样本库领域的热点词汇来源,通过了解生物样本库领域的研究热点,可以把握整个生物样本库领域的研究动向,明确其发展态势,从而为更多研究人员提供线索。

2.4.1 关键词频谱分析 通过对生物样本库领域 2006 年 1 月1 日 – 2022 年4 月1 日发表的481 篇文献所涉及的关键词进行统计分析并筛选高频关键词。本节选取排名前 8 的高频关键词作为重点研究对象,在这些相关文献中,“转化医学”出现次数最多(34 次),其他高频词汇还有“生物样本”“知情同意”和“质量控制”等(表 3)。其中,“转化医学”“生物样本”“样本库”等关键词构成了该学科的基础;“知情同意”“质量控制”“标准化”“信息管理”等关键词表明国内学者着重于生物样本库相关标准的制订和管理,这提示国内生物样本库仍处于发展阶段。

2.4.2 关键词聚类分析 使用文献信息的可视化分析方法对文献各个字段的高频词进行共现关系分析,然后使用文献题录管理软件对原始数据进行预处理后,使用 CiteSpace 软件对文献关键词进行可视化分析,进而展示学科领域的前沿热点及相互关联[5-6]。

运用 CiteSpace 软件,以高频关键词为网络节点进行聚类分析。图 5 共显示出8 个较大聚类,分别为:#聚类 0 标准化、#聚类 1 知情同意、#聚类 2 转化医学、#聚类 3 生物样本、#聚类 4 研讨会、#聚类 5 样本库、#聚类 6 医学研究、#聚类 7 低温保存。聚类序号越小,表示聚类量越大。Modularity 值(Q 值)用于评价网络的模块性,Q 值越大,聚类效果越好,Q > 0.3 表示聚类划分显著。Silhouette 值(S 值)用来衡量聚类的同质性,S > 0.5 表示聚类结果合理;S > 0.7 表示聚类结果具有高信性。本研究结果显示,Q = 0.82,聚类划分显著;在同质性方面,8 个聚类均高度可信(S 均 > 0.7)。归纳得出生物样本库领域的热点关键词包括转化医学、生物样本、质量控制、知情同意等。

图4 2006 – 2021 年国内生物样本库领域科研机构合作图谱

表3 生物样本库研究频次前 8 位关键词

排序关键词频次 1转化医学34 2生物样本25 3质量控制20 4知情同意18 5标准化17 6样本库16 7基因歧视12 8临床研究11

图5 关键词聚类分析图

2.5 研究热点

研究热点是对某一研究领域的重要研究方向的反映,它集中概括了某时间段内研究者普遍关注的问题,通过对其深入分析,可提炼出研究热点主题[7]。利用 CiteSpace 生成关键词时区图和突显词(Burst term),关键词时区图反映了该领域研究热点的变化态势和研究前沿,突显词是指在某个时间段内出现频次突然增加的关键词,可进一步反映该方向的未来发展趋势。图中各个节点的大小代表关键词的频次,节点越大说明该关键词出现的频次越多,关键词在网格中的连线越多,说明该关键词中心性越强,在该研究中越具影响力[8]。

根据 CNKI 关键词时区图(图 6)可知,生物样本库的研究主题随时间不断变化,2013 年之前出现频次较多的是“生物样本”“质量控制”“知情同意”“转化医学”等,主要关注点在于生物样本库标准化建设及管理。而2013 年之后出现频次较多的是“标准化”“信息化”“伦理问题”“精准医学”等,在进一步关注生物样本库相关标准建设的同时,更加重视其所延伸的相关伦理与数据存储等问题。

图6 关键词时区图

2006 年 1 月1 日– 2022 年4 月1 日,生物样本库共检测到 14 个突显词(图 7)。一般突显词的周期为 2 ~ 3 年,突显后就开始慢慢消退或被其他突显词所取代。然而在生物样本库领域中,“基因歧视”“协会组织”“转化医学”“质量控制”“应用”这五个关键词持连续出现四年,这在一定程度上说明它们是生物样本库实际工作中被重点关注的问题。2012 年突显的“转化医学”是指以临床需求决定基础研究内容,并将基础研究的成果运用于临床疾病的诊疗,克服医学教育中培养转化医学人才过程中的不足,不仅可以极大地调动学生学习的积极性,而且有利于新型医学人才的培养[9]。2016 年开始突显的词汇为“精准医学”和“标准化”,这说明生物样本库在精准医学的发展中起到了一定作用。在 2018 年开始突显的词汇为“伦理审查”,这说明生物样本库的相关伦理问题逐渐被重视。对于生物样本库在发展过程中涉及到的伦理问题,可借鉴发达国家生物样本库的发展经验,在规范的伦理管理制度下形成开放的数据库;也可以参考金融行业的风险管理方法,从制度和技术层面强化隐私保护和风险预警,同时完善问责制度[10]。

3 讨论

3.1 生物样本库在转化医学中的重要作用

转化医学是将基础医学研究和临床治疗联系起来的一种新的思维方式,它倡导以患者为中心,从临床工作中发现和提出问题,由基础研究人员进行深入研究,然后再将基础科研成果快速转向临床应用,这需要基础与临床科技工作者的密切合作。因此,转换医学研究主张打破以往研究课题组单一学科或有限合作的模式,强调多学科组成课题攻关小组,发挥各自优势,通力合作。由关键词时区图可以获知,“转化医学”这一关键词最早出现于 2011 年,并且该关键词节点较大,这说明其与生物样本库之间存在密切关系。随着转化医学的兴起和发展,研究者们对生物样本资源的需求与日俱增,这使得生物样本库从传统的单中心模式跃升到多中心网络化和国家级统筹发展的层次[11]。生物样本库中的样本大部分来自于临床,所以生物样本库的多样性也就决定了转化医学的多样性,样本库是转化医学的基础,转化医学是样本库的发展和延伸。

3.2 标准化信息管理系统在生物样本库中的重要作用

医工结合即医学与工程技术的结合,是将其他学科技术发展应用到医学领域,从而促进医学飞跃式发展。智慧医疗、高新医疗设备的研发等作为医工结合的重要领域,都需要大体量的临床数据作为支撑,而生物样本库作为临床组织样本的信息储存库可以发挥重要作用。要突出信息储存功能,就要进一步加强生物样本库的信息化建设。信息化是以现代通讯、数据库等技术为基础,将研究对象的各要素汇总并储存的一种技术。在关键词聚类分析图中可以看到,信息化聚类存在于聚类#0 标准化板块内,说明信息化建设与生物样本库联系密切,是该领域的研究热点。生物样本库的建立需要一套与之匹配的标准化信息管理系统来储存和整合相关数据,这有利于研究人员便捷、快速地获取所需信息。加强生物样本库的信息化管理还可以促进不同生物样本库之间的交流合作,改善当前研究机构合作较局限的现状,推动不同地区科研机构共同发展。

图7 关键词突显图

3.3 生物样本库建设过程中伦理审查的发展

生物样本库的伦理审查是加强生物样本库管理和保护、促进其有效开发利用的关键环节[12]。伦理审查是医学科研工作者和受试者的共同“保护伞”,是保障生物样本库研究健康可持续发展的“基石”。世界上许多发达国家和地区的生物样本库都制订了完整的伦理审查方案,例如加拿大的生物样本库“加拿大明日合作计划”规定:任何人都无权访问参与者的个人信息,除非发现实验可能会严重影响受试者的健康。由关键词突显图可见,“伦理审查”这一关键词首次出现于 2018 年并一直延续至 2020 年,说明我国在生物样本库的伦理审查方面起步较晚,直至近年来才引起关注。此外,伦理审查的关键词节点较小,反映出我国现阶段更重视生物样本库在应用领域的发展,而伦理审查方面可能未得到充分关注,呈现出较为严重的“偏科”态势。生物样本库的伦理审查涉及知情同意的获得方式、样本信息的隐私和保密、研究结果的反馈等许多层面,在生物样本的管理和保护等方面发挥重要作用。因此我国在未来几年亟需加大生物样本库伦理审查的关注力度。

综上所述,本文基于 CiteSpace 软件对CNKI 数据库中有关生物样本库的文献进行了系统分析。通过分析文献年发表数量、关键词、作者、机构等,为研究者发现生物样本库研究热点和发展趋势提供参考。

[1] Zhao C, Dai T, Wang N, et al. Content-based analysis of biological samples library sharing in China. Chin J Med Lib Inf Sci, 2017, 26(2):38-41. (in Chinese)

赵聪, 代涛, 汪楠, 等. 基于内容分析法的我国生物样本库共享问题研究. 中华医学图书情报杂志, 2017, 26(2):38-41.

[2] Xiao M, Qiu XH, Huang J, et al. Comparison of software tools for mapping knowledge domain. Lib J, 2013, 32(3):61-69. (in Chinese)

肖明, 邱小花, 黄界, 等. 知识图谱工具比较研究. 图书馆杂志, 2013, 32(3):61-69.

[3] Zong SP. Evaluation of core authors based on price law and the comprehensive index method: a case study of Chinese Journal of Scientific and Technical Periodicals. Chin J Sci Tech Period, 2016, 27(12):1310-1314. (in Chinese)

宗淑萍. 基于普赖斯定律和综合指数法的核心著者测评——以《中国科技期刊研究》为例. 中国科技期刊研究, 2016, 27(12):1310- 1314.

[4] Chen Y, Chen CM, Liu ZY, et al. The methodology function of CiteSpace mapping knowledge domains. Stud Sci Sci, 2015, 33(2): 242-253. (in Chinese)

陈悦, 陈超美, 刘则渊, 等. CiteSpace知识图谱的方法论功能. 科学学研究, 2015, 33(2):242-253.

[5] Li GD. Literature visualization analysis on present situation study of multimedia teaching of English. China Sci Technol Inf, 2013, 477(16): 98-99. (in Chinese)

李国栋. 我国英语多媒体教学研究现状的文献可视化分析. 中国科技信息, 2013, 477(16):98-99.

[6] Ji GT, Fang SY. A visual analysis of R&D efficiency research hotpots and evolution based on CiteSpace. Sci Technol Industry, 2021, 21(7): 37-42. (in Chinese)

纪国涛, 方诗月. 基于CiteSpace的研发效率的研究热点及演变趋势可视化分析. 科技和产业, 2021, 21(7):37-42.

[7] Wang LZ. Analysis of domestic research hotspots and trend of gynecological tumor nursing based on CiteSpace. Jiangsu Sci Technol Inf, 2021, 38(21):21-24, 29. (in Chinese)

王林枝. 基于CiteSpace的国内妇科肿瘤护理研究热点与趋势分析. 江苏科技信息, 2021, 38(21):21-24, 29.

[8] Cheng M, Zhu RF, Han SF. Visual comparative analysis of hotspots of nursing education in China and America. Chin Gen Pract Nurs, 2017, 15(14):1669-1673. (in Chinese)

程梅, 朱瑞芳, 韩世范. 中美护理教育研究热点的可视化对比分析. 全科护理, 2017, 15(14):1669-1673.

[9] Lu L, Li XR, Xiong J, et al. Discussion on guiding pharmacology teaching with translational medicine concept. Basic Med Educ, 2021, 23(7):455-457. (in Chinese)

陆莉, 李晓蓉, 熊杰, 等. 以转化医学理念指导药理学教学探讨. 基础医学教育, 2021, 23(7):455-457.

[10] Jiang ZQ, Jin MY, Xie XP, et al. The status quo and inspiration of ethical management of biobanks big data in foreign countries. Med Philos, 2021, 42(11):23-28. (in Chinese)

蒋兆强, 靳明英, 谢小萍, 等. 国外生物样本库大数据伦理管理的现状及启示. 医学与哲学, 2021, 42(11):23-28.

[11] Zhang L, Li HY, Fan KF, et al. Biobank and translational medicine. Trans Med Res (Electronic Ed), 2011, 1(2):44-55. (in Chinese)

张雷, 李海燕, 范可方, 等. 生物样本库与转化医学研究. 转化医学研究(电子版), 2011, 1(2):44-55.

[12] Zhao LY, Fan Z, Liu RS, et al. Ethical review of biobank. Chin Med Ethics, 2020, 33(3):345-348. (in Chinese)

赵励彦, 范贞, 刘瑞爽, 等. 生物样本库的伦理审查. 中国医学伦理学, 2020, 33(3):345-348.

10.3969/j.issn.1673-713X.2023.03.013

国家自然科学基金(82072673)

李国东,Email:liguodong@ems.hrbmu.edu.cn

2022-07-26

*同为第一作者

猜你喜欢
发文伦理聚类
《心之死》的趣味与伦理焦虑
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
护生眼中的伦理修养
校园拾趣
爷孙趣事
以牙还牙
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究
医改莫忘构建伦理新机制