基于SciVal的虚假信息研究现状和前沿分析*

2022-10-24 08:01国防科技大学长沙410073

高校图书馆工作 2022年5期

●张璐敬卿 (国防科技大学长沙 410073)

信息技术的发展提升了信息服务的覆盖度和深度，信息资源在丰富人们生活方式的同时，也带来了重复堆叠与虚假信息等干扰。从恐怖主义到网络攻击，虚假信息带来的风险一直存在，网络虚假信息给现实世界也带来了一定程度的负面影响，它已经被世界经济论坛(WEF)列为人类社会的主要威胁之一[1]。广义上，虚假信息可以被定义为不正确的信息，“虚假信息”与“谣言”“假新闻”间的区别并没有得到明确界定[2]。与真实信息相比，一些假新闻因其新颖、奇特的内容，更易于得到传播[3]，而虚假信息的传播扩散会干扰社会治理赖以存在的传播秩序，网络信息治理迫在眉睫[4]。虚假信息治理是一项复杂的系统工作，尤其是在自媒体时代，治理难度极大增加[5]。新环境下，随着信息传播媒体的扩展和参与用户的变化，虚假信息已经成为现代信息治理的重要挑战之一[6]。

到目前为止，学者对虚假信息从定义、传播到治理等角度都进行了研究，但基于整个领域文献来识别研究前沿的探讨仍较少。SciVal是爱思唯尔开发的科研分析及科研表现分析平台，基于Scopus数据库(全球最大的同行评审文摘与引文数据库)纵览全球科研动态，能实现230个国家和17 000多所研究机构科研表现的可视化分析，可助力发现全球研究的前沿热点。本文基于SciVal科研分析平台，针对Scopus数据库中2016年至2021年虚假信息相关研究文献，采用文献计量学的方法，分析该领域的研究现状，挖掘潜在的前沿热点，以期为虚假信息研究提供借鉴与参考。

1 数据与指标

1.1 数据来源

鉴于“虚假信息”与“虚假新闻”常交替使用[7]，本文检索表达式为：TITLE-ABS-KEY(“false information”)OR misinformation OR rumor OR disinformation OR (“fake news”)OR(“inaccurate information”)OR(“biased information”)OR(“digital falsehood”)OR(“fabricated news”)OR(“false news”)AND PUBYEAR > 2015 AND PUBYEAR < 2022，在Scopus数据库中进行检索(检索时间为2021年12月31日)，即标题、摘要或关键字为虚假信息，时间范围为2016年至2021年，最终得到14 799篇文献记录。因SciVal平台更新至2021年12月15日，将所得文献记录导入到SciVal时部分文献无法导入，最后成功导入14 667条文献记录。

1.2 研究指标

科技文献的引用分析能够帮助我们跟踪新思想、预测新领域[8]，而高关注度和新颖性则是研究前沿最为主要的特征[9]。除了文献计量学常用的指标外，本文还采用了主题显著性百分位数和归一化影响因子，用来给前沿探测提供数据支撑。主题显著性百分位数是SciVal在主题创建中应用全域微观(Global-micro)模型，基于近2年论文的引用、浏览和期刊质量指标综合计算得出的，该指标兼具高关注度和新颖性两个特征，研究人员可以根据需要选择主题显著性百分位数前1%的主题作为研究前沿[10]。除此之外，考虑到关于虚假信息可能会有多个学科参与研究，需要将不同学科的科技文献进行比较，本文还用到归一化影响因子(Field Weighted Citation Impact, FWCI)指标，即标准化后的论文影响力，这是目前国际公认的定量评价科研论文质量的最优方法[11]，世界平均FWCI为1，大于1意味着论文影响力高于世界平均水平。

CiteScore是衡量来源出版物所发表文献的平均被引用次数的指标，如CiteScore 2020计算在2017—2020年所发表文献(articles, reviews, conference papers, book chapters 和 data papers) 的被引用次数，除以在2017—2020年发表的文献总数。CiteScore Percentile 指连续出版物在其学科领域中的相对位置，如果该值为96%则代表根据CiteScore排名，该连续出版物等于或高于其所在类别中96%的出版物[12]。

SciVal平台每周都会根据Scopus的最新数据重新计算文献的指标数值，本文出现的指标及数值均为数据导入后第一周内数值。

2 虚假信息领域研究现状

14 667条文献共被引用106 540次，篇均被引用7.3次，所有文献平均FWCI为2.07，前1%高被引论文405篇，文献涉及Scopus的全部27个学科分类，包含4 460个发文机构，覆盖超过100个国家或地区。

2.1 年度发文分析

对所有文献的出版年份进行统计分析如图1所示，2016年以来，虚假信息相关研究文献数量逐年稳步上升(2021年数据仅更新至12月15日尚不完整)。主题发文数量的年度分布可以展现该主题的发展趋势，发文量越大增速越快，说明虚假信息相关研究愈发受到学者的关注与重视。

图1 2016—2021年虚假信息相关论文数量年度分布

2.2 国家/地区分布

SciVal仅展示发文数量前100的国家/地区，如为合作发文则每个国家/地区均计算一次。本文选取了前十个国家/地区，同时对比了他们的国际合作占比、FWCI、前1%高被引论文占比情况，具体如表1所示。

表1 国家/地区详情(发文数量前十位)

发文数量超过1 000的国家/地区分别是美国、英国和中国，其中美国的发文数量远远超过其他国家，并在FWCI和前1%高被引论文方面也有不俗的表现，整体质量较高，是虚假信息研究领域的重要国家。英国发文数量略高于中国，国际合作、FWCI、前1%高被引论文占比则远高于中国。值得关注的是澳大利亚和加拿大，虽然论文数量不是特别多，但超过半数的论文都采用国际合作的方式完成，论文的整体质量也较高。

2.3 机构分布

发文数量前十位的机构详情如表2所示，各个机构发文数量相差不大，前1%高被引论文占比差距较大，占比超过10%的机构分别是哈佛大学和宾夕法尼亚大学，均为美国高校。排名前十的机构中，美国占据了6所，英国2所，新加坡和法国各1所。说明欧美在虚假信息研究规模方面目前已具有明显的领先优势。

表2 机构详情(发文数量前十位)

发文数量前100的机构主要分布于17个国家/地区，如表3所示，美国以绝对的优势占据首位，囊括了近半数的机构。中国(含港澳台地区)的7所机构(发文数量排名)分别是：中国科学院(11)、中国科学院大学(28)、武汉大学(48)、教育部(61)、电子科技大学(77)、香港大学(95)、四川大学(99)。

表3 机构所属国家/地区分布

2.4 学科领域分布

(1)来源出版物学科分布。ASJC(All Science Journal Classification)是Scopus对连续出版物的学科分类，一种出版物可能会有多个ASJC分类，该分类方法在SciVal中得到了延续，本文所指的学科分类均为ASJC分类。虚假信息相关文献来源出版物覆盖了ASJC所有27个学科分类，各学科发文占比如图2所示，图中仅展现了占比较高的前9个学科，其他学科因占比较少，统一归于“Other”中进行计算。虚假信息学术成果来源出版物主要集中于计算机科学、社会科学、医学、工程、人文艺术等学科领域。

图2 来源出版物所属学科发文占比

(2)研究主题学科分布。SciVal中的主题是指具有共同知识关注点的动态文献集。2016年至2021年，虚假信息相关文献共涉及3 441个研究主题，每一篇文献仅可归属于一个主题，这些主题主要集中于计算机科学、社会科学、医学、数学等学科，详情如图3所示。圆圈内每个气泡代表一个研究主题，主题所属学科可根据气泡对应的圆圈外围及下方的标注确定(在SciVal平台中以气泡颜色来区分不同学科)，气泡大小与发文数量成正比。气泡位置与整个主题中占据主导位置的学科(ASJC分类)相关，越靠近圆心则该主题的跨学科特征越明显。总体来看，虚假信息研究主题学科覆盖范围非常广泛，跨学科研究的论文数量较多。

图3 研究主题所属学科分布

2.5 来源出版物分布

发文数量前十位的来源出版物详情如表4所示，包括丛书、会议录和期刊三种类型，期刊所属学科多与计算机科学、数学、医学、工程相关，这也反映了虚假信息的重要研究方向。

表4 来源出版物详情(发文数量前十位)

3 虚假信息领域研究前沿与热点

3.1 热点关键词

为了解虚假信息领域的研究热点，本文进行了关键词分析。SciVal平台从文献的标题、摘要和作者关键字等信息中提取重要的关键词，虚假信息领域关键词如图4所示，图中50个关键词相关研究热度均处于上升的状态，字体越大表明与主题相关性越强。可以发现，除了“虚假信息”相关表述外，Social Media、COVID-19、Communication、Fake detection、Pandemic、Vaccination、Politics等词具有较高的关注度。

图4 领域热点关键词(相关性前50位)

3.2 前沿主题

SciVal平台基于整个引文网络(包括超过48万条索引文献和超过20万条非索引文献)分解形成了9.6万个主题[13]。主题命名规则运用了爱思唯尔的指纹引擎技术(Elsevier Fingerprint Technology，EFT)，综合利用自然语言文本挖掘技术、学科叙词表、加权术语来确定主题命名关键词[14]。本文分析的14 667条文献涉及3 441个研究主题，显著性百分位数位于前1%的主题有279个，其中发文数量超过100的主题如表5所示，这些主题均为虚假信息研究领域的重要主题和研究方向，本文综合考虑了与虚假信息领域的相关性、发文量和显著性百分位数等方面因素，重点分析了4个前沿主题。

由表5可知，发文量最高的主题是谣言与虚假信息(T.28 966)，结合主题命名规则来看，该主题与本研究契合度非常高，与本研究相关的文献共计2 366篇，平均FWCI为3.01，篇均被引频次为11.7，前1%高被引论文104篇，约占总数的4.4%。高被引论文的研究方向主要集中于虚假信息识别与监测技术，虚假信息在网络平台、政治活动、医药健康等领域的传播与扩散等。

本文进一步分析了与谣言与虚假信息(T.28 966)相关性最高的50个主题，其中显著性百分位数位于前1%的共有6个，按相关性排序依次为Twitter等社交媒体中的危机处理与事件感知(T.6 485)、Twitter等社交媒体中的政治竞选与政治传播(T.5 299)、品牌社区的在线评论与网络口碑(T.1 190)、新闻制作与新闻实践(T.9 441)、政治党派活动中的媒体使用(T.2 736)、以Facebook和Instagram为代表的社交网站(T.2 470)。其中，T.2 736、T.5 299、T.9 441和T.6 485也出现在表5中，即该4个主题显著性百分位数位于前1%，也与谣言与虚假信息(T.28 966)主题相关性较高，同时还是本文设定的检索条件下发文量较多的主题。基于此，本文认为T.2 736、T.5 299、T.9 441和T.6 485为虚假信息研究领域的前沿主题。

表5 显著性百分位数位于前1%的主题(发文量>100)

(1)政治党派活动中的媒体使用(T.2 736)。在虚假信息领域中，该主题发文共计272篇，平均FWCI为4.29，篇均被引频次为10.4，其中前1%高被引论文19篇，约占总数的7%。

该主题下研究内容主要涉及：虚假信息对重大政治活动的影响，党派政治活动中如何应对虚假信息，党派关系与政治活动对虚假信息的影响，信息鸿沟对政治活动的影响，分享虚假政治信息的动机，如何开展政治谣言治理，网络平台上的政治谣言传播，政治误解与分歧的形成，虚假政治信息中的传播学理论研究，虚假信息与公众信息素养等。

前1%高被引论文重点关注：虚假信息如何影响社会公众的认知，虚假信息对政治活动的持续影响，2016年美国总统大选期间虚假新闻的传播特征及预测，过滤气泡和选择性接触导致的虚假新闻和意识形态的两极分化问题，青年如何判断争议性政治话题的真假，虚假信息的纠正，新冠肺炎疫情对新闻媒体与社会公平的影响，虚假信息传播对政治活动的影响，社交媒体上分享的小报新闻与虚假信息间的关联——以英国大选为例，面对虚假政治信息时深思熟虑是否有用，2016年美国政治大选期间的虚假信息发布网站研究，政治参与和虚假信息传播的关系研究，社交媒体中“回音室”现象出现和意识形态极化的核心机制，虚假政治信息的核查与揭露，政治环境中虚假信息如何影响个体观念，美国政治大选中的叙事特征和虚假信息，虚假信息的社会效用，虚假信息背景下的新闻素养与公众社交媒体行为，虚假信息的定义及内涵外延。

(2)Twitter等社交媒体中的政治竞选与政治传播(T.5 299)。在虚假信息领域中，该主题发文共计150篇，平均FWCI为2.18，篇均被引频次为6.2，其中前1%高被引论文2篇，约占总数的1.3%。

该主题下的研究内容主要涉及：Twitter谣言对民主、民粹、人权等政治理念的影响与干扰，欧美国家政治大选期间的Twitter谣言，Twitter上的网络战与政治对抗，Twitter、Instagram、Facebook、YouTube、Tik Tok、Parler 等平台上的虚假政治信息传播与治理等。

前1%高被引论文重点关注：2012年及2016年美国大选期间Twitter上的政治谣言。

(3)新闻制作与新闻实践(T.9 441)。在虚假信息领域中，该主题发文共计128篇，平均FWCI为2.34，篇均被引频次为6.2，其中前1%高被引论文4篇，约占总数的3.1%。

该主题下的研究内容主要涉及：虚假信息的生产与传播动机，虚假信息识别技术、算法与工具，数字媒体时代的假新闻危机与解决方案，面向虚假信息的新闻教育，新闻报道中的虚假信息，虚假信息对电视、报纸、网站等新闻媒体平台的挑战，虚假信息的治理，虚假信息对记者及读者等人群的影响等。

前1%高被引论文重点关注：新闻制作过程中的“黑暗参与”，政治事实核查的制度根源，国家外交政策中的虚假信息，仇恨言论和虚假信息的平台治理问题。

(4)Twitter等社交媒体中的危机处理与事件感知(T.6 485)。在虚假信息领域中，该主题发文共计109篇，平均FWCI为1.07，篇均被引频次5.3，其中前1%高被引论文1篇，约占总数的0.92%。

该主题下研究内容主要涉及：社交媒体平台上的虚假信息如何影响公共危机事件(如公共卫生事件、自然灾害、突发舆情等)，人工智能、区块链、机器学习、自然语言处理等技术在虚假信息治理中的应用，重大突发事件下的信息传播规律、媒体情绪分析等。

前1%高被引论文重点关注：新冠肺炎疫情中的信息流行病管理框架构建。

4 结论与讨论

4.1 虚假信息领域的整体研究趋势向好

本文以虚假信息研究领域2016—2021年Scopus数据库文献为基础，利用SciVal平台进行分析，了解全球自2016年以来在虚假信息研究领域的发文趋势、国家/地区、机构、学科领域、来源出版物、前沿热点等。结果显示，2016年至2021年，该领域发文逐年上升，发展势头较好，且学术影响力明显高于全球平均水平。该领域研究广泛分布于全球多个国家和地区，美国的发文数量居于世界领先地位，远超其他国家。英国的发文量居第二位，其学术影响力在发文量前十位的国家中居于首位。中国的发文量和学术影响力虽略低于美国和英国，但也高出世界平均水平，中国科学院的发文量居于全球第11位，其学术成果的被引次数、FWCI、前1%高被引论文比例均有较好的表现，显示了该机构在虚假信息研究领域的竞争力。虚假信息研究领域发文主要集中于Lecture Notes in Computer Science、CEUR Workshop Proceedings和PLoS ONE等，出版物类型涵盖了丛书、会议录和期刊等，在高水平刊物(CiteScore Percentile 2020 前25%)的发文量达47.6%。

4.2 研究学科以计算机科学和社会科学为主，跨学科特征突出

14 667条文献的来源出版物覆盖了Scopus全部27个学科，主要集中于计算机科学(占比19.5%)、社会科学(占比19.5%)、医学(占比13.4%)等学科领域(见图2)，计算机科学与社会科学具有明显优势。对14 667条文献涉及的3 441个研究主题所属的学科领域进一步分析发现，虚假信息研究领域的跨学科特征非常明显，充分说明了虚假信息问题已出现在各个学科领域并得到了学者们的关注。虚假信息问题波及范围较广，尤其在数字时代虚假信息的扩散速度更是呈指数级别增长，各学科均易受影响。计算机科学领域重点从机器识别、算法等角度来探讨对虚假信息的识别、核查和处理；社会科学领域重点从新闻伦理、新闻制作、传播路径等角度来研究，这正是本文分析的主题T.9 441的主要研究方向。除此之外，还有医学、工程、艺术人文、数学等学科基于本学科研究基础，分析虚假信息相关问题。

正如本领域高被引论文指出的，虚假信息是一个全球性的历史长期问题，社会科学和计算机科学领域都已经探讨了它的传播机制和动机问题，学者也正在关注虚假信息在政治领域传播所导致的复杂结果，虚假信息的预警、治理和纠正，需要跨学科研究才能对症下药[15]。

4.3 虚假信息在政治活动中有较高的参与度

虚假信息与政治活动的相关研究自2016年以来有较高的学术产出，在本文重点分析的4个主题中，主题T.2 736和T.5 299均和政治活动有关。虚假信息的产生动机和广泛传播与政治活动、意识形态紧密相关[16]，容易接触到虚假信息的主要是保守派、年龄较大者和非常关注政治新闻的人群[17]。2016年美国政治大选中的虚假信息传播是其中的典型案例，在大选最后五个月内，Twitter上与大选相关的信息中虚假、极端偏见信息占到25%，而此类信息的传播网络连接更加紧密，即推文被转发的数量更多[ 18]。社交媒体因其准入门槛低、信息碎片化、社交圈信息趋同等特征，成为虚假政治信息滋生和传播的土壤，但尚无明确证据可证明社交媒体上的虚假信息在影响大选结果上起到决定作用[19]。

与2016年美国政治大选类似，2017年法国政治大选[20]、意识形态两极分化[21]、乌克兰冲突[22]等政治活动中均有虚假信息的介入。虚假信息对政治活动的影响是复杂而深远的，尤其是以社交媒体为代表的网络平台赋予了虚假信息更快的传播速度、更复杂的网络人际关系、更隐蔽的伪装形式，虚假信息对政治活动的干预和影响可能更加难以具象和量化，目前一些社交媒体和网络平台已在尽力遏制虚假政治信息的传播，如采取人工干预或机器算法来识别并限制正在传播中的虚假信息。

4.4 重大舆情和危机事件中的虚假信息治理是当务之急

危机事件(如地震、台风、洪水、恐怖袭击、疫情等)的暴发会影响人们的物质、情感状态，干扰人类生存环境，在这个过程中人们会利用信息与通信技术获取信息以应对灾难中的不确定性，这是危机信息学的核心[23]，也是本文重点分析的前沿主题之一T.6 485的主要内容。近半数(45%)的公众会在危机中使用社交媒体来分享或查找信息，但虚假信息已成为这个过程中的主要障碍[24]。虚假信息不断消解公众对信息中介的信任，破坏了信息空间的完整性，影响公众和管理者的行为与决策。

危机事件中的虚假信息治理尤为重要，虚假信息一旦进入传播链条引发信息污染，将使得危机事件的走向更加复杂，难以管控，可能会带来危机事件本身以外的重大舆情事件。正如危机信息学结合了计算机科学、社会科学一样，危机事件的虚假信息的治理也主要集中在以下两个方向：在技术方面，可采用基于排序和分类的混合方法[25]、多模态深度学习方法[26]等来自动识别虚假信息；在综合治理方面，可以组织公众自发参与信息验证、平台及时处理过时信息、对公众开展信息素养教育、政务机构和第三方组织积极参与[27]等。重大舆情和危机事件中的虚假信息治理需要专业技术与综合治理双管齐下，只有在识别、分辨、监测、预警技术的支撑下加强虚假信息综合治理，在综合治理的过程中不断提升技术，才能避免重大舆情和危机事件进一步恶化。

本文通过文献计量分析发现，虚假信息研究领域热度不断上涨，学术产出整体水平较高，研究主题丰富多样，前沿方向主要是虚假信息对政治活动的干扰与影响，计算机、社会科学领域的虚假信息技术识别和新闻伦理，危机事件中的虚假信息传播扩散等。

可以预见，未来关于虚假信息在政治活动和危机事件中的传播规律研究，将有助于建立更加完善有效的虚假信息治理模式，为虚假信息治理的自动化识别、全流程管控、多主体参与奠定基础。网络赋予了虚假信息更大的影响范围、更快的传播速度和更复杂的外在形式，虚假信息的传播可能会引发社会问题和重大舆情事件，甚至危及国家信息安全。虚假信息治理是一项系统工程，只有加快完善虚假信息治理框架，通过系统性的政策和规则，引导信息生产者、传播者、使用者和管理者共同参与到虚假信息的管控和治理中来，才能在信息传播链条上有效阻断虚假信息的入侵和干扰，提升信息质量，降低信息使用成本，保障信息安全。