欧美新闻事实核查技术应用及趋势

2018-02-08 14:40杨丽萍

中国传媒科技 2018年6期

文/杨丽萍

（作者单位：中国政法大学光明新闻传播学院）

近年备受关注的“假新闻”问题是技术发展产生的新问题。不同于纸媒时代的假新闻，网络时代的假新闻具有传播速度快、影响范围广、信息更正效果差等特点。欧美兴起的自动化新闻事实核查，利用算法对海量网络内容进行有选择地甄别、判断与结果分发，其应对假新闻的思路具有针对性。目前，事实核查项目发展迅速，但其自动化进程面临多重障碍。应对假新闻需要建立数字化规范，或尝试使用区块链技术建立网络信用体系。对于定义“真相”可能存在的道德悖论及自动化的隐忧，同样值得警惕。

2016年的美国大选将假新闻问题推向热潮，由此涌现出一批应用互联网技术的新闻事实核查项目，尤其在欧美。如对政治家等公众人物的公开言论进行真实性评级的PolitiFact，对社交媒体内容进行监测核查的Storyful，通过机器学习、自然语言处理和数据库查询技术进行自动化核查的ClaimBuster，为记者提供专业核查经验与工具的FirstDraftNews……目前，这些事实核查项目尚未实现完全的智能化与自动化，往往需要结合人工核查，但自动化事实核查技术建立了初步流程。

1.自动化事实核查技术及流程

自动化事实核查流程可以分为三个步骤：识别、核查与校正，这被2018年路透研究报告认为是自动事实核查技术的核心要素。

1.1 识别与选择

明确核查对象及技术上如何实现是目前实践中的一个难点。这一方面受到技术局限，另一方面体现出核查机构的价值理念，并会对最终的核查效果产生决定性影响。

德克萨斯大学阿灵顿分校的计算机学家Chengkai Li及其团队开发的ClaimBuster对指定范围的广播电视媒体、推特账户和网站内容进行监测。在他们看来，立场和观点是自由的，只有重要的事实性陈述最具有公共性，最值得被核查。通过自然语言处理及机器收集网站对人类判断的不断学习，将海量内容分为非事实性陈述、不重要的事实性陈述和重要的事实性陈述。同时，该网站还提供针对个人用户的端对端的事实核查检测服务。

美国杜克大学记者实验室试图为智能手机，平板电脑和电视平台提供即时事实核查。其团队设计了“pop-up family”计划，试图通过“FactStream”一系列的应用程序在电子设备上直接显示核查结果，目前该应用还处于测试阶段。其开发的核查应用还有语音激活助理，通过智能语音识别与分析进行核查结果的告知；Chrome浏览器扩展程序，在诸如总统辩论这样的新闻现场，提供即时的弹幕事实检查；Share the Fact的小部件，帮助搜索引擎查找事实核查文章。

爱尔兰记者Mark Little创立的Storyful致力于核查社交媒体内容的真假。其研发的信息监测工具Newswire，可以实时对 Twitter、Facebook、Youtube、Instagram、Pinerest等社交媒体上的UGC进行监测，并将抓取到的可能具有新闻价值的热点素材，推送给人工编辑，其中主要以视频素材为主。“接盘手”人工编辑凭借长期的新闻工作经验，判断并选择出具有利用价值的内容。

目前仍有部分核查机构采用人工的方式筛选待核查内容。如对政治家公开言论进行核查的PolitiFact。记者每天从读者邮件、电视以及社交媒体等渠道选择文字稿、演讲、新闻报道、宣传册的内容，进行人工核实与评级，并且着重核查权势一方或反复发表误导性言论的主体。该网站因在美国大选中的突出表现获得了2009年的普利策奖。

还有国际性非盈利企业Meedan开发的内容管理平台Checkdesk。由记者发布一个待核查事件，用户可上传社交媒体链接，记者审核后可形成有关该事件的核查报告，促进公众讨论。

除专门的核查机构外，社交媒体平台基于管理需求，会对规范平台内容。Facebook的社区守则明确规定平台禁止欺凌欺诈、仇恨言论等内容。近年来由于备受假新闻诟病，其宣布加雇3000人进行内容审核，并提高机器学习算法识别疑似假新闻的内容。在国内，腾讯开发了较真平台和谣言过滤机，为用户提供核查内容的搜索服务与人工服务。

1.2 核查与分析

自动化事实核查的第二步是对筛选出的内容进行查证，目前的方法和思路是将内容与已被核查的语句或权威信源进行匹配、比对。这在技术上一方面要求机器具有理解文本及交叉分析多方信源等能力，另一方面需要有确定来源且已被核实的数据库。

目前核查自动化程度较高的是ClaimBuster。其匹配工具能够收集来自其他数据库和网站上已核实的内容。核查工具将待核查的内容与其进行比对，分析二者的符号相似性和语意相似性，并生成详细的核查报告。并且，该平台开发了端对端的核查入口，用户可自行检索表述，ClaimBuster会匹配相似表述，提供核查结果。

由威廉姆斯大学的Justin Berman等三名学生开发的NewsCracker通过算法测量媒体报道的倾向性，以标题强度、中立性和准确性的综合评分，对媒体报道进行可信度评级。算法测量的标准包括对特定网站已有的初步评分、同一新闻的报道数量，引语的数量和来源，含偏见的用语数量以及句子长度和结构，这被该团队认为是“最重要的五个事实主张”。

但实际上，将待核查内容分类并分解成小任务，借助网站工具为人工判断提供信息，仍是事实核查最常用的做法。路透社的研究报告认为目前的自然语言识别算法虽然能有效地抓取语句的相近变体，但后续的分析往往会牺牲核查的准确性。而且，在对事实核查人员和计算机科学家的研究和访谈中，他们发现目前自动化事实核查技术并不具备对语境的判断力以及核查人员所需的敏感性。

2007年《坦帕湾时报》创办的Politifact制定了真实性测量仪，编辑、记者根据根据陈述是否准确，重要信息是否缺失，是否有误导性三个方面，将公众人物的陈述分为6个等级：真实、基本真实、部分真实、基本失实、失实和完全失实。此外，为评估政治家在重要问题上立场的一致性和原始承诺完成情况，开发了反转测量仪，承诺实现性测量仪等,评级工作由三位编辑共同投票决定。

欧洲新闻中心发布的核查手册（Verification Handbook）介绍了来自BBC、Storyful、ABC等国际知名媒体的记者在事实核查过程中的经验与可用的工具。例如，Reaval开发的图片核查助手可以运用多种图像篡改检测算法对图片进行分析，提供包括元数据分析、GPS地理定位、EXIF缩略图提取以及与Google的反向图像搜索等功能。手册中，许多专业的核查记者分享了工作中使用的工具，例如图片分析工具、数字足迹和时间戳回溯工具等。

1.3 校正与分发

基于不同的理念，不同平台采取了不同的结果分发方式。以提供工具服务为主的机构往往选择对核查内容进行真实性评级或标注，也有平台通过发布核查报告公布结果。

PolitiFact将评级结果在网站上公布，并允许网友提交异议，工作人员会参考；有社交媒体通讯社之称的Storyful向新闻媒体合作提供已核实并获取版权的社交媒体内容；ClaimBuster有端对端的核查，在网页即时呈现核查结果；Full Fact开发个人化的核查工具，通过人工智能核查，与用户直接进行对话。

自动化事实核查的另一种思路是非结构化处理，即提供多元信息或警示性标注，这是目前社交媒体平台及搜索引擎采取方式。例如，Facebook开发“相关文章”功能，对可能出现的极端言论提供多元甚至相反观点的文章推荐；增加小信息按钮，呈现源站点的维基百科页面等。由杜克新闻实验室和谷歌母公司Alphabet共同开发的Share the Facts组件与权威媒体和核查机构合作，对已核查内容进行标记，并在谷歌搜索结果中予以特殊显示。

2.欧美新闻事实核查的特点及局限

2.1 发展迅速，核查自动化面临多重障碍

事实核查机构主要有新闻工作室和NGO两种经营模式。近年来，事实核查机构的数量不断增长，据杜克记者实验室统计，2014～2018年1月，全球范围内的事实核查机构由44个增加到149个，其中41个运营超过5年，占总量的29%。

但自动化事实核查仍面临许多挑战。一方面体现在自动化事实核查技术理解复杂文本，尤其在需要根据语境分析的情况下，不能达到专业事实核查人员的能力和敏感度；另一方面，算法的固定程式难以尽善尽美，达不到预计效果。NewsCracker在核查BuzzFeed的一篇报道时，将一篇原本客观的报道认定为有偏见。因为文中引用的用户推文被检测为“许多陈述无法得到验证”，并且对整个网站的可信度产生影响。

此外，许多机构试图为直播新闻实时生成评分，发现机器难以识别出对应的人物；非英语国家的专业政治用语，机器无法准确地翻译；以及部分官方数据库的访问权难以获得等诸多问题。

事实上，目前的欧洲的新闻事实核查仍依赖人工监督和参与。Storyful研发出的社交媒体信息监测工具Newswire，对社交媒体UGC监测抓取后，仍需人工团队判断是否具有新闻价值，核查也往往需要人工联系信源。一些图片分析工具并不能准确获取拍摄时间、地点等重要的数字信息，一些地理位置判断也需要核查员肉眼比对，甚至部分核查网站，要依赖用户参与提供更多的信息资源。

2.2 多平台合作，注重信息的整合

杜克记者实验室的联席主管Bill Adair提出“自动化核查更依赖于人们的合作，而不是技术上复杂性”。

网络时代，利用事实核查打击假新闻是一项持续的系统工程。从目前的实践看，核查机构往往需要联合新闻媒体、社交平台等多方主体完成多方位的核查步骤。自动化事实核查与人工核查的最大不同在于人可以从现实社会中挖掘事实，机器核查只能立足于具备真实信息的数据库，这一方面对集合信息的算法提出了较高的要求，另一方面再次突出了获取信息访问渠道，即合作的重要性。

目前，世界性的核查组织开始试图建立共同的准则。2016年9月，新闻研究机构Poynter发起了国际事实核查网络，来自27个国家的35个组织和人员参与签署了非营利等5条国际性准则，联合了包括Factcheck.org、Full Fact、 PolitiFact、 Snopes等核查机构，以及来自the Washington Post、法新社等新闻媒体的专业核查人员。

2.3 资金缺乏，维持难度大

据路透研究报告，目前大多非营利性事实核查机构附属于新闻媒体或NGO。其资金来源主要有两种方式，一是吸纳多方面资金，另一种是单纯依靠媒体或慈善机构的资助。例如，杜克新闻实验室的Tech＆Check项目就获得了由奈特基金会、Facebook新闻项目和克雷格·纽马克基金会共计120万美元的资助。虽然一些事实核查组织已经创造出相对低价且独立的AFC工具，但若要开发、推进大规模的AFC系统仍需要基金会、学校和平台公司的持续性支持。在2016年，一家核查目击媒体内容的Reportedly就因失去母公司的资金资助而停止更新。

值得注意的是，业内建立起较为成功的商业模式的核查组织Storyful在开发社交媒体资源外，还试图在UGC中寻找可以用于商业宣传的内容。

3.自动化事实核查发展的思考

3.1 网络迎合人性产生假新闻，需要建立数字规范

“当真相还在穿鞋，谣言已经跑遍了半个世界”。后真相时代，个人情绪被放大，越是迎合人心理需求的内容越能获得点击浏览。2018年3月美国《科学》杂志发表了一篇假新闻研究，分析了过去12年间的12.6万则新闻在推特上的传播情况后发现假新闻跑得比真新闻更快、更深、更广。并且被人们转发的假新闻有一个明显的特质：新鲜（novel）。

19世纪80年代的黄色新闻热就因社会各界的抵制退潮，人们对新鲜信息的渴求需要由合理规范加以克制。在西方，不实信息，尤其是涉及政治的内容的传播，被认为是严肃的问题。Facebook假新闻对美国大选的影响，使得欧美政府在积极采取措施应对假新闻。2018年1月1日，德国《社交媒体管理法》实施，该法案对脸书、推特等在德国境内提供内容服务的社交网络平台提出了更为严格的监管要求，打击网络虚假新闻是该法的主要作用之一。欧盟推出的通用数据保护条例也将在2018年5月25日生效。近年，美国社会要求以立法形式规范政治宣传中的误导性信息、治理假新闻的呼声也日益强烈。

3.2 运用区块链建立网络信用体系

对源头信息的确定是目前自动化事实核查的难点之一。网络内容的可复制性，使得已被证伪的消息、图片与视频不断被再次传播，还有许多图片与视频被处理甚至歪曲后再次上传，混淆视听。有研究人员提出区块链技术能从信息分发的角度解决假新闻问题。区块链技术能够对内容生成数字证书，具有永久保存性和不可篡改性。将内容与个人捆绑，使得所有内容有据可查，从而解决信息难以追溯的问题。另一方面，就像社会信用体系会对个人行为产生无形约束一样，如果将原创信息作为个人资产，用户需要对所发布的信息负责，这对抑制假新闻的传播会有一定效果。实际上，利用区块链应对假新闻的构想已经被初步实践。例如2018年初，端传媒主编张洁平、方可成等人参与创办的Matters，试图利用区块链的数字货币激励机制、内容“上链”和去中心化的特质，重塑公众讨论，目前该平台正处于内测阶段。

3.3 定义“真相”的悖论及自动化的局限

自动化事实核查选择事实性陈述进行核查，看似摆脱了主观立场的干扰，但即使是事实性陈述，也不能用二元对立的思维作“真”与“假”的判断。在核查事实性陈述时，文本措辞的模糊程度、事实的动态呈现都会对“真实性”产生影响，简单的标签或许会导向更简单的思维。“事实已经不再是世界本身的呈现，而是对世界共识的表述。”有观点认为，后真相时代，事实核查新闻面临从“核查客观事实”到“协助理解现实”的转变。因此，许多核查组织试图提供非结构化数据，帮助用户多角度思考，但实践效果并不明显。

神经学研究发现，人类对情势的估计和快速判断的能力都来自于隐性知识。而这种知识往往来自人类意识控制范围之外的神经活动，还无法被分解成可被精确描述的书面指令。哈佛学者尼古拉斯·卡尔在其著作《玻璃笼子：自动化时代和我们的未来》中提出，过度依赖自动化会降低个人技能：自动化系统的运行过程中，信息负载不足会导致倦怠心理，造成风险的工作环境，最终增加工作量。这在书中被其称为“自动化悖论”，是自动化高度发展带来的问题。目前就事实核查技术的发展现状而言，其自动化并未发展到这一程度。