人工智能在新闻传播全链条中的具体应用

2020-03-28 09:54新华社人工智能时代媒体变革与发展课题组

中国记者 2020年2期

□ 新华社“人工智能时代媒体变革与发展”课题组

随着人工智能技术的不断成熟，国内外传媒业都开始将其运用到新闻生产传播的各个环节，数据挖掘被用于寻找新闻线索，机器人写作被用于直接的新闻生产，算法推荐接管内容分发……它已经在整个行业链条上对新闻业产生影响，基本涵盖了从信息采集、内容生产、内容分发到用户互动等全过程。

一、信息采集与线索挖掘

近年来，越来越多的新闻事件率先在社交媒体上披露。记者如何在冗杂的信息汪洋中找到线索，准确、迅速地报道新闻变得更具有挑战性。人工智能和大数据技术可以快速挖掘线索和有效地关联信息，协助记者更全面地分析数据，发现隐匿其中的趋势和事实，显著提升信息采集的效果。

国内主流媒体在这方面做了很多积极探索。由新华社和阿里巴巴集团共同投资成立的人工智能科技公司新华智云研发的突发识别机器人系统，能够自动识别突发新闻，提高突发事件报道时效，是记者们面对突发事件报道的得力助手。面对海量信息，突发识别机器人会自动识别属于突发事件的线索，提醒编辑优先处理。机器人还能自动识别突发事件信息中有价值的新闻片段并以高亮突出，例如火灾、爆炸、交通事故等。

新华社自主研发的微信小程序新闻雷达（NewsRadar），实时追踪互联网、社交媒体、App等千万级数据，为编辑记者提供新闻热点、新闻线索、微博话题，自动预警突发事件，并根据事件性质和规模预测事件热度，强化新华社在突发新闻报道中的领先优势。人民网的舆情监测系统利用大数据挖掘等技术，能够7×24小时对互联网信息进行实时监测、采集、内容提取、自动消重，分类梳理热点事件，分析信息来源、热度走势、地域分布等。

国外媒体在利用人工智能技术辅助新闻信息采集方面要领先于国内。路透社、美联社等媒体集团以及一些初创科技公司推出的各种技术卓有成效。

路透社自研的两款人工智能工具Reuters News Tracer（新闻追踪者）和Lynx Insights在快速收集、梳理社交媒体上的可靠信息源和素材方面应用广泛。Reuters News Trace是一款社交媒体监测工具，用于发现Twitter上的突发事件，并根据新闻性和真实度给予评分，使记者和编辑聚焦真正重要的新闻。该系统运用算法和机器学习等技术对Twitter上的海量信息进行监控，可以过滤掉80%的垃圾信息，挑选出最相关的事件，确定它们的主题，排列出优先级，并生成事件的简短摘要和其他有用的指标。路透社自2016年开始使用该系统分析社交媒体数据，其突发新闻事件首发率多次领先全球其他媒体。

路透社推出的另一款人工智能工具Lynx Insights，可以协助记者搜集和分析数据，撰写模式化的报道。该系统对海量数据挖掘，寻找有价值的线索，然后以短信、电子邮件或者Flash推送的形式发给记者参考。它还具有一个功能，比如记者输入一家公司的名称，它就会快速提供有关该公司的信息，极大提高了记者做新闻事件背景调查的效率。目前，路透社已经将其应用于财经题材的新闻报道。

在辅助媒体进行报道决策方面，成立于2012年的美国News Whip（新闻鞭）公司技术先进，它与美联社等多家媒体都有合作。News Whip利用大数据挖掘等技术，从人们在社交网站上的各种活动中收集信息、挖掘线索，协助新闻机构更快地发现重要内容。它可以每两分钟扫描一次Facebook、Twitter等全球主要社交媒体，来捕捉什么事件是当下最热门的，怎样的内容更受欢迎，然后分析这些内容的发展趋势并转化为可操作的建议，帮助媒体人根据线索进行选题策划。

二、内容生成与编辑

目前，在新闻内容生成和编辑方面，语音转换技术、机器人写作、音视频自动生成技术、内容纠错技术等被广泛应用。这些人工智能技术将记者从繁重而乏味的日常任务中解放出来，使他们能够专注于更需要创意、思考、判断力的深度报道领域。

1.语音转换技术。有调查显示，记者平均每周花3小时做访谈，但却要花两倍的时间将访谈录音整理为文字。有了这项技术，记者就可以从初级劳动中解脱出来了。

在这方面，国内的一些头部科技公司的表现令人瞩目，为媒体工作提供了极大助力。科大讯飞利用人工智能技术，研发了一系列的相关产品，并在很多媒体业务场景中投入应用。面向采集环节，讯飞听见APP等产品可以实现采访的语音变成文字的功能；面向编辑环节，讯飞听见智能文稿唱词系统，能够快速实现音视频字幕生成，1小时的音视频节目，5-10分钟生成字幕出稿，经过简单人工校验，就可以生成相应的字幕文件，减少了编辑过程中人工排字幕的时间，提升工作效率。

新华智云推出的专业级录音转文本工具“采蜜”，可以帮助记者实时将采访音频转换成文字，并自动同步至电脑上，省去大量简单重复劳动。此外，新华智云研发的字幕生成机器人，可以通过语音识别技术，快速找到音视频中的关键词，就像Word文本一样通过搜索关键词即可定位到关键信息。同时在视频编辑过程中，字幕生成机器人可一键根据视频同期声为视频添加字幕。过去做一个3分钟的视频，可能需要花30分钟时间编辑同期声字幕，现在有了这个机器人，只需几秒钟就可完成，记者可以把精力更多用在脚本写作和镜头剪辑上。

新华社技术局研发的语音智能分析平台“音讯”实现了多语种语音识别与合成能力，在移动端，对中英西法俄阿葡等9种语种的语音进行实时转写，让记者从此告别“录音笔”与“速记本”，采访结束一键出稿；网页版“音讯”，可将数小时录音分钟级别高效转写；桌面版音讯内录工具的推出，让电脑上的各类视频直播语音高效地实时转为文字，记者编辑不用再反复回听记录，节约了大量时间与精力。

2.机器人写作。在新闻采写领域，机器人写作开始扮演日益重要的角色。所谓机器人写作，其背后的核心原理还是大数据分析和云计算，从海量的资讯中找出最有价值的部分，通过算法，用固定的报道模式呈现出来。机器人写作在诸如证券交易、体育赛事、地震速报等模式化报道中应用广泛。

2015年11月7日，新华社的写稿机器人“快笔小新”正式上线，在体育和财经等领域7×24小时实时采集数据，每天生产200余条稿件，极大提高了发稿时效。

新华智云推出的体育报道机器人，可以辅助赛事管理、对赛事直播智能拆条，自动包装视频集锦。比如在俄罗斯世界杯期间，该系统持续工作，通过机器生产以及人机协同生产两种模式，共生产世界杯短视频3万7千多条，平均生产用时50.7秒，最快一条视频的生产仅耗时6秒。

在国外，机器人写作比国内更早被应用于新闻编辑室。早在2014年，美联社就开始与Automated Insights（自动洞察公司）合作，利用写稿机器人来完成相对模式化的财务报道。《华盛顿邮报》在机器人写作方面有着更为丰富的实践。该机构拥有100多个新闻机器人，其中Heliograf表现尤为突出。Heliograf在2016年里约奥运会报道中首次亮相。该系统通过分析比赛实时数据整合信息，然后与写作模板中的相关短语匹配，生成新闻报道。在整个里约奥运会期间，Heliograf承担了大量有关比分和奖牌数的实时报道，记者可以专注于采写更有深度和有意义的内容。

《纽时时报》研发的写作机器人Editor（编辑），将机器学习技术与记者撰写新闻故事的过程相结合，记者在利用该系统写稿的同时可以使用标签对重要的短语、标题、观点进行再标注。计算模式经过长期训练，可以自动识别语义标签，并学会分析文章中的重点部分，帮助记者编辑更快地查找资料、核对内容。

3.视频自动生成技术。利用人工智能技术将文本直接转化为视频，不仅能更清晰地呈现复杂关系，同时也具有更生动的表现力，极大地促进了新闻信息的多样化生产，提高了记者的工作效果。

在国内，新华智云研发的数据新闻机器人表现突出。该系统提供18种专业的数据可视化模板，涵盖饼图、柱状图、折线图、排名图等样式。通过流畅的动画效果，高颜值的可视化模板，展现数据间的关系。同时简单易上手，降低了制作数据可视化视频的门槛。零基础编辑只需上传一个数据表格，即可一键生成对应的可视化视频。

新华社采用智能多轨视频编辑产品，编辑仅需输入一篇稿件或一个主题词，即以新华社海量视频与图片资源为基础，以智能标引技术、语音合成技术、语义检索等智能化技术作为支撑，实现高质量短视频的一键智能生成，大幅提升了短视频稿件的制作效率。

国内一些科技创业公司在视频自动生成领域也有不错的成绩，比如杭州的慧川智能，主要做视频编辑。电视台做节目时，有些视频可能是从执法记录仪里面导出的，那么电视台编辑就把这段视频导到慧川智能的工具里面，输入几个关键词，系统就会自动匹配，快速找到要发布的内容，自动生成一个视频，并配上字幕，几乎不需要人工干预。

在国外，比较有代表性的是2011年创办于以色列的Wibbitz公司。Wibbitz是一家依托人工智能技术将文本自动生成短视频的科技公司，他们最核心的技术是“文本转换视频技术”。这项技术可以通过对图片、视频的识别功能，实现智能化分类、归档、储存，然后根据输入的文本，挑选出关键词，并迅速搜索出与关键词最相匹配的清晰图片和动图，自动生成视频。2017年，美联社参与Wibbitz公司的融资，利用其技术实现视频的智能化生成。

4.新闻内容纠错。2019年，新华社自主研发了内容智能检校机器人“较真”。“较真”嵌入在新华社的采编发系统中，点击“拼写检查”按钮，进入“智能检校”即可对稿件进行校验。“较真”不仅具备传统检校软件在易混淆字、内容规范表述等方面的能力，而且增加了人名自动识别、语言语法使用、语义搭配理解、知识辨别、逻辑搭配、日期规范及稿件电头格式等方面的校验功能。与传统检校软件相比，“较真”引入人工智能、大数据等技术，具有以下优势：一是能根据新闻行业语言逻辑规律，发现文本语义错误；二是通过对海量新闻数据的学习，可以不断提升检校本领；三是拥有15种识别能力，对稿件检查更细致、更深入，准确率超过业内同类产品50%。

用人工智能对新闻内容纠错的技术还有很多，比如成立于美国的公司Grammarly为记者提供英语的语法纠错、标点修改、词句润色、句子结构优化等功能。

三、内容分发和个性化推送

在传统大众传播模式中，受众是模糊的，媒体无法精准定位受众，受众也无法选择自己想看的内容。以机器学习和推荐算法为代表的个性化推送改变了这种状况，实现了内容精准分发。

在国内，内容分发类平台今日头条依靠算法建立起精准的用户画像，基于用户的搜索浏览数据、地理位置、手机环境、社交网络关系等，产生针对每个用户的个性化信息流，可以说颠覆了受众接收信息的模式。一点资讯则将编辑和算法相结合，通过对用户画像、文章画像和算法模型的分析，智能分析用户爱好，精准推荐内容。

短视频社交平台的个性化推送更是应用广泛。以快手为例，自2011年创立以来发展迅速，基于深度学习的人工智能算法机制，快手实现了复杂网络环境下对不同用户、多种场景的内容分发。

在国外，《纽约时报》的机器人Blossomblot可以对社交平台上的海量信息进行大数据分析，推测哪种类型内容更具热度，更具有推广价值，以此帮助编辑挑选出适合推送的内容。据该报内部统计，经过Blossomblot筛选后的文章点击量是普通文章的38倍。

四、用户反馈与互动

为满足用户获取内容的个性化需求，强化交互性，新华智云推出对话机器人服务，用户可以像与人聊天一样，与机器进行问答，从而获取最感兴趣的内容信息。比如在俄罗斯世界杯期间，“进球机器人”入驻新华社公众号，为用户提供世界杯进球视频。用户点击菜单栏的“进球机器人”，提问如“我想看梅西的最新进球”，机器人就会自动回复相关视频。

国内媒体与用户的互动，现阶段更多的借助多媒体识别技术。如人民日报客户端推出的互动型H5产品《快看呐！这是我的军装照》通过人脸融合技术实现用户虚拟“军装照”合成，用户参与度极高，浏览量超过10亿。

在评论反馈方面，为了让更多用户参与评论，谷歌旗下的Jigsaw公司合作推出了Perspective，可以针对读者评论进行过滤筛选。纽约时报是其用户之一。该报的评论审核小组有大约14人，负责每天手工处理近1.1万条评论，但实际发布的评论仅占评论总量的10%。这种劳动密集型的工作流程限制了与受众的互动。纽约时报希望借助AI的自动化转换的功能，提高与读者的互动量。通过Perspective智能算法，对用户评论内容进行打分，良性的评论给予正分，谩骂性的评论给予负分。通过设定内容显示的比例值，自动过滤掉不良评论，使读者更容易检索到自己感兴趣的评论并展开讨论。

五、新闻事实核查

虚假新闻一直是新闻传播业的痛点之一。近年来，人工智能技术越来越多地运用于追踪和识别虚假新闻。

□ 2019 年11 月26 日，在济南举办的“未来已来”5G+AI 创新成果展。（新华社/发）

自2018年1月开始运作的FANDANGO项目是欧盟Horizon2020（地平线2020）科研规划中的虚假新闻检测项目，目的是利用大数据及人工智能技术解决虚假新闻检测的难题。通过对内容进行独立性分析，该项目可以帮助记者发现虚假照片等内容；它还提供虚假新闻溯源，通过技术手段让记者可以发现哪些假新闻具有相同的根源，做进一步的调查。

英国帝国理工学院的“好新闻”项目，通过分析社交媒体传播模式来确定新闻的真假。该技术通过大量的数据分析发现，假新闻的传播模式与真实故事有很大区别。假新闻更倾向于通过分享的方式传播出去，相比之下，真实的故事则拥有更多的点赞数量。以此为理论基础，“好新闻”项目开发出了相关算法。

对于不良信息的核查拦截，国内外的人工智能公司和互联网巨头也开展了相关研究。新华智云推出的安全核查机器人通过深度学习技术，结合在媒体领域积累的文本、图像、视频、音频识别技术，可以快速定位涉黄、涉恐、涉政等内容，为内容生产提供安全监测，降低了人工审核成本，提升审核效率。字节跳动科技公司在今日头条平台上，依靠人工智能技术，模仿人脑机制，对低俗图片的拦截率较之前纯人工拦截提高了73.8%。

美国的AI Foundation（人工智能基金会）开发了一款名为Reality Defender（现实卫士）的工具，自动发现虚假不良信息，它的运行原理与杀毒软件类似，通过扫描每一幅图像、视频和文章，报告可疑的目标，并使用各种人工智能驱动的分析技术，以检测可能出现的敏感问题。

六、版权保护

随着媒体传播渠道的多元化，内容更是成了媒体的核心资源，而版权则是保护内容的重要手段。人工智能技术的进步，也为新闻版权的保护带来了新的思路和手段。

人民网舆情数据中心依托多年舆情业务的大数据采集和分析能力，结合区块链技术，推出“人民版权”一站式版权保护管理平台。利用区块链的不可篡改、可追溯、开放、去中心化、真实安全等特性，完成对数字作品的版权保护全流程管理。

中国知网利用神经网络模型对文本内容构建高维度语义索引，不管是中文还是其他语言，文章都被映射到一个统一的语义空间，实现真正基于内容理解的语义级全文比对检索，从而更加有效地发现文章的抄袭和雷同。

在国外，美国的Civil也是基于区块链技术打造的新闻出版发行平台，美联社与其合作，追踪其新闻内容在社交媒体上的传播路径。此外，美国Adobe公司通过人工智能算法可以自动识别被篡改过的照片，并且对照片进行恢复和溯源。