数据新闻的算法革命与未来趋向*

2018-02-09 21:07范红霞孙金波
现代传播-中国传媒大学学报 2018年5期
关键词:算法用户信息

■ 范红霞 孙金波

一、数据新闻中的算法

德国学者保罗·布拉德肖(Paul Bradshaw)认为,数据新闻“简言之就是一切通过数据处理的新闻”。它将传统的新闻敏感、讲述动人故事的能力与庞大的数据信息结合在一起,使新闻报道呈现出许多新的可能。①从新闻生产方式上来说,“数据新闻是关于数据的采集、分析和可视化呈现的新闻工作理念与方法”。②作为大数据时代的新闻变革,在内容上,数据取代了文字,成为重要的信息载体;在叙事上,数据可视化呈现取代了文本描述。在内容与形式的双重变革背后,操作并实现这一转变的工具,来自新型的信息加工方式——算法。

算法是什么?简单地来说,它是利用一定的计算公式进行数据处理,在计算机程序设计中使用广泛。近年来,随着网络和大数据技术的快速发展,我们正在进入“算法经济时代”。

本文将重点分析数据新闻中所使用到的算法,以及算法革命给新闻业态带来的变化趋势。在数据新闻生产的不同环节,如数据查找与采集、数据聚合与集成、数据挖掘与分析、数据推荐等方面,不同的算法各有用武之地。

1.数据查找与采集——字符串查找算法

查找是指在大量的数据中找到特定元素,它是数值计算中常用的运算逻辑。④就数据新闻而言,因为常常涉及到文本处理,往往会通过在某个文本信息中查找某个词在文中出现的位置,依次比较这个词在文本中的信息。通过匹配值分析,达到优化的目的。常见的字符串查找算法有三种:一种是KMP算法,它的匹配性能优越于传统的字符串查找算法,在信息检索过程汇总,需要快速提取关键词在文件中的位置,往往会使用此种算法。还有一种算法叫做BM算法,相对于KMP算法效果更高,且实现过程更容易理解和实现。很多文本编辑器中的查找方式都是基于BM算法实现的,虽然二者在字符移动和匹配过程中都需要花费一定的查找时间,“但是BM算法的匹配速度比KMP算法快3~5倍”。⑤此外,还有一种Sunday算法则适用于较长的文本。

当然,如果涉及到海量数据的查找,比如搜索引擎所使用的查找算法,就包括基于布隆过滤器的方式,设置能够搜索和过滤重复网页的爬虫程序;以及基于倒排索引的数据结构,它们在信息检索的精度和准确度方面更高。

2.数据聚合与集成——基于K-Means算法的新闻聚类分析

机器学习中,聚类分析是一种非常重要的算法。“系统聚类的方法是通过计算将距离较近的样本先聚成一类,距离较远的样本后聚成了类,通过计算样本之间的距离,最终使每个样本都能找到合适的聚簇。”⑥K即中心点、关键词,Means即意义内容,也是围绕中心点进行信息分类的依据,通过计算中的多次迭代,最终实现分别聚类,且类别与类别之间区分明显,有助于实现聚类结果的个性化。以新闻聚类而言,类似于今日头条、一点资讯、腾讯新闻等新闻聚合应用,它们没有原创新闻,而是通过对网络上的新闻进行抓取,然后进行相似新闻聚类。如今日头条,它提出的口号就是:“你关心的,才是头条。”强调了新闻推送的个性化和定制化。而实现这一特征的主要途径,就是通过新闻聚类分析,抓取网民最感兴趣的内容,将其聚合成类,便于浏览。K-Means作为文本聚类最直接的算法,也是最为经典的数据挖掘算法,它所秉持的核心思想是:人以类聚,物以群分。通过用户的属性特征和兴趣偏好,找到他感兴趣的内容,有针对性地推送相关新闻。网易云音乐在个性化推荐方面也是采用这种模式。

但是,它的弊端也很明显。就是初始中心点的选择对迭代次数影响较大,如果是随机选择,计算周期会比较长;如果随机选取的初始中心点均属于同一个聚类,计算量比较大,而且一定周期内反复收到同类信息,也会造成信息疲劳。因此,在使用此类使用聚类算法的APP(新闻或音乐),不断更新关键词和信息偏好,有助于打破信息过度匹配和过分集中的困扰。

3.数据挖掘算法——购物车理论和FP树关联分析

数据的关联规则是数据挖掘算法的目的之一,用于从海量的历史数据中,挖掘出可能具有价值的信息,以及数据之间的相关关系,在商业营销中可以利用数据之间的关系产生较大的商业价值。⑦如,当一个消费者在超市购买了A产品,那么算法就会分析与A产品相关的哪些产品是消费者可能下次购买的。最经典的超市案例就是“啤酒”和“尿布”的故事(在超市里为婴儿购买了纸尿裤的男性顾客会顺手为自己买些啤酒),通过商品之间的内在关联,提升了销售率。因此,这一算法规则(Apriori算法)也被称作“购物车理论”。该理论就是运用了关联规则,寻找两个或多个事物之间的依存性和关联性。如果两个或者多个事物之间相互存在一定的因果关系,则他们之间存在一种关联规则使得它们之间可以进行搭配。如啤酒+尿布的组合,以及收银台附近陈列的口香糖、巧克力和安全套等小物件,还有,买了手机的顾客多半会购买手机屏幕保护膜、耳机等,这是一种最简单和直接的关联关系。因而这种关联规则也被称为“购物车理论”。基于购物车理论的Apriori算法应用非常广泛,如超市商品摆放和货架陈列的关联分析、顾客消费习惯分析等,当然,还包括电商平台最为热衷的购物推荐等。

FP树(Frequent Pattern Tree)模式,通过对原始数据进行压缩,从而提升数据分析性能。因为交易数据海量庞大,如果反复扫描,容易造成数据损耗,如前一种算法那样。而构建FP树,只需要扫描两次,第一次分析数据中的每个频繁项和每个频繁项的支持度,并根据支持度进行降序排列。据此创建FP树的根节点,即出现最为频繁的词语,然后进行迭代列加后缀频繁项集,最终得到所有与某个频繁词相关的频繁项集。上述“啤酒”与“尿布”的组合就是这么来的。

4.数据推荐算法和预测模型——协同过滤推荐和潜在因子推荐

推荐算法的应用日益普遍。推荐算法是用户和商品之间的桥梁和道路,它为用户提供他们可能感兴趣或者有价值的商品信息。当我们购物时,辨别用户身份的cookies数据被存储到电脑上,使我们很容易被个性化的商品广告与商品信息更高效地“锁定”。推荐算法主要围绕以下目标展开:“帮助用户找到自己喜欢的商品;加强对用户的了解,提供个性化定制服务;降低信息过载问题;提供网站或移动客户端的展示与点击的转化率,实现流量变现;增加用户黏性,使用户对网站或移动客户端产生信息依赖。”⑧常用算法是基于行为数据分析的协同过滤。

协同过滤常常用于电子商务、互联网广告的个性化推荐,它通过对用户的历史行为记录,以及用户群体的行为信息,给用户之间、商品之间建立关联性规则,给用户推荐个性化商品,提高销售额。如在亚马逊、京东、淘宝等电商平台,推荐算法创造了“双十一”的消费狂潮。根据阿里巴巴集团披露的数据,截至2017年11月12日零时,2017年天猫双十一交易额定格在1682.69亿元人民币。再次刷新单日全球零售的历史记录。⑨协同过滤算法主要有两种模型:基于商品特征(item-based)的算法和基于用户行为(user-based)的算法,针对不同的活动场景都各有用处,效果显著。

另外,潜在因子算法也是广泛应用的推荐算法,不同于item-based通过商品之间的关联推荐,也不同于 user-based的群体性行为分析,它是通过用户的历史行为挖掘用户本身的特征,以及分析现有商品的本质特征进行的推荐。以前我们津津乐道过一个例子:超市会给最近购买过无香化妆品的女士推荐孕婴产品,而且神准。再如新闻推荐,特征标签是新闻主要表达内容的体现,通过将新闻的特征标签转换为用户的特征标签,从而感知用户对于某方面内容的兴趣程度比较高。另外还有基于流行度的推荐,利用群体模仿心理,将当前最热门的产品推荐给用户。《欢乐颂》热播后,打开淘宝,首页可能会给你推荐剧中人物的同款裙子、帽子或饰品等等。一部电视剧带动了服装、化妆品、洗发水、发型妆容、度假胜地、书籍唱片等周边产品的热销,由此使热门影视剧的周边产业成为一个巨大的金矿。

预测模型所使用到的算法主要是借助概率统计,通过线性回归方程的计算或者是最大期望值算法分析,找到隐藏在现象外表下,然而与其状态相关的某些变量,以获得解决问题的方案,如天气预报、用户行为预测等等。如美国2016年大选时,美国CNN等主流媒体凭借传统的民调数据预测希拉里能胜选,而大数据分析的结果则预测彼时赢面甚小的特朗普将会胜利,最终结果出来后,令这些传统媒体与主流人群大跌眼镜。

预测模型甚至被用到企业的人事招聘和人员晋升中。在收集拟录用人员资料时,基于一个人的地理位置、学习成绩、他经常访问的网站、搜索时使用的关键词,他在推特、脸谱或者微博上发布的信息,人们就可以对他的性别、种族、社会阶层、兴趣爱好、人格特质、生活态度、职业潜力等作出判断、推理和评估。美国有一家Hunch公司,开发了一个声称“个人喜好反映一切”的算法,通过分析用户在脸谱网上的个人喜好与社会维度数据集之间的关系,为用户建立详细的档案,并预测他的人格特点、性格和政治倾向等。“一项叫作‘推特心理’的业务宣称可以依据人们在推特上谈论的话题,包括学习、金钱、情感与焦虑等,通过算法测算他们的情商和智商水平。”在这里,全数字化(可量化)的行为数据分析成了一种身份识别技术。

二、新闻生产中的算法“革命”

大数据传播为新闻业带来了全新的变革。具体而言,表现在以下方面:

1.传播语境的转换:从信息传播变为知识传播

现代新闻业的兴起,源自我们对于信息的渴求。长期以来,大众媒介就承担着传播信息、监测环境、对周遭世界的变化做出解释的职能,每天专注着报道海量的信息,但是“浮光掠影”式的报道,并未触及最终解决问题的关键。而知识是什么?代表被系统化、被整理和提炼过的经验、认知和方法,可以用于指导我们的实践和生活。在强调信息传递的传统媒介时代,“我们被信息淹没,但却缺乏知识”。因为随时更新而又浮光掠影、蜻蜓点水式的报道方式,让我们的信息接收变成了盲目而无效地浏览,认知呈现“碎片化”状态。 而数据新闻则通过挖掘海量数据之间的关联规则,寻找连接的意义和信息价值,将碎片化的内容加以整合,形成我们关于某个人物、新闻事件、现象或者社会问题的全局性的认知。比如财新网所做的《三公消费龙虎榜》《周永康的人与财》,《卫报》所做的《美国各州的同性恋权利》等报道。这些新的信息加工和新闻生产模式,扩大了我们的认知视角和信息版图。“数据新闻”正是全球媒体应对大数据时代变迁所做出的关键革新,它意味着新时代的媒体必须要经历从“信息传播”向“知识传播”的转型。

英国独立多媒体记者亚当·韦斯特布鲁克预言道:数据新闻是未来新闻业最具发展潜力的领域之一。“数据新闻使新闻回归本质:挖掘公众无暇处理的信息,核实信息,理清信息的内涵后将之发布给公众。” 如此一来,“公众将更加文明和富有见识”。从“信息传播”向“知识传播”转型,要求媒体不能仅仅满足于做片段式和碎片化的报道,更要挖掘数据背后的价值,赋予其正确的解释,使受众可以更有主见和有效地思考,从而让“信息”升华为“知识”,帮助受众加深理解、做出准确的判断。

2.算法改变公共舆论

传统媒介时代,舆论的形成仰仗媒体的议程设置。通过凸显某些话题和事件,形成重要性的排序,它们不能决定受众“怎么想”,但是却能有效地决定让他们“想什么”,为公众舆论提供话题和素材。但是现在我们经常用的说法是“个性化新闻”或者“新闻定制”,在一些新闻APP上,也许每个人看到的新闻界面都不一样。大众视线所关注的焦点,不是由媒体当天的头版决定,而是被一种所谓的“头条”和“热搜”所控制。娱乐明星的花边新闻取代了国计民生的大事,成为网民津津乐道的话题。

此外,正如议程设置带有浓厚的政治意味和意识形态色彩一样,新闻挖掘和分析算法在回答特定问题时,也会带有某种偏见。当我们搜索某个人的信息时,如果算法提供不友善的搜索项后,本来对他不了解的用户在搜索他的信息时可能会被引到某个特定方向。因此,算法不仅仅是在预测,还有助于控制用户的行为。算法的建议,一是算法可以猜到用户接下来希望搜索的内容,二是算法将特定选项置于用户眼前,让用户只能从中做出选择。社会学家威廉·托马斯与多萝西·托马斯说过:“如果人们把某种情境定义为真实的,这种情境就会造成真实的影响。”算法中用到的数学知识最初是“提炼自这个世界,来源于这个世界”,而现在则“开始塑造这个世界”(凯文·斯拉文)。如凯文·斯拉文所言,与其说是一种隐喻,毋宁说是一个预言。他所列举出来的各种与算法相关的现象,间谍策略、股票价格、电影剧本和建筑等,都有可能受到算法的影响和操纵。限高、限速、限重、限量、限牌等等,这些数据的设计,不仅仅出于公共管理的需要,更有可能带有社会偏见和身份排斥的考虑。而被冠以“个性化”美名的服务背后可能隐含阶层和区隔的意味。

3.过滤气泡与信息茧房

连客观的数据也无法摆脱人类的偏见,收集的数据种类、算法运行之前的各种准备工作等,都会受到人类偏见的影响。比如说,每个人都有身份证,各自对应不同的姓名和社会编码,这些符号和数字可以用来说明我们的身份、民族成分、出生地、出生日期、性别等等。用于机场/车站安检、酒店住宿、消费查验等,虽然我们将其视作例行公事,但是身份识别系统会把其中一些来自特定地区、民族和身份的人单独挑出来,重点检查。因为在它们的算法系统里可能被标注为“敏感人群”。这样的人无论走到哪里都会被迅速识别、定位和监控。算法因之成为一种社会控制技术。

现在还有一种大数据控制的手段,将人员、地点、对象和想法等分门别类,建立登记的计算过程,因之也具有了丰富的政治内涵。“头条”“热搜”结果可以买卖,也可以人为干预,成为心照不宣的公关手段;用算法来干扰和转移公众的注意力,可能比“政治作秀”更有效果,结果更加可控。算法还可以有意识地屏蔽消极评论或者敏感词等。正是因为有了这种具有识别和过滤功能的算法,这种形式上的客观性可能有碍社会公平正义,并导致偏见的盛行。所谓的中立性,根本就是一种假象。这也就是所谓的“过滤气泡”效应。利用Nara算法,代表用户不断地判断信息是否有用,通过剔除线上的“杂乱信息”,帮助用户精准定位,节约时间。这就是“过滤气泡”或者叫作“404”(网页无法打开)。

另外,因为个性化推荐的广泛运用,它有可能形成“信息茧房”的负面效果。这个概念是凯斯·R.桑斯坦所提出的。所谓信息茧房,是指人们在信息传播领域会习惯性地被自己的兴趣所引导,将自己的生活置于像蚕茧一样的“茧房”,从而可能成为“作茧自缚”的与世隔绝的孤立者。我们只能得到自己选择的和令我们认同或愉悦的东西,把自己封闭在熟悉的领域和信息中,造成个人思想和认知的封闭、僵化。如果任由“过滤气泡”和“信息茧房”泛滥,将不利于社会信息的流动和交换,也会禁锢思想、观念的创新、突破和交流。如学者所预言的那样:“数字化‘茧房’的缺失和数字化记忆的完全开放都是可怕的,它所产生的‘寒蝉效应’甚至会让我们失去坚定地活在当下的能力和勇气。”

4.社会隐喻的转换

1980年,托夫勒写作《第三次浪潮》。指出人类社会经历了由技术冲击社会与文化而形成的三次浪潮。第一次浪潮是农业的发展,人类劳作取代了狩猎采集文化。在中国形成“男耕女织”“男主外女主内”的社会分工体系,以及由家庭延伸到国家政治领域的父权制宗法统治以及男尊女卑的性别文化;第二次浪潮是工业革命兴起,蒸汽机成为先进技术的代表,“火车头”成为政治、经济、文化等领导权的象征性隐喻,以及伴随而来各种“规模化”效应的蔓延,批量生产、批量分销、大众消费、大众教育、大众媒体、大众娱乐和大规模杀伤性武器等。关于文化霸权的阐释与争夺,成为不同社会力量角力的根源。第三次社会浪潮,是信息化时代的到来,为我们带来了分众化、个人化的趋势。从办公自动化、门户网站、博客到推特、facebook、微博,从开心网、人人网到社交媒体、电商平台的兴起,社会正在经历个人化、去中心化和网络社区自治的全新变革。今天,我们对个性化和所谓“私人定制”的推崇,都是来自于“自我的重现”这种隐喻,商业文化、教育产业和文化工业都非常重视发掘个体的价值。极度细分的市场和个性化需求,让数字化不可避免地包罗万象。每个碎片化的组群,都可以建立自己的网站、论坛、社区,生产内容和评论,看起来是民主程度大大提高,再小的声音都能被听到。但是过度分割、内聚和个性化的数字化信息建构,导致碎片化的蔓延扩张,有时它被描述为“信息茧房”,有时它被描述为思想观念的巴尔干化,结果使我们当前的政治、经济和思想形势共识破裂、暗流涌动、险象环生。

三、算法时代的新闻业与民主治理

1.数字驱动新闻,多元/自闭成为悖论的存在

2012年,美国《新闻周刊》停止发行,只发行电子版。 2013年,《华盛顿邮报》亏损严重,被迫出售。《纽约时报》也停止了出纸质报纸,改为网络出版。2015年,《纽约时报》卖掉了所有与新闻收集无关的资产,而专注于内容付费产品。国内从2013年以来,不断有报纸停刊、传统新闻人出走其他行业的新闻,发行量和广告收入呈现断崖式下滑,而且还在不断下跌;微博、微信、各种新闻APP正在成为我们获取新闻的主要来源。种种迹象表明:传统新闻业正在经历由盛而衰的过程。数字化技术改变了新闻业,数据新闻的勃兴,也仅仅表明新式新闻更多地借用程序员、设计师、计算机和算法的力量完成,这就破坏了新闻专业主义的行业传统和价值基础。更重要的是,数字化技术改变了新闻印刷业的合法性。人人都是记者编辑,无门槛的信息发布,消解了新闻的客观性、真实性和专业性。

新闻的传播者在变化,接受者也同样发生着变化。新闻的“私人定制”,意味着个人获得的信息内容是建立在用户过去搜索内容的基础上,建立在他们浏览网站的历史上,最后依据用户在社交网站和自媒体上所写下的内容。这样,个人就陷入了一个包裹自己的信息气泡里,被算法贴上某种标签,归入某个类别,“所见即所得”的结果在某种程度上都是根据以往的数据行为,这些行为已经记入了个人的搜索档案,并且根据后台的分析一日日地加深了这种标签和印象。在算法专制主义的统治下,信息自主权和隐私权不过是一句空洞的口号。

2.算法控制和数字专制

算法的威力如此巨大,但我们却越来越依赖于算法来告诉我们什么重要、什么不重要。2016年魏则西事件,后来虽然归结为百度搜索的竞价排名规则的恶果,但是这也从另外一方面说明算法对我们的判断所施加的影响。搜索引擎成为新的社会规范。我们依靠它提供事实——却从不怀疑为什么是这些事实而不是那些事实。

社交媒体和热搜取代了传统的议程设置。加州大学欧文分校教授保罗·多尔希近年来专注于推特和社会热点的研究。他指出,推特的热门话题已经被解读为各种社会行为重要程度的标志。这是一种新的议程设置,但不是由媒体做出的,而是通过网民参与和众包分析得出的议程顺序,算法能够被赋予舆论引导的作用。新闻不再是随机的、偶然的,而是有潜在的运作规律和计算公式。新闻预测模型的出现,相当于人类成为了先知,取代了上帝的位置。

媒体的象征性权力由大众媒介时代藉由知识/话语操控的权力游戏,转变为“人人都是传播者”时代的自主、自决和自治,这个转移发生得如此迅速,猛烈和炫目。互联网政治学中有一种乐观的说法,叫做“数字乌托邦”,但是当我们洞察算法的逻辑漏洞和数字专制后,不无悲哀地发现,我们依然无法摆脱算法设定中的各种偏见。更何况,机器人写作技术的运用,正在把人类放逐到世界中心之外。它们被描述为“来自地球的入侵者”,机器人正在消灭包括新闻业在内的许多传统职业,如记者编辑、摄影师、医生、教师、作家和警察。

3.目标筛选和匹配模型

在社会管理层面,算法可能会降低犯罪率。对于某些个体或人群,算法能够有效预测其犯罪概率,如果这个概率足够大,那么可能在他还没有实施犯罪行为时,他就已经受到了监视和惩处,此举可以有效预防犯罪或降低罪行后果。算法能够识别和筛选潜在的目标对象,并针对性地采取措施。从预防大于惩处的角度来说,这种管理方式可能比亡羊补牢要优越。今天,很多企业、政府和社会组织里都在建立自己的预测模型。阿里公司的人力资源管理(HR)系统过去叫做EHR(Electronic Human Resource),现在叫人工智能人力资源系统IHR (Intellectual Human Resource)。阿里内部有个360评估系统,就是对某个人进行“360度的评价”加晋升面试,来决定这个人是否升职。但是这个360系统只看当年的leadership数据,比如主管、同侪、下属、HR对你的评价,以及你的任期内员工的离职率、升职率等等。如果一个人在公司工作超过10年,就会积累大量的数据。而且,阿里内部的组织结构3个月一小调,6个月一大调,变化特别快,数据积累特别迅速。怎么科学地匹配和分析这些数据,提高管理效率,是一个非常现实而迫切的需求。其次,阿里内部有5万员工,外加不停地收购公司,人员内部的流动也十分频繁,数据积累庞大。但现在还没有适合的模型对这些数据进行分析。还有就是,现有模型还不能做到尽量全方位评价一个人。人工智能HR系统急需升级。每个大公司和政府组织都会面临这样的问题,未来的传播学研究,完全可以从计算传播学和社会传播学的交叉领域去做,有可能发现更加广阔的研究空间。

四、结论

数据、算法和新闻的结合,改变了新闻的采集、制作和传播方式,也为个人参与社会生活提供了有力的武器。过去,从社会建构的观点来看,新闻传播能够实现意义的建构、话语的生产和认同的重塑,无论是意义、话语还是认同,我们都能看到主观力量的影子。而在今天,算法控制着我们的生活、身体和思想,你以为的“自我”可能并非来自自己的真实内心,而是在信息拟态环境、算法个性化推送的共同作用下,被“植入”相关程序,按指令行动和思考的人体机器。算法问题反映的是时代的问题。在原子时代,决定人类命运的是生产方式,而在比特时代,对人类命运起作用的则变成了思维方式。算法是思维方式的技术基础,有什么样的技术基础,就有什么样的思维方式。这是算法讨论的现实价值。算法能够为我们节省信息查找的时间,在处理海量数据,整合、对比、筛选信息和得出结论方面的效率无以匹敌,但是却减少了因无法未卜先知而使人生充满探险乐趣和不确定性的迷人魅力。同时因为气泡效应和“信息茧房”的存在,它可能会强化个人偏见和刻板印象,使自我突破、超越与顿悟成为永无可能实现的泡影。我们依赖算法,相信算法,但须使用有度。无论如何,数据新闻中凸显的人性都弥足珍贵,更值得我们保有和珍惜。

注释:

① Paul Bradshaw.WhatIsDateJournalism?.http://datajournalismhandbook.org/1.0/en/introduction_0.html#sthash.4loxXvT 9.dpuf.

④⑤⑥⑦⑧ 刘凡平:《大数据时代的算法:机器学习、人工智能机器典型实例》,电子工业出版社2017年版,第25、37、115-116、174、188页。

⑨ 数据来源:http://sohu.com/a/203910678_475950。

猜你喜欢
算法用户信息
Travellng thg World Full—time for Rree
进位加法的两种算法
订阅信息
关注用户
关注用户
一种改进的整周模糊度去相关算法
关注用户
一种基于L-M算法的RANSAC图像拼接算法
如何获取一亿海外用户
展会信息