大数据技术对传播研究方法的影响与挑战

2014-02-12 04:58苏林森易伟芳

现代传播-中国传媒大学学报 2014年11期

苏林森易伟芳

大数据技术对传播研究方法的影响与挑战

苏林森易伟芳

基于数据挖掘的大数据技术对传播研究产生了深刻的影响，本文在列举一些利用大数据进行传播学研究的案例之后，比较传统传播学研究和应用数据挖掘技术进行传播学研究在研究目的、手段、逻辑等方面存在的区别，论文最后还分析了用数据挖掘来分析传播资料存在的问题和挑战，包括技术难题、隐私保护问题、数据低可信度与开放性、理论缺乏和网络受众代表性不足等问题，只有突破这些不足，才能充分发挥大数据在传播学研究中的作用。

大数据；传播研究；媒介；影响；挑战

一、引言

近年来，基于数据挖掘的大数据技术在传播领域产生了一系列成功的应用，如美国The-Numbers.com公司拥有过去几十年美国所有商业电影在内的大约3000万条记录数据库，在好莱坞影片上映之前就能利用海量数据和特定算法预测出一部电影的票房①；曾于2008年12月8日申请破产保护的芝加哥论坛报开发实时流量监测（Real-time Traffic Metrics），实时监测网上新闻被点击、转发情况等信息，并生成图表，该报还开发“数码新闻港”（Digital Hub），根据受众需要在不同时间向不同介质的媒体上发送新闻提要或全文，从而使报纸有的放矢地满足受众，这些数字化战略帮助该报于2012年12月31日宣布结束破产保护状态②；基于百度搜索量，中国人民大学舆论研究所提出和构建了社会暖度指数、社会舆情运行压力指数、社会幸福度指数等指数，通过指数高低来“刻画”公众感知整个社会温暖程度的“温度计”③……大数据技术使传播研究方法产生了深刻的改变，也存在亟待突破的问题。

二、大数据背景下传播学研究方法的转变

相对于以抽样调查为主要方法的传统传播学研究，利用大数据进行传播学研究在方法上发生了革命性的变化，主要表现如下：

1.大数据的全体数据代替了抽样调查的随机样本

利用大数据进行传播学研究和传统的传播学研究最大的区别是，利用大数据进行传播学研究可通过对海量数据的“普查”代替传统的“窥一斑见全豹”式的抽样。

传统的传播学研究在测量受众态度、认知和行为时，多采取随机抽样或固定样本，以问卷调查、内容分析、实验法等定量研究或深度访谈等定性研究方法为主，但传统调查成本越来越高，难度越来越大。互联网和社交媒体的广泛使用使人的行为和信息取向通过网络反映出来，在技术支持下，研究者通过对人们“电子踪迹”的识别、发掘和利用，直接将网民心理和行为转化为可识别的海量数据。在社会多元化、受众个性化、传播渠道多样化等背景下，样本量有限的传统抽样研究难以捕捉到受众的细分信息，如传统调查中年龄30岁以下、大学以上教育水平、年纯收入10万元以上的城市女性观众就很少，甚至可能没有，而这种细分研究因为大数据技术而成为可能，使数据挖掘技术成为传统传播研究的有益补充。

需要强调的是，所谓利用大数据进行传播学研究所进行的“普查”并不等同于人口普查中的“普查”，而是针对某一特定对象或主题的数据抓取，如观看某一部影视剧的观众数据、某一类微博用户数据等等，使用较多的“滚雪球”式在线网民数据抓取得到的样本并非随机样本，其质量并不一定比传统抽样得到的样本质量高，因此数据挖掘并不能代替传统抽样调查。

2.研究的目的差异

传统的以抽样调查为典型研究方法的传播学研究，其首要研究目的是探索因果关系，因果关系的成立需满足三个必要条件：第一，时间的先后顺序，即先因后果；第二，因果变量的共变关系，即原因变量出现变化时，结果变量也要随之变化；第三，非虚假关系，即因果变量之间的关系不是其他变量造成的。而大数据研究首先关注相关关系，如网民的搜索量和电影票房之间并无因果逻辑关系，只存在相关关系④。与此相适应，传统的传播学研究既可以用来描述现状，也可以用以解释传播理论，或进行受众预测等，而利用大数据来研究传播现象主要用于预测，更多用于商业领域，也有少数基于大数据的传播学研究根据“大数据”找到一些过去没有讨论或无法讨论的理论问题，如社交媒体中的“议程设置”现象研究。

3.大数据下的传播学研究放弃对精确性的追求

从传统的传播研究所依赖的“小数据”到大数据的一大变化就是后者放弃对精确性的追求。第一，由于传统抽样调查样本量有限，调查人员需尽力保证收集到的每个样本数据都是精确的，抽样调查的核心就是如何减少（但不可避免）错误的发生，在收集数据的时候，抽样调查专家会采用种种策略来减少错误发生的概率，在数据分析之前，也要对收集到的数据进行清理补充，这样会耗费大量的人力；当采用大数据技术收集海量数据时，这种防错和纠错方法就行不通了，不仅因为这样耗费巨大，也由于保持大规模数据收集标准的一致基本不太可能，而拥有更大数据量所能带来的商业价值远远超过耗费巨大才能增加的一点精确性，如某一微博粉丝量很少的时候差异很大，这时需显示精确数字，500个粉丝比400个粉丝多25%，但当微博粉丝量很大时，只需显示近似值：121万，再显示1209989则没有必要。但从统计推断看，采用传统概率抽样调查获取的样本能减少抽样过程中的人为误差，样本的随机误差是可知可控的，从而保证样本的代表性，而通过大数据采样获取的数据往往是非概率抽样（如“滚雪球”抓取数据），样本不具代表性，误差往往较大且无法估计；

第二，与传统结构化数据不同，互联网上只有5%的数字资料是结构化的，其他95%的非结构化数字资料，如图片、音频、视频等，很难像传统的传播学研究所主要依赖的结构化或类结构化数据那样精确化，只有接受混杂性，大数据挖掘分析才成为可能；

第三，根据“平均人”假设，数据越多，其平均值就越倾向于固定的平均值，单个资料可能是错误的，但总体的平均数据倾向于定值，如针对某一类网民收入资料的数字挖掘中，有的网民倾向于减小收入水平，而有的则可能增大自己的收入水平，最后得到的平均值往往倾向于某一接近实际的定值。

除上述差异外，由于研究手段的差异，传统传播研究和利用大数据进行研究在结果展示上存显著差异，传统研究结果多依赖图表来表示，而利用大数据进行传播研究的结果较多采用可视化方式进行展示，信息可视化工具包括：图表、图解、图形、表格、地图、动画和列表等，以可视化方式呈现的信息不再是枯燥、乏味的，让看似琐碎的信息变得连贯增强了研究结果的可读性⑤。

过去结构性的数据收集成本、时间耗费比较多，大数据来自于生活的自然流露，包括在生活中的购物行为、搜索行为、表达行为等等，这些都反映着人的真实生活状态，因此大数据的数据来源本身随着数字化记录、存储和传输技术的日臻完善而变得非常丰富，而且其数据的采集几乎可以与信息的发生同步，获得数据信息的成本又很低⑥，与传统调查常介入研究对象不同，大数据分析多采用实时或流处理，调查方式是非介入式的，相对客观，如google流感趋势预测是分析全美几十亿条互联网检索关键词记录，来监测流感是否爆发，其结果发布比美国疾病预防控制中心（CDS）还早两周，这种快捷的结果预测更适合互联网时代对传播研究的需要。

归纳起来，从研究方法看，利用大数据进行传播研究和传统的传播研究如表1所示。

表1 传统传播研究和大数据传播研究方法差异

三、利用大数据进行传播学研究面临的挑战

运用大数据技术进行传播学研究具有巨大的价值潜力，但作为一项新近发展起来的技术，仍然存在一系列的问题和挑战。

1.传播学研究的技术困境

传统的传播学研究采用抽样调查或访谈形式，研究所依据的数据量有限，因而数据库相对比较简单，但基于大数据进行传播学研究所依据的数据资料多来自互联网、新兴社交媒体等所产生的大量非结构化数据（图1），如文本、图片、HTML、音频／视频等，有价值的信息隐藏于这些非结构化数据中，则需要专门软件进行分析。

与结构化数据相比，非结构化数据不方便用结构化数据的二维数据库来表现（即每一列表示一个变量、每一行表示一个记录），不利于检索、查询和存储，增加了数据丢失的可能性，因此，数据多样化和急速膨胀所带来的数据体量的巨大和数量格式的复杂对传统分析软件和存储提出了很大挑战，大数据分析要求作出的实时或在线处理需求也是传统数据仓库技术面临的挑战。与数据处理需求相伴随的是对海量数据跟踪分析软件的研发，既需要高额成本，也需要专门人才，这些都是极度匮乏的。

图1 结构化数据与非结构化数据

2.传播研究中的隐私保护困境

大数据时代，个人的隐私越来越少，尤其是在社会化媒体平台上，日常生活已经进入一种可见的、透明的、不设防的生产状态中（刘涛，2014），这使得隐私保护越来越受到挑战。大数据和智能软件相结合后将会产生巨大的数据，比如网页、浏览习惯、传感器信号、智能手机位置跟踪、基因信息等让个人隐私无处藏身。2013年6月5日，美国中央情报局职员爱德华·斯诺登爆料，自2007年起，美国情报机构启动“棱镜计划”（PRISM），在九家互联网公司中进行数据挖掘，监控的种类包括信息电邮、即时消息、视频、照片、语音聊天、视频会议、文件传输、社交网络资料、登陆时间以及存储数据，“棱镜门”事件引起外界对美国国家安全局电子监控项目的顾虑，从而致使美国云计算产业损失350亿美元⑦。

除了个人隐私泄露，基于数据挖掘获取的个人信息和对人们状态和行为的预测让个人隐私更防不胜防，几乎任何类型的数据就像人的指纹，都能用来识别创造它的人，如通过分析用户的社交媒体信息，可以发现用户的年龄、性别、消费习惯和兴趣爱好等“简历”信息；通过某个网民所有网购记录，可以分析出该网民的婚姻状况，甚至可以推测某位女性网民是否怀孕；通过网民在网上下载的电影、用手机发出的定位信息，甚至是你被监控摄像所拍下来的步态都可以作为识别依据“按图索骥”⑧，而且，被记录并保存下来的受众信息往往在被加工后用作商业推销。

3.数据源的开放性与数据可信度问题

目前，数据源的开放性不足，权威大数据源常常掌握在政府及大公司手中，国家必须从制度和机制上给予保障，这方面，美国的做法值得借鉴。2012年3月22日，美国耗资2亿美元启动“大数据研究和发展计划”，把大数据研究上升为国家意志⑨。与此同时，数据的质量也至关重要，但如果不注意甄别，数据也会欺骗。可信度问题首先表现在伪造和刻意编造的虚假信息，如网上个人信息的质量和准确性较低且多未经验证；其次为编造数据，如各类点评网站的虚假评论等等；再次是数据失真，这既包括数据采集中出现的人工干预导致数据失真，也包括数据更新后早期数据不能反映真实情况⑩。对这种类型的数据收集、分析和使用后产生的分析结果可能会导致错误的决策，出现网托、网络水军、良莠不齐的网络公关公司等产生的数据更不可信，甚至会得出错误的结论。

4.大数据下传播学研究的代表性问题

基于数据挖掘的大数据研究数据多来自互联网或以互联网为基础技术的各类终端，其存在较严重的问题，主要表现在如下四方面：

第一，大数据分析所主要依据的网民行为并不能代表全体受众行为。据中国互联网信息中心（CNNIC）《第33次中国互联网络发展状况统计报告》显示，截止2013年12月底，中国网民达6.18亿，但其普及率仅45.8%（CNNIC《第34次中国互联网络发展状况统计报告》显示，截止2014年6月底，中国网民达6.32亿，普及率46.9%），即超过一半的人不能上网，这些人就被排除在大数据分析之外；

第二，更关键的是，非网民与网民之间存在较明显的结构性差异，如6.18亿网民中，农村网民占28.6%，30岁以下网民占57.2%，而据国家统计局的数据显示，截止2013年底，全国人口中农村人口占近一半（46.27%），30岁以下人口占41.24%，网民表现出明显的年轻化、城镇化倾向；

第三，大数据分析的资料为活跃网民数据，而并不能代表全体网民。网民分经常发帖、评论的活跃分子和沉默的“潜水者”。Fu和Chau（2013）抽取了29998个新浪微博用户，发现其中近六成（12774个用户，占57.4%）的用户从未发过贴，在发过贴的用户中，近九成（86.9%）的用户最近七天从未发过原创贴（11），虽然作者并没有进一步研究活跃网民和“僵尸”用户的属性区别，但两类人群很可能存在系统性差异，因此基于活跃网民的数据挖掘不能代表全体受众；

第四，传统调查中经常出现的误差在大数据分析中同样存在。以上误差属非抽样误差，基于数据挖掘的大数据分析常需要抽样，传统调查中的抽样误差就同样存在。如2013年7月9日，虎嗅网发布消息称新浪微博的活跃度已降至2011年初水平（图2），第二天（7月10日），数据提供方知微公开向新浪致歉，称该数据“不足以说明整个微博平台的发展状况”。造成该偏差主要有三点抽样误差：（1）样本偏差：只分析部分粉丝大于1万的用户；（2）属性缺失：只采集微博发布量数据，不含转发、评论等互动数据；（3）终端迁移：主要采集PC端的数据（新浪微博用户移动端登陆比例已近80%）（12）。显然，这种非概率抽样会产生很大的误差，当然，目前仍缺乏理想的网络抽样方法来解决网络抽样误差问题，在线分析常用的“滚雪球”法获得的样本同样不具代表性。

图2 新浪微博活跃度（2011-2013）

5.大数据分析存在明显重技术轻理论的现象

基于大数据的传播学研究对理论的关注严重不足，明显存在重数据轻理论、重相关轻因果、重挖掘轻阐释、重软件轻开发的“四重四轻”现象。目前基于大数据来研究传播现象的主要研究者是传播学者和计算机学者，前者虽对传统受众理论比较熟悉，但多忽视了理论验证或建构，只专注于用新颖的数据挖掘技术，后者往往对数据挖掘较熟悉，但缺乏传播学理论，难以对人类的传播规律进行深入的因果阐释。目前大数据在传播学中的应用也多以实践应用为主，这种重技术轻理论的传播研究在受众至上的传播业界或许有一定的商业价值，但对于传播学学术研究则不可取。传播学研究的最主要目的是发现人类传播行为的规律，增加这方面的知识，一个有理论价值的传播研究，也一定是有应用价值的，反之，仅做实践应用而缺乏理论视角的传播研究难以产生理论贡献。

四、结语

大数据技术给整个新闻传播领域带来了革命性的变化，尤其是深刻地改变了传统的传播学研究方法和理念。但如同任何新事物一样，基于大数据的传播研究并非一帆风顺，在实际中是一把双刃剑，基于大数据的传播研究面临新的技术、伦理、理论等挑战，同传统的传播学研究一样，基于大数据的传播研究只是一种工具和手段，只有趋利避害，充分利用新技术拓展研究的领域和问题，发展新媒体环境下的传播研究理论，才能充分发挥大数据在传播学研究中的价值。

（本文系北京交通大学基本科研业务费项目“互联网语境下中国新闻报道议程设置功能研究”（项目编号：2014RC024）的研究成果。）

注释：

① 参见网站：http：／／www.the-numbers.com／。

② 陶志强：《大数据背景下的报纸转型样本——以芝加哥论坛报、佛山日报的大数据应用为例》，《新闻与写作》，2013年第9期。

③ 喻国明：《呼唤“社会最大公约数”：2012年社会舆情运行态势研究——基于百度热搜词的大数据分析》，《编辑之友》，2013年第5期。

④ 关于这一点学术界存在较大的争议，部分学者认为相关关系在一定程度上反映了因果关系。

⑤ 苏林森等：《大数据对新闻生产的影响》，《科研信息化技术与应用》，2014年第3期。

⑥ 喻国明：《大数据方法与新闻传播创新：从理论定义到操作路线》，《江淮论坛》，2014年第4期。

⑦ 匡文波：《新媒体理论与技术》，中国人民大学出版社2014年版，第226页。

⑧ 《大数据时代，我们还有隐私吗？》，《中国计算机报》，2012年9月17日，http：／／tech.163.com／12／0917／12／8BJQL234000915BD.html。

⑨ 喻长志：《大数据时代教育的可能转向》，《江淮论坛》，2013年第4期。

⑩ 冯登国等：《大数据安全与隐私保护》，《计算机学报》，2013年第10期。

（11） Fu，K.W.，＆Chau，M.（2013）.Reality check for the Chinese microblog space：A random sampling approach.PLOS ONE，8（3）.

（12）《知微收回“新浪微博活跃度下滑”道歉称数据不全面》，《新京报》，2013年7月11日，http：／／news.xinhuanet.com／newmedia／2013-07／11／c＿116493351.htm。

（作者苏林森系北京交通大学语言与传播学院副教授；易伟芳系中国青年政治学院新闻传播系2012级硕士研究生）