微博舆情研究中的大数据风险与挑战

2020-09-10 07:19李静远
新闻研究导刊 2020年7期
关键词:风险挑战大数据

摘 要:互联网技术的发展使大数据在微博舆情中的应用越来越广泛,当前微博大数据的应用集中体现在商业领域和舆情评测两方面,以舆情评测应用热度最甚。因此,其成为了国内学术界和业界普遍研究的热点话题。本文着重从大数据应用风险和应用挑战两个角度分析阐述微博舆情研究,并提出建设性的意见。

关键词:微博舆情;大数据;风险;挑战

中图分类号:G206 文献标志码:A 文章编号:1674-8883(2020)07-0114-02

微博大数据在展示社交关系中发挥着显著的作用,已成为研究当前人们社会行为的典范。从我国当前研究所取得的成果来看,微博舆情研究已经不再是单纯的监测,而是逐步向预警和预测方向发展,开始涉及多个领域,可以预见,未来的微博舆情研究必然是以综合信息服务为导向的数据链。但是,凡事有利必有弊,大数据在微博舆情研究中发挥技术优势和数据优势的同时,也逐渐显露出了一些负面的风险和挑战,使微博舆情研究开始出现质疑和偏见,面对这突如其来的严峻形势,进一步明确微博舆情研究中的大数据风险与挑战显得尤为重要。

一、微博舆情研究中的大数据风险分析

(一)大数据增加了“错误发现”的风险

大数据信息技术基于计算机网络,利用自身的数据集和细粒化优势,增加了“错误发现”的风险。比如用户根据需求搜索一条信息时,检索窗口会出现多条与之相关的信息,在很大程度上会增加用户寻求信息的难度,也就是“错误发现”。另外,微博舆论中的帖子和用户评论也会不同程度地增加“错误发现”风险,这是因为微博舆论中各种帖子和评论均含有统一信息指标,当这些信息指标累积后,就会无限增加大数据信息,给舆情分析带来更大的不确定性和难度。在对某一个社会热点进行舆情分析时,必然会使用计算机和相关的数字模型,但是值得注意的一点是,计算机和数字模型是针对群体信息进行系统分析,并从舆情群体用户中找到相同点和相关性,而这种相关性是总体性分析,这往往使大数据下的舆情分析和评测失去了真实性。

(二)大数据影响了舆情分析和预测的准确性

微博舆情需要借助大数据技术和数字模型对大数据信息进行研究,但是同时舆情分析和预测的准确性受到了影响。之所以产生这一现象,原因主要是:一方面,微博舆情代表广泛民意,但却不代表社会的全部民意;另一方面,通过微博进行舆情分析和预测,从大数据上看存在很多微博用户,但大数据显示下的微博用户并不等于现实中的微博用户,又或者有的用户只是通过网页访问微博,并没有微博账号,也就不存在言论发表。因此,众多的因素表明,微博舆情采用大数据进行分析,所获得的结果只是反映了舆情的局部面貌,有很强的片面性。除此之外,微博舆情在进行检索时,也存在大数据弃用的现象,大数据技术和数字模型在分析舆情时会首先以文本信息为主,并且会选择容易解读和处理的文本信息,很难对图片和影像等资料进行系统性的分析,而选择性弃用的这些图片和影像往往是舆情的集中体现,这使得微博舆情研究所产生的数据资料存在误差,在很大程度上影响了舆情分析和预测的准确性。因此,只有解决微博舆情研究中的选择性风险,才可以确保微博舆情数据信息的准确性。

(三)大数据存在用户隐私泄露的风险

隐私泄露风险是大数据时代和互联网时代普遍存在的问题之一,随着计算机技术的不断发展,这种风险日益增加。微博大数据在存储和管理方面的技术缺陷经常会导致用户隐私泄露,而如何进一步加强隐私保护技术,是大数据时代下微博舆情研究重点需要解决的问题之一。一旦技术方面的缺陷导致微博用户个人信息泄露,就会产生侵犯他人隐私、舆论暴力等违法行为,作为违法行为的典型代表,“人肉搜索”就是个人信息泄露导致的。从近几年微博上轰动的几起“人肉搜索”事件可以看出,虽然“人肉搜索”的对象均存在不同程度的负面形象,但是当事人的隐私在“人肉搜索”下暴露无遗,在一定程度上对当事人造成了伤害,舆论的正义甚至压过了程序正义,这使得微博舆情变得不合法,应该引起社会的理性认识和警醒。

(四)大数据有垄断误导舆情选择的风险

微博社交平台在大数据时代下发展速度明显加快,可以直接体现人们的日常行为,这也为微博舆情研究提供了大数据样本。但是大数据可以为社会大众谋福利,也可以变成垄断和误导人们认知的工具,可以说,大数据的应用会在很大程度上导致“算法的独裁”。在微博舆情研究中,引入大数据可以使舆情资料变得更加充实和丰富,但是其坏处也很明显,大数据垄断会使一些信息垄断者借机对舆论帖子进行选择性使用。比如微博某博主因为持有某一条谣言信息,便趁机在网络上发布,并借助大数据技术引导社会大众进行舆论传播,制造假象,并将这些帖子和评论标注为精选,这样一来,用户在浏览的过程中,就会出现大量类似的评论,使其他人误以为这是一条真实的信息,然后进行传播,最终某博主从中获取利益。由此可以看出,大数据技术在为人们带来生活便利的同时,也带来了垄断误导舆情选择的风险,使互联网时代多了一分“不安定”。[1]

二、微博舆情研究中的大数据挑战分析

(一)微博舆情检索工具缺乏

从国内外的微博舆情收集研究可以看出,当前国外出现的Gnip机构,着重针对Twitter进行大数据收集。分析国外微博舆情的搜索和分析工具可以发现,多数检索工具都是由研究者专门设计的,这些检索工具具有很强的针对性,所采用的技术也是当前较为先进的技术。我国专门针对微博舆情的研究机构目前还很少,系统工具以Scool和See为主。之所以我国微博舆情研究机构或工具较少,主要是与微博舆情研究人员的专业性有关,多数微博舆情研究者或从事媒体工作,或从事文学、社会等学科研究,缺少计算机技术和对微博舆情工具软件的认知,没有足够的能力进行设计研究,这使微博舆情检索工具缺乏问题越来越突出,也從侧面表明当前我国的微博舆情研究仍存在很大的局限性,制约因素较多,在大数据分析和检索方面还不能真正做到“收放自如”。

(二)大数据存储面临技术攻克挑战

存储和检索是微博舆情预测的重要基础,作为舆论行为的结构化数据,当前的大数据存储系统以半结构化数据、非结构化数据、二维表等关系型数据等为主。博客帖子以及图像视频等均属于非结构化数据,而博客的HTML文档又属于半结构化数据。就当前微博舆情存储和检索所应用的系统来看,主要有No-SQL和Hadoop两种。No-SQL是一种不同于传统数据库的系统,因为具有极快的响应速度和强大的后端处理能力,所以主要用来解决大规模数据集带来的挑战,但是在多列查询及数据统计分析方面存在很大的局限性。因此,在搜索微博舆情帖子时,常常会有一种数据延迟的感觉。另外,当前所应用的No-SQL还没有形成完整的系统,在实际应用中缺乏商业支持,使得大数据存储面临技术攻克的挑战。Hadoop是另外一种大数据管理工具,基于MapReduce,可以有效实现数据检索,国外常用Hadoop进行巨量数据分析,通过应用Hadoop可以将结构化数据文件更好地展示出来,并优化功能,最终实现数据查询功能。[2]但是这种大数据管理工具在微博舆情研究中的表现却显得有点力有不逮,主要表现为Hadoop不能快速加载和查询数据,并且操作过程较为烦琐,搜索效率低下,系统的稳定性也需要进一步加强。因此,当前的微博舆情存储技术还有很大的提升空间,这也是微博舆情研究中最为明显的大数据挑战。

三、结语

结合当前形势来看,微博舆情研究中的大数据风险与挑战十分严峻。因此,在明确这些风险和挑战的基础上积极加以解决和优化是相关研究者和工作者的使命,需要进一步努力和积极探索。

参考文献:

[1] 张连峰,周红磊,王丹,张海涛.基于超网络理论的微博舆情关键节点挖掘[J].情报学报,2019,38(12):1286-1296.

[2] 李熠辉,李冠,赵卫东.基于MUK-means算法的微博舆情意见领袖群识别[J].软件导刊,2019,18(12):30-34.

作者简介:李静远(1991—),女,河南郑州人,研究生,硕士,讲师,从事网络舆情、新媒体研究。

猜你喜欢
风险挑战大数据
中国经济转型的结构性特征、风险与效率提升路径
互联网金融的风险分析与管理
基于大数据背景下的智慧城市建设研究
企业纳税筹划风险及防范措施
第52Q 迈向新挑战