用户视角下微博档案主题识别与情感分析研究

2021-10-29 01:03陈明红黄涵慧
档案与建设 2021年9期
关键词:新浪微博情感分析

陈明红 黄涵慧

摘 要:为研究社会公众对档案的关注度和认同度,分析档案社交媒体形象,论文采集新浪微博的档案主题文本,通过高频词分析、LDA主题聚类和情感分析,揭示档案主题内容和用户情感倾向。研究结果表明:社会公众对档案的关注度较高,档案价值主体不断扩展;多数档案主题微博具有积极情感,社会公众对档案的认同度较高;少数档案主题微博具有消极情感,档案社交媒体形象有待优化。

关键词:新浪微博;LDA;主题识别;情感分析

分类号:G273.5

Research on Archives Topic Identification and Sentiment Analysis of Microblog from the Perspective of Users

Chen Minghong, Huang Hanhui

(School of Information Management of Sun Yat-sen University, Guangzhou, Guangdong 510006)

Abstract:In order to research the publics attention and recognition to archives and analyze the archives social media image, this paper collects the archives theme texts of Sina Weibo, and reveals the archives theme content and users emotional tendency through the way of high-frequency word analysis, LDA theme clustering and emotion analysis. The results show that the public pays more attention to archives and the subject of archives value is expanding; Most archives themed microblogs have positive emotions, and the public has a high degree of recognition of archives; A few archives themed microblogs have negative emotions, and the archives social media image needs to be optimized.

Keywords:Sina Microblog; LDA; Topic Identification; Sentiment Analysis

1 引 言

档案来源于人类社会的各个领域,[1]既是人类记忆的载体,也可以反映认知并激发情感,档案价值不仅体现于档案的结构化内容与理性记录,也体现于人与档案互动中的非结构化内容与感性认知,[2]因而研究社会公众对档案的认知与情感对于提升档案价值的认同度具有重要意义。在社交媒体时代,微博、微信、短视频等被深入应用到档案活动之中,是档案社会化的重要载体。社交媒体的开放性、社区化、互动性等特性有利于档案信息的快速分享与有效传播,为社会公众形成和利用档案提供了良好体验,无形中提高了档案的知名度和社会影响力。[3]其中,微博突破了现实身份和人际关系的限制,其信息来源多样,话题讨论开放,传播受众广泛,[4][5]信息发布与观点表达真实,用户交流更加广泛而充分,用户可围绕档案问题发起话题并讨论。这些内容大多是用户对档案的主观认识和真实评价,对其进行内容挖掘和情感分析,可以揭示社会公众聚焦的档案问题,深入了解社会对档案价值的认同度。本文采集新浪微博用户在《中华人民共和国档案法(修订草案)》(以下简称《档案法修订草案》)通过前后发表的有关“档案”的微博文本,利用LDA主题聚类和情感分析方法,探究微博用户对档案的认知与情感,以期为档案服务策略与档案事业发展提供有效参考。

2 研究基础

2.1 公众对档案的认知

随着档案开发利用力度的加大,社会公众逐渐从“顾客”向“参与者”和“建设者”转变[6],公众参与度也随之成为档案研究的重要议题。[7]由于认知价值與情感感知是影响公众参与档案活动的重要因素,[8][9]因此应当高度重视公众对档案的认知水平、关注程度及情感态度。目前社会公众对档案的总体认知程度较低,具体表现为档案意识薄弱[10]、利用经历匮乏[11][12]以及对档案与档案工作的社会认同度偏低[13][14]等。相对而言,公众较为关注与自身利益相关的档案问题,如电子健康档案的隐私问题[15]、私人档案的资源建设[16]等。相关研究主要采用访谈、问卷调查等方法获取少量用户对档案的主观认识,难以大规模获取社会公众对档案相关内容的讨论文本,并以此分析其对档案的认知水平及情感态度。

2.2 微博文本分析

微博拥有大量用户,产生了海量的、质量良莠不齐的内容。如何通过深入挖掘微博文本数据得到有价值的信息,识别内容主题并揭示用户情感,是学界研究的热点问题。[17]其中,LDA是一种无监督的主题建模方法,能够在大量的文本中发现数据中潜在的变量或隐藏的结构,[18][19]对于微博文本主题提取具有突出优势,可提高主题聚类质量,正确识别微博文本内容主题。该模型已广泛应用于社交媒体文本挖掘研究,如微博意见领袖识别[20]、意见采纳[21]、问答社区热点挖掘[22]、用户交互模式抽取[23]、档案媒体形象分析[24]等。另外,情感分析是文本分析的重要内容,通过识别、分析与预测文本中的情感色彩[25],揭示不同群体对特定人物或事件的态度,例如政府、媒体及公众对雾霾的情感倾向[26]、公众对文体场馆形象的感知与态度[27][28]、社交网络用户对舆情事件的情感态度[29-31]以及在公共安全或突发事件中呈现的情感演化趋势[32][33]、意见领袖的情感特征及影响[34]等。

目前很少有学者通过分析微博文本揭示社会公众对档案的认知和态度,据此,本文采用LDA主题聚类与情感分析方法,客观呈现微博用户围绕档案所讨论的话题类别,可视化地揭示社会公众对档案的情感态度。

3 档案主题内容挖掘与情感分析

3.1 数据采集

由于档案的社会整体关注度较低,[35]而《档案法修订草案》在2019年10月21日提请全国人大常委会审议并于10月31日面向社会公众征求意见,在社会上引起了一定程度的探讨,因此,本文将新浪微博作为数据源,采集微博用户在《档案法修订草案》公开征求意见时间的前后3个月内(2019年9月10日至12月10日)发表的微博文本,以“档案”作为搜索关键词,利用Python爬虫共获取了61248条微博,去重后为47991条记录,探究社会公众对档案主题的关注热点与情感认知。

3.2 档案主题内容分析

(1)高频词分析

在主题分析之前,笔者首先提取高频词,采用jieba分词和统计词频,对前30个高频词进行分析,以形成对微博档案热点话题的基本认识(如表1所示)。

由表1可知,“档案”“工作”的频次过万,与之相关的档案“管理”“服务”“建设”“活动”等的词频也非常高,说明微博用户对档案信息系统与服务平台的建设、档案管理与档案教育等问题的关注度较高。此外,从主题领域看,微博用户在“教育”“健康”“历史”和政治(“初心”“使命”)以及影视(“视频”“刘宇宁”等)领域的讨论较多;从人群看,微博用户对“未成年人”群体及“刘宇宁”等与明星相关的档案话题较为关注。

为更好地呈现档案主题,采用Wordcloud库绘制词云图(见图1)。微博用户以“档案”为中心,围绕档案工作、信息化建设等内容,以及教育、医疗、历史等众多主题展开讨论。同表1一致,“工作”“建设”“检查”“服务”“整理”“管理”“档案馆”“平台”“系统”等主题词在词云图中占有较大篇幅,说明社会大众比较关注以上主题。这些词也在《档案法修订草案》中被多次提及,具体包括档案工作责任制建立、档案信息化建設、档案工作为民服务、数字档案馆建设、电子档案管理信息系统建设的推进等内容。

(2)聚类结果

笔者采用LDA主题模型进行聚类分析,提取微博文本中潜在的档案主题。根据困惑度、一致性等指标确定最优主题数量为15,计算出每个文档对应不同主题的概率及每个主题中各主题词的概率向量,结合TF-IDF提取各主题下概率最大的前10个活跃词,并根据词间关系确定主题名称(分析结果见表2)。

由表2可知,LDA聚类结果与高频词反映的重点内容是匹配的。微博上最热门的档案主题为“学生档案”及“未成年人犯罪记录封存”(主题1和2),后者实际上是前者主题范围内的一个社会热点事件;其次,与档案工作相关的主题最多,包括如下主题:3、4、6、7、10、11、12、13、14和15;此外,与档案相关的影视剧及游戏(包括主题5、8和9)也受到微博用户的热议,说明“档案”一词不局限于学术研究和政府管理范畴,而是扩展到社会生活多个方面。

上述档案主题可归纳为四大类:档案项目、专项档案工作、学生与未成年人档案以及档案影视与游戏(如表3所示)。

第一类档案项目包括档案信息化、档案管理与建设两个主题,这是档案工作的基础,也是档案法修订的重点内容。《档案法修订草案》增加了档案信息化建设的规定,规定各级人民政府应当将档案信息化纳入信息化发展规划,鼓励机关、团体、企业事业单位和其他组织推进电子档案管理信息系统建设。[36]此外,进一步规范档案管理工作也是社会公众的诉求,《档案法修订草案》完善了档案管理体制,健全了档案管理相关制度。

第二类专项档案工作包括八个主题,涉及的领域较多,说明具有原始记录属性的档案是一种重要的信息资源,受众范围广,有一定社会关注度,这与《档案法》的修订思路一致。首先,《档案法修订草案》加大档案开放利用力度,缩短档案向社会开放的期限,要求档案馆不断完善利用规则并创新服务形式;其次,档案和档案工作非常重要,与国家发展、政府治理、社会各方面工作以及公民个人具有紧密关系,在维护国家和民族利益、保障公民权益、服务文化建设、增强文化自信等方面,均具有重要意义。[37]

第三类学生与未成年人档案有两个主题。其中学生档案有较高关注度的原因可能在于微博学生用户较多,经常讨论调档、查档等档案办理流程问题,而用户关注未成年人犯罪记录封存问题可能与浙江省颁布的《浙江省未成年人犯罪记录封存实施办法》有关。《档案法修订草案》也三次提及档案保存工作,规定保障档案的安全保管,完善监督检查措施,满足社会公众需求。

第四类档案影视与游戏包括三个主题。人们将档案用于娱乐、游戏、社交等多种生活场景中,改变了以往固有的档案观念与传播思维,引导社会公众关注档案并思考档案的内涵。这充分体现了《档案法》修订工作的总体思路,即进一步为档案开放和利用提供便利条件,增加人民群众的获得感。

为了更直观地揭示微博档案主题的讨论热度与分布情况,笔者利用t-SNE算法去除冗余数据、提高信噪比、进行降维处理,并采用Python可视化库Bokeh进行绘图,以可视化的方式呈现LDA主题模型的聚类结果(如图2所示)。

首先,根据散点分布面积可确定微博用户关注度较高的档案主题,分别是“学生档案”“未成年人犯罪记录封存”“档案信息化”“档案管理与建设”“《异域档案之暹罗密码》”和“健康档案”(主题1至6),这六个主题分布区域较大、散点相对集中,是微博用户讨论的热点主题。其次,同一大类中的主题文本分布相邻:第一类档案项目的主题3和4在图2中部及左侧相邻分布;第二类“专项档案工作”的主题6和7以及主题10至15集中分布在图2的中下方,散点分布较为零散,各个主题之间的界限也不够明晰,说明各主题可能存在一定的交叉;第三类学生与未成年人档案的主题1和2在对角线上方相邻分布;第四类档案影视与游戏主题5、8和9分布于第三类主题的左右两侧,主题间的关系相对于其他类而言,更为分散,表明微博用户可能结合其他内容来讨论与档案有关的影视或游戏,关注点较多。

3.3 档案主题微博的情感分析

为识别微博用户对不同档案主题的情感态度,借助沈阳教授团队开发的情感分析工具ROST EA(Emotion Analysis)对档案微博文本进行情感倾向性分析,该情感分析工具建立在ROST MBEWC微博情感倾向计算器[38]的基础上,适用于新浪微博文本情感分析。首先,将15个档案主题微博文本导入ROST EA中,计算各档案主题的情感极值,并将其划分为积极、中性和消极三种情感,情感值为正数表示微博文本具有积极的情感倾向,负数表示具有消极情感,零代表中性。[39]分析结果如图3所示。

总体上,多数微博文本具有较为积极的情感,消极情感占比较低。具体而言,一半以上的微博对主题1至7、9至11具有积极情感,说明微博用户理解和认同《档案法修订草案》的大部分内容,对其具有正面评价;超过20%的微博对主题8(《ai梦境档案》)、11(历史档案展览)、12(政府档案工作)、13(学校档案工作)、14(档案馆主题教育)和15(档案馆活动)的情感是中性的,说明这些用户对以上档案工作不置可否,可能其对草案中修订的这部分内容不了解,因而要注意档案管理与工作机制的落实,解决突出问题,获得社会公众的认同与支持;有部分微博对主题1(学生档案)、主题2(未成年人犯罪记录封存)、主题7(档案室工作)、主题12(政府档案工作)等具有较高的负面情绪,说明部分微博用户对相关档案主题不认同或存在认知偏差,可通过提供公共服务和开展教育活动,提升社会大众的认同感和自豪感。

笔者对四大类微博档案主题进行情感分析(如图4所示),发现四大类档案主题的积极情感均较高,消极情感和中性情感较低。其中,档案项目大类的积极情感占比最高,说明《档案法修订草案》关于“档案信息化建设”和“健全档案管理相关制度”的内容得到社会公众较大关注和认可。专项档案工作大类中,有20%的微博文本具有消极和中性情感,表明部分社会公众对政府档案、学校档案、健康档案等工作不了解或者不满意,因此需要加强公民利用档案权利的保障,提高档案服务质量。对此,《档案法修订草案》将公民利用档案的权利同保护档案的义务置于同等地位,为公民利用档案提供强有力的支撑,也进一步提升公众对档案工作满意度,从而深化公众认知并提高档案社会认同度。学生与未成年人档案大类中,消极情感较高,查看微博原文可知,可能与“浙江未成年人犯罪不归入档案”这一微博热搜事件有关,部分用户对此非常反感和抵触,在微博上表达了不同的看法和不满的情绪。另外,部分高校毕业生对调档流程和规范也具有一定的负面情绪。在档案影视与游戏大类中,部分微博用户对此褒贬不一,说明与档案相关的影视、明星、游戏等娱乐问题在得到部分人群的追捧与推崇的同时,也受到了质疑和批评。

4 结 论

微博作为主流的社交媒体,是社会记忆的重要载体,具有档案庫属性,[40]不仅在档案社会化及档案价值形态变化过程中具有重要作用,也客观地反映了社会公众对档案的认知与情感。本文通过分析相关微博文本,得出以下结论:

第一,社会公众对档案的关注度较高,档案价值主体不断扩展。从新浪微博文本分析结果看,社会公众主要关注档案项目、专项档案工作、学生与未成年人档案以及档案影视与游戏四大类,共15个主题,多数主题与《档案法修订草案》内容相关。一方面,档案价值主体泛化,[41]公众的档案意识逐渐增强,十分关注历史、健康、人事、统计等与生产生活息息相关的档案,这正是档案发挥为民服务作用的体现;另一方面,《档案法修订草案》明确指出社会大众对档案的需求不断提升,通过进一步加大档案开放与利用的力度,为各行各业提供更好的档案服务。

第二,多数档案主题的微博具有积极情感,社会公众对档案的认同度较高。在开放档案时代,社会公众不再是档案服务的被动接受者,而是各项档案活动的积极参与者与档案资源体系的构建者,社会公众对档案的价值评判和情感取向非常重要。一方面,在社会记忆与文化意蕴的影响下,社会公众比较容易认同档案的属性和价值,并乐于在社交媒体上展开讨论;另一方面,档案管理与服务机构通过关注和分析社交媒体中的档案主题文本,客观揭示社会公众的心理特征与档案需求,及时掌握社会公众对档案资源和服务的评价,有针对性地提供优质的档案服务,促进人与档案的良性互动,[42]提高社会公众对档案价值的认同度,激发并稳固其对档案的情感认同。这与修订后的《档案法》把更好地维护人民群众合法权益、满足公众利用档案的需求放在更加突出位置是一致的。

第三,少数档案主题的微博具有消极情感,档案社交媒体形象有待优化。情感分析结果表明,每个大类约20%的微博表现出对档案的消极情感,其中学生与未成年人档案类主题的消极情感最多,表现为对主题内容的偏见和对档案工作的质疑,导致用户情感疏离问题的产生,进而影响档案社交媒体形象和社会影响力。针对主题内容的消极情感,档案服务机构应尽可能做到情感公正,为用户提供真实、完整的档案,帮助和引导用户全面获取档案信息,理性对待档案的情感价值。针对档案工作的消极情感,档案机构应树立以人为本的服务理念,优化档案社交媒体形象,进而增强公众档案情感,提高其档案利用意愿。坚持“以人为本,服务为民”的宗旨,既是社会公众的共同诉求,也是档案工作的使命所在。《档案法修订草案》从法律层面切实保障了公众的档案地位与档案权利,社会公众对档案的参与度与情感得到飞跃性提升。

总之,社会公众对档案的关注度和认同度是学界研究的重要问题,采集与“档案”相关的新浪微博文本进行主题与情感分析,揭示目前公众对《档案法修订草案》关于档案信息化、公民档案利用权利、档案工作职责、档案管理制度等内容的关注与肯定,说明《档案法》的修订既是信息时代的迫切需要,又符合社会大众的价值取向。本文进一步丰富了档案用户认知与情感分析的相关研究,为档案社交媒体形象优化和服务水平提升提供理论指导。不足之处在于,本文仅采集三个月的新浪微博文本,未形成大数据语料,也未考虑在新修订的《档案法》实施后,社会公众对档案的关注与情感,期待未来可完善相关研究。

*本文系2017年度国家自然科学基金项目“基于HSM的移动互联网用户信息搜索行为研究”(项目编号:71603295)、2016年度广东省自然科学基金项目“大数据信息资源云建设与深度挖掘研究”(项目编号:2016A030313334)阶段性研究成果。

注释与参考文献

[1]张卫东,陆璐.档案社交媒体影响力分析[J].档案学研究,2018(1):59-64.

[2]曲春梅.国外档案学研究的“情感转向”[J].档案学研究,2020(4):128-134.

[3]周林兴.论档案馆的公共价值及实现策略[J].档案学研究,2019(5):38-44.

[4]宫贺.对话何以成为可能:社交媒体情境下中国健康传播研究的路径与挑战[J].国际新闻界,2019(6):6-25.

[5]周文泓,文传玲.档案社会化:基于参与式社交媒体信息档案化管理的内涵解析及启示[J].档案学研究,2020(2):98-106.

[6]胡艳,杨桂明.从“顾客”到“参与者与建设者”——关注档案公共服务语境下档案馆公众角色的定位[J].档案学通讯,2017(6):81-85.

[7]胡燕.档案学理论研究的新视角——公众档案接受问题研究[J].档案学通讯,2006(2):21-24.

[8]李宗富.共建共享理念下公众参与档案馆志愿服务活动现状调查研究[J].档案学研究,2019(2):88-98.

[9]张轩慧,赵宇翔,宋小康.数字人文类公众科学项目持续发展阶段的公众参与动因探索———基于盛宣怀档案抄录案例的扎根分析[J].图书情报知识,2018(3):16-25.

[10]殷元松,薛晓军,许军.系统论视阈下档案事业高标准高质量发展路径初探——以扬州市为例[J].档案与建设,2018(11):80-83.

[11]王巧玲,谢永宪,孙爱萍,等.国家综合档案馆公众形象实证研究——基于北京地区的问卷调查[J].档案学通讯,2015(2):16-20.

[12]胡燕.普通公众档案利用行为对档案馆建设的影响及对策研究[J].档案学通讯,2016(6):43-47.

[13]赵春庄.档案工作者职业状况及职业认同度实证研究[J].档案学研究,2017(4):36-42.

[14]張洁.档案工作者身份认同研究[D].郑州:郑州大学,2016.

[15]钟其炎.我国个人电子健康档案隐私保护现状调查与分析——基于普通公众的视角[J]. 档案学研究,2019(6):66-71.

[16]王巧玲,孙爱萍,李希.私人档案资源建设行为与意识调查研究[J].档案学通讯,2017(6):53-57.

[17]裴超,肖诗斌,江敏.基于改进的LDA主题模型的微博用户聚类研究[J].情报理论与实践,2016(3):135-139.

[18]Blei D, Ng A, Jordan M. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003 (3):993-1022.

[19]陈嘉钰,李艳.基于LDA主题模型的社交媒体倦怠研究——以微信为例[J].情报科学,2019(12):78-86.

[20]王正成,袁竹星.面向主题的微博意见领袖挖掘研究[J].情报科学,2018(3):112-116.

[21]杨奕,张毅,李梅,等.基于LDA模型的公众反馈意见采纳研究——共享单车政策修订与数据挖掘的对比分析[J].情报科学,2019(1):86-93.

[22]娄岩,杨嘉林,黄鲁成,等.基于网络问答社区的老年科技公众关注热点及情感分析——以“知乎”为例[J].情报杂志,2020(3):115-122.

[23]杨欣谊,朱恒民,魏静,等.基于主题细分的社交网络用户间交互特征分析[J].情报杂志,2021(1):178-183

[24]谭必勇,邹燕琴.政治服务、社会服务与历史记忆:新世纪中国档案媒体形象[J].武汉大学学报(哲学社会科学版),2020(2):113-125.

[25]蒋盛益,麦智凯,庞观松,等.微博信息挖掘技术研究综述[J].图书情报工作,2012(17):136-142.

[26]何跃,朱婷婷.基于微博情感分析和社会网络分析的雾霾舆情研究[J].情报科学,2018(7):91-97.

[27]阳玉堃.基于文本挖掘的社交网络图书馆公众形象感知研究——以新浪微博为例[J].图书馆论坛,2019(3): 51-63.

[28]雷嫚嫚,戴光全.从新浪微博看公众对亚运场馆的情感特征[J].体育学刊,2012(5):59-62.

[29]王晰巍,邢云菲,韦雅楠,等.大数据驱动的社交网络舆情用户情感主题分类模型构建研究——以“移民”主题为例[J].2020(1):4-14.

[30]王晰巍,张柳,文晴,等.基于贝叶斯模型的移动环境下网络舆情用户情感演化研究——以新浪微博“里约奥运会中国女排夺冠”话题为例[J].情报学报,2018(12):1241-1248.

[31]李勇,蒋冠文,毛太田,等.基于情感挖掘和话题分析的旅游舆情危机演化特征——以“丽江女游客被打”事件为例[J].旅游学刊,2019(9):101-113.

[32]曾子明,萬品玉.融合演化特征的公共安全事件微博情感分析[J].情报科学,2018(12):3-8.

[33]任中杰,张鹏,李思成,等.基于微博数据挖掘的突发事件情感态势演化分析——以天津8·12事故为例[J].情报杂志,2019(2):140-148.

[34]何跃,朱灿.基于微博的意见领袖网情感特征分析——以“非法疫苗”事件为例[J].数据分析与知识发现,2017(9):65-73.

[35]魏扣,李子林,郝琦.社交媒体应用于档案知识服务的SWOT分析[J].档案学研究,2019(1):69-74.

[36]李明华.关于《中华人民共和国档案法(修订草案)》的说明[EB/ OL].[2021-08-17].http://www.npc. gov.cn/npc/c30834/202006/5a0df5007c29 4fa19603516b0583d83d.shtml.

[37]徐航,王晓琳.档案法修订草案:以法治助推档案事业发展[J].中国人大,2019(21):54-55.

[38]Yang S, Li S, Zheng L, et al. Emotion Mining Research on Microblog[C]// Proceedings of the 1st IEEE Symposium on Web Society. Piscataway: IEEE,2009:71-75.

[39]于静.基于微博大数据的游客情感及时空变化研究[D].西安:陕西师范大学,2015:21-24.

[40]周文泓.社交媒体平台作为档案库的内涵及特点解析[J].档案学研究,2019(2):104-110.

[41]马仁杰,李曼寻.论“互联网+”时代档案价值与档案利用的关系[J].档案学研究,2020(6):104-114.

[42]王玉珏,张馨艺.档案情感价值的挖掘与开发研究[J].档案学通讯,2018(5):30-36.

猜你喜欢
新浪微博情感分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
新浪微博数据爬取研究
基于SVM的产品评论情感分析系统的设计与实现
新浪微博热点事件的舆论传播与群体心理
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
新浪微博娱乐明星的社会网络分析
社交媒体平台医患关系报道特点研究
微博的社会公信力现状探究及其未来构建研究