基于Python的企业员工舆情分析

2021-06-01 13:24梁山清李恩宁王学萍李博葛红志
计算机与网络 2021年5期
关键词:舆情年度词语

梁山清 李恩宁 王学萍 李博 葛红志

通过Python软件,分析企业员工的舆情态势。对原始数据进行预处理并制作静态画像。通过TF-IDF算法,进行热词分析、词云分析;运用SnowNLP算法对舆情数据进行情感色彩分析和关键词情感指数分析;基于LDA模型进行文本主题分析。以上分析方法可辅助企业管理者对员工进行更精准的日常管理和企业文化引导。

伴随数字信息时代的快速发展,企业越来越重视员工的舆情态势。对于企业而言,负面的舆论信息会损害企业品牌形象,重挫企业业务,进而造成重大的经济损失。因此,有计划地收集和分析企业员工的舆论信息,分析舆情走向,采取舆论应对措施,对企业的改进和发展有着非常重要的作用。

员工静态画像

本文采用企业每年收集的员工年终总结Excel文本,文本中主要包括编号、性别、年龄、学历、学位、入职时间、职务、职称、婚否、所属部门、年度感受、最感谢的人、最满意的事、新年目标、对企业的建议等字段。将以上数据进行脱敏和预处理后,再运用Python进行数据分析。

员工静态画像主要对员工的基本信息进行整体分析,具体包括员工总数、男女比例、婚姻比例、学位分布、职称分布、岗位分布、年龄分布等信息。其中,学历分布指员工中学位为博士、硕士、学士以及其他的占比分布,岗位分布指员工中从事研发、工程、市场、研发辅助的人数比例,年龄分布指员工中60后、70后、80后、90后的人员构成。

基于TF-IDF的年度热词分析

TF-IDF的全称是Term Frequency - inverse document frequency,由词频(Term Frequency,TF)和逆文档频率两部分组成。TF是指某个词语在文本中出现的頻率;IDF则反映关键词的普遍程度,当一个词语在文本中越普遍存在时,其IDF值越低;反之,则IDF值越高。TF、IDF和TF-IDF的公式如下:

词语的TF-IDF值越大,表示该词语在文本中的重要性越高。本文通过计算员工年度总结文本中的词语重要性,形成年度热词排行榜,辅助企业管理人员了解企业舆情动向。

词云分析

企业员工的文本主要包括年度感受、最满意的事、新年目标、对公司建议这4个总结项。通过Python程序对以上文本分别进行切词并删除停用词,利用处理后的文本为每个总结项生成词云。

根据词云分析,可以得出企业员工在以上各总结项上的具体舆情态势。

基于SnowNLP的情感色彩分析

SnowNLP是用Python写的个中文情感分析的类库,自带中文正负情感的训练集,主要是评论的语料库。使用的是朴素贝叶斯原理来训练和预测数据。

通过分析文本中每个总结项语句的感情色彩(积极、中立、消极)进行分析,比如,包含“技术和能力都得到极大的提升”的语句感情色彩积极,包含“为人处世上依然初心不改”的语句感情色彩中立,包含“材料整理工作让人头疼”的语句感情色彩消极。

情感色彩分析有助于了解员工的整体情感态势,辅助公司进行工作氛围引导、公司文化建设、规章制度制定。

关键词情感指数分析

通过选取TF-IDF值很高或者特定词语作为关键词,对包含关键词的所有语句进行情感指数计算,分析员工对关键词的整体态度,辅助管理者准确掌握公司舆情方向。

基于LDA模型的主题分析

潜在狄利克雷分布(Latent Dirichlet Allocation,LDA),是一种文档生成模型,属于非监督机器学习技术。它可以将待分析文本的主题以概率分布的形式给出,并根据主题分布进行主题聚类或文本分类。

进行LDA主题分析前,需要预估文本的主题数量,预估文本主题包含5个。通过分析文本主题词汇,企业管理者可以从宏观角度把握员工关注的主题,并制定精准的企业管理制度。

结果分析

1.年度热词结果分析

通过TF-IDF主题词分析算法,计算年度主题词Top20,具体结果如表1所示。

总结项词云结果分析

年度感受

年度感受词云如图1所示。

经分析,年度感受总结项主要聚焦于“工作、成长、学习、技术、充实、家庭、能力、疫情、投标、责任”等词汇。

最满意的事

最满意的事词云如图2所示。

猜你喜欢
舆情年度词语
找词语
考考你:混水摸鱼、一哄而散,这些词语你能否读对?
年度仿古大戏
百度年度热搜榜
消费舆情
月度最热舆情事件榜11月
月度最热舆情事件榜9月
2010年度表情
词语积累
2006-2007年度最佳商业模式