基于矿工大数据的不安全行为主题挖掘与语义分析

2023-10-07 13:08陈南希
煤矿安全 2023年9期
关键词:详细描述主题词矿工

李 琰 ,刘 珍 ,陈南希

(西安科技大学 管理学院,陕西 西安 710000)

目前,我国能源行业呈现“富煤、贫油、少气”的特点。煤炭资源储量高,开采成本与技术难度远低于石油、天然气,这决定了煤炭仍将在我国能源结构中占重要位置[1]。信息技术高速发展、融合创新,推动了煤炭行业的数字化、信息化、智能化转型,也对煤矿企业运营管理和安全生产提出了新的挑战。同时,煤矿企业的安全信息感知能力极大提升,产生了海量的行为安全数据[2]。为此,将矿企生产实际和矿工行为数据相结合,运用文本挖掘技术对数据中蕴含的信息、知识和规律进行探究,研究矿工不安全行为,有助于解决企业安全数据膨胀、知识提取效率低等问题,有效提高矿企员工安全隐患洞察力,降低矿工不安全行为发生率。

1 不安全行为主题挖掘

1.1 数据来源

研究以某大型煤矿企业为研究对象,选择2017—2021 年记录的不安全行为管控表作为数据来源,内容包括时间、班次、详细描述、风险及预警等级等字段。通过梳理、汇总、排序,共获得44 069 条安全数据。

1.2 文本预处理

数据挖掘中,文本预处理不可或缺,与主题提取结果的科学性和准确性密切相关[3]。使用LDA 实现对矿工不安全行为的主题数据挖掘,自定义煤矿专业词汇库,保证分词、去停用词的各步操作最优,数据处理结果可靠。

具体为:①建立专业词库:根据《煤炭行业法》、《煤矿安全规程》、《煤矿安全监察条例》等开发自定义词库,避免有效词汇(如“安全意识”、“防护眼镜”等)被误分、停用[4];②中文分词:在Python 开发环境中调用jieba 程序包对 “人员不安全行为详细描述”进行分词,并选择每篇TFIDF 得分最高的前100 个关键词[5];③去停用词:使用line.strip 函数删除文本中的停用词,过滤行为数据中的标点符号、无实际含义的功能词(“是”、“的”、“吗”、“了”等)、矿工姓名、日期等,提高数据挖掘的精度。

1.3 主题提取结果

采用Perplexity(困惑度)来确定LDA 模型最优主题数[6],确定挖掘12 个相关主题。根据确定的最优主题数,在LDA 模型拟合步骤中设置numtopic和alpha 参数,得出矿工不安全行为主题提取结果见表1。因“人员不安全行为详细描述”大部分文本较短,选择挖掘每个主题Top 5 的关键词。

表1 矿工不安全行为主题Table 1 Theme of miners’ unsafe behavior

根据不安全行为管控表中的人员不安全行为详细描述和主题提取结果,将主题词进行整合归纳。例如主题2 的主题词“未戴”、“佩戴”、“防护眼镜”等,对应主题内涵可以总结为“未戴防护眼镜”;主题5 的主题词包括“用水”、“冲洗”、“电缆”等,相应的主题内涵可概括为“用水冲洗电气设备”;主题6 的主题词包括“班前会”、“参加”、“迟到”等,对应主题内涵可总结为“参加班会迟到”;主题10 的主题词包括“上岗”、“疲劳”、“精神恍惚”等,相应的主题内涵总结为“疲劳作业”。

通过研究相关文献,查阅煤矿安全规程、工伤亡事故分类标准及集团内部规章制度,将上述12 个主题划分为《“三违”管理制度》等规章制度,将主题划分为“忽视个人防护”、“忽视管理条例”、“违法违规操作”、“忽视作业流程”、“分散注意力”5 大类,矿工不安全行为主题内涵及主题类型见表2。

表2 矿工不安全行为主题内涵及类型Table 2 Theme connotation and types of miners’ unsafe behavior

2 不安全行为语义分析

2.1 语义网络构建

语义网络是节点和有向弧组成的图示,可以结构化描述事件的定义及客体之间的相互关系[7]。基于矿工个体不安全行为提取结果,通过Net-Draw 工具搭建的矿工不安全行为的语义网络图如图1。

图1 矿工不安全行为语义网络Fig.1 Semantic network of miners’ unsafe behavior

矿工不安全行为语义网络图整体呈“核心—边缘”特点,图中包含核心及边缘节点,这些节点之间形成不同的子群,两节点间连线表明关键词来源于同一“人员不安全行为详细描述”。通过连线将节点串联成巨大的网络[8],直观描述了矿工不安全行为的主题关键词,方便获取关键安全信息。

2.2 网络中心性分析

通过文本挖掘工具RostCM6 建立词频VNA矩阵,引入网络分析集成工具Ucinet 对矿工不安全行为语义网络的中心性进行分析。

中心性分析反映某个节点在网络中的重要程度,可以通过点度中心性、接近中心性和中介中心性来衡量,是社会网络分析的主要方面[9-10]。矿工不安全行为主题词中心性具体分析结果见表3。

表3 矿工不安全行为语义网络中心性分析结果Table 3 Results of semantic network centrality analysis of miners’ unsafe behavior

根据矿工不安全行为主题提取结果和语义网络中心性分析情况,由“携带”、 “司机”、“驾驶”、“熄火”、“吸烟”、“随身”、“安全帽”、“安全帽”等关键词发现,主题1、主题3、主题4、主题7、主题11 所表行为是建议矿企管理层高度重视和坚决防控的矿工不安全行为。空间类关键词“井下”、“车辆”、“工作面”、“现场”等描述了矿工不安全行为高发地点为井下、工作面和行车途中,需在此加大监管力度和隐患排查力度,规范员工行为,防范煤矿安全事故。

3 结 语

从44 069 条矿工不安全行为记录中提取了12个矿工不安全行为主题。借助RostCM6.0 软件绘制矿工不安全行为语义网络图,清晰展现了各主题词间的关联关系。通过文本挖掘、主题提取和语义网络中心性分析,得出井下、工作面、行车途中3 个矿工不安全行为高发地点,不戴安全帽、不系安全带、私自摘掉安全帽、入井携带违规物品、驾驶车辆不合规范5 个高频主题,为煤矿安全事故防控提供参考。

猜你喜欢
详细描述主题词矿工
热河生物群发现帆翼龙科新成员
金牌挖矿工
老矿工的家国情怀
镜子中的我
《它们是怎么来的》
矿工老李
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
《疑难病杂志》2014年第13卷主题词索引