基于隐含狄利克雷分布主题模型和特征级异构数据融合的电力故障主动性预警研究∗

2022-07-10 02:16林少娃陈奕汝伍蓓蓓雍旭龙
电子器件 2022年2期
关键词:异构特征提取分类器

林少娃 陈奕汝 顾 洁 伍蓓蓓 雍旭龙

(1.国网浙江省电力有限公司电力科学研究院,浙江 杭州 310000;2.浙江大有实业有限公司综合能源服务分公司,浙江 杭州 310000;3.杭州远传新业科技有限公司,天津 300300)

随着国民经济的发展和人民生活水平的提高,电力用户对供电可靠性的要求越来越高。受恶劣环境和不可预测的外力破坏影响,电力故障停电无法完全避免,用户对电力故障抢修的报修响应速度、抢修效率有较高的要求。当故障发生时,电力公司需要对故障影响情况用户数量、用户可能发生的诉求情况等进行快速预判,才能第一时间作出服务决策,以支撑快速响应客户报修诉求、提升抢修效率。此外,电力行业在发展过程中业务更新较快,需要及时收集客户对业务变化的体验,以快速做出适应性调整。目前电力用户诉求由95598 客服代表进行内容标注和归类,客户诉求内容被精简,诉求中可能存在的重要信息被隐含在工单录音文件中,不能直观反映当前供电服务的热点问题。同时95598 工单分类体系未精细到具体业务点,工单仍依赖人工梳理与统计分析,其效率低下;且人工统计分析受限于个人的业务能力,看待问题具有局限性并存在主观经验性。

随着互联网的普及,智能化客服系统已经逐步取代传统客服行业,并发展成为互联网客服行业的核心。依托系统准确、可靠、全面、及时的状态信息,智能化客服可以并发处理电力用户的诉求事件。智能化客户服务离不开大数据的支撑,公司需要通过分析历史诉求信息数据和海量的电力用户异构数据来积极应付突发事件,对诉求热点进行分类并进行主动性预警或调整服务决策,以提升客户体验。同时,全国信息化工作的全面快速推动,电力用户用电基础信息不断完善,用电信息采集系统、营销系统等各类系统数据的贯通,电力用户的各类基础数据、用电信息、95598 热线语音转文本数据和在线客服对话数据等多源异构数据向海量规模发展,大数据特征日益明显,合理开发利用这些海量数据,可以为智能化客服提供明确的数据依据支撑并自动给诉求用户满意答复和相应解决方法。

研究基于大量历史诉求数据的供电服务诉求,实时挖掘电力用户的服务信息诉求与热点分类,可以解决传统客服在处理诉求热点时存在的延迟滞后与分析片面等问题。文中利用95598 热线语音转文本数据和在线客服对话文本数据,采用非监督学习的方法来挖掘用户诉求文本中所包含热点和话题。针对交互式文本的特点[1],先对简短的交互式文本进行预处理,然后采用隐含狄利克雷分布概率(LDA)主题模型对交互式文本进行主题挖掘,给诉求的电力用户打上诉求热点主题标签。

电力公司不仅拥有各种渠道的诉求信息,还掌握着关于诉求电力用户本身的多源异构数据(比如说电力用户性别、电力用户年龄、家庭成员、工作类别、居住区域等,用户对应的配电箱参数、缴费方式和时间、欠费或者余额信息等,电表图像、设备故障图像,用户的每小时用电量序列数据等)。电力公司要对电力故障影响情况和诉求热点进行高准确性地主动性预测,必须要对上述所收集到的多源异构数据进行合理的信息挖掘,在电力用户进行热线诉求之前实施相对应的解决方法。文中针对每一种类型的数据集采用相对应的特征提取方法,并进行特征级的数据融合,然后采用卷积神经网络作为分类器,来预测电力用户可能的诉求主题并进行主动性预警。

文中最后使用某区域的电力公司的用户热线诉求和线上对话诉求的交互式文本,来验证LDA 算法进行话题挖掘的有效性。同时,文中也验证了基于特征级融合的卷积神经网络分类模型,在处理异构数据时能够很好地抓取异构数据特征之间的关联性,并获得很高的分类准确率,最终实现电力公司对电力故障影响情况和用户诉求的主动性预警功能。

1 面临挑战

交互式诉求信息因为是用户和客服人员的对话式交互文本,所以存在口语化严重、句式简短、交互性强等特点。句式简短和文本稀疏会使得在对交互式信息进行主题挖掘时生成稀疏的特征矩阵,口语化、停顿词等常用词语会使得主题挖掘模型提取出非主题相关的词语作为判断主题标签的依据,导致模型失效。在国家电网的客服环境下,电力用户和客服人员的对话还具有极强的专业性色彩。文本专业化表明了用户的诉求需求,极大地表现出用户所关注的主题。所以文中需要解决交互式文本的简短、口语化和电力专业化等特点,提升文本话题挖掘的有效性。图1 展示了一个电力用户和客服对话的语音转交互式文本的案例。

图1 客服对话案例

多源异构数据挖掘的难点在于,特征提取无法使用统一的算法。类别离散数据、数值连续数据、图像数据、时间序列数据等(如图2 所示),都需要制定其对应的特征提取算法来提取出有效信息。在提取完对应的特征之后,还需要进行数据融合,并传给分类器进行诉求热点分类和预测。而传统的分类器无法去捕捉各种数据源所提取出的特征之间的关联性,导致分类准确性很差。所以文中需要结合多源异构数据的特点,使用合适的分类器去得到最高的分类准确性,从而使得系统可以更加准确地对电力故障影响范围和诉求热点进行主动性预警。

图2 多源异构数据

2 设计方案

2.1 系统设计

挖掘电力用户的诉求交互性短文本时,文中根据百度百科、维基百科这两个外部文本数据,对交互式文本中出现电力专业性词汇进行词语解释来扩充文本长度,进一步解决文本矩阵稀疏的问题。为了解决交互式文本中口语化对主题挖掘结果的影响,文中根据口语化词语库对高频词汇中的口语化词语进行过滤[2]。在进行文本特征选择之前,需要进行相应的预处理操作。预处理主要分三个部分:分词处理、停用词过滤和特殊词汇过滤。预处理完之后,文中对交互式文本进行特征提取。然后对预处理后的词向量组进行特征提取,最后采用LDA 算法对文本特征进行主题挖掘,并给每一个诉求文本打上诉求热点标签[3]。图3 展示了电力用户的交互式诉求文本主题挖掘的系统流程图。

图3 交互式文本主题挖掘流程图

为了实现电力公司对电力用户的诉求进行主动式预警,文中采用多源异构大数据分析的算法与技术,结合交互式文本诉求系统的主题热点标签,对电力公司所收集到的电力用户多源异构数据集进行分类处理。这样,电力公司就可以直接根据电力用户的本身信息和日常行为数据对用户诉求进行主动式预测和诉求热点分类。图4 展示了多源异构数据分类器的设计框架图。

图4 多源异构数据分类器设计框架

对交互式文本进行主题挖掘属于非监督性学习过程,避免浪费大量的人力资源对诉求文本进行标签注明。当诉求交互式文本完成了话题分类之后,每一个文本都有其对应标签,文中利用电力公司所持续收集的多源异构数据集,结合诉求热点标签,通过数据预处理、异构数据特征提取、卷积神经网络等技术来完成异构数据的深度挖掘,并实现交互式信息诉求的分类与预测。这样,电力公司便可以通过收集到的用户数据,来迅速判断故障影响范围或客户诉求热点,达到主动预警的目的,并根据结果支撑客户服务代表快速响应客户报修诉求或提供职能部门进行服务调整决策。

2.2 文本主题挖掘

2.2.1 数据预处理模块

由于电力用户的诉求信息文本主要是由电话录音的音频数据转化成文本而来,所以原始文本中存在停顿符号、空格、语气词、停用词等。文本预处理在文本主题挖掘中起着非常重要的角色,文中将文本预处理过程分为以下三个步骤:

(1)分词处理:文本处理的对象是词向量,所以在进行预处理之前首先需要对交互式文本进行分词处理,将文本转化为多个独立的词向量。

(2)停用词消除:停顿词是自然语言的一个分支。需要从文本中删除停顿词的动机是:它们让文本看起来更沉重,对分析文本来说并不那么重要。删除停止字可以降低词向量特征空间的维度。在文本中最常见的单词包括虚词、口语化词汇等,它们没有给出文档的含义。考虑到这些字在文本主题挖掘过程中不会被作为关键字,所以必须先删除停用词来减小主题挖掘训练时间。

(3)特殊词过滤:文本词向量中还包含了大量特殊词汇,问候和致谢词汇、线上客服文本中的表情信息、手机号码、家庭住址等词汇(在交互文本中所提及的诉求地址信息,文中单独抓取出来并加入到后续的异构数据源中),上述某些词汇可能没有实际意义,但是在词向量中出现的频次极高,需要对这些特殊词汇进行过滤。

2.2.2 特征提取模块

预处理过程只是将一个交互式文本转化为词向量数组,但是这些词向量的数量相对来说比较庞大。在进行文本主题挖掘之前,仍需要对其进行特征提取,来减少接下来的文本挖掘的数据处理时间。文中主要采用以下步骤来进行特征词向量提取:

(1)名词短语提取:对交互式文本中词向量进行词性标注,筛选出名词词性的词向量。

(2)高频词汇提取:在提取高频词汇过程中,文中根据词频的计算来衡量词向量在文本中频率,计算公式为:

式中:ni,j表示词向量j在文本对象i中出现的次数,∑knk,j表示词向量j在所有文本对象中出现的总次数,tfi,j表示词向量j在文本对象i中的词频。通过设置阈值来筛除每个文本对象中的低频词向量,并保留高频词向量重新作为文本特征向量。

设置阈值筛除低频词向量,并保留高频词向量重新作为文本特征向量。

(3)信息熵过滤:高频词汇提取过程中,也会提取一些具有不确定性因素的高频词汇[4]。该步骤借助信息熵来对不确定性的高频词汇进行剔除,信息熵公式如下:

在该公式中,i表示文本对象的序号,n表示文本总数;P(xi)表示词汇xi在文本i中出现的概率。文中对所有过滤后的高频词汇进行信息熵计算,设置合适的信息熵阈值,判断当前词语的信息熵是否高于阈值,若高于阈值则将该词语从特征词向量中剔除,进一步提高LDA 模型的效率。

2.2.3 LDA 算法

当得到符合文本主题挖掘模型的交互式文本集合和每个文本中的词向量集合之后,文中采用隐含狄利克雷分布(LDA)概率主题模型对上述的文本集合进行主题挖掘。

LDA 模型是一种文档生成模型。它认为一篇文本是包含多个主题的,而每个主题又对应不同的词语,所以在生成一个文本时,首先以一定的概率选择一个主题,再在此主题下以一定概率去选择一个词语,不断重复之后便可生成一篇文本。LDA 采用贝叶斯估计的方法,假设文档的主题分布和主题的特征词分布的先验分布都是Dirichlet 分布(狄利克雷分布),认为所有的文档存在K个隐含主题。图5表示LDA 的概率图模型。图中每一个圆圈都表示一个随机变量,其中白色圆圈表示隐含变量,黑色圆圈表示感测变量。M表示文本集合,N表示文本中词向量的集合,K表示设置的主题数目。α表示每一篇文档的主题分布的先验分布——Dirichlet 分布的超参数;β 表示每一个主题的词分布的先验分布-Dirichlet 分布的超参数;W表示建模过程中可以观测到的词语。根据图中描述,LDA 的具体文档生成过程如图5 所示。

图5 LDA 概率图模型

(1)从主题分布的Dirichlet 分布α中取一个作为生成文档d的主题分布θ。

(2)从主题的多项式分布θ中取一个主题,作为生成文档d第n个词的主题Zd,n。

(3)从主题的词分布的Dirichlet 分布β中取一个词语,作为生成主题Zd,n对应的词语分布φ。

(4)从词语的多项式分布φ中采样最终生成词语Wd,n。

接下来对LDA 模型进行训练,训练的过程就是通过吉布斯采样获取(主题,词向量)的样本,而模型的所有参数都可以基于最终采样得到的样本进行估计,训练过程如下:

(1)随机初始化:对文本集中每一篇文本中的每一个词w,随机赋一个主题z。

(2)重新扫描文本集,对每一个词w,按照吉布斯采样公式重新采样其主题:

将当前词w安排给计算出概率值最高的主题zmax。

(3)重复以上文本集的重新采样过程直到吉布斯采样收敛。

(4)统计主题-词向量频率矩阵,该矩阵变为LDA 模型。

得到LDA 主题挖掘模型之后,对于新的未知文本,文中通过如下流程来判断文本的主题分布:

(1)随机初始化:对当前文本中的每一个词w,随机赋予一个主题z。

(2)重新扫描当前文本,按照吉布斯采样公式,对每一个词w,重新采样其主题。

(3)重复以上步骤直到吉布斯采样收敛。

(4)统计文本的主题分布,该分布即为θnew。

2.3 基于多源异构数据的主动预警

文中通过LDA 模型获取到了电力用户诉求文本的主题,并根据主题给每一个电力用户的诉求文本打上标签。国家电网可以从多种途径收集到诉求用户的基本信息,电力信息(配电器类型、实时用电功率、总用电量、交费信息等),用户信息(家庭成员、工作信息、家庭住址等),诉求时空信息(电力投诉点位置信息,投诉点时间信息)。通过多种途径收集到的异构数据,结合数据挖掘的算法,可以做到对电力故障等诉求问题的主动预警,提前发送短信等方法告知电力用户短时间内可能出现的电力故障并提前部署相关维修部门解决问题。

对异构数据集进行分类的主要挑战是如何处理数据集记录中的异构性。虽然一些现有的分类器(如决策树)可以在特定的环境中处理异构数据,但是这些模型的性能可能仍然会得到改进,因为异构性涉及到对相似性度量和计算的特定调整。而且,异构数据仍然以不一致的、特别的方式处理。文中利用深度学习作为一种自动化的特征工程的方法,利用独热编码(One-hot Encoding)和LSTM 等方法分别对每一种数据格式的数据进行提取特征,并最终通过合并(concat)操作将这些多种特征进行融合。卷积神经网络(CNN)因为出色的特征提取能力被广泛应用在各种领域,卷积核的设计可以让系统根据数据之间的关联性来提取出更高维度的特征,使得分类准确率得到提高[5]。文中在得到异构数据融合特征向量之后,采用了CNN 作为系统的分类器,旨在提取异构数据特征之间的相关性,并提高最终模型分类的准确性。

图6 异构数据分类器架构图

2.3.1 异构数据特征提取

面对多源异构数据处理的复杂性,为了达到多源异构数据共性特征提取的目的,文中首先将异构数据分成四大部分,第一是类别型数据(电力用户性别、工作类别、居住区域等),第二是数值型数据(电力用户年龄、配电箱参数、欠费或余额信息等),第三是图像型数据(电表图像、施工现场图像等),第四是时间序列信息(每小时用电量等)。文中针对不同类型的数据,设计相对应的特征提取方法:

(1)类别数据。文中采用常见的独热编码来处理类别数据,但是仅仅使用独热编码会产生非常大的特征维度。文中将编码后的类别向量连接到embedding 层,映射到低维的连续空间,可以解决维度过大的问题,并保留了类别数据本身的特征信息。

(2)数值数据。文中使用多层神经网络来对所有数值数据进行特征提取,由于数值数据缺乏局部标签,所以文中使用无监督的自编码器来提取特征[6]。自编码器(Auto Encoder)的输入和输出是一致的,即将自身的数据作为输出层,采用稀疏的一些高阶特征编码自己,并能在输出层还原出原始数据。文中所设置的自编码器,拥有对称的Encoder 和Decoder 结构。编码器的输入层为原始数值数据,第一个隐藏层具有6 个神经元,第二个隐藏层具有4 个神经元,文中设置最终编码出的高阶特征数量为3,所以编码器的结构如图7 左边所示。同理,对称式地设计解码器,其结构如图7 右边所示。

图7 自编码器的结构示意图

(3)图像数据。文中采用已经训练好的VGG-16(一种深度卷积神经网络模型),作为图像数据的特征提取方法。文中保留其他层的权重不变,只修改最后一层的参数,根据电力图像数据和其他来源的图像进行微调,让VGG-16 可以有效地提取到电力图像数据的特征。

(4)时间序列数据。文中采用长短时间记忆神经网络(Long Short-Term Memory,LSTM)模型对收集到的电力用户每小时用电量的时间序列数据进行特征提取。LSTM 可以随着时间推移对序列数据进行顺序处理,并综合利用历史状态数据、记忆状态数据和当前输入数据等因素[7],可以更好地处理长时间和短时间内的序列关联性。文中利用LSTM 来对时间序列数据进行特征提取,确保提取出序列数据在时间上的关联特征。

2.3.2 异构数据融合与分类

文中分别针对每一种数据源都设计了特征提取的方法,要处理这些异构数据,必须要在特征级上进行数据融合,所以对上一节中所有提取到的所有特征进行concat 操作,组合成完整的1-D 异构数据融合特征向量。接下来,就是设计分类器对融合特征向量进行分类。

因为异构数据虽然在数据类型上有很大的差别,但是每个数据源之间都存在着关联性(比如说,居住区域和电力用户年龄有关,每小时用电量和用户工作有关等)。传统的分类器(SVM,决策树,kNN等)对高维处理起来比较吃力,而且无法获取数据源特征之间的相关性[8-9]。文中采用CNN(卷积神经网络)作为分类器模型,CNN 相对于传统分类器主要有以下两点优势:(i)CNN 使用并全局共享卷积核,所以处理高维数据时相对来说轻松很多;(ii)卷积核能获取特征之间的关联性,可以提升系统分类的准确率。

文中使用1×1 卷积核的Inception 结构来减少网络参数数量。使用Relu 激活函数,并进行批归一化(Batch Normalization)使得梯度可以更好地传递到浅层网络中。同时为了防止训练出的模型过拟合,需要避免训练出复杂的网络模型。文中添加了Dropout 结构来随机丢弃网络单元,增加模型的多样性,同时也使得模型泛化能力得到提升。最后,文中使用Softmax 层来进行分类。

3 实验结果分析

3.1 主题挖掘结果分析

文中采用LDA 模型对交互式诉求文本进行主题挖掘,参数设置为:主题数K=5,超参数α=1,β=0.02,φ=0.02,吉布斯采样的迭代次数设置为2 000。LDA 模型的部分主题结果展示如图8 所示。图中三个主题分别是有关电费异常、故障和抄表,在LDA 的权重值中电费异常这一特征词的权重最高,说明是电力用户诉求中发生的最热门主题。在主题挖掘模型中,主题与主题之间的相似性越低则效果越好,文中在计算主题相似度时,采用了余弦法相似度计算公式[10],对每个主题向量:

图8 部分主题结果展示

式中:tj为每一个词语,wj(dn)为tj在文档dn中的权重,相似度计算公式如下:

然后遍历每一个文本,再对相似度去得到最终的主题间的平均相似度数值。图9 为LDA 模型的主题之间的相似度与文本数据集数量的对应情况。结果表明在文档集增加的情况下,主题之间的相似度在降低,所以增加文本数量可以有效地提高挖掘主题的效率。

图9 主题相似度分析

3.2 异构数据分类效果分析

在对异构数据进行相对应的特征提取之后,文中对特征级融合后的特征向量进行多分类器的对比。如图10 所示为多种分类算法分类准确率对比图。与传统K 近邻算法(K-nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、集成分类器(AdaBoost)等分类算法相比[11],CNN 模型准确率高出近7%,说明CNN 可以更好地分析异构数据的特征之间的关联性,并利用此关联信息增加数据分类的准确性。

图10 分类算法准确率对比图

4 结束语

针对电力用户诉求交互式文本和多源异构数据集,文中提出了一个可以对电力故障和用户诉求热点预测的主动预警系统。文中采用LDA 模型对交互式文本进行主题聚类,然后采用基于卷积神经网络和特征级数据融合的分类器对用户的多源异构数据进行分类,达到最高97%的分类准确率,验证系统的有效性。国家电网可以根据用户诉求的主动性预警,提前安排相应解决方法,给电力用户最好的用电保障。

猜你喜欢
异构特征提取分类器
ETC拓展应用场景下的多源异构交易系统
试论同课异构之“同”与“异”
基于朴素Bayes组合的简易集成分类器①
基于特征选择的SVM选择性集成学习方法
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
多源异构数据整合系统在医疗大数据中的研究
吴健:多元异构的数字敦煌
基于Daubechies(dbN)的飞行器音频特征提取