基于语言模型词嵌入和注意力机制的敏感信息检测方法

2022-07-29 07:29黄诚赵倩锐
计算机应用 2022年7期
关键词:字符向量模型

黄诚,赵倩锐

基于语言模型词嵌入和注意力机制的敏感信息检测方法

黄诚,赵倩锐*

(四川大学 网络空间安全学院,成都 610065)( ∗ 通信作者电子邮箱2018141531131@stu.scu.edu.cn)

针对基于关键词字符匹配和短语级情感分析等传统敏感信息检测方法准确率低和泛化性差的问题,提出了一种基于语言模型词嵌入和注意力机制(A-ELMo)的敏感信息检测方法。首先,进行字典树快速匹配,以最大限度地减少无用字符的比较,从而极大地提高查询效率;其次,构建了一个语言模型词嵌入模型(ELMo)进行语境分析,并通过动态词向量充分表征语境特征,从而实现较高的可扩展性;最后,结合注意力机制加强模型对敏感特征的识别度,从而进一步提升对敏感信息的检测率。在由多个网络数据源构成的真实数据集上进行实验,结果表明,所提敏感信息检测方法与基于短语级情感分析的方法相比,准确率提升了13.3个百分点;与基于关键字匹配的方法相比,准确率提升了43.5个百分点,充分验证了所提方法在加强敏感特征识别度、提高敏感信息检测率方面的优越性。

敏感信息;语言模型词嵌入;语境分析;注意力机制;字典树

0 引言

随着计算机技术和网络通信技术的快速发展,社交网络的规模不断壮大,推动着商业、文化、教育等领域的革新迭代。社交网络每天产生的信息量数以亿计,信息类别庞杂,涉及行业众多。可见,社交网络已经成为了社会信息传递的重要途径。得益于此,广大的网民可以利用社交平台分享自己对事件的观点、看法。然而,随着社交网络的发展及网民规模的增长,也有越来越多的不法分子利用互联网的匿名性,在社交平台发表恶意评论或观点,传播暴力、反动、色情、赌博等敏感信息,也有邪教组织开始利用社交网络进行邪教思想传播,目前我国已有多起利用微信群、QQ群等传播邪教信息的案件发生。

近年来,研究者们开始关注敏感信息检测问题,并积极开展相关研究和探索[1-3]。现有的研究工作更多关注对敏感词本身的检测,检测方法一般采用关键字匹配方法,即根据现有语料库设置敏感词,构建出对应的词库,在实际检测过程中将待检测文本与词库进行比对,如果比对结果不为空,系统就将其标记为敏感信息并发出警告。这种方法的优势在于实现难度较低、误报率低,但是也存在明显的不足,如检测结果过于依赖词库,仅关注敏感词本身,对于敏感词的上下文信息考虑不足,不能很好地解决一词多义问题,且敏感词需要大量人工选择和标记,难以适用于大规模的语料环境。

为了弥补上述缺陷,本文提出了一种基于语言模型词嵌入和注意力机制(Attention mechanism-based Embedding from Language Model, A-ELMo)的敏感信息检测方法。该方法将注意力机制与语言模型词嵌入(Embedding from Language Model, ELMo)结合,加强模型对敏感特征的识别度,提升模型对敏感信息的检测率,从而对文中的敏感词进行有效分类和判定。本文的主要工作如下:

1)采用语言模型词嵌入(ELMo)替代传统的Word2Vec、GloVe等模型,通过运用动态词向量来表征多义词,以解决固定词向量不能很好表征多义词的问题,并通过在真实敏感信息上实验测试,验证了该模型的有效性。

1 相关工作

目前,越来越多的学者注意到基于关键字匹配方法存在过于依赖词库,对敏感词以外的信息考虑不足等缺陷,并提出一系列方法来改进基于关键字匹配的敏感词检测方法[4-7]。邓一贵等[8]提出了一种基于决策树的信息过滤算法,该算法考虑了敏感词以外的要素,并以此确定敏感词权重,建立了敏感词检测模型。付聪等[9]考虑了敏感词的变形体检测问题,研究了敏感词的拼音、简称、拆分三种变形体,分别针对三种变形体提出了相应的识别算法,实验结果表明可以有效检测敏感词。上述方法的检测对象不再局限于敏感词本身,而是考虑了词频、变体等其他要素,提升了对敏感信息的检测效果;但本质上仍是基于关键字匹配方法,检测对象尽管由敏感词延伸至拼音、简称等变体,但仍仅关注对象本身,缺乏对上下文信息的考虑,因此其效果有待进一步提高。

为弥补敏感词匹配仅考虑检测对象本身的缺陷,李扬等[10]提出了基于情感分析的敏感词检测方法,该方法考虑了实际数据中敏感词的分布特性、情感极性等要素,以此提升对文本敏感性的判别效果。姚艳秋等[11]提出了一种基于Laplace平滑情感判定的文本分类方法,该方法使用Laplace算法对词典进行扩充,然后对文本进行词间、句型、句间等规则分析,并计算情感值,最后在此基础上对情感文本进行分类。胡思才等[12]提出了一种基于扩展的情感词典和卡方模型的中文情感特征选择方法,该方法考虑了情感极值对分类的影响,通过基于字频的相似度计算,提出了带有情感极性的词典建立方法,并将带有情感极性的词典与卡方模型结合,提出了基于卡方模型的情感词分类方法,实验结果表明该方法可以一定程度上提升情感词分类的效果。上述方法通过对词典进行扩充、情感极性分析等,一定程度考虑了上下文信息,然而,通过对句子打分或情感极性评价来进行情感分类的方法过于片面,实际情况中,一段文本包含多个情感词,即使同一个情感词也会因为修饰对象不同而体现不一样的情感倾向,所以仅在整体文本的粒度上考虑情感词的特性和极值不足以对其中的敏感词进行有效识别。明弋洋等[13]提出了一种基于短语级情感分析的敏感信息检测方法,该方法考虑到了敏感信息所在的语境语义,同时考虑了句子的语法规则,在一定程度上提升了上下文信息不同时的检测效果,但是该方法的泛化性较差,不仅依赖情感词库,而且依赖所使用的语法规则,现实中的中文句式种类庞杂,依靠经验建立的语法规则难以适用。Guo等[14]提出一种从非结构化数据中提取敏感信息的方法,利用了基于内容和基于上下文的提取机制,但是没有考虑到真实的语境信息。Wang等[15]提出了一种基于卷积神经网络(Convolutional Neural Network, CNN)和最新的预训练基于变换器的双向编码器表示(Bidirectional Encoder Representations from Transformers, BERT)技术的网络敏感信息分类模型,提高了词嵌入的泛化能力,但并未考虑短文本评论的互动关系,影响了短文本的预测效果。薛朋强等[16]提出了一种基于确定有穷自动机的改进算法,该算法使用决策树分流提高了查询效率以及借助拼音缩小了查询的范围,但较难识别多形式的同义词。Fu等[17]提出了一种基于变异识别和关联分析的敏感词检测方法,给出了变异识别和相似度计算的方法,主要包括同义词、代用词、缩略语和词形变化,然后结合规则对敏感词进行判断,但其运行成本太大,很难运用于不断变化形式的网络敏感词。此外,文献[18-19]从多种角度检测敏感信息,但是仍未从根本上解决误报问题。

可见,尽管现有研究对基于关键字匹配的敏感词检测方法进行了不同程度的改进,但仍然存在不能很好表征多义词、检测时准确率低、误报率高的问题,本文提出一种基于语言模型词嵌入和注意力机制的敏感信息检测方法,利用语言模型词嵌入可以有效表征多义词,结合注意力机制可以进一步提升对敏感信息的检测率,降低误报率。

2 字典树和ELMo模型

2.1 字典树

字典树[17]是一种类似于哈希树的变种多叉搜索树,又称为trie或前缀树,主要用于字符串的快速检索和存储,其中根节点不存储任何字符,其余每个节点存储一个字符,根节点遍历至叶子节点的完整路径代表一个字符串,搜索字符串时将目标字符串与路径上的字符串进行比较。与哈希树不同的是,一个节点的所有后代都必须有一个共同的前缀,这样可以最大限度地减少无用字符的比较,极大提高查询效率。

2.2 ELMo模型

词嵌入是现在自然语言处理中最常用的单词表示法,从早期的独热编码到神经网络语言模型训练得到的分布式词向量[20],以及之后的众多嵌入式静态词向量都无法解决一词多义的问题。就Word2Vec而言,其本质上是一个静态模型,也就是说Word2Vec采用固定的词向量表征策略,词汇一旦经过转换后,其词向量是固定不变的,不会因为上下文信息不同而改变,这种情况对于多义词是非常不友好的。例如英文中的Bank这个单词,既有河岸的意思,又有银行的意思,但在使用Word2Vec进行词向量表征的预训练时,对于多义词Word2Vec会输出一个混合多义词的词向量,但这个词向量是固定的,不会随语境改变。

ELMo是一种在词向量或词嵌入中表示词汇的新方法,与Word2Vec、GloVe等同属于词向量嵌入模型,其中包含字符级CNN、双向长短期记忆(Long Short-Term Memory, LSTM)等子模块。ELMo的提出就是为了解决这种语境问题,动态地去更新词的词嵌入。ELMo的本质思想是:事先用语言模型在一个大的语料库上学习好词的词嵌入。在实际使用中,既能以词汇为单位生成词向量作为ELMo模型的输入,也能以字符为单位生成字符向量作为输入。为了避免词典外的词语无法被表示以及词汇过多造成的存储空间利用率低的问题,本文以字符为单位生成字符向量,再将字符向量作为CNN的输入,生成的词向量作为ELMo的输入,在使用过程中仅需保存字符向量和模型参数,减少了存储空间的占用。

(2)生产阶段。从检验单证的监管部门责任及信息采集实现,到生产阶段的产品等级划分及层级包装形成在仓储和运输环节可追溯的包装体系建设。

3 基于A-ELMo模型的敏感信息检测方法

本文提出的基于A-ELMo的敏感信息检测方法优势在于:1)采用ELMo替代传统的Word2Vec、GloVe等模型,通过运用动态词向量来表征多义词,有效弥补传统方法不能很好处理一词多义的缺陷;2)在ELMo语言模型之上引入注意力机制,根据敏感程度赋予词汇不同的权重,加强了模型对敏感信息的识别;3)引入了字典树匹配,在进行情感分析前,先使用结巴(jieba)函数将文本切分成词,输入字典树对敏感词进行快速匹配,有效减少了需要A-ELMo分析的词汇数量,提高了检测效率。如图1所示,收到待检测文本后,首先将文本按一定的规则进行分句,再以分句为单位进行分词,获得输入字符;其次,构建敏感词所对应的字典树,从根节点开始,将输入字符依次向下匹配,判断输入内容是否包含敏感词,如果包含,则使用A-ELMo进行情感分析,分析的结果用于判断该句子是否需要报警。

图1 基于A-ELMo的敏感信息检测方法流程

英文有天然的空格作为分隔符来区分单词,而中文的单词之间不存在分隔符,分词后会产生大量的单词字符,若将所有待检测文本作为ELMo输入会影响时间及准确率。为解决这一问题,本文将对数据进行预处理并使用字典树判断,作为初步筛选,减少需要输入到ELMo的字符数量。首先,是对待检测文本按一定的规则进行分句,以句子为单位进行处理。由于在关键字匹配阶段采用的是字典树快速匹配,所以需要对句子进行分词。考虑到待检测的文本是以句子为单位,每个句子所含分词有限,本文对各种类型敏感词库中的敏感词构建相应的字典树,利用不同字符串有相同的前缀来构建节点,不仅在一定程度上缩小了存储空间,也提高了字符串检索的速度和检测的准确率。对于输入的待检测文本,先用jieba函数切分成词后,再依次输入字典树进行匹配,从而快速匹配出敏感词。

如果匹配到敏感词汇,则进一步输入A-ELMo进行情感分析,模型结构如图1中A-ELMo情感分析部分所示,包含注意力机制和ELMo。ELMo的词向量是在双层双向语言模型上计算的,由两层双向的长短期记忆网络叠在一起,每层都有前向和后向两种迭代。将句子处理为词向量后,输入双向语言模型中第一层;前向迭代中包含了该词以及该词之前的一些词汇或语境的信息;后向迭代中包含了该词之后的信息;这两种迭代的信息组成了中间词向量;这些中间词向量被输入到模型的下一层;最终表示(ELMo)就是原始词向量和两个中间词向量的加权和。因为双向语言模型的输入度量是字符而不是词汇,该模型能捕捉词的内部结构信息。比如“反动”和“反动的”,即使不了解这两个词的上下文,双向语言模型也能够识别出它们在一定程度上的相关性。

本文所提模型结合了前、后向语言模型,最大化其联合似然函数,如式(3)所示:

如图2所示,敏感性越高的词汇其权重越高。生成ELMo向量后再使用一个全连接层神经网络层[21]和SoftMax[22]函数进行分类。

在报警决策阶段,本文制定了如下规则[8]:当正向敏感信息所在句子的情感是积极的,负向敏感信息所在的句子情感是消极的,则不报警;反之则报警。对于中性敏感词,无论其所在情感倾向如何,都做出报警决策。

4 实验结果及分析

4.1 实验设置

本文从敏感信息检测方法、词嵌入模型及语言模型训练效率三个方面对所提基于A-ELMo的敏感信息检测方法的性能表现进行了实验验证。搭建实验环境为Intel Core i7-9700 CPU @3.00 GHz,8 GB RAM,Windows 10 OS,编程语言为Python 3.7。采用准确率、召回率以及精确率作为评估所提方法性能表现的3种评价指标。

将本文方法与常用于敏感信息检测的短语级情感分析法[6]及关键词匹配法进行了对比实验。将本文采用的A-ELMo和GloVe[23]、Word2Vec[24]、FastText[25]、文献[26]方法、文献[27]方法等进行了实验对比。其中:Word2Vec和GloVe均采用固定词向量表征+词汇级别的词向量嵌入方式,FastText采用固定词向量表征+字符级别的词向量嵌入方式,文献[26]方法采用注意力机制和卷积神经网络检测敏感信息,文献[27]方法采用自注意力机制和图卷积神经网络检测敏感信息。此外,还将本文方法与无词向量嵌入的情况进行了消融实验对比,无词向量嵌入实验中去除了A-ELMo,将词在语料库中的索引经过简单编码后作为输入。在训练效率上,本文将A-ELMo中的Bi-LSTM替换成其他具有相同功能的模型进行了消融实验对比。

4.2 数据描述

本文爬取了人民网、新华网、央视新闻等网页上的486篇新闻报道作为白样本,另外从境外中文网站下载了357篇博客文章作为黑样本,组合形成本文所使用的数据集。其中,486篇新闻报道包含了15 800个“共产党”“中国政府”等敏感词汇,但均属于正常的新闻报道;357篇博客文章包含类似敏感词汇9 350个,均属于敏感文章。本文将新闻报道和博客文章按自然句划分,并按句子长度设置阈值进行过滤,提取并选择实验数据如表1所示。在实验过程中,按7∶3划分训练、测试数据。

表1 实验数据集

4.3 预训练

在进行情感分析之前,需要对ELMo进行预训练,以获得上下文相关的词向量信息。原始数据包括正常的新闻数据集和敏感信息数据集,预处理首先去除内容中的空行、特殊符号,过滤词语少于3个的句子,利用jieba分词进行每句话的切词处理。

本文使用Word2Vec工具的skip-gram[28]模型作为字符向量表征模型,在获得字符向量后,将其作为输入来初始化字符级卷积神经网络的嵌入层,学习分词语料,获得模型参数。

4.4 结果分析

将本文所提的敏感信息检测方法与短语级情感分析方法[13]、关键字匹配方法进行对比实验,在准确率、召回率、精确率3个指标上进行了性能对比,结果如表2所示。

表2 3种方法在3个指标上的性能对比 单位:%

本文方法不仅与关键字匹配方法相比,在检测的准确率和速度上有提升,在准确率、召回率上较基于短语级情感分析的不良信息检测方法[13]也有较大提升。另外,虽然模型训练所用的数据集不是真正敏感信息数据集,而是采用大量公开数据集进行训练,但在所选的测试数据集上已取得较高的召回率。

考虑到不同的训练数据和测试数据会造成不同的结果,本文将数据随机化后,按照4∶1的比例切分训练数据和测试数据,结果如表3所示。实验结果表明,本文的方法在新的训练数据和测试数据下依旧保持良好的检测效果,相较于现有的短语级情感分析、关键字匹配有明显的提升。

表3 3种方法经数据随机化后的在3个指标上的性能对比 单位:%

此外,将本文方法分别与FastText[25]、Word2Vec[24]、GloVe[23]、文献[26]方法、文献[27]方法及无词向量嵌入情况分别进行了充分的实验对比,结果如表4所示。

表4 7种方法所用的词嵌入模型在3个指标上的性能对比 单位:%

为了研究LSTM的训练效率,将本文A-ELMo的Bi-LSTM部分替换成具有相同功能(可作为语言模型)的一维卷积神经网络(1D-CNN)、层级softmax[22]、Transformer[19]进行对比,其中层级softmax为FastText[25]工作中使用的方法、Transformer为文献[19]中使用的方法,1D-CNN是大量用于序列建模的基准方法。不同方法达到各自最佳测试性能对应的训练时间如表5所示。

表5 4种语言模型在4个指标上的性能对比

实验结果表明:尽管Bi-LSTM的训练时间相较于其他方法更长,但其测试效果有显著提高;此外,由于Bi-LSTM能提取更为抽象的语义,且与ELMo的词嵌入更加适配,可以更好解决一词多义问题,因此其检测准确率明显优于其他方法。

5 结语

针对基于关键词字符匹配和短语级情感分析方法等传统敏感信息检测方法准确率低和泛化性差的问题,本文提出了一种基于语言模型词嵌入和注意力机制(A-ELMo)的敏感信息检测方法。该方法采用了ELMo进行语境分析,有效降低了一词多义对检测效果的影响,并结合注意力机制,增强了模型对敏感特征的识别度,进一步提升对敏感信息的检测率。在由多个网络数据源构成的真实数据集上进行实验,验证了所提方法在检测敏感信息上的有效性。

从实验结果来看,所提方法的精确率相较准确率和召回率依然具备一定的提升空间,可以在未来工作中考虑运用在线学习的方法来进一步提高检测精确率,减少误报。

[1] QIAO H, TIAN Z, LI W L, et al. A sensitive information detection method based on network traffic restore[C]// Proceedings of the 12th International Conference on Measuring Technology and Mechatronics Automation. Piscataway: IEEE, 2020: 832-836.

[2] XU Y Y, LI Y X, ZHANG Z Y. Sensitive text classification and detection method based on sentiment analysis[J]. International Core Journal of Engineering, 2021, 7(5): 60-66.

[3] DIAS M, BONÉ J, FERREIRA J C, et al. Named entity recognition for sensitive data discovery in Portuguese[J]. Applied Sciences, 2020, 10(7): No.2303.

[4] ESIN Y E, ALAN O, ALPASLAN F N. Improvement on corpus- based word similarity using vector space models[C]// Proceedings of the 24th International Symposium on Computer and Information Sciences. Piscataway: IEEE, 2009: 280-285.

[5] SUNDERMEYER M, SCHLÜTER R, NEY H. LSTM Neural networks for language modeling[C]// Proceedings of the Interspeech 2012. [S.l.]: International Speech Communication Association, 2012: 194-197.

[6] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 507-516.

[7] GUTHRIE D, ALLISON B, LIU W, et al. A closer look at skip-gram modelling[C]// Proceedings of the 5th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2006: 1222-1225.

[8] 邓一贵,伍玉英. 基于文本内容的敏感词决策树信息过滤算法[J]. 计算机工程, 2014, 40(9):300-304.(DENG Y G, WU Y Y. Information filtering algorithm of test content-based sensitive words decision tree[J]. Computer Engineering, 2014, 40(9): 300-304.)

[9] 付聪,余敦辉,张灵莉. 面向中文敏感词变形体的识别方法研究[J].计算机应用研究, 2019, 36(4):988-991.(FU C, YU D H, ZHANG L L. Study on identification method for change from of Chinese sensitive words[J]. Application Research of Computers, 2019, 36(4): 988-991.)

[10] 李扬,潘泉,杨涛. 基于短文本情感分析的敏感信息识别[J]. 西安交通大学学报, 2016, 50(9):80-84.(LI Y, PAN Q, YANG T. Sensitive information recognition based on short text sentiment analysis[J]. Journal of Xi’an Jiaotong University, 2016, 50(9): 80-84.)

[11] 姚艳秋,郑雅雯,吕妍欣. 基于LS-SO算法的情感文本分类方法[J]. 吉林大学学报(理学版), 2019, 57(2):375-379.(YAO Y Q, ZHENG Y W, LYU Y X. Emotional text classification method based on LS-SO algorithm[J]. Journal of Jilin University (Science Edition), 2019, 57(2): 375-379.)

[12] 胡思才,孙界平,琚生根,等. 基于扩展的情感词典和卡方模型的中文情感特征选择方法[J]. 四川大学学报(自然科学版), 2019, 56(1):37-44.(HU S C, SUN J P, JU S G, et al. Chinese emotion feature selection method based on the extended emotion dictionary and the chi-square model[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(1): 37-44.)

[13] 明弋洋,刘晓洁. 基于短语级情感分析的不良信息检测方法[J]. 四川大学学报(自然科学版), 2019, 56(6):1042-1048.(MING Y Y, LIU X J. Sensitive information detection based on phrase-level sentiment analysis[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(6):1042-1048.)

[14] GUO Y Y, LIU J Y, TANG W W, et al. ExSense: extract sensitive information from unstructured data[J]. Computers and Security, 2021, 102: No.102156.

[15] WANG Y J, SHEN X J, YANG Y J. The classification of Chinese sensitive information based on BERT-CNN[C]// Proceedings of the 2019 International Symposium on Intelligence Computation and Applications, CCIS 1205. Singapore: Springer, 2020: 269-280.

[16] 薛朋强,努尔布力,吾守尔·斯拉木. 基于网络文本信息的敏感信息过滤算法[J]. 计算机工程与设计, 2016, 37(9):2447-2452.(XUE P Q, NURBOL, ISLAM W. Sensitive information filtering algorithm based on text information network[J]. Computer Engineering and Design, 2016, 37(9): 2447-2452.)

[17] FU Y, YU Y, WU X P. A sensitive word detection method based on variants recognition[C]// Proceedings of the 2019 International Conference on Machine Learning, Big Data and Business Intelligence. Piscataway: IEEE, 2019: 47-52.

[18] DING M, WANG X, WU C M, et al. Research on automated detection of sensitive information based on BERT[J]. Journal of Physics: Conference Series, 2021, 1757: No.012088.

[19] BIGONHA M A S, FERREIRA K, SOUZA P, et al. The usefulness of software metric thresholds for detection of bad smells and fault prediction[J]. Information and Software Technology, 2019, 115: 79-92.

[20] 李丹阳,赵亚慧,罗梦江,等. 基于字典树语言模型的专业课查询文本校对方法[J]. 延边大学学报(自然科学版), 2020, 46(3):260-264.(LI D Y, ZHAO Y H, LUO M J, et al. Query text proofreading method of professional courses based on trie tree language model[J]. Journal of Yanbian University (Natural Science), 2020, 46(3): 260-264.)

[21] LOPEZ M M, KALITA J. Deep learning applied to NLP[EB/OL]. (2017-03-09) [2021-03-13].https://arxiv.org/pdf/1703.03091.pdf.

[22] 周飞燕,金林鹏,董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6):1229-1251.(ZHOU F Y, JIN L P, DONG J. Review of convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(6):1229-1251.)

[23] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1532-1543.

[24] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07) [2021-03-13].https://arxiv.org/pdf/1301.3781.pdf.

[25] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 427-431.

[26] SHARMIN S, CHAKMA D. Attention-based convolutional neural network for Bangla sentiment analysis[J]. AI and Society, 2021, 36(1): 381-396.

[27] LIU Y, YANG C Y, YANG J. A graph convolutional network-based sensitive information detection algorithm[J]. Complexity, 2021, 2021: No.6631768.

[28] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

HUANG Cheng, born in 1987, Ph. D., associate professor. His research interests include network security, attack and defense technology.

ZHAO Qianrui, born in 2000. Her research interests include cyberspace security.

Sensitive information detection method based on attention mechanism-based ELMo

HUANG Cheng, ZHAO Qianrui*

(,,610065,)

In order to solve the problems of low accuracy and poor generalization of the traditional sensitive information detection methods such as keyword character matching-based method and phrase-level sentiment analysis-based method, a sensitive information detection method based on Attention mechanism-based Embedding from Language Model (A-ELMo) was proposed. Firstly, the quick matched of trie tree was performed to reduce the comparison of useless words significantly, thereby improving the query efficiency greatly. Secondly, an Embedding from Language Model (ELMo) was constructed for context analysis, and the dynamic word vectors were used to fully represent the context characteristics to achieve high scalability. Finally, the attention mechanism was combined to enhance the identification ability of the model for sensitive features, and further improve the detection rate of sensitive information. Experiments were carried out on real datasets composed of multiple network data sources. The results show that the accuracy of the proposed sensitive information detection method is improved by 13.3 percentage points compared with that of the phrase-level sentiment analysis-based method, and the accuracy of the proposed method is improved by 43.5 percentage points compared with that of the keyword matching-based method, verifying that the proposed method has advantages in terms of enhancing identification ability of sensitive features and improving the detection rate of sensitive information.

sensitive information; Embedding from Language Model (ELMo); context analysis; attention mechanism; trie tree

This work is partially supported by National Natural Science Foundation of China (61902265), Key Research and Development Program of Science and Technology Department of Sichuan Province (2020YFG0076).

1001-9081(2022)07-2009-06

10.11772/j.issn.1001-9081.2021050877

2021⁃05⁃27;

2021⁃08⁃27;

2021⁃08⁃30。

国家自然科学基金资助项目(61902265);四川省科技厅重点研发计划项目(2020YFG0076)。

TP183

A

黄诚(1987—),男,重庆云阳人,副教授,博士,CCF会员,主要研究方向:网络安全、攻防技术; 赵倩锐(2000—),女,四川巴中人,主要研究方向:网络空间安全。

猜你喜欢
字符向量模型
适用于BDS-3 PPP的随机模型
自制空间站模型
向量的分解
Python实现图片转字符画
正则表达式快速入门
图片轻松变身ASCⅡ艺术画
模型小览(二)
离散型随机变量分布列的两法则和三模型
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线