新媒体新闻事件识别与抽取算法结构的构建

2018-05-28 08:15尹雪婷
电子技术与软件工程 2018年8期
关键词:语料类别标签

文/尹雪婷

1 引言

随着Internet和社会的飞速发展,各种新闻数量呈指数增长,如何准确地从海量、混乱无序且结构性差的的新闻中获取到人们所关心的信息成为急需要解决的问题。事件抽取就是在这种需求背景下应运而生。本文拟在构建当代新媒体新闻事件抽取算法,以期能够对新闻信息进行有效的抽取,推动相关领域的技术进步。

2 构建新媒体新闻事件识别与抽取算法结构

本文当代新媒体新闻事件抽取算法构建如图1所示。

2.1 构建初始触发词集

事件触发词的识别方法主要有三种,分别是:基于统计的方法、基于规则的方法和机器学习方法。基于统计的方法是利用人工统计出文本中的所有触发词,进而构建较为完整的触发词集。此方法简单易行,但是一方面要求训练语料规模足够大,另一方面,在实施的过程中主要依靠经验,主观性大。基于规则的方法是指根据定义一定的规则来选取触发词,此方法能够在一定程度上提高触发词的识别效率,但是该方法主要依靠指定的规则。基于机器学习的方法主要利用特征集来训练触发词识别分类器,把触发词识别问题转化为分类问题。该方法引入自动化模式,能够大量减少人工干预,但是对语料的规模要求较高。通过对实验语料的分析,将触发词分类并进行汇总整理成初始触发词表,然后可以通过此触发词表,为事件类别识别提供一定的参考价值。

2.2 获取候选事件集

图1:算法基本构建示意图

通常情况下,一篇新闻报道有许多个句子构成。并不是所有的句子都是人们所关心的内容,所以,本文通过事件触发词选择出人们所需要的信息。本文把这些含有触发词的句子认为是候选事件,并将其所包含的触发词对应的事件类型作为该事件的类别标签。但是,并不是所有候选事件为真正的候选事件(候选事件并不属于其所对应的类别标签,即不是子事件)。

由于事件抽取是根据是否包含触发词来判断是否是候选事件的,所以在候选事件获取时触发词识别是否正确对结果影响很大。其次,由于实验语料的限制,触发词的数量更是少之又少。导致候选事件获取的召回率很低,对触发词集不进行扩展时,会导致大量事件流失,所以对触发词集进行扩充,从而获得很多的候选事件,使候选事件获取的召回率提高。本文利用触发词-候选事件同步获取算法对进行触发词进行扩展同时获取候选事件集,该算法的具体描述如下:

(1)根据实验语料建立初始触发词集T,T={t1,t2……tp},对实验语料进行预处理得到句子集 S={s1,s2……sn},其中 si={wi1,wi2……wim},wij表示组成句子si的某个词语。

(2)对于句子集S中每一个句子si,计算wij与tk的相似度,如果相似度大于阈值λ,执行步骤(5),否则执行步骤(3)。

(3)k=k+1,若k≤p,执行步骤(2),否则,执行步骤(4)。

(4)j=j+1,若j≤m,k=1,执行步骤(2),否则,执行步骤(6)。

(5)将wij存进触发词集T中,将句子si存进候选事件集C中,二者的类别均定义为Typek。

(6)结束

3 基于二元分类(SVM)的候选事件类别识别与抽取

本文之前利用触发词-候选事件同步获取法,获取了触发词集并得到了很多的候选事件,并给这些候选事件赋予了唯一的类别标签。但是,并不是所有的候选事件都是真正的候选事件,即候选事件并不属于当前的类别标签。所以,本文将候选事件是否为真当成是一个二元分类问题,利用当前相应的分类算法过滤出真正的候选事件。

支持向量机(Support Vector Machine)SVM主要解决得是线性可分的情况,对于线性不可分的情况,可以通过利用一些常见的映射方法将线性不可分的实验数据转化为线性可分,再用线性的应对方法解决问题。从候选事件集中获取到了真正的候选事件和其所对应的类别标签。如何正确地抽取出真正的事件元素,完成事件元素识别的过程,则需要遵循以下步骤:

首先需要识别出子事件中每一个实体元素。通过本文之前制作好的抽取模板抽取出候选实体元素。将按模板从事件中抽取出的每一个实体元素看做成候选Argument,按照抽取模板给每一个候选Argument一个角色标签。然后,选取相应的特征,利用最大熵模型识别出真正的事件元素。

4 结论

事件抽取是当前信息抽取领域的热点研究之一,具有很好的前景并在很多方面都有广泛的应用。目前,当代新媒体新闻事件抽取算法的研究研究才刚起步,本文也仅仅对事件抽取的关键环节做了一定的研究。未来还需要更多的方面需要去改进和发展。

参考文献

[1]彭籍冲,王红斌.基于跨语言信息投影的泰语新闻事件抽取[J].信息技术,2017(12):10-13+17.

[2]裴东辉.中文新闻事件抽取方法研究[D].昆明理工大学,2015.

[3]潘清清.越南语新闻事件元素抽取方法研究[D].昆明理工大学,2014.

猜你喜欢
语料类别标签
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于语料调查的“连……都(也)……”出现的语义背景分析
标签化伤害了谁
服务类别
华语电影作为真实语料在翻译教学中的应用
基于多进制查询树的多标签识别方法
《苗防备览》中的湘西语料
论类别股东会
国内外语用学实证研究比较:语料类型与收集方法