自然语言处理中半监督算法的应用

2017-03-15 11:44柏艺珊黄展原
电子技术与软件工程 2017年2期
关键词:主动学习

柏艺珊++黄展原

摘 要 自然语言处理技术在快速发展中,为人们的生活带来了一定的便捷。监督学习方法在自然语言处理技术发展过程中起到了推动型作用,但是监督学习方法在落实过程中对于有关资料的依赖性较高,非常容易出现标注预料缺乏的问题。在这种情况下,半监督学习就是一种最为的选择。半监督学习主要是对于标记数据与无标记数据同时进行应用,这样能够充分利用标记数据,进而推动自然语言处理技术的发展。

【关键词】半监督学习 跨语言词性标注 主动学习

半监督学习是近几年机器学习领域内最为热点的一个课题,主要就是对于标记数据与无标记数据利用进行分析研究,进而获得比原有有监督学习方法更加优良的功能。半监督学习理念只从推出之后,科研人员研究了较多的方法,但是现在实际应用过程中还是存在较多并未标注的数据,在标注数据获取上面具有较高的难度,未标记数据数量远远超过标记数据数量。就以生物学角度而言,科研人员在蛋白质结构分析上面可以花费多年的研究时间,其中无标记样本数量占据大部分。

1 基于主动学习的半监督支持向量机研究与应用

1.1 半监督支持向量机的定义

半监督支持向量机是一种具有代表性的半监督机器学习算法,是支持向量機算法内的一个分支结构。分类准测也就是对于最大与最小风险数值对于标准进行检测。半监督支持向量机与聚类假设十分吻合,聚类假设主要表示在将分类界面内的数据最大程度进行分析之后,所划分得到的区域。

1.2 最优化方法

半监督支持向量机在对于最优化目标寻找过程中,只有一个目的就是对于非凸优化问题进行分析,大部分科研人员在研究过程中都是应用求近似解的方式,通过迭代的形成,逐渐寻找到优化目标。在对于非凸优化问题计算过程中,最为主要的限制因素就是半监督支持向量机。本文在最优化方法分析研究过程中,利用平均随机梯度下降的方法进行分析。

随机梯度下降算法是随机近似算法被的重要组成部分,在机器学习结构内应用十分广泛,例如支持向量机。随机梯度下降算法应用最为主要的一个优势就是能够对于权重向量进行在线更新。

就随机近似算法理论而言,在实际应用过程中无法计算到最佳结果,但是伴随着近几年科研人员对其深入性研究分析,科研人员研究发现,训练数据在保证充足的情况下,在迭代计算过程中,随机梯度下降类算法能够计算得出最优结果。这个发现对于开展大规模训练活动而言,对于整个活动开展具有促进性意义。平均随机梯度下降与原有随机梯度下降在应用效果上面相比较,所具有的收敛速度更加快速,计算稳定性也得到了显著提高。

正常情况下,对于样本进行梯度计算求和结果,等同于每次对于样本的随机性选择,对于梯度进行计算,权重也能够在线更新。

2 基于图的半监督算法在自然语言处理中的应用

近几年,科研人员对于图的半监督算法给与了较高的关注,主要原因是由于图的半监督算法与一般假设相比较,应用更加便捷,解释十分容易,在应用的领域内都取得了良好的效果。但是,图的半监督算法在应用过程中十分繁琐,同时由于计算流程属于直推式的,这样也就表示在对于测试集更换之后,需要重新进行计算。图的半监督算法在小数据集上面虽然取得了一定成果,但是在大规模数据上面应用还存在一定不足。基于图的半监督算法在自然语言处理中应用,主要原因有两个,分别是复杂度较高与计算代价。

2.1 基于图的半监督算法

基于图的半监督算法在实际应用过程中,就是将样本内全部数据构建成为一个相似性较高的图,图上面所具有的每一个点都能够代表一个样本内的数据,两个节点之间的间距一般情况下标示样本之间所具有的相似度,表示出两个样本之间所具有的关联。在对于相似性进行定义过程中,主要有两种方法,年分别是高斯核与K紧邻。

2.2 NLP任务中图算法数据稀疏问题的解决方法

2.2.1 词向量简介

近几年,词向量在自然语言内得到了显著关注。词向量主要是在深度学习算法之后计算得出,词向量应用到自然语言处理领域内,最为关键的一个技术就是词语用法。

在自然语言处理领域内,统计方法已经成为主流方法,自然语言问题在转变为机器学习问题的时候,首先就需要应用数学符号对于自然语言问题进行表示。

在词向量没有产生之前,自然语言处理应该最为广泛的方式为one-hot,这种表示方法主要就是将自然语言转变为o/l向量,向量的长度就是词语长短。

2.2.2 词汇化特征与词向量特征的使用方式

在对于词汇化特征与词向量特征使用方式分析研究过程中,就以词性标注任务作为研究对象,对于词向量特征怎样提高标准精确性进行分析研究。

在自然语言处理领域内,最为基础性技术就是词性标注,为每个词汇标注针对性信息。正常情况下,在对于词性标注过程中,可以将其看成序列标注问题,部分科研人员还将其看成分类问,本文在分析研究中,就将其看称为分类问题。要是文内一共具有n个词性,在对于每一个词进行标注过程中,一共能够划分为n类,这样词性标注就能够成为一个多分类问题。在对于不同分类问题解决过程中,很多现有机器学习模型都能够得到有效应用。

3 结论

机器学习方法在自然语言处理过程中已经得到了广泛应用,半监督算法在自然语言基础性问题处理上面得到了广泛应用,例如词性标注等,取得了显著成绩。原有监督算法在实际应用过程中对于标注资料具有较高的依赖性,但是标注预料对于人力资源需求数量较高,进而造成标注语料在扩展上面存在较大难度。半监督算法就是在这种条件之下产生,已经成为机器学习领域内的主要发展趋势,主要是就是将标记数据与无标记数据进行利用,进而对于全部数据进行有效利用。

参考文献

[1]T?ckstr?m O,Mc Donald R,Uszkoreit J.Cross-lingual word clusters for direct transfer of linguistic structure[C]//Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Association for Computational Linguistics,2012:477-487.

作者单位

对外经济贸易大学 北京市 100029

猜你喜欢
主动学习
浅谈《住宅空间设计专题》的教学改革
如何在美工活动中引导幼儿主动学习
打造快乐体育课堂引导主动体育学习
发挥家庭小实验的功能 提高学生的实验能力
高中生物教学中学生主动学习策略研究
数字电路课程的翻转课堂教学及调研