基于受限领域自动问答系统设计

2015-01-06 05:26庄永新武鹏朱峰黄振宇
电脑知识与技术 2014年34期

庄永新+武鹏+朱峰+黄振宇

摘要:自动问答系统的设计一直是自然语言处理领域的研究热点。尤其是在受限领域,基于问题库的问答系统具有准确、快捷和高效等优点。该文设计了一种融合社交网络技术的基于《计算机网络》课程的自动问答系统,其问答库的构建采用了VSM模型。实验证明,该系统具有较高的准确率,有一定的推广意义。

关键词:自动问答;VSM;受限领域

中图分类号:TP391.1 文献标识码:A 文章编号:1009-3044(2014)34-8186-02

自动问答是指终端用户通过人机对话界面,用自然语言提出一个问题,可以从系统得到一个简洁,正确的回答。该技术一直是自然语言处理研究领域里的研究热点,用户可以像日常生活一样通过熟悉的自然语言提出问题,而不需要对于所提问题的词法结构做出特殊的分割。其次,问答系统给出的答案,是一段简洁、正确的文本,而不是一个网页或者长篇幅的文档。

相比于基于搜索引擎的问答系统,基于受限领域的自动问答系统有其自身优势:首先,用户从系统所得到的答案是一个或者几个明确的答案文本,而不是海量的网页,用户可以轻易的寻找到自己所需要的答案。其次,系统对用户自身的信息检索能力要求不高,用户通过自己所熟悉的自然语言进行提问即可。最后,基于受限领域的自动问答系统易于构建,对问题响应速度快,命中率高。

1 自动问答系统的设计

为了减少系统的计算量,加快系统响应速度,针对受限领域的特殊性,问答系统的设计一般包括四个部分:问题分析、信息检索、答案抽取和用户点评。问题分析阶段,对于用户用自然语提出的一个问题,系统进行分词、同义词替换、去除停等词等预处理工作,然后进行关键词提取,从而建立向量表示。信息检索阶段将问题向量与答案库中的答案进行匹配并计算相似度。答案抽取阶段,依答案检索中计算出的相似度进行排序,选取相似度最高的前5个答案作为候选答案提供给用户。用户点评阶段,用户提问后,无论是直接从系统直接获取答案还是其他用户提供回答,均可以对得到的答案实现类DIGG点评。用户整个系统的结构如图1所示。

2 自动问答系统的具体实现

2.1 问题分析

首先对用户用自然语言进行的提问进行分词、同义词替换、停等词处理等预处理操作后建立问题的特征表示。问题的特征采用VSM模型来进行表示,其形式如式(1) 所示。

其中[qi]为字典中出现的关键词在该问题中的权值表示,可以以TFIDF值计算,TF值可以直接计算,IDF值可以依照字典本身存储的该关键词的IDF值计算。

向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出的一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型,并成功地应用于著名的SMART文本检索系统。在VSM模型中,以向量的形式表示文档。向量的每一维表示一个单词,如果单词在某篇文档中出现,则其向量值为其权重值,如果没有出现,则将其向量值记为零。假设文档空间为[D],那么有式(2) 。

其中[di]表示文档空间中的第[i]篇文档。则其中任意一篇文档[di]可以表示为式(3) 的形式。

其中[dij]表示第j维上单词的权重。

对于权重的计算方式有很多种,其中比较常见的计算方式为以每一维单词的TFIDF值为其权重值。词频逆文档频率(term frequency—inverse document frequency,TFIDF)是一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。其思想是一个单词在某篇文档中出现的频率越高,而在其他文档中出现频率越低,那么它对文档的重要程度就越高。其计算公式为式(4):

[TF=f/m],其中f表示当前词在当前文档中出现的次数,而m表示当前文档中出现次数最多的词的次数。这样TF值就在0和1之间。这样做可以减少文档中词的频率不合理分布所引起的误差。[IDF=log2nnj+1],其中n表示在整个语料中文档的总数,而[nj]表示含有当前词的文档数。这样做可以减少在语料范围内词频分布不均匀造成的相似度误差。

2.2 信息检索

为了在答案库中检索出提问的所需要的答案,这里以问题和答案库中的文档之间的距离作为检索标准,与问题距离越小的答案越可能是最终问答系统中输出的答案。

文档向量之间的距离的计算方法很多,本系统中采用常用的余弦定理方法作为文档相似度的度量标准,其计算方法如公式(5) 所示:

2.3 答案抽取

依答案检索中计算出的相似度进行排序,选取相似度最高的前5个答案作为候选答案提供给用户。如果不足5个答案,就全部提供给用户。如果用户没有找到相关问题答案,可以选择重新提问。

为了能够充分调动使用者的积极性,促使使用者共同建设该领域问题库和答案库,同时也弥补系统答案库答案有限的弊端,设置了答案反馈模块。当用户对系统所给出的答案不满意的时候,可以在得到正确答案之后给出自己的答案。共同使得系统更加完善,也提高我们对于问题的查准率,客观上补充了算法上的劣势。

2.4 用户点评

用户登陆可以对系统提供的参考答案或者用户贡献的答案实现类DIGG点评。用户通过主观判断获取的答案和提问是否相关,进而对答案进行评价或添加评论。其中评价通过选择“赞同”或“反对”两种按钮方式实现,并进而反馈给系统。添加评论通过对答案进行主观驳斥以提供给其他用户参考。

在点评过程中,如果提问是直接面向系统的,则只能由提问用户实现对系统提供答案进行点评。如果问题是开放给所有用户的,则任意用户均可以参与点评。所有的点评结果均会经过处理后反馈到系统后台,从而提供给教师,作为教师对答案库维护更新的重要依据。endprint

3 实验结果

针对《计算机网络》课程的自动问答系统如图2所示。由于问答系统的特殊性,一般只以准确率来考察系统的性能指标。准确率的计算公式按照TREC会议的计算公式如式(6) 所示来计算。

[准确率=答对的问题分数问题的总分数] (6)

系统对每个问题提供5个答案,第一个答案即为正确答案,得5分;第二个答案为正确答案,得4分,第3个答案为正确答案,得3分,第4个答案为正确答案,得2分,第5个答案为正确答案,得1分。

实验中对系统提问问题数为30个,最后的总得分数为140分。系统的准确率为93.3%。由于系统同时给出5个答案,如果考量用户是否得到最终的正确答案,而不论该答案是否位于第一个,则系统的准确率为100%,说明在受限领域下,该系统方法简单,可靠性好。

4 结束语

本系统基于VSM的文本匹配方法,依托社交网络的交互性可以看出采用该模型在受限领域的问答系统中具有实现简单、准确率高、交互性广的优点。在理论和实际应用中都有一定的价值。

参考文献:

[1] 王树西. 问答系统:核心技术、发展趋势[J]. 计算机工程与应用,2005(18).

[2] 秦兵,刘挺,王洋,郑实福,李生. 基于常问问题集的中文问答系统研究[J]. 哈尔滨工业大学学报,2003(10).

[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5).

[4] Salton G,and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill, 1983.

[5] 郑实福,刘挺,秦兵,李生. 自动问答综述[J]. 中文信息学报,2002(6).

[6] 刘伟. 基于限定领域的问句相似度[D]. 天津:天津师范大学, 2008.

[7] 刘智慧. 基于搜索引擎的自动问答系统[D]. 西安:西安电子科技大学, 2010.

[8] 钱强, 庞林斌, 高尚. 一种基于词共现图的受限领域自动问答系统[J]. 计算机应用研究, 2013,30(3): 841-843.

[9] 赵恒立. 恶意代码检测与分类技术研究[D]. 杭州:杭州电子科技大学, 2009.

[10] 朱林, 余侠. 基于 Web 文档的目标信息预测采集控制策略[J]. 情报理论与实践, 2006,28(6): 660-662.endprint

3 实验结果

针对《计算机网络》课程的自动问答系统如图2所示。由于问答系统的特殊性,一般只以准确率来考察系统的性能指标。准确率的计算公式按照TREC会议的计算公式如式(6) 所示来计算。

[准确率=答对的问题分数问题的总分数] (6)

系统对每个问题提供5个答案,第一个答案即为正确答案,得5分;第二个答案为正确答案,得4分,第3个答案为正确答案,得3分,第4个答案为正确答案,得2分,第5个答案为正确答案,得1分。

实验中对系统提问问题数为30个,最后的总得分数为140分。系统的准确率为93.3%。由于系统同时给出5个答案,如果考量用户是否得到最终的正确答案,而不论该答案是否位于第一个,则系统的准确率为100%,说明在受限领域下,该系统方法简单,可靠性好。

4 结束语

本系统基于VSM的文本匹配方法,依托社交网络的交互性可以看出采用该模型在受限领域的问答系统中具有实现简单、准确率高、交互性广的优点。在理论和实际应用中都有一定的价值。

参考文献:

[1] 王树西. 问答系统:核心技术、发展趋势[J]. 计算机工程与应用,2005(18).

[2] 秦兵,刘挺,王洋,郑实福,李生. 基于常问问题集的中文问答系统研究[J]. 哈尔滨工业大学学报,2003(10).

[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5).

[4] Salton G,and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill, 1983.

[5] 郑实福,刘挺,秦兵,李生. 自动问答综述[J]. 中文信息学报,2002(6).

[6] 刘伟. 基于限定领域的问句相似度[D]. 天津:天津师范大学, 2008.

[7] 刘智慧. 基于搜索引擎的自动问答系统[D]. 西安:西安电子科技大学, 2010.

[8] 钱强, 庞林斌, 高尚. 一种基于词共现图的受限领域自动问答系统[J]. 计算机应用研究, 2013,30(3): 841-843.

[9] 赵恒立. 恶意代码检测与分类技术研究[D]. 杭州:杭州电子科技大学, 2009.

[10] 朱林, 余侠. 基于 Web 文档的目标信息预测采集控制策略[J]. 情报理论与实践, 2006,28(6): 660-662.endprint

3 实验结果

针对《计算机网络》课程的自动问答系统如图2所示。由于问答系统的特殊性,一般只以准确率来考察系统的性能指标。准确率的计算公式按照TREC会议的计算公式如式(6) 所示来计算。

[准确率=答对的问题分数问题的总分数] (6)

系统对每个问题提供5个答案,第一个答案即为正确答案,得5分;第二个答案为正确答案,得4分,第3个答案为正确答案,得3分,第4个答案为正确答案,得2分,第5个答案为正确答案,得1分。

实验中对系统提问问题数为30个,最后的总得分数为140分。系统的准确率为93.3%。由于系统同时给出5个答案,如果考量用户是否得到最终的正确答案,而不论该答案是否位于第一个,则系统的准确率为100%,说明在受限领域下,该系统方法简单,可靠性好。

4 结束语

本系统基于VSM的文本匹配方法,依托社交网络的交互性可以看出采用该模型在受限领域的问答系统中具有实现简单、准确率高、交互性广的优点。在理论和实际应用中都有一定的价值。

参考文献:

[1] 王树西. 问答系统:核心技术、发展趋势[J]. 计算机工程与应用,2005(18).

[2] 秦兵,刘挺,王洋,郑实福,李生. 基于常问问题集的中文问答系统研究[J]. 哈尔滨工业大学学报,2003(10).

[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5).

[4] Salton G,and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill, 1983.

[5] 郑实福,刘挺,秦兵,李生. 自动问答综述[J]. 中文信息学报,2002(6).

[6] 刘伟. 基于限定领域的问句相似度[D]. 天津:天津师范大学, 2008.

[7] 刘智慧. 基于搜索引擎的自动问答系统[D]. 西安:西安电子科技大学, 2010.

[8] 钱强, 庞林斌, 高尚. 一种基于词共现图的受限领域自动问答系统[J]. 计算机应用研究, 2013,30(3): 841-843.

[9] 赵恒立. 恶意代码检测与分类技术研究[D]. 杭州:杭州电子科技大学, 2009.

[10] 朱林, 余侠. 基于 Web 文档的目标信息预测采集控制策略[J]. 情报理论与实践, 2006,28(6): 660-662.endprint