基于改进SMF 的辅助教学问答系统设计

2021-01-20 08:44周玉宝
科学技术创新 2021年1期
关键词:检索词汇数据库

周玉宝

(重庆师范大学,重庆401331)

1 概述

对于教育行业来说,随着互联网的高速发展,教育模式以及教育方法也从以往的线下教学发展到了线上线下同步。2020 年疫情期间,中国的大中小学纷纷展开线上教学,各个培训机构也相继展开网络直播课。线上教学方式虽然也能完成教学任务,但却存在一些问题急需解决:其一,老师不可能回答所有同学的提问,也无法及时了解每一个学生对知识的掌握情况;其二,老师可能需要对同一个问题回答多次。自然语言处理技术为解决这些问题提供了研究基础。自动问答是自然语言处理的一个分支,从20 世纪60 年代Green 等人开发出BASEBALL 问答系统[1]至今,已发展出大量应运于不同领域的问答系统。

如何把自动问答技术应用于教育领域,一批研究者已经进行了初步探索。例如,APP 端的作业帮、小猿搜题等,这类APP的使用对象主要为小学到高中的学生,他们可以在问答模块中进行提问或回答他人问题,而问题检索只是其中的一个小模块,检索的主要实现方式为拍照搜题,即将题目拍照后进行照片识别再进行搜索,它将人工问答与问题搜索相结合,并使用拍照的方式降低使用成本,可以满足学生家长和教师的一部分需求,而这种方式也更适用于题目相对固定的场合。在国外也有许多实用较为广泛的学习分析技术工具,例如ASSIST-ments,它会模拟教师为学生提供课堂反馈的模式,会给不能正确回答问题的学生提供渐进性的提示,目前有216 个地区使用该系统;还有自动批改作业并反馈,利用学习数据生成个性化学习路径的Bingel,为九至十二年级的学生提供数学课程学习活动和反馈的Cognitive Tutor Software 系统等等,这些系统均是将人工智能与教育相结合,从不同角度为教学互动提供帮助。

2 研究基础

一个典型的基于检索的问答系统通常由三部分组成:问题处理模块、文本检索与排序模块、答案抽取模块。问题处理模块是对输入的问题进行分词、命名实体识别、词性标注、和依存句法分析,并输出一系列特定问题的语义标签(例如问题类型、问题关键词、答案类型等)。现有的基于检索的问答系统中,一般把问答任务分为答案句子选择和机器阅读理解两类,答案句子选择指在检索到的文本中查找一句与问题相符合的答案句子,机器阅读理解是从检索到的文本中抽取短语或单词然后组合为一个答案句子。在答案句子选择上有两大类方法:基于特征的方法和基于深度学习的方法。

2.1 基于特征的答案句子选择方法

问题句子中的词汇与可能答案句子中的词汇的重叠度,可以反映答案与问题的匹配性,用函数l 表示这一匹配性:

l 表示A 中词汇的个数,I(w,q)检查A 中词汇w 是否出现在Q 中,如果出现则返回1,否则为0,分母是用于惩罚词汇较多的答案候选句子。如果该函数值越大,说明答案越吻合。

相比于简单的词汇重叠性,基于查询似然相似度的问题检索模型有更强的表达能力,比如一元语言检索模型LMIR,该模型是一个简洁有效的模型,直接计算问句与检索到的文档中每一句的词汇重叠度并找出最大值的一句作为答案句。的但在实际中,由于同一语义在自然语言中有不同的表示,采用这种精确词汇匹配方法就无法处理这种情况。此外候选答案句子可能比问题包含更多的信息,这些信息能否提供回答该问题的答案,无法靠词汇重叠度进行衡量。

翻译模型的提出稍微缓解了上述两个问题,Surdeanu 等人[5]使用翻译特征完成问题和候选答案句子间的相关性计算。Wang等人从语法信息的角度提出了基于类同步文法的方法[7],该方法基于候选答案句子对应的依存句法树,计算二者相互转换的概率。Yih 等人[8]从语义信息的角度,包括同义词关系、上下位关系和词相似度这三个度量来判断问题和答案句子之间的关系。

2.2 基于深度学习答案句子选择的方法

根据(15)和(16)式,可以计算出答案在检索出的文本片段中的位置。

4 辅助教学问答系统设计

图1 辅助教学问答系统流程图

建立以课堂教学为主的辅助问答系统,从实际课堂中获取问答数据,之后以此数据为基础进行分析等处理,再进行相关模型的训练,最后为学生提供围绕该课堂的知识问答检索服务。首先需要构建教学知识为基础的问答对数据库,再对数据库中的内容进行向量化,在用户进行搜索时对问句进行预处理和词语替换等,再和数据库中的句子进行匹配并排序,返回最终答案;若没有匹配到答案,则交给多轮问答部分进行分析,查看是否有于省略、代指等情况,如果能检索出答案则返回给学生,若是还不能,则把问题提交给待解决问题库,等待教师解答后,把答案输入问答库。其流程如图1 所示。

用户在输入问句后经过预处理、句向量生成、距离对比、答案排序的步骤选择出相关问题和答案。其中,预处理步骤包括对问题进行分词、去停用词等处理,再使用BERT 模型生成查询语句的句向量,再将查询语句的句向量与数据库中已有问题句向量作对比。本文选择余弦距离作为距离计算的方法,在得到不同语句的距离计算结果后进行排序,最后选择排名较为靠前的答案作为结果返回。

本文将问答系统应用到教学领域,在课堂中不断进行相关问答扩充数据库保证内容的准确性和即时性,使用自然语言处理的相关技术对问答对进行处理以完成问答检索功能,同时为了保证系统的完整性设计了系统相关的如管理功能等其他功能模块。如图2 所示,通过上文中对知识问答系统的功能性需求分析,将系统分为查看模块、问答模块、搜索模块和管理模块四个主要模块。

查看模块为系统主要的交互展示方式,包括了整个系统中包含的所有信息:课程、问题列表以及问题详情。用户在进行提问和回答后信息会保存在数据库中并在本模块进行展示以供他人进行查看,而用户在进行问题搜索后也会以列表的形式返回给用户相关答案供用户选择和查看。

系统的问答模块最主要的目的为知识库的积累,进行搜索时为其提供匹配内容。为了保证系统问题的相关性以及回答的正确性,整个模块需由师生共同完成,学生在自己所上的课程中进行提问,而教师选择自己教授的课程回答问题。

搜索模块是核心模块,主要是通过用户自由输入问题后,后台在对问题进行一系列处理后将用户输入问题与知识库中相关问题进行匹配,最后返回相似度较高的问题供用户查看;按照前文所述,如不能在问答库中检索出答案,则提交给多轮问答模块。

管理模块的功能主要是为系统提供可视化的用户管理信息,信息系统中存储了相关的课程信息和用户信息,为了方便的添加和删除相关课程及教师信息设计了这个模块。

图2 课堂辅助教学问答系统框架设计

猜你喜欢
检索词汇数据库
本刊可直接用缩写的常用词汇
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
数据库
词汇小达人
数据库
词汇小达人
数据库
数据库