基于知识图谱的多策略组卷系统研究∗

2021-06-29 08:41李豫张勇
计算机与数字工程 2021年6期
关键词:题库结构化图谱

李豫 张勇

(华中师范大学 武汉 430079)

1 引言

近年来,不少题库管理系统在教学上减轻了教师的工作压力,但在出卷策略、自动化推荐以及个性化学习等方面上仍有改进空间。大多数在线题库平台只涉及向导式随机组卷和手动组卷,缺少智能化组卷策略和教学诊断机制。另外,MOOC教学考核模式已经成为未来教育趋势,但其教学互动环节仍有缺陷[1],例如一位老师在Coursera平台上要教上万的学生,难以监测学习者的学习状况并及时提供帮助。与此同时,网络化教育和E-learning得到飞速的发展,知识载体也由书本逐渐转变为多种表达方式,而人类对知识的理解又往往趋向于结构化和联想式[2]。针对以上现象,本研究小组利用知识图谱开发了一款多策略组卷系统。系统除传统组卷方式外,还提出“基于知识图谱的学习画像和自动化组卷”的更新方案,旨在根据学生训练情况自动推荐组卷,学生通过接收试卷再次训练,此过程不断迭代,直到学生对所要求的知识点基本都掌握。

知识图谱是一种以图的形式表达客观世界中的概念、实体以及实体间关系的知识库,是语义搜索、智能问答等服务的基础技术之一[3],也用于对当前领域热点和发展趋势进行探索和研究[4]。目前谷歌、Facebook和IBM等都在以知识图谱为基础布局智能化发展战略。在教育领域中建立学科知识图谱能将书本里零散的知识点打通,先后形成脉络化、模块化、体系结构化的知识网。知识图谱与数字化教学的结合将有助于教师授课、督导学习,同时又可以使学生对碎片化知识查漏补缺和检索资源。

2 知识图谱的构建

2.1 数据的获取与处理

本平台采用面向开放域的抽取技术,以百度百科作为知识来源进行实体抽取、关系抽取和部分属性抽取,使非结构化的正文转化为结构化数据[5]。将专家推荐的知识作为百度百科的主题词条,后经计量分析选取同一页面中高频率链接词条,通过知识可取性评估、实体对齐[6]、实体命名等工作,最终得到知识图谱。本系统构造出了含2160个知识点和3064组联系的“计算机学科知识图谱”,以及含1225个知识点和1722组联系的“物理学科知识图谱”。

2.2 知识地图的表示

知识图谱(记为O)可表示为O={N,E,V},N代表知识点集;E代表关系集;V代表属性集[7]。属性集中,静态属性包括外观属性、摘要属性、级别属性、聚类属性;动态属性包括学情属性、权重属性。系统利用结构化数据文件规定存储单位为“实体1-关联-实体2”三元组,以及实体与其相关属性-值对。系统通过Web技术制作知识地图并使用Louvain算法[8]进行聚类。

2.3 知识图谱可视化风格

本研究小组利用改进的黑板体系结构,构造出知识图谱可视化风格。黑板体系结构模型由知识源、黑板数据结构和控制器三部分构成[9]。依据黑板风格制作的知识图谱仓库由“算法库”、“结构化文件”、“资源库”以及内控制器组成,如图1所示。算法库包含知识源对应的算法;结构化文件是中央数据单元以及可视化的基础;资源库存放数字化教学资源;内控制器调用内部业务,当信息状态变化且符合能由知识图谱直接解决的问题时,执行结果会立即反馈给用户,当需要调用题库业务时,内控制器转调外控制器,并依据B/S架构处理。

图1 知识图谱可视化风格设计图

3 基于知识图谱的自动组卷系统

系统所针对的用户是计算机专业的教师和学生。除了完备的题库管理功能以及多种组卷方式外,本平台还提供了其他辅助模块。具体划分如图2所示。

图2 系统树状逻辑结构图

策略模式实现了多种组卷方式的融合。手动组卷依靠题库检索;向导式随机组卷在随机概率下录用试题;基于知识点的自动化组卷策略先后通过知识图谱和组卷业务进行处理。

3.1 知识图谱组卷策略

在真实的应试训练中,成绩的浮动是反映近期学习状况最直接的数据,但在实际学习分析中,学生对知识点的掌握程度变化才是衡量学习能力提升与否的重要指标[10]。即使采用知识图谱的推荐策略也仍停留在知识本身,缺少对学生学习的观察性。为此,本平台增设学习画像和自动化组卷机制,使系统在学生答题训练后能自动化推荐知识路径并生成下一张试卷。图3是特定学生的学习画像和知识推荐。

3.2 学情监测下的自动组卷

3.2.1 知识划分

智能教学系统的一大优势在于系统设计之初,已经对知识点做了比较详细的规划,各个题目会被事先标记相应的知识点集合用以知识跟踪[11]。上述过程由对应学科领域的专家进行划分。

图3 学习画像与知识推荐

3.2.2 重要节点的评估

为了针对特定的学生进行个性化的知识点重要程度评估,本文综合考虑了两个因素,一是学生对知识点的掌握程度,另一个是知识点自身在学科中的重要性。为此,本文引入了PageRank算法[12]来进行个性化的重要性评估。每个知识点包含有一个二元组属性,PR是PageRank值,PG是特定学生的错误率,知识点K的权值记为W(K),α与β是比例因子,具体算法如式(1)所示。

3.2.3 关联推荐

任何知识点都并非孤立而是彼此联系的,往往某一知识的掌握程度会随其他知识点的变化而改变。针对重要知识节点有如下策略。

表1 等级表

步骤1:划分知识掌握等级(如表1),按对应颜色点亮知识地图中的知识点。

步骤2:对生疏的知识点推荐一阶前驱节点,对熟练的知识点适当推荐一阶后继节点。

步骤3:教师可对推荐得到的知识点增设或更改权重,也可参考其他辅助方式设权。

步骤4:系统依据知识点权重自动化出卷。

步骤5:学生训练,更新权重,返回步骤1。

图4 两点间共词分析结果

当面向庞大的知识网络时,人工定义它们的逻辑联系是低效的做法,准确性也难以保证。另外,在真实领域中存在大量关系模糊的知识点。共词分析法是计量学的一种重要方法,也是内容分析的方法之一[13]。系统以共词分析方式来自动探测任意两个知识点的内容关联,用来辅助出卷,如图4所示。

4 结语

本文介绍了一种针对出卷的知识图谱应用平台,系统具备多种组卷策略并将知识图谱与特征学习相结合。未来教育将会出现教师明星化,内容模块化,辅导分级化的趋向[14]。因此,在线考核、模块化学习,以及师生互动等教学需求将会不断优化。本文提出的学习画像与自动组卷机制在一定程度上将“基于知识点的教育知识图谱”向“面向活动的教育事理图谱”进行转换,是教育大数据融入智能化处理[15]的一次研究尝试。

猜你喜欢
题库结构化图谱
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
深度学习的单元结构化教学实践与思考
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
“整式的乘法与因式分解”优题库
脑力急旋风
图表
猿题库技术压阵 深耕 K12在线教育市场