基于电子作业挖掘的学生学习预警模型研究

2019-06-24 08:25张笑非段先华刘镇钱萍
软件工程 2019年4期

张笑非 段先华 刘镇 钱萍

摘  要:混合式教学的普及使得电子作业成为一种评价学生学习效果的重要数据来源,利用机器学习对电子作业进行建模是对学生学习预警的一种有益探索。本文在对电子作业进行分词和向量化基础上,通过k-means聚类和轮廓系数来判断其语义的多样性,通过计算文档向量相似性矩阵的网络效率来评价电子作业的中心性。实验结果显示,该方法可以有效寻找电子作业聚类效果最优时的簇类多样性,也可以有效评价电子作业相似度的网络中心性。因此,该方法作为一种学生学习预警模型,可以对电子作业文档的多样性和中心性给出客观的总体评价。

关键词:文档向量;k-means聚类;轮廓系数;文档相似度;图论效率

中图分类号:TP181     文献标识码:A

Abstract:The popularity of hybrid teaching makes electronic assignment an important data source for evaluating students' learning effects.Modeling electronic assignment with machine learning is a useful exploration for school precaution.Based on the word segmentation and vectorization of electronic assignments,this paper determines the semantic diversity by k-means clustering and silhouette coefficient,and evaluates the centrality of electronic assignment by calculating the network efficiency of document vector similarity matrix.The experimental results show that the method can effectively find the cluster diversity when the clustering effect of electronic assignments is optimal,and can also effectively evaluate the network centrality of the similarities of electronic assignments.Therefore,as a school precaution model,this method can give an objective overall evaluation of the diversity and centrality of electronic assignments.

Keywords:document vector;k-means clustering;Silhouette coefficient;documents' similarity;graph theoretic efficiency

1   引言(Introduction)

隨着慕课(Massive Online Open Courses, MOOC)和翻转课堂(Small Private Online Course, SPOC)提供了在线远程学习的条件[1],对学生的自主学习态度和学习能力的要求也越来越高,如何同样利用网络平台及人工智能等手段检验和评价学生的学习效果也是一个亟待解决的问题。作业电子化和网络化的尝试,一方面减少了对纸张的使用,符合各高校类似办公自动化的绿色理念;另一方面,这意味着可以利用各种先进的信息技术对电子作业进行收集、分类、管理、挖掘等操作,从中可以挖掘电子作业文档的特征并构建模型,充当对慕课和翻转课堂等“教”的环节补充,从中挖掘学生“学”的情况。

电子作业抄袭检测也一直是教育信息技术应用的一个研究热点。文献[2]提出了基于网络邮件的作业自动收集技术,并通过句子相似度的方法来发现抄袭的方法。文献[3]针对机房环境和网络环境,分别采用了信息隐藏技术和向量空间距离模型进行电子作业反抄袭。文献[4]利用空间向量模型及相似度分布图辅助教师进行作业抄袭甄别工作。文献[5]采用了直觉模糊聚类的方法来进行电子作业抄袭检测。本文通过将电子作业文档向量化,采用k-means聚类和相似性矩阵进行建模,基于轮廓系数和网络效率对电子作业文档样本整体质量进行评价,以此作为学生学习预警依据。

2  电子作业文档预处理(Preprocessing of ElectronicAssignments)

2.1   电子作业文档分词

学生学习预警模型的建立首先需要能够对电子作业文档进行分词,由于学生的电子作业是以中文为主,所以这里采用了“结巴”中文分词组件。该组件是基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,并采用了动态规划查找最大概率路径,能够找出基于词频的最大切分组合。而对于未登录词,则采用了汉字成词能力的隐含马尔可夫模型,并通过Viterbi算法进行分词。

2.2   电子作业文档向量化

文档向量化是对词向量化算法的一种扩充,通过对句子、段落、甚至整个文档这样的大块文本进行无监督学习,从而得到文档的定长特征向量。传统的文本定长特征向量使用词袋(bag-of-words)时存在两个不足,即词袋内词是无序的、且不考虑词的语义信息。文献[6]提出了名为“段落向量”的非监督学习算法,可以从变长的文本单元(如语句、段落、文档)中学习得到定长的特征向量。该算法将文档表达为密集向量用于训练模型,并以此预测文档中的词。

Doc2vec(https://radimrehurek.com/gensim/models/doc2vec.html)是一个有效的能够为分词后的文档创建向量的工具,图1中是通过Doc2vec对一门课程61名学生的电子作业文档进行向量化后得到的结果,每份电子作业文档被表示为具有100个特征的特征向量。

3   学习预警建模(Modeling of school precaution)

3.1   聚类分析

如图6所示为根据电子作业文档相似性矩阵在100个稀疏度上,分别计算全局效率和局部效率的结果。可以看出,与通过与随机网络产生的仿真数据相比,实际数据的全局效率和局部效率在主要稀疏度区间上都比仿真数据要低。这说明实验用的电子作业文档无论是整体的存在高中心度节点的情况,还是节点邻居网络存在高中心度节点的情况都不算严重,说明电子作业文档具有较高的多样性,质量较高。

5   结论(Conclusion)

信息技术的发展使得教学在形式上发生了变化,机器学习的应用可以更好地对教学数据进行建模和利用。同论文撰写、项目申请等文档的电子化一样,作业的电子化也成为一种趋势,将电子作业作为机器学习的样本,不仅能够得到作业质量本身的信息,还能够挖掘出学生的学习行为信息。本文正是从这点出发,通过对学生电子作业的挖掘,从中建立学习预警模型,通过聚类效果的评价及网络分析的度量对电子作业文档的整体质量作评估。

参考文献(References)

[1] Kaplan A M,Haenlein M.Higher education and the digital revolution:About MOOCs,SPOCs,social media,and the Cookie Monster[J].Business Horizons,2016,59(4):441-450.

[2] 秦新国.电子作业管理和作业抄袭检测技术研究[D].南京师范大学,2007:12-26.

[3] 付兵,谢本贵.网络环境与机房环境下电子作业反抄袭策略[J].实验室研究与探索,2013,32(04):79-82;91.

[4] 张星,刘帅.基于空间向量的电子作业相似度检测的设计与实现[J].福建电脑,2014,30(02):125-126.

[5] 张洁,鱼先锋.基于直觉模糊聚类的电子作业抄袭检测研究[J].计算机与现代化,2014,(06):106-110.

[6] Le,Quoc V.,Mikolov,Tomas.Distributed Representations of Sentences and Documents[C].International Conference on Machine Learning,2014,(4):1188-1196.

[7] Rousseeuw P J.Silhouettes:A graphical aid to the interpretation and validation of cluster analysis[J].Journal of Computational & Applied Mathematics,1999,20(20):53-65.

[8] Amorim R C D,Hennig C.Recovering the number of clusters in data sets with noise features using feature rescaling factors[M].Elsevier Science Inc,2015:10-13.

[9] Latora,V.,M.Marchiori.Efficient Behavior of Small-World Networks[J].Physical Review Letters,2001,87(19):1-4.

[10]  Latora,V.,M.Marchiori.Economic small-world behavior in weighted networks[J].The European Physical Journal B-Condensed Matter and Complex Systems,2003,32(2):249-263.

作者簡介:

张笑非(1980-),男,博士生,讲师.研究领域:物联网技术,人工智能.

段先华(1965-),男,博士,教授.研究领域:模式识别.

刘  镇(1961-),男,硕士,教授.研究领域:计算机系统结构,软件定义网络.

钱  萍(1978-),女,博士,讲师.研究领域:信息安全.