基于Word文档挖掘数据的应用研究

2024-01-27 09:20王峥嵘
现代信息科技 2023年24期

王峥嵘 等

李勇  杨雪松  韦占江孙翔

摘  要:根据提出的具体需求进行Word文档特定数据的提取,实现了将Word文档用于测试出卷和作业布置,在不改变文档原始状态的基础上,程序通过数据分析工具对考试和作业中的Word文件进行分析并实现快速检查,生成新的Excel结果文档,实现在教学测试中直接使用Word文档并贯穿测试练习和自动评分整个过程,包括对大量测试文档进行集中分析,快速完成主观题和客观题的评阅,为无纸化考试提出一种新的实现途径。

关键词:Word文档;标准模板;自动评分

中图分类号:TP391.1  文献标识码:A  文章编号:2096-4706(2023)24-0082-06

Research on the Application of Data Mining Based on Word Documents

WANG Zhengrong, LI Yong, YANG Xuesong, WEI Zhanjiang, SUN Xiang

(Kunming Preschool Teachers College, Kunming  651701, China)

Abstract: Based on the specific requirements proposed, the extraction of specific data from Word documents has been achieved. Word documents have been used for testing and homework assignments. Without changing the original state of the documents, the program uses data analysis tools to analyze and quickly check Word files in exams and assignments, generate new Excel result documents, and directly use Word documents in teaching tests, running through the entire process of testing exercises and automatic grading, this includes conducting centralized analysis of a large number of test documents, quickly completing the evaluation of subjective and objective questions, and proposing a new implementation approach for paperless exams.

Keywords: Word document; standard template; automatic rating

0  引  言

数据科学实现从数据到信息、从信息到知识、从知识到决策的分析[1]。对数据标准进行管理,可促进信息化建设水平的不断提高,实现数据互换与共享,充分发挥数据效能[2]。通过关键词分析有价值的文档信息[3],可以实现数据的充分利用[4]。我们生产生活中所使用的许多文档,是工作中的一些主要内容标准和载体,信息化时代应该加强无纸化办公[5],重视电子文档的管理,提升電子文档的价值[6]。信息化场景下在保留电子文档原有数据面貌的情况下是否可以灵活挖掘数据?

文档数据化的前景广阔,为了更好地开展文档数据的有效利用,各行业在各种工作场景中都会根据生产生活的具体情况进行文档标准的制定,而标准化的文档(标准包括数据标准、代码标准及信息交换标准等)更容易进行数据化分析处理[7]。2021年教育部发布的《关于加强新时代教育管理信息化工作的通知》要求以数据为驱动力,利用信息化技术推动教育现代化的发展[8]。利用数据挖掘技术对教学电子文档进行提取和分析[9]。教育场景中考试形式分为计算机网络考试和传统纸制考试[10],考试的内容通过数据库进行处理,针对教育场景中许多问卷使用的是Word文档,所以考试场景研究的思路可以是对Word文档进行数据分析,分析教学作业和测试工作的内容实现数据挖掘[11]。可以根据具体需求,对文档数据挖掘内容进行个性化设计,这种思想可以推广到更多的领域,让文档产生更大的价值。教育场景中的日常作业和测验占用教师大量的工作时间,通过考试服务器来设定这些内容,对服务器的数据存储是一个考验。使用机房开展网络考试,计算机教室服务时间如果安排满了,一般不提供加课服务,必须保证每天的上课时段为不同的班级服务,这种条件下如何让学生增加练习和测试的时间和空间成为教育场景中面临的一大难题[12]。新时代关于考试的信息化解决方案有很多,形式也是多种多样的[13]。但通过教育电子文档来实现考试并自动判分的应用很少[14],为了提高教育效能[15],可通过教育电子文档的数据提取来拓展新的教学手段,帮助学生提高学习效率[16]。通过数据挖掘技术对Word文档模板文件进行分析,对教学作业和考试内容进行信息传递,通过模板文件来生成和保存教学中定制的各类信息[17]。应用Word文档数据分析技术实现批改作业和试卷这类重复性工作的自动处理,为教育工作场景提供无纸化作业和考试新路径[18]。虽然许多考试采用互联网上的问卷星,问卷星在线考试利用网站开展组卷和考试,但如果不能在互联网上公开考试内容的话,则使用Word文档数据分析程序来开展本地范围的作业和测试,这样可以实现核心技术自主可控,提升单位的信息化水平[19]。从保护数据资源[20]的角度,利用数据分析技术实现Word无纸化应用,可以深入挖掘Word文档的价值。

1  对文档进行数据分析的应用场景

设计免安装的绿色软件[21],绿色软件不需要专门的安装程序,对系统的改变比较少,可使电脑系统保持干净、稳定和安全。软件设计支持当前主流的64位Windows操作系统。程序的主要组成是一个主程序,就是无纸化测试自动评分程序,随主程序一起使用的是一个文件夹,文件夹的名字叫“试卷夹”,与主程序同在一个目录中,用来存放标准文档和测评完成回收的相应文档。为了准确地分析测试文档与标准文档的差异,文档以模板形式创建,通过模板填写相关内容[22]。发给学生使用的测试文档必须用模板文档另存为生成,就是把标准文档中的答案删除,存为测试用文档,发给测试者作答,测试完成后,回收放入“试卷夹”中,再用分析程序进行数据化处理,得出完成测试的情况统计表。

2  标准文档和测试文档的使用

2.1  制作标准文档内容

具体教育场景中,布置作业前,相关工作文档已经准备好,需要做的就是根据测试的需要把文档放入标准文档中。具体工作与教学常规要求一致,就是制作好标准文档,包括问题和答案,这是教师日常备课工作的一部分,并不会增加教师的工作量,如图1所示。

2.2  根据标准文档生成测试文档

教育场景下,标准文档包含正确答案内容,文档中的试题类型可以是判断、单选、多选、填空和主观简答题等。主观题自动判分采用类似于自然语言处理[23]的评判技术,通过分析学生答案中有哪些要素符合教师设置的得分点,实现对主观题的自动判分。对于不打算使用的题型,可以将该题型的分值设为0,题目数量设为0,题目内容区域保持空白就可以了。在完成标准文档的制作后,将标准文档另存为测试文档,打开测试文档,将测试文档中的答案删除,然后将测试文档发给学生进行练习。可以通过教室网络系统将测试文档分发给学生练习,也可以通过QQ、微信等途径将测试文档分发给测试者练习,同时可以提醒测试者,只需填写答案即可,不要去修改测试文档的其他地方。测试文档如图2所示。

3  分析处理软件运行中提示的报错信息

因为教育测试场景中存在文档的传递和接收,比如作业的发放和归集,学生在使用文档的时候,使用的文字处理软件有很多种,比如金山文档、腾讯文档等。在处理学生提交的文档时,如果文档是用Office软件的Word程序处理过的,用数据挖掘程序打开时不会出现异常。如果学生是通过其他文字处理软件打开及使用某个作业文档,这类测试者提交的文档在用数据挖掘程序自动处理的时候会出现不能正常打开的故障,因为数据挖掘程序使用的处理模块是Office办公系列的Word模块,碰到被其他文字处理程序处理过的文档,数据挖掘程序因编程时所用模块类型问题,会发生不能识别经由其他文字处理模块处理的文档的情况,这时需要在数据挖掘程序所在的文件夹中找到可执行程序所在的文件夹,进入到“试卷夹”中,把里面的测试文档用兼容的文字程序打开并另存为“.docx”类型的文档。具体操作是:点击“确定”打开,系统询问是否打开时选“是”,然后将这个文档存在“试卷夹”中,覆盖刚才打开报错的测试文档,如图3、图4、图5、图6所示。

4  数据标准化程序运行结果展示

如果准备工作是按上述步骤进行的,并且文档没有报错,试卷夹中就会含有标准文档和其他测试文档,如图7所示。

在程序检查前,三个学生文档是由标准文档另存为“测试文档”,并将答案部分删除后生成的,学生收到“测试文档”后,将名称改为自己的学号和姓名。学生完成作业后,把作业传给检查的老师。上面试验中,三个学生交来的作业各有不同的题做错了。对于文件“0000001同学一”这个文档,打开后对判断题中第一题的答案进行了修改,同理,“0000002同学二”和“0000003同学三”的文档也按照文档名提示进行了相应修改,目的是程序自动检查生成的检查结果后,可以验证检查程序工作的有效性。注意,在图1中,模板中定义的题目分数情况是判断题2分、单选题3分、多选题5分,具体分值可以通过模板来定义。检查试卷夹没有问题后,即可以退出试卷夹目录,回到自动评分程序所在目录,如图8所示。

起初有三个文件,一个是自动评分主程序,一个是试卷夹子目录,一个是注册文件。现在可以执行“无纸化做题自动评分系统”,程序执行完毕后稍等片刻就可以得到一个程序工作提示信息,如图9所示。

点击“确定”后,就可以得到结果,如图10所示。

点击“确定”后,运行自动评分程序就可以得到所有测试者完成作业或测试的扣分情况,并以Excel文档汇总表的形式存在自动评分程序的目录中,如图11所示。

文档汇总表的评分结果反映了测试者客观题做错并被扣分的情况,主观题得分根据答题要点进行衡量,如果答案中包含部分要点就会得到相应的分数,反之,如果答案中缺少相关要点,就得不到相应的分数。汇总表打开后的内容如图12所示。

5  结  论

进行文档数据化处理可以提高文档的利用价值,在教育场景中运用软件技术解决作业布置和测试问题,实现无纸化和自动批改。以此类推,其他行业和场景中的文档数据化也是大有价值的,可以实现直接将Word文档应用于教学测试中并贯穿测试练习和自动评分全过程,包括对大量测试文档集中进行分析,快速完成对主观题和客观题的评分,可以成为一种新型无纸化考试实现途径。利用文档数据分析技术可以在保留原有文档数据面貌的情况下深度挖掘文档的应用价值,同时研究结果还证明软件技术在推动教育数字化建设中发挥着至关重要的作用。

参考文献:

[1] 郝祥军,顾小清.AI重塑知识观:数据科学影响下的知识创造与教育发展 [J].中国远程教育,2023,43(5):13-23.

[2] 王丹,李俊,肖琴,等.高校智慧校園数据标准规划与实践研究 [J].无线互联科技,2022,19(20):30-32+48.

[3] 林莹.基于大数据的智能档案管理系统应用案例分析 [J].集成电路应用,2023,40(3):70-72.

[4] 李宝密.大数据时代下计算机软件技术的应用 [J].无线互联科技,2022,19(13):47-49.

[5] 马朝红.基于MES系统的无纸化技术应用研究 [J].计算机与网络,2016,42(9):55-58.

[6] 宋夏南.浅谈信息化条件下文书档案的价值及保护 [J].办公室业务,2018(1):47-48.

[7] 蒋东兴,佟秋利,蒋磊宏,等.高等学校管理信息标准体系研究 [J].中山大学学报:自然科学版,2009,48(Z1):56-59+62.

[8] 中华人民共和国教育部.教育部关于加强新时代教育管理信息化工作的通知(教科信函〔2021〕13 号) [A/OL].(2021-03-15).http://www.moe.gov.cn/srcsite/A16/s3342/202103/t20210322_521669.html?eqid=ae32f5b6000054ad00000006646f068a.

[9] 唐小燕,李建新.高职院校教学文档数据化及价值分析研究——以常州信息职业技术学院为例 [J].柳州职业技术学院学报,2022,22(4):130-134.

[10] 王峥嵘.基于教学测试系统的防作弊功能的研究 [J].现代信息科技,2022,6(17):41-44.

[11] 杨强,查凤华,胡心宇.基于知识图谱的核电技术文档挖掘与应用实践 [J].中国档案,2022(12):54-55.

[12] 王峥嵘.现代信息技术在教学中的综合应用 [EB/OL].北京:中国科技论文在线 [2023-05-09].http://www.paper.edu.cn/releasepaper/content/202003-82.

[13] 张晗,王安娜.浅析自动化考试系统 [J].中国教育技术装备,2010(24):109-110.

[14] 高金友.探索信息化条件下文书档案管理 [J].无线互联科技,2013(7):207+223.

[15] 陈林辉.地方应用型本科院校创新创业教育的现实困境与体系构建 [J].萍乡学院学报,2022,39(1):93-96.

[16] 李明祥.充分利用现代信息技术资源 实现数学高效课堂 [J].科学咨询:教育科研,2016(3):59-60.

[17] 刘伟男.基于OXML格式的Word文档智能处理研究 [D].青岛:中国石油大学(华东),2018.

[18] 郑广林.“互联网+”在高中物理学业水平考试备考中应用初探——利用问卷星在线测试高效备考广东高中物理学业水平考试 [J].物理教学探讨,2018,36(10):43-44.

[19] 王峥嵘.考试成绩分析软件的开发和使用 [EB/OL].北京:中国科技论文在线 [2023-05-24].http://www.paper.edu.cn/releasepaper/content/200811-659.

[20] 杨雪梅.数据要素市场化背景下高校图书馆科学数据开放共享研究 [J].图书馆学刊,2023,45(1):26-31.

[21] 郭小粉,张红霞,曹嵩.也谈“绿色软件” [J].福建电脑,2008(1):53+105.

[22] 崔红军,曹淑青,邵培南.文档模板的设计与实现 [J].计算机工程,2000(12):84-86+169.

[23] 许嘉,李秋云,刘静,等.一种基于认知诊断的主观题同行互评技术 [J].小型微型计算机系统,2022,43(8):1653-1660.

作者简介:王峥嵘(1974—),男,汉族,云南昆明人,讲师,硕士,研究方向:软件工程和信息技术。

收稿日期:2023-07-16

基金項目:昆明幼儿师范高等专科学校2023年校级课题(202302)