借助毕业论文培养本科生机器学习开发能力的实践探究

2022-05-30 08:44早克热·卡德尔艾山·吾买尔

电脑知识与技术 2022年30期

早克热·卡德尔艾山·吾买尔

摘要：毕业论文是本科人才培养的重要环节，能够培养和锻炼学生使用专业知识解决工程问题的综合能力。随着人工智能技术深入融合各行各业，企业对具有一定人工智能技术基础或经验学生的需求日益增长。借助毕业论文培养本科生从事机器学习相关开发课题，对学生的专业发展、用人单位有很大的价值。文章以探索了如何指导学生学习机器学习原理和实践的基础上，给出了本科毕业论文任务书中可以安排的任务建议，同时分享了机器学习知识和实践的学习路线和时间分配建议。

关键词：本科毕业论文；电子信息；机器学习；深度学习；任务书

中图分类号：G642 文献标识码：A

文章编号：1009-3044（2022）30-0164-04

开放科学（资源服务）标识码（OSID）：

1 引言

本科毕业设计（论文）是重要的实践教学环节，是培养大学生理论与实践相结合能力的重要途径，是评价高等学校本科教学质量的一项重要指标[1-2]。通过本科毕业论文可以锻炼学生的自学能力和综合运用所学专业知识分析问题、设计解决方案、实现方案的能力。本科毕业论文不仅是运用已学知识的过程，也是迭代式发现自己专业知识和实践能力不足、补足薄弱点、巩固基础、强化实践能力的综合性过程。

众所周知，国内信息技术类本科毕业设计论文内容主要以设计与实现各类管理系统、手机软件、网络系统开发、嵌入式系统为主。但近几年，尤其是2016年以来，随着人工智能技术的研究取得巨大进展，不断渗入各行各业，机器学习、深度学习等技术被广泛应用到很多自动化技术的研发，例如无人驾驶，人脸识别，机器翻译，智能医疗等。目前很多企业不仅需要学生具备一般系统的开发能力，还要求他们具备一定机器学习算法的基础能力。

为落实《国务院关于印发新一代人工智能发展规划的通知》（国发〔2017〕35号）[3]，引导高等学校瞄准世界科技前沿，不断提高人工智能领域科技创新、人才培养和国际合作交流等能力，为我国新一代人工智能发展提供战略支撑，教育部制定印发了《高等学校人工智能创新行动计划》（教技〔2018〕3号）[4]。根据国务院印发的《新一代人工智能发展规划》，教育部、国家发展改革委、财政部制定了《关于“双一流”建设高校促进学科融合加快人工智能领域研究生培养的若干意见》（教研〔2020〕4号）[5]。根据教育部、国家发展改革委、财政部印发的《关于“双一流”建设高校促进学科融合加快人工智能领域研究生培养的若干意见》，教育部成立人工智能高层次人才培养专家委员会。专委会在广泛调研论证基础上，研究制订了《人工智能领域研究生指导性培养方案（试行）》（教研司〔2022〕6号）[6]。以上这些举措表明，国家不断加强人工智能领域的人才培养。目前，有210多所高等学校开设了人工智能本科专业。今年，南京大学等首批开设人工智能本科专业学校的首届学生毕业，就业情况相当不错，吸引了更多高考学子的报考，人工智能一跃成为了热门专业。

电子信息专业本科学生一般也会学习与人工智能专业相关的基础课程，但是缺乏针对人工智能某个研究方向的数学、算法、编程技术的学习与实践。但不得不考虑的是，机器学习、深度学习技术相对来说门槛较高，它需要学生学习很多新的概念，还要学生具备一定的数学基础，并且算法的原理推导也比较枯燥，需要一定的逻辑能力。而且机器学习框架的学习相比于一般的编程语言和开发工具更复杂更具有挑战性。另一方面，现在国内很多大學电子信息专业并没有开设机器学习、深度学习相关课程，学生对机器学习、深度学习相关的基本知识点都不太了解，对机器学习和深度学习的认知几乎为零或者非常有限，使得学生入门的难度增大。

鉴于上述情况，如何引导学生利用完成本科毕业论文（设计）这一任务，让学生大约在4～6个月的时间内基本掌握机器学习及深度学习算法原理、编程语言、机器及深度学习框架，比较熟练地掌握环境搭建、数据准备、模型训练、模型应用等技能，为从事机器学习、深度学习相关的开发工作奠定基础，是一个值得探索的课题。本文为探究利用本科毕业论文培养学生机器学习技术应用的能力，从2020年开始开展了关于自然语言处理方面的毕业论文的指导，在指导过程中不断总结学生的学习和任务完成情况，初步探索出了比较可行的设计题目和引导培养模式。

2 电子信息专业本科毕业论文现状

电子信息专业为培养从事各类电子设备和信息系统的科学研究、产品设计、工艺制造、应用开发和技术管理等工作的高素质复合型人才为目标，培养学生研究、设计、开发和集成电子信息系统、通信与计算机网络、计算机应用软件、硬件系统等方面的基本能力。电子信息科学与技术专业的专业特征不明显，课程设置过于偏重基础，与国家战略性新兴电子信息产业和市场需求结合不紧密，理论课程所占比例过多，实践类课程比例低[7]。

毕业论文设计题目多为电子信号处理、仿真系统设计与开发、嵌入式系统、计算机软件开发、网络信息系统、视觉信息处理、语音信号处理、自然语言处理等多个方面。计算机软件开发类题目主要以设计与开发基于数据库的管理系统、Web信息系统、手机客户端、微信小程序为主，这些题目与往届学生题目重复率和相似度较高，而且网上有大量的开源代码和相关文档，还有不少案例教程与教材，学生可以比较容易得到与题目相关的原始系统、文档，容易形成抄袭已有资源的情况[8]，可能导致学生自己的实践能力得不到预期的训练和提升。

随着近年来机器学习应用的普及，有些学校电子信息专业老师也在指导学生开展基于机器学习的毕业论文工作，但是网上关于机器学习的源代码、数据、训练好的模型等资源十分丰富，难免存在学生使用网上已有的数据和模型来完成任务，难以确保学生自己动手完成具体的工作，也不能确保毕业论文对学生的能力提升有帮助。

3 本科毕业论文与机器学习融合模式

3.1 本科毕业论文

本科毕业论文（设计）是本科教学中的重要综合实践能力培养环节，以毕业设计的设计开发或研究任务为目标，以项目驱动方式进一步引导学生巩固和学习相关理论知识及技术，提升学生综合运用知识完成既定设计开发或研究任务能力的培养过程。本文以新疆大学信息科学与工程学院本科毕业论文设计全过程为例进行介绍与分析。一般第七学期组织教师根据学校、学院相关要求进行论文出题工作，填写题目、主要研究内容和预期目标等内容，经过相关评审之后，论文题目公布给毕业学生进行选题，学生与教师双向选择确定题目，并在学校本科毕业论文管理系统进行选题和下达任务书等工作。学生完成选题之后，在教师的指导下学习相关专业知识、阅读文献、开展研究或开发工作。一般本科生的第七学期末到第八学期的6月份为本科毕业完成时间，时间大约为4个月（不包含寒假），学生一般还是会拥有一定的学习新知识、新技术的时间。本科毕业论文过程包括开题、中期检查、论文查重、论文评阅、本科毕业论文答辩等环节。

3.2 机器学习

3.2.1 机器学习

机器学习（ML，Machine Learning）是使得计算机等计算设备具有模拟人类某种或多种智能的学科，是人工智能的核心，是使得计算机智能化的主要途径。机器学习是一门多领域、多学科交叉的学科，涉及数学、概率论、线性代数、最优化、操作系统、编程语言、算法复杂度理论等多门学科[9]。机器学习需要兼顾问題的数学定义、计算机编程语言算法设计和算力等因素，所以，成为机器学习开发工程师，不仅需要学会数学相关知识点，而且还要掌握相关编程语言、数据处理与分析工具、机器学习算法的实现及框架和机器学习环境搭建等。

机器学习算法可有多种分类，主要根据机器学习模型训练过程中的学习与反馈方式，主要可以分为有监督学习、半监督学习、无监督学习。监督学习在学习过程中使用输入数据和输出结果的标注数据进行训练，在训练过程中通过模型预测与真实标注误差进行反馈和参数调整，直到达到模型收敛条件，决策树、朴素贝叶斯、隐马尔科夫模型、最大熵、支持向量机、条件随机场等都属于有监督模型。无监督学习是利用数据本身存在某种信息，然后以预测或者恢复这种信息为目标进行学习，包括聚类算法、稀疏自编码、主成分分析等。半监督学习是监督学习与无监督学习融合的一种机器学习方法。一般在很多工业领域，使用有监督模型的场景或任务较多，有监督模型需要有一定规模的人工标注的数据集。

3.2.2 深度学习

深度学习（DL，Deep Learning）是用于建立、模拟人脑进行分析学习的神经网络，并模仿人脑的机制来解释数据的一种机器学习技术[10]。它的基本特点是试图模仿大脑的神经元之间传递和处理信息的模式。深度学习模型通过稠密向量表示输入数据，利用多层非线性隐藏层学习数据的抽象内在语义表示，无须进行传统机器学习的特征工程。因为神经网络输入都是向量，而且在隐藏层包括很多节点的权重、隐状态向量等，相比于传统机器学习模型需要非常大的计算量，同时也需要更多的人工标注数据集。目前，神经网络主要有卷积神经网络（Convolutional Neural Networks， CNN）、循环神经网络（Recurrent Neural Network， RNN）、注意力（Attention）机制、图卷积神经网络（Graph Convolutional Network， GCN）等特征提取网络，有编码器-解码器模型框架（Sequence to Sequence， Seq2Seq）等，百度、脸谱、谷歌、微软等开发了PaddlePaddle、PyTorch、TensorFlow、CNTK等框架。

3.3 毕业论文题目设计

电子信息专业学生主修课程包括高等数学、概率统计、线性代数、信息论基础、程序设计基础、数据结构与算法、面向对象程序设计、数据库系统原理、单片机与接口技术、计算机网络、嵌入式系统、数字图像处理、数字信号处理、信号与系统等课程，这些课程为学习传统机器学习、深度学习、视觉处理和自然语言处理等奠定基础。

本科毕业论文主要以培养学生综合实践能力、系统解决某个问题的能力为主，锻炼学生分析问题、制定计划、设计方案、设计开发等能力，主要引导学生掌握相关理论和技术，提升应用这些理论和技术的能力。本科毕业论文的时间为4个月左右（不包含寒假），如何分配四个月时间，如何具体设计四个月的时间等，需要结合学生专业知识基础和自学能力来进行合理的设计。

传统机器学习或深度学习包括搭建环境、数据准备、数据预处理、模型选择与应用、训练模型、测试模型、发布或部署模型等步骤。目前，机器学习领域主流使用的编程语言为Python，但是大多数电子信息专业学生一般有C语言、Java编程基础，但是没有学过Python语言，所以还需要考虑培养学生的编程基础。

传统机器学习或深度学习模型的训练都需要训练数据集、验证集、测试集等，目前网上也有很多公开的数据集。但是，针对工程类项目大多数情况通常存在数据量少不能满足项目需求或者需要自己结合具体任务与项目目标设计构建相关数据的问题。其实，很多企业研发的项目都需要针对具体任务来设计和构建数据集，然后使用已有的开源系统训练模型，使用训练好的模型开发应用系统。目前，机器翻译、语音识别、语音合成、人脸识别、文字识别、声纹识别、情感分类、机器聊天、医学图像自动诊断等人工智能应用技术主要还是使用公开成熟的模型进行系统开发，所以学生只要具备针对任务数据设计和公开主流模型应用的能力，也被认为是基本达到企业的要求。

传统机器学习在深度学习流行之前也为很多领域、行业解决了不少问题，也被成功应用于智能化工程项目中，而且计算复杂度远低于深度学习，运行和部署成本远低于深度学习。目前，仍有不少企业使用传统机器学习算法开发系统，所以学生需要了解或掌握一个传统机器学习算法，将会在企业继续从事基于传统机器学习的项目研发奠定基础。深度学习是目前主流的人工技术研发方法，若在本科毕业过程中能熟练掌握一个模型，学生将会具备继续自学的能力。因此，本文建议本科毕业论文中，分别使用一个传统机器学习算法和一个深度学习的模型，以此达到培养学生同时掌握传统机器学习和深度学习基础知识能力的目的。