基于强化学习技术在自控原理课程中的部署

2022-04-02 00:35刘振昌

现代职业教育·高职高专 2022年9期

刘振昌

[摘要] 随着国家战略和市场需求的变化，科技发展必然进入一个新的层级，为更好地适应形势变化需要，应不断提升学科水平，以适应时代的发展。现如今人工智能与各种信息化技术、各产业高度融合，从打造智能制造专业群的总体规划出发，在自动控制原理课程中增加人工智能元素，改进教学内容势在必行，使职业教育更好地服务于产业升级，培养更多优质专业技能人才。

[关键词] 强化学习;自控原理;人工智能;职业教育

[中图分类号] G712 [文献标志码] A [文章编号] 2096-0603（2022）09-0073-03

一、引言

针对目前专业课程长期固定未变，现有课程体系不足以满足学生人才培养目标和就业需求的问题，如何培养符合当前社会需求的，具备理论基础够用、实践能力突出、创新能力兼备的应用型人才，已经成为亟待解决的重要问题。

但是在全民追捧人工智能技术的同时，我们更应理性、科学地对待它，AI技术毕竟依托于诸多技术不断发展强大起来，如计算机技术、网络技术、电子技术等领域。没有这些领域的不断进步，也不会有人工智能技术的今天，所以人工智能技术并不是凭空创造出来的，而是在近些年逐渐应用到我们的实际生活中，让更多的平常百姓知道了它、了解它。而人工智能技术分类庞杂如图1所示，我们不能完全搞懂、吃透，所以本文在充分了解人工智能技术发展的趋势，学习相关知识的同时，选定了机器学习领域中强化学习技术，作为核心突破点，将其与自控原理课程相互结合，达到提升教学效果的目的。

二、自控原理课程分析

众所周知，高职教育十分突出的特点是强调实际动手能力的培养，但当学生学习如自控原理理论较强的课程时，往往提不起兴趣，整体效果不佳。如，目前自控原理课程教学中学生对系统数学模型章节，只能了解基本传递函数的概念，并不能很好地对惯性环节、积分环节、时滞环节实际的物理模型有感性的认知，往往这样不能为后续章节学习打下良好的基础，导致课程整体教学效果不佳。而电气自动化专业如果完全摒弃这些理论课程，单纯突出实践教学又是课程体系的缺失，所以类似这种理论课程改革融入新的元素，是十分必要的。

以自动控制原理课程作为研究对象，结合强化学习技术，对该门课程内容重新进行梳理，融入新鲜元素，真正促进教学改革，最终促进专业课程的整体改革与提升。

三、强化学习基本思想

通过研究了解强化学习是机器学习的三个大类之一，如图2所示。该领域已经取得了长足的进步，在多个方向发展和成熟。强化学习已逐渐成为机器学习、人工智能和神经网络研究中最活跃的研究领域之一。

强化学习是学习该做什么—如何将环境映射到行动—以便得到最大化奖励信号。控制器不会采用预定的程序，而是通过不断试错获得最优回报。在复杂和富有挑战性的情况下，行动不仅会影响即时奖励，还会影响下一个情境以及所有后续奖励。不断试错与获得奖励是强化学习的明显特征。如果用动态系统理论的思想将强化学习问题形式化，具体地说，作为不完全已知的马尔可夫决策过程的最优控制。但基本思想是学习代理与环境进行交互以实现控制目标，与控制系统中反馈概念相类似。代理还必须有一个或多个与环境状态相关的目标。马尔可夫决策过程旨在以最简单的形式包含这三个方面——感觉、行動和目标，而不忽略其中任何一个。

强化学习不同于监督学习，监督学习是当前机器学习、统计模式识别和人工神经网络研究中最主要的学习类型。有监督学习是通过外部知识的提供，进行的一组有标记的学习。每个标记都是对一种情况的描述以及系统应该对该情况采取的正确操作的规范，该规范用于确定某种情况所属的类别。这种学习的目的是让系统推断或概括某种情况的反馈情况，以便它在训练集中没有出现的情况下正确地行动。这是一种重要的学习方式，但仅从互动中学习是不够的。在交互问题中，要想得到既正确又能代表Agent所有情况的预期行为的示例，往往是不能达到的。在未知的情况下，Agent需要从中不断学习改进。

强化学习也区别于无监督学习，无监督学习往往是挖掘数据间的某种隐形关系。单纯从有监督学习和无监督学习这两个方面对机器学习范式进行分类是不全面的。虽然有人可能会认为强化学习是一种无监督学习，因为它不依赖于系统模型，类似于一种无模型控制，但强化学习是求取代价函数最优值，而不是发现数据中隐形的关系。探索Agent经验中的结构有助于理解强化学习，但它本身并不能解决求取最优代价函数的强化学习问题。因此，强化学习是第三种机器学习分类，与监督学习和非监督学习并列。

强化学习采取从一个完整、互动、目标寻求的代理开始。它主要包含四个元素：Agent、环境状态、行动、奖励，强化学习的目标就是获得最多的累计奖励。下图3是强化学习基本框架。代理（Agent）中有一个函数可接收状态观测量（输入），并将其映射到动作集（输出）。通过上述分析无监督学习和监督式学习，并不适合与自动控制原理课程中相关知识结合，所以选定强化学习作为融合的新元素具有一定依据。

四、强化学习与传统控制对比分析

本文将强化学习中Agent、Reward、Action、Enviroment等概念和自动控制原理相关概念统进行比对，如文末图4所示。便于从传统的控制角度更加深入理解智能控制的特点与优势所在，通过分析与对比，才能更加深入地改进相关课程内容，如表1。

通过上述分析与描述，我们可以看出强化学习是一种类似于无模型控制的策略，基于准则函数不断优化自身控制策略，所以将强化学习的相关知识应用在自控原理的课程中不仅能增强学生的学习兴趣，还能对学生未来就业、择业起到极大的帮助作用。并且在对未来高职层次本科化的教学部署上具有一定的前瞻性作用。

五、总结

虽然进行了强化学习相关知识领域研究与分析，但是和传统的自动控制原理理论课程内容的结合还需进一步研究，最终形成有机的融通，真正让学生能够学习到新的人工智能领域新技术、新科技，并且如何将相关理论研究高效、实用地应用落地，部署于实际工程应用中也是后期研究的重点工作。整体研究成果还需要在实际的教学环节中不断改进、完善，最终形成可实施、可落地、可应用的专业课程标准，为智能制造领域人才培养贡献力量。

参考文献：

[1]高阳，陈世福，陆鑫.强化学习研究综述[J].自动化学报，2004（1）：86-100.

[2]程丽梅，贾文川.连续型强化学习与PID控制的应用对比分析：以一阶倒立摆系统为例[J].工业控制计算机，2021，34（10）：20-22.

[3]Wang L，Zhang H，Yi J，et al. Spanning Attack： Reinforce Black-box Attacks with Unlabeled Data[J]. Machine Learning， 2020：1-20.

[4]王揚，陈智斌，吴兆蕊，等.强化学习求解组合最优化问题的研究综述[J].计算机科学与探索：2021（11）：1-22.

[5]Zhou M，Wang R，Xie C，et al. ReinforceNet：A Reinforcement Learning embedded Object Detection Framework with Region Selection Network[J]. Neuro-computing，2021.

[6]薛鹏，程辉，郭会平.自控原理课程的“一例到底”教学设计[J].科技风，2020（20）：33，41.

[7]李敏，高飞.基于工程应用案例仿真自控原理教学法研究[J].中国电力教育，2019（11）：80-82.

[8]吴海燕.新工科视角下自动控制原理的课程教学实践[J].教师，2021（20）：117-118.

①本文系天津市高等职业技术教育研究会2020年度课题“基于强化学习技术服务电气类专业——自动控制原理课程标准构建与研究”（课题编号：2020-2-3048）;天津电子信息职业技术学院人工智能专项资金项目“基于强化学习的吸收式制冷系统节能控制与研究”（课题编号：dzxxzn2019-15）的研究成果。