面向柔性作业车间动态调度的双系统强化学习方法

2022-10-08 07:22刘亚辉申兴旺顾星海鲍劲松

上海交通大学学报 2022年9期

航天结构件的加工过程具有多品种、小批量、工艺复杂多变的特征，每种工件由多道具有先后顺序约束的工序完成，是典型的作业车间调度问题.由于航天结构件紧急插单任务的扰动影响批量生产任务的生产进程，降低生产效率，所以车间调度方案需要动态变更.在传统作业车间调度的基础上，柔性作业车间调度可以面向更加动态、复杂的车间环境.根据柔性作业车间的特点，可以将该类调度问题拆分为资源配置和工序排序两个子问题，分别利用调度系统中存在的多类型知识，赋予系统自适应响应能力.

柔性作业车间调度需要利用实时性状态数据来驱动，但目前系统对于车间资源中离散程度高、关联性差的数据无法很好地利用.在处理大规模复杂数据方面，知识图谱技术能够表达更丰富的语义，对数据进行语义信息集成与表示.认知制造作为下一代智能制造，利用感知-认知系统实现信息-物理系统的交互.知识图谱技术与认知制造的结合应用增强了车间动态调度策略优化与知识之间的联通性，一定程度上提高了决策方案的科学性.如何利用知识图谱提供的调度知识实现动态调度决策优化是值得研究的课题.

近年来，已有众多学者针对动态柔性作业车间调度问题进行研究，主要在鲁棒式方法、重调度法、智能算法等方面展开.鲁棒式方法对生产扰动事件的响应速度慢，历史信息无法得到重用；重调度方法可以对扰动事件快速响应，但无法很好利用工艺信息之间的关系；相比之下智能算法更适用于处理作业车间的动态调度问题.通过智能算法完成自适应车间调度问题的方法有优先级规则方法、启发式算法、遗传算法(Genetic Algorithm, GA)、进化算法、模拟退火、禁忌搜索方法等.在考虑插单任务的动态调度研究中，Kundakci等针对动态作业车间调度问题中的插单任务、机器故障等，引入有效的混合遗传算法求解此类问题的最大完工时间；Shen等针对柔性作业车间调度的新工件插入和机床故障等问题，提出了基于多目标进化算法的主动-被动调度方法；Wang等提出了一种改进的粒子群算法用于工件随机到达的动态柔性作业车间调度问题的求解.为了实现多约束下调度问题的多目标优化，一些研究学者将调度过程进行分步骤处理.张洁等提出针对调度过程的任务分派和任务排序两阶段，构建具有继承关系的两阶段蚁群并行搜索算法；周亚勤等提出一种嵌套式蚁群-遗传混合算法解决关键设备和人员双资源约束下的航天结构件柔性作业车间调度问题；汪浩祥等利用强化学习的实时性和知识化制造系统的自适应性，将航空发动机装配调度分为分派机器和工序调度两个阶段.现有的调度规则大多无法进行自适应调整以应对动态场景，但随着机器学习的快速发展，可通过学习生成复杂调度策略的强化学习方法已经产生，能赋予调度规则较强的自适应和学习能力.进一步，深度Q网络(Deep Q Network, DQN)结合了具有感知能力的深度学习和决策能力的强化学习，融合了深度神经网络能够利用历史数据在线学习和强化学习从而依据状态灵活选取决策行为的优点，更适用于柔性作业车间调度的决策过程.Wang等在多智能体强化学习环境中运用DQN指导基础设施云上多工作流的调度，分别将最大完工时间和成本两个优化目标抽象成两个智能体.Luo研究了用DQN解决以总延期最小为目标的新任务插入下的动态柔性作业车间调度问题.He等针对纺织过程优化问题转化为随机博弈的新框架，在DQN网络算法中将多优化目标抽象成多智能体.林时敬等针对炼钢车间天车动态调度事件，也运用DQN算法将多天车抽象成多智能体协同天车操作动作序列.但现在基于DQN的车间调度方法中，所需调度策略的优化过程与调度相关数据的关联度不够，因此考虑在调度算法中利用系统提供的语义知识优化车间动态调度能力.

为此，本文针对柔性作业车间调度问题，以最小化设备平均负载和最小化总完工时间为目标，在调度过程的资源配置和工序排序阶段，分别设置强化学习智能体，提出双系统强化学习框架.其中，基于感知系统获取知识图谱的知识，分别将资源配置和工序排序所需要的参数集成表示为多维信息矩阵的形式，为认知调度系统提供车间状态参数；认知调度过程中对两个智能体共同构建具有继承关系的双环深度Q网络(Dual-Loop Deep Q Network, DL-DQN)方法.

中证协12月26日发布的《证券基金经营机构债券投资交易业务内控指引》。《内控指引》力求从内控体系、风险控制、业务管理、人员管理等方面强化证券基金经营机构风控合规意识，确保债券投资交易规范展业。近年来，部分机构债券投资交易内控薄弱，以各种形式直接或变相放大杠杆博取高收益，甚至规避内控机制和资本占用等监管要求。市场人士称，出台这一指引，是为了更有效规范债券投资交易行为，防范债券市场风险。

1 柔性作业车间调度模型

柔性作业生产车间调度问题可以描述为：总共有个任务订单，其中包括批产任务和插单任务，每个任务包含个待加工工件，即={,, …,}(=1, 2, …,)，所有任务动态到达需要在种设备组={,, …,} (=1, 2, …,)上加工，每个设备组包含一定数量的设备={,, …,} (=1, 2, …,)执行对应的工序，不同的任务包含不同的加工工件数目、对应不同的加工工序，需要在设备组上进行工序排序并加工.对插单任务进行资源配置，并根据资源配置结果对机加工工序进行优化排序，使得设备总负载和任务总完工时间最小.在问题描述中涉及到的参数如表1所示.

工序排序智能体奖励函数.

建立如下数学模型：

(1)

∀∈[1, 2, …,],∈[1, 2, …,]

(2)

∀∈[1, 2, …,],∈[1, 2, …,]

式中：

尿β2微球蛋白（U-β2-MG）广泛存在于血浆、尿液、脑脊液及初乳中。正常情况下，β2-MG合成和释放非常恒定，不受年龄、性别等因素的影响。β2-MG相对分子量小、不与血浆蛋白结合，可由经肾小球滤过，被近曲小管重吸收并降解。自身免疫性疾病、慢性肝炎、恶性肿瘤等疾病能够促进机体合成大量β2-MG，排除这些疾病后，血清β2-MG水平升高可反映肾小球滤过率下降、肾小管重吸收功能受损，可作为评价肾脏滤过功能。

克鲁勃润滑剂（上海）有限公司市场及应用部门经理戴伟（Nicolas David）表示：“我们正在与客户及合作伙伴密切合作，共同开发新的数字产品，在提供性能纯正、品质一流的润滑剂之外带来附加价值。克鲁勃在线解决方案表明我们能帮助客户收获更大成功，并且进一步贴近客户。”

通过表3可知，依据国家发展改革委、国家能源局等八部分共同发文《关于推进电能替代的指导意见》以及南方电网相关电能替代指导意见，共梳理该地区电能替代相关技术19项，通过本文建立的区域电能替代技术选择体系筛选出11项该地区需要大力发展及广泛推广的项目。根据上文中选择出的电能替代技术与国家政策及指导意见比较相似，因此，也能说明本文中建立的体系的正确性与合理性。通过对本地区电能替代领域的分析与选择，对于促进节能减排与建设美丽中国、治理环境污染与经济发展、优化能源结构和能源的可持续发展具有重要意义。

(3)

∀∈[1, 2, …,]

(4)

≠

, , =, ,

(5)

(6)

(7)

(8)

2 双系统强化学习方法

为了实现柔性作业车间的动态调度，解决调度过程中的多阶段方案生成优化，本文提出了知识图谱驱动的车间动态调度过程中感知-认知双系统框架.如图1所示，系统I的感知是将各类型数据进行表示与集成，将调度信息转变成多维矩阵的形式分别表示资源配置和工序排序，输入到系统II.在紧急任务的触发下，系统II的认知利用DL-DQN强化学习方法进行车间排产优化——资源配置智能体以最小化设备平均负载为目标，首先进行该工件所需人员、设备、物料等资源匹配形成资源社群；工序排序智能体以最小化完工时间为目标，将资源社群以工序为单位实现工件顺序排产计划，分步进行调度策略生成，提高加工流的生产连续性和效率.

2.1 感知-调度参数表示与多维信息矩阵集成

利用知识图谱提供的调度参数，根据车间动态调度的两个子问题，分别将所需数据转化成多维信息矩阵输入到系统的强化学习模型中.

资源配置所需的数据为离散型数据，为资源信息矩阵，每种任务需要由多位工人在多台设备上采用不同的资源进行加工，每种资源包含多种类型：

专业核心课是财务管理专业的重要内容，教师通过核心课能够将财务管理知识系统的传授给学生，这样学生就会具备实际操作的能力。核心课设置如下课程：财务管理案例、财务控制、税法与筹划等，我们可以将预算管理、高级财务管理、资本运营、非营利组织财务等课程作为选修课供学生选择学习。这样也就体现了财务管理专业具备的独特性。其中，中级财务会计、财务管理、财务管理案例、财务风险管理、税法与筹划、财务控制、财务分析、成本管理会计、资产评估是专业核心课的重要内容。

, , ={, , ,, , ,, , }

(9)

桡骨远端骨折的病因以外伤为主，发病机制则较为复杂，发生后可给患者的肢体功能造成影响，其生活质量也随之下降[3]，因此需要给予积极的治疗。其治疗方法包括保守治疗、手术治疗等两大类，其中后者是主要的治疗方式，但在何时给予患者以手术治疗，目前仍存在一定的争议。本研究结果表明，在骨折后6 h内即开展急诊手术干预，与传统的等待消肿后再行手术治疗比较，不仅可以有效减轻患者的疼痛感，同时又可促进患者患肢功能的恢复，同时其外观无畸形率更高，综合效果理想，故值得推广。

(=1, 2, …,;=1, 2, …,;=1, 2, …,;, , ∈;, , ∈;, , ∈;, , ∈)

={,}

(10)

={, |, =,, …,}

第二，林业生态建设质量有待提高。现阶段，我国林业资源生态环境建设取得一定成效，主要表现在荒漠化防治、水土保持两方面。但是，林业生态环境建设所取得的成果仅限于重点治理区域，其他绝大部分普遍存在质量不高、树种单一、树种结构不合理的问题。

(11)

(=1, 2, …,;=1, 2, …,;
=1, 2, …,)

(12)

(=1, 2, …,;=1, 2, …,;
=1, 2, …,)

2.2 认知-DL-DQN调度算法

对感知数据利用DL-DQN算法实现认知应用.图2为本文提出的柔性作业车间动态调度流程.依据批产任务生产方案流程，对插单任务进行紧急程度的判别后分别应用不同的调度原则，当插单任务进入认知调度实现策略优化时，资源配置智能体形成以工件为核心的资源社群配置，工序排序智能体实现单个工序上的工件排序优化.

(1) 调度状态空间.

(2) 调度动作空间.

资源配置和工序排序智能体根据机器的加工状况以及工件的生产属性，分别为每一个工件设置调度优先值，本文分别针对两个智能体设置不同的决策动作空间.

资源配置决策空间：资源配置任务是对插单任务进行人员、设备、物料等资源的配置，合理选择能够最小化设备平均负载的最优资源，决策空间定义如表3所示.

工序排序决策空间：工序排序是将配置好的资源社群，以最小化完工时间为目标分别在每个工位上进行排序，决策空间定义如表4所示.

(3) 调度奖励函数.

6.规划实施一批科技创新重点工程。借鉴先进地区科技园区建设发展的成功经验和建设生态文明典范城市的目标要求，按照“布局集中、用地集约、产业集聚、建设有序”的原则，规划建设中央创新区，重点吸引知名高校、国家级科研机构、重点企业研发机构、知名科技中介机构等集中进驻，通过多方整合科教资源，打造集科技教育、创新创业、商务服务、生态居住等于一体的现代科技服务业集聚区，建设成为生态文明典范城市副中心，为创建国家高新区奠定基础。实施黄河三角洲可持续发展研究院提升工程。进一步配套完善研究院基础设施，支持研究院设立市场化管理运营平台，努力打造在黄河三角洲地区乃至国内重要的科技创新基础条件平台。

通过设置合理的奖励机制，保证算法在多智能体设置下的收敛性，函数设计如下.

资源配置智能体奖励函数.

首先定义设备繁忙、空闲的示性函数, ()，表示为

, ()=

(13)

针对医保患者住院费用的影响因素(政策因素、参保方因素、医疗供方因素),应当从问题出发,提出相应的措施及办法减少上述各种因素对住院费用的影响。医保部门应当根据相关要求和实际情况制定医保政策,医疗机构应当严格实行院内控制,而参保患者应当加强学习,提升对医保政策的认识。通过各种措施的采取,合理地控制住院费用。本文研究结果显示,在采取有效的控制措施之后,住院费用明显降低,与措施采取前存在明显的差异(P<0.05),充分说明有效地措施对住院费用控制的重要性。

(14)

(15)

(16)

由式(15)和(16)可知，资源配置阶段的最大化奖励等价于最小化设备平均负载，证明定义的奖励函数有效.

柔性作业车间调度模型需要满足如下基本假设：①批产任务中工件一定的情况下，插单任务的工件动态到达；②同一工件工序之间有优先级，需在前道工序加工完成后进行后道工序的加工；③工件某一道工序在加工过程中不能被中断；④ 工件在加工过程中的准备时间、工件转换时间等一同计入加工时间； ⑤同一设备在某一时刻只能加工一道工序；⑥ 同一设备前一工件未完成，后续安排工件需等待；⑦不存在撤单、设备故障等特殊情况.

首先定义时刻第个任务的第个工件中第道工序状态的示性函数, , ()，即：

传统固态发酵酿醋制醋醅采用固态分层发酵，现在基本都是以防水水泥制成的长条形醅池代替大缸，也从人工翻醅替换成翻醅机操作。涉及的设备有行车、翻醅机、醅池及吊车抓斗等。史荣炳[36]发明了一种通过机械结构实现自动翻醅的装置。

, , ()=

(17)

(18)

(19)

(20)

由式(19)和(20)可知，工序排序阶段的最大化奖励等价于最小化总完工时间，证明定义的奖励函数有效.

为双目标奖励函数赋予权值转变为总奖励函数，如下式：

(21)

式中：、分别为两个目标的权值,+=1将双目标优化转换为单目标优化的奖励函数，通过控制权值的大小，决策者可依据目标的侧重情况人为设定例如，当调度环境要求考虑尽快完工，可将工序排序智能体奖励函数的权值设置为07，资源配置智能体奖励函数的权值设置为0.3.

(4) 模型更新.

本文模型在DQN基础上改进，两个智能体在训练时，在单位时间内，资源配置智能体根据知识图谱提供的资源相关离散型知识生成资源配置决策动作，随着状态变化以社群的形式传递给工序排序智能体，下一个排序动作以每一设备组为单位，对资源社群进行任务加工序列的安排.调度的两阶段过程不断更新迭代，直至任务完成，采用梯度下降法更新参数，实现策略函数的优化，算法的伪代码如算法1所示.

“差不多了，我大致了解你的心理状态。”社长说，“你千万不要因为被我看穿心理而反应激烈，要学会冷静。知道吗？”

：DL-DQN多智能体强化学习算法

1初始化记忆池、;容量

2用随机权重参数、初始化函数、

4For 迭代次数= 1,do

慢性病已经成为我国居民健康和经济社会发展所面临的严重挑战［1］。儿童时期是生理和心理成长发育的关键时期，也是学习健康知识、形成健康行为的重要阶段。本文就我国8省4～6年级小学生慢性病相关知识、态度及知识来源进行了分析，以期对培养小学生的健康生活行为有所帮助和指导。

并满足如下约束：

6For=0,do

工序排序所需的数据由工艺序列和加工时间两组数据组成，为工序排序信息矩阵，各类型数据构建出排序涉及相关调度参数，以某时间段工位数据建模表示如下：

10For=1,do

12For=0,do

与综合性大学相比，行业特色型大学在国家“双一流”建设中除了要立足于国家重大现实需求外，还要立足于行业重大需求，优化学科布局和顶层制度设计，坚持“有所为有所不为”的原则，着力提升解决制约行业发展的关键瓶颈问题和重大现实需求问题的能力。除了坚持基础理论研究之外，更重要的是要探索基础理论研究成果在特定行业的应用问题，要将行业应用研究能力作为行业特色型大学发展的重要突破口。对于行业特色型大学教师而言，其最大优势和特色在于针对行业重大前沿问题开展基础理论和应用研究。因此，在“双一流”建设中教师要将基础理论研究与行业应用研究有机结合，突出行业科研应用能力。

为工艺参数矩阵，即任务加工工艺流程方法.加工车间每种设备组只能对应加工某一类型工艺：

20End for

21End for

26End for

27End for

28输出:、

3 案例与应用

对提出的双系统强化学习方法进行模型训练和实验.首先，对仿真参数进行说明并进行方法对比；然后利用某航天所薄壁壳体加工过程中紧急插单问题进行实例测试，并进行分析.

3.1 模型训练与对比

..测试数据本研究根据Brandimarte提出的方法生成一系列柔性作业车间动态调度问题标准算例，将本文问题进行简化，每种加工任务的工序数相同，根据不同的工序随机选择加工设备，然后在工序加工时间区间内随机生成对应时间(见表5).

为验证本文提出的DL-DQN算法效果，将随机算法(Random Algorithm, RA)、GA、DQN作为对比算法进行分析比较.

..时间复杂度分析首先，将本文方法和对比算法的时间复杂度分析如下.

(1) RA.以先到先加工原则为约束，随机选择设备需加工工件并进行资源分配，设找到可行解需要的迭代次数为，因此RA的时间复杂度可近似描述为().

(2) GA.遗传算法一般很难收敛到全局最优解，因此算法的停止根据设置的迭代次数，设GA的最大迭代次数为，种群数量为，则GA的时间复杂度可近似描述为().

(3) DQN.在DQN网络的运行阶段，运行回合数为，每回合中的步长为，因此在运行阶段的时间复杂度为().本文提出的DL-DQN算法的时间复杂度与DQN相同.表6为时间复杂度对比.

由表可见，本文算法和所提算法的时间复杂度和任务数成线性关系，不同的算法涉及参数不同会影响时间复杂度.

..模拟结果本研究以MK04算例进行实验评估，构建作业车间环境，并使用DL-DQN算法进行柔性作业车间调度，在迭代过程中记录参数变化，与DQN算法进行对比.训练过程参数变化如图4所示.

根据测试算例MK01～MK10，分别用本文方法和对比方法求解总优化目标，结果如图5所示.

由图4可见DL-DQN算法训练过程的全局累积奖励表现出良好的上升趋势，收敛速度较DQN模型快，优化过程优于DQN模型，且得到的解决方案更好，更能适应柔性作业车间调度的动态性.进一步，通过本文算法和对比算法的求解应用(见图5)，所提方法的设备平均负载与总完工时间的加权值均小于对比算法.整体看来，DL-DQN方法效果较优，验证了本文所提方法的有效性.

3.2 实例测试

..加工车间任务信息表利用某动力所固体火箭发动机薄壁壳体生产模拟数据进行实例测试以验证所提方法的有效性.薄壁壳体的加工具有产研并存的特性，整理航天所生产原始数据后得到设备类型与相关信息如表7所示，不同的设备组对应不同的工序.

案例以薄壁壳体批产任务加工过程中紧急订单触发任务为分析对象，在设备信息基础上，设置6个任务的工艺约束、加工时间、加工数量和交货期，其中包含4个批产任务(J～J)与2个插单任务(J～J).生产任务工序信息表和时间表如表8和表9所示，其中“空白”表示无此项.

..感知系统知识表示与集成根据本文提出的DL-DQN算法，分别为资源配置智能体和工序排序智能体提供多维信息矩阵，两阶段调度过程中所需的参数矩阵如图6所示.

..认知系统车间调度策略生成假设插单任务的触发时间节点位于批产任务初始化后的20 h和80 h处，针对插单任务导致的柔性作业车间动态调度事件，首先对其进行资源配置，然后以资源社群为单位进行工序排序，将插单任务排产到合适的工序位置.

在资源配置过程中，针对机加工车间的车床工作状况进行全方位的任务配置.以该车间某一时间段的车床加工任务作为分析基础，将车床按照类型划分，每种型号的车床设备各1台，其加工功能不同，针对插单过程中导致的设备平均负载变化，车间车床设备相关信息如表10所示.

为表明资源配置智能体生成配置策略的合理性，以设备利用率为参考得出调度前后车床设备利用率曲线图(见图7)，可以直观地发现，车间车床利用率呈现整体上升趋势且变化平缓，较少出现某一设备负载突变的情况.

将插单任务触发前后的车间调度模式以甘特图的形式表示出来，图8为插单前任务调度方案结果，图9为插单后任务调度方案结果.不同的颜色代表不同任务，同一任务按照时序关系对工序进行区分.

根据插单前后的甘特图得出不同任务交付时间与加工时长的对比.如表11所示(“空白”表示无此项)，运用本文方法能够在满足插单任务交付期的前提下，在一定程度上缩短批产任务的总加工时长，特别是调度策略前后J的总加工时间减少35.08%，交付时间减少13.67%.薄壁壳体制造过程中不同的加工工艺所需时间差异大，因此车间中工序排序引起的时间微小变化会更有利于调度.从设备利用率和加工时间变化来看，本文提出的双系统深度强化学习方法具有一定的可行性.

4 结论

本文对产研并存的柔性作业车间动态调度问题进行了研究，以最小化设备平均负载和最小化总完工时间为优化目标，提出感知-认知双系统与DL-DQN算法融合嵌入的方法，得出以下结论：

(1) 感知系统将知识图谱提供的数据转化成多维信息矩阵输入到认知系统，认知系统将调度过程分成资源配置和工序排序两部分，分别将两个优化目标抽象成具有继承关系的智能体.

(2) 采用DL-DQN算法，外环利用资源配置智能体生成以工件为单位的资源社群，内环利用工序排序智能体以资源社群为单位进行工序级别的工件排序优化.

(3) 对比不同的算法和进行某航天所的固体火箭发动机薄壁壳体加工车间的实例测试，证实提出的双环强化学习方法能更好地利用调度知识图谱提供的参数信息，实现柔性作业车间调度的多目标优化.

目前的研究将设备故障、突发撤单等不确定因素忽略，未来将探究多资源约束情况下的柔性作业车间自适应调度问题.