基于强化学习的智能服务机器人控制系统

2023-05-22 06:33孔繁骏
物联网技术 2023年5期
关键词:消杀决策机器人

孔繁骏

(华中科技大学,湖北 武汉 430074)

0 引言

2020年初,新冠肺炎疫情在国内暴发。疫情防控成为我国常态化管理的重中之重,渗透在人们生活的方方面面,全民都需要积极做好疫情防护工作。由于新冠病毒具有传染性强、变异概率大等特点,医疗部门防疫的压力急剧增大,智能防疫开始逐渐成为医疗部门强有力的服务手段,利用机器人代替人工服务的需求急速上升。如何设计性能优良、自主循环、可持续发展、提高用户体验、提高院区内工作效率的综合服务机器人系统成为了行业共同面临的挑战。现今,机器人在防疫方面的应用已获得了重大突破,例如宁波地铁鼓楼站5G 智能巡检防疫机器人正式上岗[1],它一次最多可以测量10 个人的体温,并通过人脸识别将图像信息准确传送至云端,再由云端进行信息处理;丹麦“蓝色海洋”机器人公司研发的一款使用短波紫外线(UV-C)进行消毒的移动机器人,通过自主定位能够实现室内各个角落的杀菌工作,效率高达90%以上[2]。现如今,随着强化学习的深入发展,其主要被用于解决序列决策问题并且在解决极其复杂的决策问题方面取得巨大成功[3],如何将其应用于智能防疫领域逐渐成为人们关注的方向。

1 机器人系统整体设计

机器人选择树莓派4B+作为系统的核心控制器。相较于其他单片机,树莓派4B+可运行Linux 等操作系统,且运算能力更强,可完成复杂多重的任务监控管理与调度[4]。基于树莓派4B+,设计系统结构由硬件控制部分与软件操作部分共同构成。系统的主要功能有:热感测温、智能导巡、消杀、显示、语音交互、人机交互。系统整体设计方案如图1所示。

图1 系统整体结构

当指定区域进入正常工作状态后,系统首先会对进入区域的用户同时进行红外传感测温,通过数据库与用户的信息匹配完成后,将温度实时传送到显示模块的HMI 显示屏进行显示。若人体温度高于37.3 ℃,温度信息将会被传送至中心处理器,并通过云端实时提醒区域附近工作人员前来处理。用户可以利用手机APP 结合语音发送咨询需求,语音传感器接收声音信息后通过华为云端送至后台处理,系统的智能导巡模块引导用户前往指定区域进行业务办理。为了提高工作效率和避免发生不必要的碰撞,系统通过障碍感知传感器与强化学习路径规划算法提高机器人的导巡精度。在一天的正常工作结束后,机器人将对工作区域进行全面的消杀。消杀过程中,系统基于强化学习MDP 框架实现自主决策,从而可以不断补充能源实现循环工作。

2 系统数据显示

系统的HMI 界面硬件组成部分主要包括3 大部分:液晶显示屏、微型处理器、电路系统[5]。其中液晶显示屏选用的是LCD12864。该模块接口方式灵活且简单,操作指令方便且具有低电压低功耗的显著特点,显示分辨率为128×64点,内置128 个16×8 点阵字符和DC-DC 转换电路,无需外加负压和片选信号,可以在0~55 ℃范围内正常工作。其中V0 端口为驱动电压输入端,需要连接滑动变阻器RP1并接地,从而达到调节显示屏对比度的效果,使数字和字母更加清晰。LEDK 所接的三极管是为增强电流的驱动能力,为背光LED 提供足够的驱动电流。系统显示模块工作流程如图2所示。

图2 系统显示模块工作流程

2.1 热感测温模块

系统具有测量人体体温的功能。当检测到人员进入工作区域后,控制器向传感器发送Start 信号,测温传感器将人员的温度信息存入系统并由中心控制处理器加工处理。系统选用HC-SR501 热释电红外线传感器作为测温传感器,HR-SR501 基于红外线技术,灵敏度高,可靠性强,具有超低电压工作模式[6]。其中端口IN-与地面之间连接电阻R2可以大大提高传感器的稳定性。

2.2 智能导巡模块

由于工作区域复杂程度不可预估,机器人系统在导巡过程中遇到障碍物需要随时紧急更改路线,因此在系统内部安装障碍感知传感器。系统中的障碍感知传感器以双运算放大器LM358 作为比较器电路[7]。在红外光谱中,障碍物会发出某种形式的热辐射,可以通过该传感器检测到。在电路图中可以分别用红外发光二极IR Transmitter 和IR Receiver 作为发射器和探测器,发射器发射连续的红外射线以供红外接收器模块接收,由于接收器对红外发光二极管发出的相同波长的红外光敏感,电阻和输出电压将随接收到的红外光的大小而成比例变化。为放大这种变化进行定量监测,系统可将其变化反馈至比较器电路,并将测量结果送至后台处理,告知控制系统本身前方存在障碍物,机器人便会更改路径。

2.3 系统消杀部分

系统可实现自主消杀功能,考虑到系统工作的区域复杂度较高,为提升消杀效果和有效降低人员感染风险,采用紫外线与汽化过氧化氢同时消毒的策略。将35%过氧化氢溶液完全汽化,在经过汽化装置和系统四周表面的密网将气态过氧化氢喷射至室内空间,紫外线光有利于汽化过氧化氢加速分解产生大量的游离羟基,在常温条件下可对室内空气和环境表面的细菌芽孢、分枝杆菌、真菌、细菌繁殖体MRSA、沙雷氏菌等进行全面消杀[8]。与此同时,系统内部的原料检测装置将实时监测消杀原料的剩余量,当系统内部原料不足或电力不足的情况下,机器人将进行自主决策返回补给区后再重新展开工作,可以较大程度上缓解医疗系统的整体压力。消杀工作过程如图3所示。

图3 消杀工作流程

3 强化学习在机器人系统中的应用

强化学习算法基本原理是通过让机器人智能体与环境不断交互来学习最优策略,以实现回报收益最大化或完成特定目标。实际情况中,动作、状态和收益的集合都只有有限个元素。随机变量Rt和St具有定义明确的离散分布,并且只依赖于前继状态与动作。进一步说,也就是给定前继状态和动作的值时,这些随机变量的特定值s'∈S和r∈R在t时刻出现的概率是p(s',r|s,a)=Pr{St=s',Rt=r|St-1=s,At-1=a}。智能体的行为由策略π定义,该策略本质上是对特定状态应采取动作的映射[9-10]。马尔可夫决策过程中的“智能体-环境”交互如图4所示。

图4 马尔可夫决策过程中的“智能体-环境”交互

4 消杀工作过程中自主决策与循环

融入MDP 强化学习算法后的系统能够基于当前电量和消杀原料的剩余量做出是否继续消杀或返回补给区的高级决策。系统将剩余量的状态定义为一个集合S={不足,充足}。系统可以自行决定是否应该继续工作或直接返回补给区补充能量。假定初始状态下系统的收益为0,当机器人在规定时间内完成10 m2范围内的消杀时收益记为正;而当电量或原料耗尽时就会产生一个巨大的负收益值。机器人在工作时电量和原料都在不断地消耗,当耗尽之后机器人系统自动关闭等待工作人员营救,这种情况下就会产生低收益;而当电量和原料充足时,系统总是可以进行一段时间的消杀,不用担心能量不足。当系统以高能量状态工作了一段时间后仍是高能量的概率为β,下降为低能量的概率为1-β。另外,系统以低能量状态开始进行一段时间的消杀后,其仍为低能量的概率为α,能量耗尽的概率为1-α。当机器人能量耗尽需要被营救时,会产生一个-4 的收益。记W为机器人工作时的期望收益,系统会根据上述原理进行自主决策,使得收益达到最大化,形成最优策略完成自主循环,将有效提高消杀工作的整体效率。自主决策原理如图5所示。

图5 自主决策原理

5 结语

本文提出了一种基于强化学习的智能服务机器人控制系统,在以树莓派4B+作为核心控制器、传感器配合及语音交互的基础上,通过强化学习实现智能体与环境的交互,融入自主决策模块,使得机器人在引导客户时能够自主规划行走路径,在完成消杀工作时能够自主决策是否继续工作或返回蓄能区,进一步减少对人力控制的依赖,能够有效降低医护人员感染的风险,进一步提高我国防疫工作效率。将机器人更好地应用于医疗物联网领域,更好地为人民服务,能够为新一代人工智能技术与医疗物联网领域做出重大贡献。

猜你喜欢
消杀决策机器人
疫情防护
为可持续决策提供依据
校园消杀 迎接开学
“蜘蛛侠”
执行消杀任务的无人机
决策为什么失误了
关于抗美援朝出兵决策的几点认识
湘赣边秋收起义的决策经过