物联网智能鸟类投食器的研究

2023-05-22 06:33王雨竹刘森瑞
物联网技术 2023年5期
关键词:食器投食鸟类

王雨竹,王 兴,刘森瑞

(1.太原科技大学 计算机科学与技术学院,山西 太原 030024;2.长沙理工大学 建筑学院,湖南 长沙 410015)

0 引言

鸟类的特性和特殊的生活习性,无疑会增加相机拍摄的难度,同时对拍摄设备的要求也很高,导致人们近距离观察鸟类的成本太高,而且拍摄时间过长,需要有人值守等待鸟类出现。为了解决鸟类的观赏成本太高以及拍摄需要长期值守的问题,本文研究了一种物联网智能鸟类投食器。该设备有远程控制投食的功能,利用鸟食吸引鸟类靠近。投食设备中的摄像头和麦克风将采集到的信息发送到处理器,运用智能图像识别和音频识别算法对鸟类进行识别;随后将识别结果发送到用户软件,用户根据需求可远程控制投食开关。另外,投食器配备了定位装置和太阳能充电板,可以放置在野外对鸟类进行观察。

1 总体设计

1.1 投食器的组成

物联网智能鸟类投食器总体由三部分组成,分别是采集部分、识别部分、控制部分。采集部分由压力传感器来感知鸟类是否靠近,微型麦克风和高清摄像头对鸟类的声音和图像进行收集并传输到用户端界面。识别部分是对收集来的鸟类画面以及声音做处理分析,用特定算法来识别鸟的种类。控制部分电路主板通过自身集成的网络通信模块接收来自用户端的控制信息,随后通过I/O 接口将控制信息发送到投食装置。用户端软件与云服务器连接,在得到用户许可后,该鸟类的音视频信息将会通过网络模块上传到服务器进行保存。设备模型如图1所示。

图1 设备模型

1.2 工作原理

起初装在投食皿内部的电阻型压力传感器因受到鸟类自身的重力阻值发生变化,从而引起电路电流的变化。检测到电流发生了变化,控制电路会将麦克风和摄像头打开,对鸟类进行录音和拍照,产生的缓存文件保存到投食器的SD 卡中。投食器内置的CPU 会对照片中的鸟类进行识别,将识别结果暂时保存到本地。与此同时,网络模组会发送提醒信息到用户端软件,当用户端进入观察模式时,实时音视频信息和鸟类识别信息会传送到软件界面,观看视频的同时可以对鸟类进行拍照截图并选择是否打开投食开关;退出观察模式时,如得到用户许可,投食器会将此次流程采集到的信息发送到服务器,同时控制电路收到来自网络模组断开连接的信息,关闭麦克风和摄像头。设备的工作原理如图2所示。

图2 设备工作原理

1.3 控制模块设计

主控电路板是整个装置的核心模块,它集成了CPU、电源、开关控制器、WiFi/4G 传输模块、内部存储设备等。主要完成的工作有:监测电路中的电流变化,当电流发生明显变化时,控制芯片向采集和识别模块发送控制信息,并且通过网络传输模块向用户软件发送指令;当用户软件断开连接时,网络模块会向控制芯片发送特定指令集,控制芯片关闭电路中的各个元器件。

1.4 采集模块设计

使用电阻型压力传感器[1]来检测是否有鸟前来觅食。传感器将压力变化转换成电阻的变化,从而引起电路中电流的变化。摄像头采用索尼IMX179 CMOS Sensor,此设备主要用于生物识别和高清监控等,可以满足投食设备的使用需求。拍摄到的监控视频暂时保存到SD 卡中,然后按照MP4 的文件格式对视频进行封装[2],最后通过网络模块将压缩编码后的视频数据通过网络发送到客户端。

1.5 识别模块设计

用于鸟类识别的图像处理模块采用ARM9 系列S3C2440作为系统处理器,该芯片功耗低,整个系统设计简单高效,由于是全静态设计,所以适用于对成本和功耗有要求的投食设备[3]。S3C2440 芯片可以控制整个系统,它不但具有图像处理功能,同时也控制着其他各个模块的运行。其在电路中的架构如图3所示。

图3 S3C2440 控制器示意图

2 软件设计

2.1 视频编码格式设计

投食器视频编码采用H.264 视频编码标准,与其他的压缩编码标准相比,H.264 具有低码率、高质量、容错能力强、网络适应性强的优点[4]。H.264 在功能上被分为:视频编码层(VCL)和网络提取层(NAL)。VCL 对视频的原始数据进行压缩,并且在输出数据之前会先把数据封装到NAL 中。每个NAL 单元都包含一个NAL 头信息和一个RBSP(Raw Byte Sequence Payload,原始字节序列负荷)。NAL 单元序列如图4所示。

图4 NAL 单元序列实例

H.264 有两种封装格式:一种是Annexb 格式[5],主要用于本地存储;另外一种是RTP 格式,主要用于网络传输。图5 为H.264 码流结构分层。

图5 H.264 码流结构分层

2.2 网络传输协议

由于投食设备需要实现音视频数据的按需实时传输[6],所以设备通信协议采用RTSP 实时流传输协议,该协议是TCP/IP 协议应用层中的一种[7],可以控制实时数据的传送。

通信指令按照RTSP 协议中的请求报文的方法来设计。请求报文方法的功能见表1 所列。

表1 请求报文方法描述

用户端软件根据设备返回的不同命令来执行不同的任务。RTSP 回应信息用3 位十进制整数来表示[8]。

2.3 鸟类识别功能设计

本系统对于鸟的种类识别基于图像识别和声音识别两种方法。图像识别结果会受到光线、拍摄角度、鸟类体积、鸟类姿态等因素的影响,其中鸟类的姿态对识别性能影响巨大[9]。最近的一项研究表明,物体姿态的变化会使识别算法的性能下降超过10%[10]。因此,当拍摄条件不满足图像识别算法要求时,自动切换为基于鸟类鸣叫的音频识别方案。

2.3.1 鸟类图像识别设计

同一张图片的不同区域会有不同的特征,局部特征又有代表性的特征点,而每一张照片所拥有的特征信息又是不同的。因此,特征点可以作为图像的独有特征来实现图像识别。图像特征点最突出的就是其斑点和角点。寻找斑点采用灰度值比较的方法,提取出与周边环境灰度值有较大差异的区域。对于图像而言,角点可以理解为物体轮廓的连接点。本文采用了DoH 识别算法,该方法占用计算资源较少,识别精度高。

DoH 斑点检测是通过计算图像Hessian 行列式矩阵中的极大值完成的[11]。Hessian 矩阵的表达式为:

行列式表达为:

其中:Lxx表示通过高斯函数求x的二阶偏导对图像进行卷积后的结果;Lxy表示通过高斯函数求关于x的偏导和关于y的偏导对图像进行卷积后的结果;Lyy表示通过高斯函数求y的二阶偏导对图像进行卷积后的结果。

然后,计算偏导算子,结果如下:

进一步计算得到:

DoH 检测算法的步骤为:(1)通过计算得出图像的二阶微分Hessian 矩阵;(2)计算其行列式;(3)根据σ值生成相应的偏导算子;(4)对图像进行卷积运算;(5)在图像中查找DoH 对应的峰值。

算法检测:在算法验证阶段,采用了投食器摄像头拍摄到的同一鸟类不同姿态的照片。图像大小为662×504 像素。

如图6 和图7所示,不管拍摄到的角度如何,采用DoH识别都能较好地提取出目标图像的特征点。

图6 鸟类正面特征结果提取

图7 鸟类侧面特征结果提取

2.3.2 鸟类音频识别设计

在音频识别的案例中,Incze 等人[12]提出了一种采用预处理录音后获得的声谱图对鸟类进行分类的技术。所提出的模型仅在少数物种上进行了测试,结果显示准确率为88%。

通过比较已有方法得出,采用深度学习技术可以为解决鸟类识别问题提供有效的方案。本文的主要贡献在于:开发了一个有效的分类模型,该模型运用了迁移学习和卷积神经网络[13],为大量鸟类识别提供最佳方案。

鸟类音频识别流程如图8所示。首先对麦克风输入的音频进行预处理,然后将处理好的音频输入模型,最终得到鸟种类名称。

图8 鸟类音频识别流程

(1)预处理

音频预处理包括如下两部分:

第一部分涉及对数据集进行裁剪,使其成为一个平衡集,其中每个输出类都由相同数量的输入数据样本表示。这是通过过滤数据集来实现的,以获得在质量方面评级为4 或5 的音频录音。录音的质量是基于录音的长度,较短的录音比较长的录音评分低。所有多余的零录音剪辑被删除。

第二部分是将音频数据集转换为Mel Spectrogram,并存储为单独的Mel-Spectrogram 数据集。转换是通过DFT 完成的,Mel-Spectrogram 数据集被用作ML 分类模型的输入。

(2)音频分类模型

音频分类模型中涉及EfficientNet-B0 和多层感知器两种神经网络。

EfficientNet-B0 是一种卷积网络,它使用复合系数以更结构化的方式对神经网络进行放大。该模型有从B0 到B7 的不同版本,每个版本都比之前的版本有更高的层数。这也意味着,随着版本的增加,它的复杂性和编译时间也会增加。考虑到这些因素,本文已经使用了这个模型的基本版本,即高效网络B0,高效网络B0 有237 层。

多层感知器是一种前馈神经网络,用于简单的分类和预测任务。它由一个输入层、输出层和任意数量的隐藏层组成,这些隐藏层的权值使用反向传播算法进行训练。非线性激活函数和网络中存在的多层使得它不同于线性感知器。多层感知器中的层是完全连接的层,这意味着特定层中的每个神经元都与下一层中的每个神经元相连。

3 硬件组成

3.1 主要元件组成

3.1.1 CPU

主控电路板集成了所有的系统元件,CPU 采用的是S3C2440AL-40 微控制器,焊接在主控电路板。

3.1.2 摄像头

摄像头采用SonyIMX179 技术摄像头,该摄像头接口类型为USB2.0,有效像素为800 万像素,并且支持按键拍照,有自动对焦功能。在电路板上使用USB2.0 插槽进行连接,方便拆卸,并且有不同的摄像镜头可以选择,便于后期推出不同摄像头配置的设备。

3.1.3 RAM

由于原始控制芯片不能提供巨量的存储空间,为了能够满足系统需要的图像缓存存储资源,使用了外界的SDRAM作为各模块的驱动缓存器以及图像数据缓存器,采用8 MB的IS42S16400 芯片。

3.1.4 光伏充电器

DC-DC 开关电源转换芯片采用TPS5430,转化效率高达95%[14],输出电压可调,输入电压最高为35 V,电流输出为3 A,输出电压通过设置VSENSE 管脚对应电阻的值来改变。

3.2 电压检测电路设计

采用太阳能光伏板为蓄电池充电,通过对电路电压的检测,系统可以控制何时对蓄电池进行充电,提高了对蓄电池的保护。将太阳能光伏板输出电压经电阻分压电路处理,所得电压作为检测电路的采样电压。电路如图9所示。

图9 太阳能板输出电压检测电路

U1A为同相比例运算放大电路,可由以下公式得出:

式中,U1AI=1 V,则R5=1.5R4,所以电阻R4为1 kΩ。U1B与其他元器件组成二阶低通滤波器,对放大电路输出的电压进行滤波处理。此滤波器由U1B、C1、C4、R2、R3组成:

化简可得:

4 结语

为了解决鸟类观赏成本高以及监控设备不够智能化的问题,本文研究设计了一种物联网智能鸟类投食器。它包括远程监控和投食功能、智能识别鸟类功能,一定程度上降低了观赏成本并实现了智能化。经过实验检测,验证了设计的可行性,对多种鸟类进行图像和音频识别时,准确率高达80%。同时,开发了配套的客户端控制软件,实现了用户与投食设备的远程交互。后期如实现大面积推广,可以进行鸟种类划分,建立飞行轨迹数据库,方便以后的鸟类生态学研究。

猜你喜欢
食器投食鸟类
善于学习的鸟类
鸟类
美食美器:吃饭是一件很认真的事
美味珍馐——中国古代器物之青铜食器
鸟类的叫声
细腻东方,食器时代