基于深度学习的定额发票区域定位的应用研究

2022-05-31 01:13刘奕杰

电脑知识与技术 2022年11期

摘要：基于深度学习的区域定位研究，对文本区域检测进行了介绍。同时为了提高财务系统效率，减少人为失误率，实现良好的发票识别效果，对于发票识别算法进行了研究。因此通过定额发票为识别主体，设计了基于深度学习的定额发票识别算法进行训练和测试，最终准确率达到96%。实验结果表明，设计方法在实际应用中能够达到良好的效果，减少错误率。

关键词：深度学习;区域定位;发票识别

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2022）11-0098-02

随着国民经济健康发展与科学技术的提高，人类的经济活动也变得更加頻繁。图片以及文字成了记录经济活动的重要载体。近几年随着机器学习领域的深入研究，极大促进了人工智能在各种现实场景的应用。OCR技术的兴起，给人们自动化地信息提取提供了极大便利。场景文字识别具有很高的研究价值[1]，在实际应用的现实场景中，其应用需求包含了诸多领域，例如野外设备代码识别，财务审核等。因此，区域定位与字符识别技术的应用研究具有重要意义。

发票识别是光学字符识别（Optical Character Recognition， OCR）技术[2]的一个应用分支。OCR的识别流程主要是通过检测感兴趣区域的图像，对区域中所含的字符进行识别并输出识别结果。随着目标检测与文字识别技术的日益成熟，无接触与无感的图像识别成了主流，同时也节约了工作所需的人力成本，提高劳动效率。高清摄像头、无人机等智能终端的发展，可以随时随地进行区域定位、识别，在设备前端进行实时展示并存储，实现远距离无接触办公。在人文社会环境的影响下OCR识别技术研究前景广阔，因此成了机器视觉领域和自然语言处理领域的研究热点[3]。

1 基于深度学习的文字区域定位方法

文字区域检测的传统方法是根据字符之间的紧凑性以及其与背景像素具有互异性的特点定位文字区域，最终将其从初始图像中提取出来。随着深度学习的兴起，坐标回归算法成了目标检测的主流，通过网络模型学习回归预测特征点的坐标定位文本区域。

感兴趣区域检测方法早期由Wang等[4]提出，利用尺取法多尺度地扫描图像，再通过神经网络对每一处扫描的图像进行划分，定位出感兴趣区域。2014年，Huang等[5]通过区域特征提取MSER提取出文字区域，再使用卷积神经网络进行感兴趣区域的字符识别并进行字符分割，提出了与卷积神经网络相结合的字符区域检测模型。

近年来，文字区域定位在深度学习算法的影响下精准程度飞速提升。紧接着Faster R-CNN[6]和YOLO[7]等模型在学术界相继提出，在保证字符提取准确度的同时，对感兴趣区域进行快速定位。Ma等[8]发表的旋转区域候选网络--RRPN，适用于多角度方向的区域。Liao等[9]以SSD模型为理论基础，提出了端到端训练的TextBoxes模型，为了解决不同多尺度文字区域的检测，该模型使用一个基于全连接的CNN。

为了深入文字区域定位领域的算法和网络，本文基于PSEnet[10]网络模型，在原有Resnet50上加深网络层到101层，即网络结构采用改进后的Resnet101+fpn作为特征提取的网络结构。

2 数据预处理

2.1 目标检测标注

LabelImg是基于Python的一个可视化的图像标注程序。主流的目标检测网络（例如YOLO系列、SSD以及Faster R-CNN等），其训练数据集都要借助此工具标注图像中实验所需的目标。

2.2 预处理流程

数据预处理流程如图1所示。

3 实验结果分析

3.1 实验环境

本文实验配置为Intel Xeon-Gold 5118 2.3GHz处理器，一块Tesla V100 GPU，操作系统为LINUX CentOS-7.8，采用touch1.4开源深度学习框架作为实验环境。数据集来源于运营商，主要类型为定额发票。

3.2 评价指标

一个算法模型的优劣主要通过相应的评价指标参数进行评判，在本文的文字区域检测中，使用了图片像素、检测时间以及准确率作为评价指标。

图片像素，定义为longsize，根据不同的像素大小表示图像最佳的检测大小。

检测时间是指程序运行时，检测每张图片的运行时间。

准确率是指在全部样本的判断中有多少判断正确的，表示为正样本定义为正，负样本定义为负。公式为：

[P=PTPT+PF] （1）

3.3 实验结果分析

保持既定的研究环境和物理设备，在相同的数据集上进行训练和测试，迭代过程中保存最优模型参数，仅在模型推理中改变图片像素大小，实际数据如表1所示。

实验结果表明，在图片像素大小为2200像素时，在检测时间和准确率上均能达到最好效果。

4 结论

在传统方法下，针对自然场景的区域定位问题，本文设计的基于深度学习区域定位方法具有更强的适用性和准确性。当然不仅仅局限于定额发票，发票有许多种类，其复杂度也并不相同。因此基于深度学习区域定位方法仍然有改进空间，在面对复杂发票票面时进一步提高对文字区域划分的准确性。

参考文献：

[1] 刘仁军.基于神经网络的室内场景的文字识别研究[D].武汉：武汉工程大学，2017.

[2] 闫茹，孙永奇，朱卫国，等.基于CNN与有限状态自动机的手写体大写金额识别[J].计算机工程，2021，47（9）：304-312.

[3] 杨飞.自然场景图像中的文字检测综述[J].电子设计工程，2016，24（24）：165-168.

[4] Wang T，Wu D J，Coates A，et al.End-to-end text recognition with convolutional neural networks[C]//Proceedings of the 21st International Conference on Pattern Recognition （ICPR2012）.November 11-15，2012，Tsukuba，Japan.IEEE，2012：3304-3308.

[5] Huang W L，Qiao Y，Tang X O.Robust scene text detection with convolution neural network induced MSER trees[C]//Computer Vision – ECCV 2014，2014：497-511.

[6] Ren S Q，He K M，Girshick R，et al.Faster R-CNN：towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（6）：1137-1149.

[7] Redmon J，Divvala S，Girshick R，et al.You only look once：unified，real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30，2016，Las Vegas，NV，USA.IEEE，2016：779-788.

[8] Ma J Q，Shao W Y，Ye H，et al.Arbitrary-oriented scene text detection via rotation proposals[J].IEEE Transactions on Multimedia，2018，20（11）：3111-3122.

[9] Liao M H，Shi B G，Bai X，et al.TextBoxes：a fast text detector with a single deep neural network[J]. AAAI Conference on Artificial Intelligence，2017.

[10] Wang W H，Xie E Z，Li X，et al.Shape robust text detection with progressive scale expansion network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.June 15-20，2019，Long Beach，CA，USA.IEEE，2019：9328-9337.

收稿日期：2021-12-20

作者簡介：刘奕杰（1996—），男，四川成都人，硕士，研究方向为深度学习，计算机视觉。