OCR发票识别应用浅述

2017-04-15 12:09曾东

福建质量管理 2017年1期

关键词：字符识别字符票据

曾东

(重庆工程职业技术学院重庆 402260)

OCR发票识别应用浅述

曾东

(重庆工程职业技术学院重庆 402260)

在经济活动中，个人或者企事业单位会用到大量的发票，传统方法是将票据信息手工录入计算机系统，工作效率低下、出错率较高、业务处理时效低。OCR(Optical Character Recognition)票据信息识别技术的研发改变了票据业务处理模式，依托于计算机软硬件，将纷繁复杂的工作交给计算机完成，从而节省了大量人力物力，优化了资源配置，提升了工作效率，具有强大的优势。

OCR；发票识别；票据识别

一、引言

OCR是光学字符识别技术的简称，字符识别是模式识别的一个重要分支，其工作原理是通过扫描仪、数码相机等光学输入设备获取纸张上的文字图片信息，采用光学方式将文档资料转换成黑白点阵的图像文件，再利用模式识别算法分析文字体态特征，判断识别出字符文字，进而通过识别软件将图像中的文字转换成文本格式，并按通用格式存储在文本文件或者数据库中，还可通过文字处理或编辑软件等再进一步加工。

经过了数十年的发展，OCR技术在文档识别方面的有了很大的进步。在市场上已经推出了很多成功的商业软件，如汉王公司的文本王、清华文通TH-OCR、尚书OCR、蒙恬OCR以及丹青OCR等，其应用范围也越来越广泛，不仅仅局限于个人或中小企业的办公自动化，在金融、税务、数字图书馆等领域也已经开始了大规模地应用。它的发展推进了将文档资料和各类纸质存储信息的数字化进程，加速了信息资源开发利用共享，轻松实现了纸质文档的电子化，快速提高了工作效率，有效提升了人们的学习工作质量。

二、OCR发票识别需求背景

在经济活动中应用到大量的单证，为了将这些数量巨大、种类繁多的单证输入计算机系统，需要进行相应的数据录入工作。在现阶段，传统的手工录入仍然是主要的工作方式，需要投入大量的成本和时间，不仅抬高了运营成本，而且录入速度也难以提升，错误率也很难降低，对提高业务处理时效、提升服务品质带来了负面影响。

相对于传统的手工录入方式来说，OCR识别的速度远快于手工录入，可以节省大量人力资源，优化资源配置，使人员分配于更加有意义的工作，具有强大的优势。尽管目前的OCR技术的识别率虽然很难达到100%，但其质量仍然高于大批量手工录入。

针对上述情况，建立一套通用的OCR服务及管理平台，可以为企业提供高速度、低成本的数据采集工具，为多个应用系统提供通用服务，提高业务处理时效，降低错误率，为业务快速发展提供有力的支撑。

三、OCR发票识别现状

在票据识别方面，该项技术的研究应用已逐渐广泛，市场上较为著名的有清华文通的TH-OCR系统和汉王的尚书OCR系统等。票据识别技术可用于各类表单识别，譬如银行客户申请表、保险客户申请表、金融票据(如支票、汇票)、医疗费用单证、收费发票等；各类个人证件识别，譬如可识别身份证、驾驶证、行驶证等；各类企业证件识别，譬如可识别企业营业执照、组织机构代码证等；各类车牌照识别，譬如道路上各种车牌照，如蓝牌、黄牌、警牌、农用车牌等。

发票识别是票据识别的一个小分支。有关数据显示，中国每年会开具2000亿张纸币发票，约合纸张12万吨，大约是86万棵成年树木。如果一单发票的成本需要1.6元，唯品会每年打印发票约合人民币两千多万，京东则每年花费将近两个亿。发票内容是很重要的公司数据，在供应商管理、合同管理、报销管理、税务认证、客户管理等各业务方面都需要使用。

众所周知，财务数据多以表格和汉字出现，而这就是自动识别系统中最困难的地方。这些问题主要包括票据纸张不一、表格线分布不均匀、长短不一，以及汉字结构复杂、相似字多等等。这也就造成了票据识别的难度要高于一般纸质文档的识别。对于传统的纸质文档和单一的字符识别已经取得了相当大的进展，但是对包括复杂表格和字符的图像仍存在一些问题。

四、OCR发票识别软件工作流程

发票单据识别OCR是一款通用的数据批量采集软件，适用于各种具有表格特征的发票单据，通过扫描、图像处理、自动分类、OCR识别技术，将表格图像中的数据信息准确、快速、真实地提取并保存，数据结果可导出为标准的数据格式，如Excel表，与企事业单位的ERP、CRM等系统实现无缝结合。软件系统支持中英文、数字、符号等多类型字符的手写体、印刷体识别。OCR软件识别基本流程描述如下：

扫描：通过扫描仪等设备将目标文档(各类发票)以文档图像的形式读入系统。

预处理：图像在生成过程中，由于成像系统本身具有非线性或者摄像时视角不对，会使生成的图像产生几何失真，此外在拍照的过程中，由于各种原因文档图像经常会出现一定程度的倾斜。而图像倾斜将会影响文字识别的效果。因此，在进行版面分析之前，进行倾斜检测和校正十分重要。通过对文档图像预处理提高了图像的质量，减小各种噪声对后续过程的影响。

版面分析：将图像文件中所包含的直线、文本表格、图像等不同性质的划分开来，并将文本部分按照段落，标题等进行切分，以便于下一步的处理。

版面识别：对版面分析中的各个分栏的性质及顺序做出判断与识别，同时，对于文本性质的分栏，指出它是横排还是竖排，是正文还是标题，以及各个段落基于复杂度的自适应中文版面分析方法研究的先后顺序，从而保证识别后的文件的语义关系。通常把版面分析与版面识别统称为版面理解。

字符切分：将文字区域的字符进行切分，为字符识别做准备。

字符识别：识别单个字符，将其转化为字符编码。

后处理与版面重构：将前几步的处理结果进行进一步处理,输出目标文件格式。

当然，生成目标格式文件的同时可以将票据要素详细信息定向入库存储，方便后续查询共享等操作。

使用OCR识别技术实现自动录单，通过批量扫描识别的方式采集发票数据，大大提高数据采集的效率，降低了人力物力开销。

OCR识别录单方式是对传统录入方式的一个颠覆，基于先进的图像处理、OCR&ICR(智能字符识别)技术，把繁重重复的工作交给计算机去处理，充分发挥了计算机信息处理技术的优势，录单主体的变更带来的是录单效率本质的提高，这也是OCR识别技术研究的初衷。

评价OCR识别软件系统的主要性能指标有识别对象、识别率、误识率、拒识率、可靠性、识别速度等。

五、结束语

随着科技的发展，OCR识别技术将会衍生到人工智能的很多产品当中，将有广阔的市场，但前路漫漫，针对不同的复杂场景依然保持较好的识别性能，还需要更加深入研究，进一步提升识别可靠性。

[1]黄宇.OCR技术在金融领域的应用[J].金融电子化,2001(1):86-88.

[2]彭健.基于OCR技术的金融和财务票据自动录入与管理系统[J].渝州大学学报,1999(14-3):50-54.

[3]张艳.票据自动处理系统中若干关键技术研究[D].南京理工大学,2008.

[4]田大增.视觉文档图像识别预处理[D].河北大学,2007.

曾东(1987.12-)，男，汉族，重庆云阳人，教师，硕士研究生，重庆工程职业技术学院，物联网技术与应用。