人工智能OCR 技术的应用研究

2022-07-08 03:04王栋
电子技术与软件工程 2022年1期
关键词:评标广电语音

王栋

(广东电网有限责任公司 广东省广州市 510000)

人工智能简称AI,是人类的智慧结晶所创造出来的堪比人类大脑的智能机器大脑。能让智能机器模拟人类的思维、意识、行为等等的功能并开发出高质量智能机器产品,高质量智能机器产品可以凭借感应器所接收的材料然后智能感知到周围的一切[1]。人工智能这项先进技术对人类来说是非常具有挑战性的领域,尽管人工智能发展缓慢,但人类为了实现人工智能技术普遍应用到生活中的各方面也一直在为之奋斗着。因为人工智能不仅有利于其他技术的发展并且人工智能技术的发展领域非常广泛,其中OCR(Optical Character Recognition,光学字符识别)识别技术在人工智能领域中是一项重要技术[2]。

随着现代工业的发展,在企业业务管理中涉及大量的流程复杂、数量巨大和技术效率要求较高的检测任务,传统的计算机算法已不能完全满足企业发展需求[3-4]。例如,在评标专家系统中通过智能验真辅助支撑的研究,可以实现系统智能验真辅助评审专家项目评标,可以大幅替代评标专家对每个评审要素逐一对比投标人的响应情况和招标文件的要求情况,提升工作人员工作效率,减少评标过程中人为主观性因素,规范化工作流程,有效提升招标采购服务工作的质量和效率。OCR 识别技术是提升公司采购精益管理水平和专业服务能力的重要措施,是公司推进质量变革和效率变革及突出核心竞争力的直接举措[5-6]。

1 人工智能领域中的OCR技术

1.1 OCR识别技术

OCR 识别也就是光学字符识别的缩写,光学字符识别信息技术指的是对图像数据的剖析和处理,也是获得文字和数据的进程[7-8]。并且OCR 识别技术可应用于文字资料、文案、档案卷宗、财务票据和身份证、驾驶证、名片等证件的录入和处理领域等等。传统的OCR 是由预处理和图像输入组成的,预处理方法包含灰度化和二值化及图像较正还有去除噪声等等[9]。图像输入对不一样的压缩方法就有不一样的存储方法等等。关于企业衡量OCR 识别信息系统进行性能的好与坏的指标分析主要有产品的稳定性、易用性、可行性、误识率及识别速度的问题等等,并用相关辅助数据来提升识别的准确率,这在OCR 识别信息技术中是非常重要的。简略的讲就是把文字转化成图像数据,而后运用字符识别将图像数据转换成能够应用的输入技术。并对OCR 识别的结果实行剖析后智能纠正错误结果。随着中国的科技发展愈来愈好,OCR 识别信息技术随之也普遍运用起来。OCR 的技术路线和识别过程如图1 和图2 所示。

图1:OCR 技术路线图

图2:OCR 识别过程

因不同类型的发票的大小、颜色均不同,所以本文首先进行的是分类,确定发票的类别,这样如火车票这种字符像素固定的发票,就可以采用固定的模板截取出待识别信息的图像,同时降低了后续识别的难度。 其次针对增值税这种机打字符像素随打印机的不同而变化的发票,将使用基于图像增强的二次分割法,用于实现截取,并进行倾斜校正。这样既降低了识别难度,又提高了 OCR 识别的准确率,图3是使用AlexNet 训练OCR 识别结果示例。

图3:使用AlexNet 训练OCR 识别结果示例

1.2 OCR技术发展现状

OCR 传统方法在应对复杂图文场景的文字识别显得力不从心,越来越多人把精力都放在研究如何把文字在复杂场景读出来,并且读得准确作为研究课题,用学界术语来说,就是场景文本识别(文字检测+文字识别)。

1.3 OCR识别的关键技术

(1)数字化:数字化是OCR 的第一步,我们采用摄像机或扫描仪将包含手写或机打文本的纸质文件转换成数字图像;

(2)预处理:预处理一般包括二值化、文字定位和倾斜校正等步骤。二值化将三原色构成的多色图像转换成单色图像,这就是预处理的第一步,其目的是减少冗余信息量,加快速度。倾斜校正的对倾斜的文本完成校正;

(3)文字分隔:文字分隔是多行字符序列切割为单行字符序列,再分割成单个字符,它是OCR 中的一个重要步骤,其效果直接影响OCR 的最终结果;

(4)特征提取:特征提取是从单个字符中提取与其他字符相匹配的单个字符特征,是OCR 中最重要的步骤。传统的特征提取方法,如模板匹配和结构分析等,面对汉子时并不是非常有效,而且会耗费大量时间。深度学习可以轻易完成这项任务,并且只要拥有足够量的数据集,就能提供更精确的识别。

1.4 OCR识别技术的功能

OCR 技术中的语音识别技术可使机器通过识别及理解来听懂人类语言,是OCR 技术中的一项重要技术,并且该技术在语音识别功能领域等方面逐渐得到广泛应用。通过语音识别可实现对用户语音的检测,在这个过程中,以信号处理的方式来达到效果,经过识别来满足对语言智能化分析及处理的要求[10]。其中有前端及后端语音处理,前端语音处理过程中,能够实现端点检测及智能打断。前端指的是将接收到的音频展开分析,确保用户从开始到结束的语音处理进程。在后端处理中,需要对说话人语音进行识别,最终得到适合的结果。其中包括了识别及置信度输出,前端在系统中能够识别出多种词汇,达到对语音识别处理的较高要求,并且在用户不同的年龄、地域、环境等因素下有着良好的适应性,局限性比较小。后端指的是反映辨别后的结果,以识别引擎为媒介在对语音进行置信度识别,还可通过识别的结果开展详细的分析,对语音信息进行效地处理。近年来,由于人工智能技术迅速发展并与传统行业实现快速融合,一场由数字化转型带来的产业变革正在蓬勃发展,将OCR 文字识别带给每个人、每个项目,构建万物互联的智能世界,是时代共同的声音[11-12]。OCR 的应用目前OCR 识别技术如图4所示,可应用在证件识别、银行卡识别、车牌识别、表格识别、票据识别、护照识别、名片识别、人脸识别、文档识别、人证合一、营业执照识别、发票识别、VIN 码识别等各种涵盖生活、工作的技术核心,目前包含银行、保险、金融、税务、海关、公安、边检、物流、电信工商管理、图书馆、户籍管理、审计等很多行业都已经应用了OCR 技术。OCR 技术让大家减少了设备配置,降低了人力成本,提高了工作效率。

图4:OCR 识别的功能

1.5 OCR研究思路

(1)总体基于OCR(Optical Character Recognition,光学字符识别)、深度学习的资质图像分类、基于自然语言的文本分类与识别等技术,合理设计客观分智能计算、投标文件自动定位、智能辅助验真的应用结构,充分借鉴现有数字化、信息化建设成果,明确了应用实现方案,为减轻专家评标客观分评审工作量、减少专家机械工作内容、对投标文件所提供资料进行验真提供系统支撑;

(2)支持企业的信息、证件、信用等信息建立模型,根据评标过程中,专家关注的证照信息的真伪,业绩是否造假,是否有围串标行为,通过机器学习相关算法,辅助专家进行辨别,并且在内部实现企业的各种信息共享;

(3)能够通过智能验真辅助支撑的体系的建立,使专家从过去需要对比投标人的响应情况和招标文件的要求,以及对比不同投标人在每个要素的工作中解脱出来,辅助专家进行评标,大大简化了专家的评标过程,提高了工作效率。应用研究主要从三个方面开展:

一是客观分智能计算。基于NLP 语义分析方法,针对供应商投标文件中的财务、资质、业绩等客观指标项进行提取,自动计算客观分[13]。如图5 所示。

图5:客观分智能计算二级应用视图

二是投标文件自动定位。采用文本解析、图像识别等技术,结构化提取投标文件内容,并结合NLP 语义分析,匹配设定的评审因素项,形成结构化数据及页码,解决专家评审过程中难以针对评分条款进行定位的问题。

三是智能辅助验真。运用图像识别(OCR)技术,智能提取投标文件内容并解析关键词,收集内外部数据建立验真库,将投标文件解析提取内容与验真库进行验真比对,智能提示供应商信息真伪[14]。如表1 所示。

表1:客观分智能计算模块/功能清单

客观分智能计算实现视图如图6 所示。

图6:客观分智能计算应用实现视图

1.6 OCR识别技术在广电公司的应用

广东电网有限责任公司基于人工智能服务平台正式上线以来,OCR 识别技术在广电公司人工智能平台中不断完善了其兼容性,轻松解决掉以往的人工智能的不足的地方,并以图像识别和语音识别等技术为广电公司创造了新的发展空间。在广电人工智能平台中整合了OCR 识别技术中的智能技术,并加以利用到变电站巡检机器人上,这加快了数字电网的建设并实现了变电站立体巡检。人工智能技术极大的帮助了广电公司的工作人员,并且应用这先进的科技来为客户提供更为优质更为便捷的服务。据了解,广电公司近年来实现了为客户提供更好的服务,其中包括了用电咨询服务和节能服务等功能,不仅如此还能让广大客户及时知情停电管理服务和消息精准等服务。

在实际的智能化客服系统中可以借助语音识别技术,在客服跟客户通话的时候方便高层管理对客服的整个通话流程进行实时监控。运用人工智能系统把通话中的声音特征提取出来作为参数,更便于灵活地进行调整使得通话的质量得到保障。而且高层管理对客服跟客户的通话过程进行人工测听,可深入了解到客户的情绪状况及分析出客服的质量和沟通能力。通过听客户的声音变化等情况的监测,可对客户的情绪变化有所了解,并结合客户情绪进行分析来改变客服语气。同时为加强人工智能技术在广电公司的电力客服系统当前的应用效果,还需要合理运用人工智能技术来完善智能服务系统,可将语音转移文本及预警统计等信息作为判断服务质量的参考依据,使服务的改善有更好的效果,进一步发挥出人工智能的重要性。如图7 所示。

图7:人工智能的客服系统模块图

随着人工智能技术带来的便利使得各行各业的信息化水平都极大提高了,广电公司在信息技术与人工智能的应用上不仅加大了预算的投入,还投入了很多的精力在人工智能技术的应用上。从广电公司财务管理系统中来说,与财务相关的软件应用已经非常普遍了,特别是电子文件普及以来,电子发票通过扫码就可以进行自助开发票,极大减轻了开发票和发票购买的巨大工作量,在一定程度上是减轻了财务会计人员的工作量[15]。在人工智能技术应用中不断优化整个财务管理系统的核算方式,以此提升财务管理系统的效率。运用 OCR 技术将报表中的文字、表格、图像转化为电子版的数据,通过计算机程序,快速采集报表数据,再通过AI 技术发现其中隐藏的疑点信息,具体步骤如图 8 所示。

图8:报表识别步骤

随着中国的科技正持续发展,人工智能技术随之广泛运用到各行各业。就拿计算这块来讲,人工智能技术拥有非常明显的优势,快速、精准、高效等等这对人类而言基本是不可能做到的。就此,广电公司财务管理系统运用人工智能时,最大化利用人工智能的优势来整合财务相关数据。将数据重新整理、归纳和划分能更全面地看到广电公司的发展状况,也就可以对公司的流动资金集中管理。而且公司的财务数据还可以精确分析出可能会出现的财务相关问题,极大提高了公司财务风险的预防能力水平[16-18]。

2 结论

本综述通过识别过程、发展现状、关键技术、识别功能、研究思路及在广电公司中的应用五个方面说明了人工智能辅助OCR 技术在企业现代管理中的主要作用,人工智能OCR技术的应用研究能够大幅提升企业各部门的应用管理工作效率和能力水平,实现管理智能化。

猜你喜欢
评标广电语音
探讨大数据在广电新媒体中的应用
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于TOPSIS模型的精益评标方法
评标工作中有关量化指标体系建立的探讨
广电新闻出版整合对广电业发展影响的思考
EPON技术在广电网络的应用
设计评标应该重视评标准备与初步评审