试述文字识别技术在人事档案管理中的应用

2020-09-04 08:58张佳琦
科学与信息化 2020年21期
关键词:人事档案管理信息化

张佳琦

摘 要 传统的人事档案管理模式是以档案保管和使用为重点,在人事档案的使用中,档案的查阅借阅是通过人工手动查找档案信息,操作非常烦琐,这样降低了档案管理员的工作效率。现今,信息技术的发展飞速,给人事档案管理工作带来了极大的方便。本文主要通过介绍文字识别技术在人事档案管理中的应用,希望有利于推动人事档案管理工作信息化的进程。

关键词 人事档案管理;文字识别技术;信息化

1文字识别技术发展

在实际的生产和生活中,需要人工处理大量的文字和报表等内容。为了减轻人工劳作,提高人工工作效率,德国科学家Tausheck于1929年首先提出OCR技术的概念,之后经过大量研究,OCR的意思变成了通过光学技术对具有字母、数字、文字等图像进行扫描并识别,转化成为计算机可识别的符号。20世纪50年代,人们开始探讨研究比较简单文字的识别技术,并研制出光学字符识别器。20世纪60年代初,开始出现第一代OCR产品,20世纪60年代后期,随着文字识别技术准确率不断提升,多种字体和手写体文字识别器开始上市。

中国于20世纪70年代才开始对数字、字母、汉字等文字识别技术进行研究。1986年,国家863计划信息领域课题组织了清华大学、沈阳自动化所、北京信息工程学院三个单位,开始研发适用于国文的OCR系统。1989年,清华大学研究出了中文OCR软件——清華文通TH-OCR1.0版,这是中国首个中文OCR系统软件[1]。

目前,印刷体汉字字符的识别率达到了98%以上,印刷质量相对较差的字符识别率达95%以上,手写汉字字符的识别率达70%以上。

2文字识别技术路线

(1)图像预处理。①彩色图像灰度化。档案材料通过扫描机的扫描,一般情况下都是彩色图像。为了更好地识别图像中的文字,需将原彩色的图像通过系统转换成为灰度图像。②图像二值化。图像二值化,是一种把识别出来的灰度图像信号转化成为只用二值来表达数字信号的过程。通过二值化处理的图片每个像素非黑即白,使所需用像素为1,背景像素为0,图像的对比度和区分效果更为理想。③图像噪声处理。由于客观原因,图像中会存在各种各样的噪声,为了系统能更好地识别出有用信息,需要通过图像平滑处理的技术,消除图像中的噪声。

(2)文本区域定位。①基于连通区域的方法。由于所识别图像中的文本内容在局部区域有颜色和亮度相似并且与背景区域相差较大,使用基于连通区域的方法,首先要确定连通区域,再利用区域规则和几何约束进行区分,滤除非文本的连通分量,最后合并子区域,获得文本区域定位的结果。②基于边缘检测的方法。在对图像中的文本区域定位时,基于边缘检测的算法是一种常用的算法。由于文本区域与背景区域的对比度较强,通过边缘检测算子得到图像的边缘信息,再用形态学处理或平滑滤波等方法将边界处合并,再用多个启发性规则滤除非文本区域。③基于纹理特征的方法。由于文字是由笔画组成的,文本区域在颜色、结构、排列等方面都具有独有的特性,所以文本区域可以当作一种特殊的纹理。

(3)文字切分。文字的切分是文字识别中很重要的一个环节。其原理是将一段语句逐个切分为单字,只有准确地将语句中的文字切分为单字,后面的特征提取与文字识别才能更好地进行。现阶段,主要的文字切分方法有经典切分法、基于识别的切分法、连通区域切分法、整体切分法和灰度图像切分法等。切分后的文字可能会出现大小不一的情况,所以在进行文字特征提取之前先要进行归一化处理。通过归一化处理,不仅要将大小不同的字符图像以相同的比例进行缩放,而且要保持文字拓扑不发生变化,这样才能更好地突显出文字所要提取出来的特征。

(4)文字特征提取及识别。图像在经过预处理、文本区域定位、文字切分及归一化后,需要文字进行特征提取和字符的识别工作,可以直接调取接口即可[2]。

3文字识别技术在人事档案管理中的优点

通过计算机对人事档案进行管理,并对相关信息资源进行分类及分析加工,不仅可以提高工作效率,还可以降低一些管理成本。①节约档案查阅工作的时间。在传统的人事档案管理工作中,档案材料一直以纸质材料进行保管,在使用档案信息的过程中,需要管理人员采用手工翻查寻找,工作量十分大,而且效率非常低,浪费大量的时间以及人力。所以,在这样的情况下,可以通过文字识别技术解决这一困难。当我们需要在档案中查找某人的信息时,只需要输入姓名或其他基本信息,就可以快速找到其所有资料。②搜索准确率大幅上升。人事档案材料种类复杂、数量庞大,传统档案管理模式下对纸质档案的查找十分复杂,由档案管理人员手动逐一著录档案信息势必会发生错误。现阶段文字识别技术相对成熟,在原始档案质量好的情况下,准确率可以达到95%以上。③提高人事档案管理工作效率。将纸质人事档案信息通过机器扫描后转化为电子形式,更加方便整理、保存和使用,不仅提高了档案的安全性,还减少了翻查档案所需的时间,使档案工作流程更加紧凑合理。④保护纸质档案原件。将纸质人事档案通过扫描储存在计算机中,可以减少对纸质材料的使用频次,保护纸质档案材料不受到人为破坏。

4文字识别技术在人事档案管理中的实用性

(1)用于图像处理。在对档案材料扫描的过程中,对图像自动进行去污、纠偏、去黑边、提亮的处理,不仅提高了扫描图像的质量,还为后续的OCR识别提供有利条件。

(2)OCR识别。OCR识别技术可以省去大量的时间和人力进行档案的查阅工作,现在,OCR识别技术已经非常成熟,市面上所宣传主流的OCR技术识别率基本都在95%以上。

(3)信息自动提取。在自动提取档案信息的过程中需要首先要对文件的版面进行分析,档案中需要提取的信息的位置相对来说比较固定。提取档案中的信息,可以针对文档的特点建立模板库,随着模板库的增加提取的信息也会更加准确。

参考文献

[1] 付磊.复杂背景下彩色图像中的文字识别[D].长春:吉林大学, 2011.

[2] 刘亚亚.图像中文本区域定位的研究[D].无锡:江南大学,2015.

猜你喜欢
人事档案管理信息化
月“睹”教育信息化
月“睹”教育信息化
月“睹”教育信息化
“一核三轴”:信息化时代教学管理模式的探索
2017年《农业信息化》1—12期总目录
新时期医院人事档案信息化管理改革与创新策略
从现代人力资源管理谈人事档案管理工作
浅谈事业单位人事档案管理水平的提升
关于加强事业单位人事档案数字化管理的思考
从骡马化到机械化、信息化