浅谈水文资料整编成果的数字化

2016-09-01 09:45周子江朱德龙
治淮 2016年2期
关键词:电子表格原始数据扫描仪

周子江朱德龙

浅谈水文资料整编成果的数字化

周子江1朱德龙2

一、概述

历年水文资料整编生成的成果绝大部分是表格,在2000年以前,受制于当时的主客观条件,很多单位在将水文原始数据生成整编成果表并打印成册后,并没有将数据文件按照统一的格式以电子表格的形式存储于电脑中,造成资料分析挖掘处理上的不便。随着对装订成册纸质成果翻阅次数的增加,纸质成果逐渐开始磨损和破坏。由于没有电子表格,一旦成果被破坏后,就会造成水文资料永久性的缺失。如何保护好这些宝贵的水文资料,将纸质的水文整编成果表转换成电子表格作为备份,是亟待解决的问题。随着扫描仪的普及与广泛应用、计算机技术及OCR(OpticalCharacter Recognition,光学字符识别)技术的日臻完善,可以快速、准确地将纸质表格转换成可编辑的电子表格,成为代替手工录入的主要方法。

二、成果电子化

将纸质的成果表转换电子表需经过成果扫描→图片处理→OCR识别→成果校验等几个步骤,而前两个步骤处理的好坏对后两个步骤有决定性的影响。

1.OCR识别前的处理

OCR识别前,首先是要将纸质的资料整编成果表转换成图片格式,数码相机和扫描仪都可以完成这个任务。不过由于数码相机存在镜头畸变、透视变形等问题,拍照得到图片中的直线看起来是歪的,而后续处理又要花费大量的时间,有点得不偿失,因此应当将扫描仪作为转换成图片格式的首选工具。同时,为使扫描速度和精度能有一个很好的平衡,也为后续OCR识别有较高的准确率,扫描时宜选择成像颜色为黑白,扫描仪分辨率调整为300dpi左右;如扫描得到的表格图片有一定角度的倾斜,还须在扫描后使用图像处理软件进行倾斜纠正。

2.OCR识别

在兼顾OCR识别速度、准确率的前提下,OCR软件选用ABBYY FineReader Professional Edition,同时因水文整编成果表大部分是表格和数字,为提高识别准确率,首先设置软件的识别语言为纯数字,如图1。

图1  识别语言设置

识别前,首先在需要识别的内容上画出表格块,如图2。

图2 画出表格块

然后分析表结构,程序自动画出表格线,如果程序自动画出的表格线有缺少或多余的,可以人为添加或删除,确保是所需要的表结构(图3)。

图3  分析表结构及画出表格线

接着选择图3中的Read Block,读取表格块的内容。最后将OCR识别出来的数据导出到Excel软件,用校验程序进行最后的处理。

3.OCR识别后的处理

要确保识别数据的准确性,就需要对识别得到的数据进行校验。校验的方法根据水文数据成果表的特点分成两类。对于如逐日降水量表、逐日最高最低潮(水)位表、逐日水温表、逐日蒸发量表、逐潮高低潮位表等能直接得到原始数据加工文件的,可先得到原始数据加工文件,再用资料整编软件进行整编,最后用生成的成果表同纸质成果对照一下月年特征值,如有错误,则修改后再进行整编,直到同纸质成果相一致;另一类如逐日平均水位表、逐日平均流量表等无法还原得到原始数据加工文件的,则将得到的表格数据首先复制到往年的成果表中,通过计算月均值、获取年特征值来达到校验的目的。

三、结语

实践证明,采用OCR识别技术及成果校验程序,可以识别和还原各种水文资料整编成果表;可以提高表格录入效率,减少人为录入数据的错误,节省大量人力;为水文资料整编成果的数字化提供了一种切实可行的方法,也为水文资料整编数据库的建立打下坚实的基础■

(作者单位:1.江苏省水文水资源勘测局苏州分局2151292.江苏省太湖地区水利工程管理处215128)

猜你喜欢
电子表格原始数据扫描仪
便携式膀胱扫描仪结合间歇性导尿术在脑卒中合并神经源性膀胱患者中的应用
受特定变化趋势限制的传感器数据处理方法研究
以电子表格为主线的高职院校“大学计算机信息技术”课程的教学探索
三维扫描仪壳体加工工艺研究
电子表格的自动化检测
电子表格的自动化检测
浅谈电子表格技术在人事管理中的应用
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
便携高速文件扫描仪
巧用EXCEL电子表格计算土地面积