基于Hadoop系统的数字档案馆建设研究

2018-11-25 18:21海南医学院云雅
办公室业务 2018年17期
关键词:档案馆数字化数字

文/海南医学院 云雅

在我国的数字化档案管理研究中,数字化档案馆建设占据着十分重要的位置。而在新型数字档案馆建设中,以Hadoop系统为代表的数据处理技术发挥着重要作用。为此2016年海南省哲学社会科学规划课题“基于分布式系统的档案资源集成平台模式研究”【项目编号:HNSK(ZC)16-47】,并将其研究成果应用于数字化档案馆建设中,为新型数字化档案建设提供技术理论支持。

一、新型数字档案馆技术特征

与传统的数字档案馆相比较,新技术的应用是新型档案馆的主要特征。而在档案馆系统建设中,其主要的新技术包括了以下几类:

(一)Hadoop系统技术。在新型数字化档案馆系统建设中,Hadoop技术的应用极为广泛。Hadoop系统的应用主要是由于其具有HDFS数据储存与MapReduce数据处理两个主要系统。这两个系统在档案管理中可以发挥高效的储存与管理作用。在档案信息管理中,HDFS系统具有海量数据存储作用,实现PB级别数字档案的储存;而MapReduce则是一个高速的数据处理系统,实现了档案信息数据的高速处理。在实际的Hadoop系统实践应用中,其主要优势包括了较高的可靠性、系统存储与处理的高扩展性与错容性、数据处理的高效性以及较低的计算成本等诸多优势,因此在数字档案馆建设技术支持中得到了广泛应用。

(二)云技术的应用。在新型数字档案馆建设中,云技术是其数字化建设的重要组成部分。单就目前的建设过程而言,与Hadoop系统配合的云技术主要包括了云计算、云储存以及与共享体系三个主要内容。1.云计算技术。在当前的云技术研究中,云计算技术是依托互联网资源池,利用网络资源开展的一种计算模式。目前应用中较为常见的云计算模式包括了公有云、私有云以及混合云三种形式。在三种云计算模式中,私有云计算因其具有的可靠性与安全性能高、数据计算可扩展性能强、系统计算服务成本低以及较强的管理性能,已经成为新型数字档案馆采用的主要云计算模式。2.云存储。云存储技术是一种整合网络资源,形成的云平台数据存储与管理的计算服务系统。与传统储存技术相比较,这种技术具有接近无限的存储空间以及较高的数据存储安全性,对于大数据支持下数据存储量极大地数字化档案馆可以起到很好的数据存储作用。3.云共享体系。在当前的数字化档案馆建设中,档案资源的网络共享已经成为档案馆建设的重要内容。因此利用云平台建设高效安全的档案云共享体系,就成为档案馆建设技术研究者的重要研究内容。

二、数字档案馆建设技术应用

在数字化档案馆建设中存在的主要问题是如何解决内容复杂、数量庞大的各类照片、视频、电子公文、网页等文件,并将其进行有序的整理,进而实现档案的存储、借阅、共享等各项功能。在这些问题的解决过程中,技术人员应利用Hadoop分布式技术,将档案馆中所需的海量数据信息利用MapReduce系统处理后,再将数据信息存储到可扩展分布式数据库中,进而为档案馆建立一个与云平台合作的档案管理系统。

(一)档案馆网络平台架构总体建设。在档案馆数字化网络平台的建设中,其网络基础平台应由多个数据服务器集群组成,其中的核心系统包括了以下几个主要部分:一是数据档案馆Web服务器。二是档案信息存储使用的数据存储服务器。三是应对档案突发事故的容灾备份服务器。四是Hadoop系统自带的集群服务器。其中Hadoop集群服务器在网络平台构建中可以起到以下三个作用:首先是可以满足档案信息数据增加以及应用需求复杂变化性。其次是实现网络平台的扩展性。最后是实现网络平台用户的透明度。这个整体平台的建设,是数字档案馆数字建设的基础。

(二)档案数据管理平台系统设置。在数字档案馆数据管理平台建设中,其系统包括了数据存储、数据管理以及应用和接口三个主要系统。1.档案数据存储硬件设备。在当前的数字化档案数据存储中,硬件数据存储设备(物理硬盘)依然较为常见。这种设备在数字化档案管理中具有稳定、廉价的特征,主要用于储存档案馆自身数字转化为档案内容,如文化扫描后的文件、数字化后的视频音频文件等。2.网络平台的数据管理。数字档案馆除了自身的硬件数据库外,有云平台提供的海量数据存储处理也是其重要的数据管理内容。在这一管理搭建中,Hadoop系统的作用包括了以下两个主要组成部分:一是通过HDFS系统的海量存储优势,完成对云平台挖掘数据的储存。二是通过MapReduce、Hbase、Hive、Pig、ZooKeeper等系统,对储存的数据进行分析处理,完成数据的管理过程。3.系统的应用与接口系统。这一系统主要是负责系统操作应用,系统与云平台的连接等工作,因此其直接面向档案使用者。主要的使用功能包括档案信息数据的归档、档案检索读取、云平台的信息共享等界面操作。同时在运行中还需要负责控制者控制权限认定、身份认证以及相应软件设计算法接口等工作。

(三)系统功能构建。在Hadoop支持下的档案管理系统的核心是其云存储平台。因此这一平台系统的功能设置也是档案系统构建的主要内容。在功能系统构建中,其主要的功能模块包括以下几点:1.用户管理功能设置。这一功能主要包括以下几个内容:一是档案管理与使用用户账号注册。二是用户登录以及用户身份认证。三是用户档案使用与管理权限设置。四是档案管理者与用户相互间的通信管理等,都是用户管理功能设置的主要内容。2.档案信息数据管理功能。这类功能主要包括管理者与使用者信息数据上传与下载功能;信息数据的删除、恢复、备份功能等。3.系统的集群管理功能。这一功能主要是对系统集群的状态、节点与任务等进行管理。同时管理功能还对云平台中的网络日志以及数据处理日志开展保存与分析处理,确保其网络功能正常。

(四)云功能。在信息数字档案馆技术设计中,云功能的实现是其重要的技术支持。在云功能设置中,其主要功能包括以下几个主要组成部分:1.数据挖掘技术的应用。在新型档案馆设置中,云功能支持下的数据挖掘技术是档案馆海量数据形成的基础。在数据挖掘技术的支持下,档案馆馆藏档案的数量、类型都远远高于传统数字化档案馆。2.云共享功能。档案在云平台的共享是新型档案馆的主要功能。而在Hadoop系统支持下,档案资料在云平台的共享得到了有效的实现。

(五)档案管理的安全功能。档案安全管理是档案管理的重要组成部分,也是档案管理平台构建的核心功能。在实际使用中,Hadoop虽然具有稳定性,但是其安全性能较差。因此档案系统设计者应在系统计算机与云安全两个层面做好安全管理功能设置。1.管理者与用户身份鉴别功能。主要是通过口令授权、秘钥、数字证书等方式,进行组合用于鉴定管理者、用户的管理与档案使用级别,进而保障档案管理的安全性。2.安全日志管理。主要通过对系统中的安全日志管理分析,进而对系统安全事件开展预警工作。3.备份与恢复功能。主要是对档案数据开展自动备份,继而在数据损坏或遗失的情况下及时恢复,保障档案数据的完整。4.密码设置。主要是针对保密级别的档案设置保护密码,确保密级档案安全。

三、结束语

在当前的数字化档案馆建设中,Hadoop系统与云平台的有效结合,发挥着重要的技术支持作用。因此我们以Hadoop系统为核心,结合云平台与软件系统开展了数字化档案馆管理系统研究,为档案技术发展提供有效支持。

猜你喜欢
档案馆数字化数字
推动内部审计工作数字化的探究
数字化赋能农业提质增效
关于智慧档案馆与数字档案馆的关系探讨
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
答数字
数字看G20
when与while档案馆
成双成对
北京市第三届“档案馆日”活动预告