数据湖技术在档案信息资源共建中的应用

2018-01-24 01:31李曼寻
山西档案 2018年2期
关键词:资源用户信息

文 / 李曼寻

大数据时代档案信息资源具有数量庞大、来源及类型多样、形式多元等特点,传统的档案管理与服务模式已经不能适应新技术环境下档案用户个性化、多元化、高效化和智能化的档案信息利用需求。革新档案工作服务模式,打破“信息孤岛”的困局,加快实现档案信息资源共建共享,日益成为时代发展的要求和广大档案用户的心声。[1]数据湖技术作为一种不同于原始数据库的数据存储架构,支持所有的数据类型,可以保存大量的结构化、半结构化和非结构化的原始数据,并将原始数据分类存储到不同的数据池,在各数据池里对数据进行优化整合,并转化成容易分析的统一存储格式。用户可以根据不同需要来挖掘数据资源,分析数据内容,发掘数据价值并加以利用。具体来说,数据池是能够存储大量来源、格式不同数据的存储空间,而数据湖则相当于包含多个数据池的巨大数据存储世界。[2]如果把一张磁盘上存储的数据比喻成一滴水,那么一个能够承载一座城市海量数据的大数据中心,就可以被称作是这个城市的数据湖。[3]数据湖技术作为大数据环境下产生的一种新技术、新架构,已被初步应用于商业、交通、气象等领域,并取得了一定的成效。因此,将数据湖技术应用于档案信息资源共建,对实现我国档案工作现代化具有重要作用。

一、数据湖技术的特点

数据湖与大数据在概念的内涵和外延上有许多相似之处。大数据是一种捕获、管理、存储、分析和处理数据的能力都远远超过传统常规数据库软件工具的数据集合,是需要新的处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。[4]根据大数据的特征,笔者认为数据湖技术具有以下特点。

(一)存储空间海量化

在大数据时代,数据量呈指数级增长,传统数据库的架构难以适应数据量疯长的情况,存储空间有限。因此,需要一个新的可以满足海量存储需求的“容器”来作为大数据的支撑。 数据湖就是那个可以存储海量数据的庞大“容器”。它汇聚吸收各个数据源流,容纳散落在各处的数据,存储空间巨大。

(二)存储格式兼容化

从功能角度分析,数据湖技术面向多数据源和所有数据种类,可以快速地存储、录入和计算大量来源不同、格式迥异的原始数据,包括文本、图片、声音、网页等各种无序的非结构化数据,把不同种类的数据汇集到一起,对数据进行管理并在数据之间建立链接,具有很强的兼容性。

(三)数据类型多样化

数据湖中存储的数据凌乱纷繁,包含多种类型,具有多样化的特点。从数据特征角度分析,如果把每一种数据看成是一种颜色,那么数据湖就相当于一个汇集多种色彩的调色盘,就像把不同的色彩融合在一起会形成新的色彩一样,不同种类的数据通过智能化集成等方式结合在一起,可能会产生新的甚至高于原始数据的价值。

(四)数据处理高速化

数据湖技术能将各数据池中的原始数据快速转化为可以直接提取、分析、使用的标准格式,统一、优化数据结构并对数据进行分类存储,根据用户需要从数据池中对数据进行快速的挖掘、查询、选择和处理,并实时传递给用户,同时对数据的使用量和使用频率等因素进行实时、精准的计算,分析用户的信息需求,为数据的收集、摄取、管理和开放提供参考。

(五)数据价值增值化

数据湖中的原始数据根据类别被提取到不同的数据池中,在数据池中被标准化后,再根据其在未来被提取利用可能性的大小,决定该数据存储的最终位置,并在它们之间建立起一定的联系,使用概率较小的数据被存储在文档数据池中并重新被标准化。用户可以从数据池中大量挖掘、提纯数据,分析数据间的关联并用于特定需求。这种数据处理模式既可以令高使用率的数据充分发挥价值甚至实现增值,也能使那些长期不被挖掘的低价值数据焕发新的活力,重新被利用并创造出新的价值。

二、数据湖技术在档案信息资源共建中应用的必要性

(一)数据湖技术有助于增强档案信息资源共建意识

古人逐水而居,今人逐数据兴业。大数据时代的到来令档案机构在管理思维与管理方法等方面都发生了深刻的变革。对于国务院提出的“运用互联网和大数据加强横向联系,让数据多跑路,群众少跑腿”的要求,[5]档案机构有必要思考从何种角度和层次运用何种方式和技术,去开发、管理、利用和开放档案信息资源,以实现公共档案信息资源的共建、共管和共享。与原有数据库工具将数据分开存储不同,数据湖技术将抽象的海量数据概念比喻为具体的“数据湖”和“数据池”,就如同“江河入海”一样,可以在未知需求之前收集数据,将不同来源的原始数据集中迁移到一个平台,具有巨大的潜力。数据湖技术还支持跨共享基础架构的多种数据访问模式,面向所有用户,方便各种用户按照不同需求配置或重新配置数据,满足他们所能想象的任何需求。数据湖技术通过改变数据存储策略,减少档案工作者的工作量,转变服务观念和服务思维,节约用户时间并实现用户自助服务,促进档案工作业态的升级转型。因此,数据湖技术的应用可以增强档案信息资源共建意识,为档案机构之间进行共建合作、创新共建方式带来灵感。

(二)数据湖技术为档案信息资源存储提供新平台

在大数据时代,电子档案信息种类繁多,数量呈爆炸式增长。为了在浩如烟海的电子档案信息中捕捉到有价值的可利用的信息,需要一个能够容纳无穷多数据信息的巨大信息库,以便在满足庞大存储需求的同时,精准而快速地对数据进行捕获、分析、加工和处理。而常规的数据库工具似乎已经不能充当这样的信息库来发挥这些功能。因此,需要一个新的可扩展的具备这些功能的架构来为数据提供存储平台——数据湖。在档案信息资源共建的过程中,数据湖可以作为后台数据融合载体容纳所有数据,包括长时间的原始数据以及任何已处理的数据,并对数据进行优化整合,充分发挥“包容”和“兼容”的作用,为数据存储提供一个档案机构范围内的集中平台,推进档案信息资源共建,从而加速实现档案信息资源共享。

(三)数据湖技术有助于创新档案信息资源共建方式

技术的革新会引起管理方式的变革和用户需求的转变,大数据时代预示着电子档案会以数据流的形式动态地生成、快速地甄别、实时地存储。因而用户对于档案信息服务方式提出了更高的要求,对档案信息数据获取、处理的时效性和准确性等需求将更为强烈。[6]数据湖技术可以在不牺牲数据结构的情况下实时摄取、存储档案数据,及时将数据转化为适当的格式并分类存储到各数据池中,且不受初始模式决策的限制,不需要预定义的模型就能对数据进行分析,使档案机构更容易收集所有类型与大小的数据,并将其放于集中的平台上。数据湖技术还能为各档案机构进行档案信息资源共建提供合作平台和技术媒介,当用户要进行数据访问时,可以自行从数据池中提取有用的数据,并在线进行判析、选取、细化和丰富,从而实现跨层级、跨部门、跨地域、跨系统的档案信息资源查询和利用。因此,数据湖技术既为档案信息资源共建提供了技术保障,也为创新档案信息资源共建方式开辟了新的路径。

(四)数据湖技术有助于提高档案信息资源共建效率

随着网络技术、计算机技术等信息技术的出现,档案信息形式和档案信息资源范畴随之改变,电子档案大量涌现。若继续用传统的思维和方法对档案信息资源进行整理、加工和处理,不但难以从档案信息资源中挖掘出高价值的有效信息,长此以往,可能会造成用户体验不佳、用户对档案机构的信任感降低甚至缺失等后果。数据湖技术可以在保管数据的基础上,在各机构之间进行实时的档案数据交互,允许多点采集和多个数据访问点,提高数据的灵活性、可访问性和访问速度。同时,数据湖技术还能进行高性能的数据分析,实时统计、运算各类数据的提取和利用情况,既为档案机构采集档案信息提供决策依据,也为档案信息资源共建平台开发、更新和开放档案数据信息提供参考,优化档案利用服务工作,从而提高档案信息资源共建的效率。

三、数据湖技术应用于档案信息资源共建的优化策略

(一)与云计算技术结合优化档案信息存储

档案机构是政府长久保存档案的基地,数据湖技术是大数据环境下的产物,在档案保管方面具有持久性的特点,这在一定程度上为档案机构保存档案和进行档案信息资源共建提供了助力。但凡事都有两面性,数据管理及利用不善易形成“数据沼泽”。数据湖中有很多数据永远不会删除,对于使用率较高的档案信息,其归置和处理还比较容易,但有些低利用率的历史档案信息除了偶尔能发挥分析作用,更多的是沉淀在数据池中,被用户忽视,难以抵消其容量成本。[7]长年累月的低价值数据堆砌,会导致数据湖中无用数据泛滥,使数据湖有慢慢演变成“数据沼泽”的风险。为了避免此类情况的发生,档案机构必须采取有效措施加以防范。

具体来看,档案机构可以将数据湖技术与云计算技术相结合,共同作用于档案信息资源共建,从而优化档案信息的存储,并形成“天上有‘云’,地下有‘湖’”的档案信息存储模式。数据湖之上可以飘着多个“云”,天上的“云”负责收集、计算和分析终端用户的行为数据,为地下的“湖”实时制定数据存储决策提供助力,从而保证完整的数据洞察和分析能力;“湖”里的数据池负责优化档案数据的存储格式和结构,保持高度敏捷性并根据需要对数据进行再配置,以实现档案信息价值的持续保持和再利用。[8]就像兴修水利一样,筑湖蓄能——存储和引入新数据,建站发电——处理和配置数据,开闸放“水”——开放和利用数据,发挥数据湖技术基础设施的乘数效应,[9]减少存储成本的投入,避免存储空间的浪费。

(二)采取多种措施保障数据湖中档案信息安全

数据湖技术的架构可以简单理解为将所有的鸡蛋放在一个篮子里,在数据湖中很多数据都是以易于读取的格式存储于数据池中,就像一个鸡蛋在篮子里受到撞击会波及到其它鸡蛋一样,如果数据湖技术的架构不够安全,一旦其中一个数据池的安全遭到破坏,那么数据湖中所有的数据将有可能被未知方访问、篡改甚至损坏,从而使档案信息安全受到威胁和挑战。因此,我们必须加大档案信息安全防范的力度,加强档案信息安全保障技术研究,建立坚实的档案信息安全壁垒,实现多个方面的安全控制。

首先,档案机构可以将Kerberos用于用户身份验证,同时依据用户的角色、信用情况和档案利用目的等指标,设置不同等级的数据访问和使用权限。其次,档案机构可以对数据湖中的档案信息按密级和重要程度进行分类,将密级高、重要程度深的档案信息设置为WORM(Write Once Read Many)模式,从而在不影响数据应用访问的前提下有效地防止数据破坏和篡改。再次,档案机构可以将数据湖中所有档案信息的副本离线存储在另外的可信任的数据信息第三方存储库,实现数据的异地备份,并支持离线数据和访问端数据的加密,从而为档案信息安全提供双重技术保障。最后,档案机构可以设立档案信息系统安全等级保护机制,建立健全档案信息安全防范体制,在制度上实现对档案信息安全的保护。

(三)完善与数据湖技术相关的法律法规与标准

《全国档案事业发展“十三五”规划纲要》中强调,要加快档案信息资源整合,推进档案信息资源共建进程,实现档案信息资源的开放共享。而关于如何树立档案机构在大数据环境下的档案信息共建意识,调动人们学习使用数据湖技术来进行档案信息资源共建的热情和积极性,以及对于数据湖技术的基础设施建设方案、资金、人才引进和培养等问题怎么解决,目前还没有具体的政策来给予引导和支持。这些“硬件”问题的解决,需要相关的法律法规与标准等“软件”武器作为解决方案的支撑和保障。

自2010年至今,我国已颁发了部分与数字档案信息资源建设相关的技术方面的行业标准或地方标准,如《DA/T 49-2012特殊和超大尺寸纸质档案数字图像输出到所谓胶片上的技术规范》《DA/T 57-2014数字档案COM和COLD技术规范》《DA/T 57-2014档案关系型数据库转换为XML文件的技术规范》《DB22/T 2237-2015质量技术监督行政处罚案卷电子档案制作及管理规范》[10]等,但缺乏国家层面的关于某一技术应用于档案信息资源建设的法律法规与标准。因此,笔者建议尽快从国家层面补充完善应用数据湖技术进行档案信息资源建设的法律法规与标准。例如,制定《档案数据汇聚政策》《档案信息开放规则》《档案信息资源共建标准》《数据湖技术在档案实践工作中的应用指南及规范》《档案机构应用数据湖技术共建档案信息资源的原则》等,从而消除档案机构在档案信息资源共建中的各种疑虑和顾忌,推进档案机构依法治理和开放档案信息资源,使法律成为助力档案机构运用数据湖技术进行档案信息资源共建的基本依据和有力工具,以加速档案信息资源共建的进程。

(四)实施“先行先试”,推进数据湖技术的广泛运用

长期以来,我国在经济发展上存在着区域之间发展不平衡的特点,经济的发展程度影响文化事业的建设。档案事业属于文化事业的范畴,地区间的经济差异必然会对档案信息资源共建工作的进行形成一定的影响。李克强总理在2018年政府工作报告中强调:“团结凝聚力量,实干创造未来。”[11]因此,档案机构之间应该加强交流协作,达成相关的档案信息资源共建协议,共同探讨推进数据湖技术广泛应用于档案信息资源共建的方案。笔者认为,档案机构可以实行“先行先试”的策略,在经济较发达、有条件的地区,优先尝试数据湖技术在档案信息资源共建上的建设和运营,摸索、积累一定的经验后,再通过“发达地区带动欠发达、不发达地区”的模式,加快推广数据湖技术应用于档案信息资源共建工作的速度,并使其慢慢辐射至全国。

与此同时,各级政府也要采取一定的措施,在相关政策优惠方面给予欠发达、不发达地区的档案机构一定的帮助。例如,各级政府可以通过财政拨款、技术扶持、引进培养复合型档案专业人才以及施行统一的数据湖技术应用规范和制度等方式,加快这些地区档案信息资源共建工作的发展步伐,并尽可能地缩小不同区域间档案机构的差异。因此,实施“先行先试”可以促进数据湖技术在不同地区档案实践工作中的同步应用,推动各地区档案机构在档案信息资源共建中形成良好合作,打造属于档案领域的智能数据湖,从而让用户真正地从中受益。

[1]韦慧.天津:数据湖打破公共数据孤岛[N].经济参考报,2017-11-09.

[2]郭文惠.数据湖技术——一种更好的大数据存储架构[J].电脑知识与技术,2016(30):4-6.

[3]范海杰.数据湖技术,沉淀一座城市的数据[N].徐州日报,2017-07-28.

[4]李屹蕃.电子文件新概念:这些新词出现在电子文件管理论坛上,出现在国家社科基金项目2018年度课题指南上[EB/OL].http://mp.weixin.qq.com/s/A-Nb2YEU5cBAHG1T8oAWPA,2017-12-22/2018-03-27.

[5]任力.大数据技术时代档案信息管理思维与方式的变革[J].科技资讯,2016(32):23-24.

[6]何振,杨文,唐思慧,邢文明.大数据时代档案学教育的新常态与实践拓展[J].档案学研究,2016(1):117-123.

[7]George Crump.除了成本,你还要关注的数据湖技术架构隐忧[EB/OL].https://searchstorage.techtarget.com.cn/6-15630/,2015-09-13/2018-03-30.

[8]邱燕娜.数据湖技术不能成为数据沼泽[N].中国计算报,2015-09-28.

[9]马利.建设政府数据湖技术[N].人民政协报,2017-03-14.

[10]王宁.快来看看最新的档案法律法规标准有哪些[EB/OL].http://mp.weixin.qq.com/s/tIwV4iZL4L-y3gdYHt9k cg,2017-03-17/2018-03-31.

[11]宋雅彤.深入学习《报告》,原来档案界有这么多事儿密切相关[EB/OL].http://mp.weixin.qq.com/s/FyO1bTULqwqDqMTPx Dwx7g,2018-03-08/2018-03-31.

猜你喜欢
资源用户信息
基础教育资源展示
一样的资源,不一样的收获
资源回收
订阅信息
资源再生 欢迎订阅
关注用户
关注用户
关注用户
如何获取一亿海外用户
展会信息