大数据时代下档案数据治理的困境与对策探析

2023-05-29 18:13岳林恒
档案天地 2023年5期
关键词:数据安全档案馆

岳林恒

在大数据时代下,信息消费和主体互动产生的数据,已经呈现爆炸式增长,学术、商业和政府领域在大数据时代下也在逐步向“数据化”转型,档案事业也不例外。数据是作为重要的生产要素和国家的战略资产,其中档案数据是作为社会的隐藏财富,积极助力国家现代化建设。“十四五”规划明确提出了“加快数字化发展”“保护数据资源产权”的战略定位,为今后在大数据时代下开展档案数据治理工作,提出了相应的顶层设计与策略。不仅如此,2021年甘肃省、黑龙江省、陕西省等地方“十四五”档案事业发展规划都明确指出档案数据治理是重点科研攻关任务之一。可见档案数据治理是大数据时代国家治理体系的重要手段和建设内容,也是档案资源的数据化背景带来的重大挑战之一。如何进一步加强对档案数据的治理迫在眉睫,是档案工作者和专家需要解决的问题[1]。对档案数据治理的研究,有利于档案部门更好地履行新时代下的职责,也利于档案事业本身的发展,完善档案学科理论体系。

一、我国档案数据治理相关研究综述

2016年在《全国档案事业发展“十三五”规划纲要》中提出“推动档案数据开放共享、保障档案数据安全”后,加上如今大数据时代背景下,档案数据治理问题在学界得到的关注度越来越高。首先从治理主体视角出发,刘越男[2]、 杨晶晶[3]分别从档案部门主体、我国企业角度出发,探讨了不同主体该如何参与实现档案数据治理;杨茜茜[4]则据档案数据特征提出了治理研究的理论坐标体系。其次从治理方法角度出发,常大伟[5]、潘娜[5]等从宏观和微观研究来提升档案数据治理能力;陈永生[6]、王沐晖[6]等人从政务服务平台出发来完善档案治理;金波[7]、杨鹏[7]通过新兴信息技术赋能档案治理智慧化。最后,档案数据治理的安全研究也是档案数据治理体系的重要前提,金波[8][9]、杨鹏[8][9]、周林兴[10]、韩永继[10]等着重论述了一系列可行的档案数据安全治理的方法与成熟度评估模型。这些研究成果涉及各种视角下的档案数据治理,从理念内涵、意义特征、治理重点、治理安全、開发模式、方案构建等多方面揭示了档案数据治理问题研究的丰富性。基于此,本文将围绕我国档案数据治理的现状和困境,运用生命周期理论、以多元主体协同共治为落脚点来展望治理路径,旨在为我国档案事业与档案数据治理工作提供有益的借鉴。

二、档案数据治理内涵及重要性

(一)档案数据治理的内涵

档案数据治理,是指档案部门以多元协作的方式,通过运用数据治理技术,在符合相关法律法规情况下,以确保档案数据的真实完整性、安全共享、价值增值为目的,全面实施档案数据的全生命周期治理,达到档案数据善治的效果[11]。大数据时代下档案数据来源广泛、涵盖的内容更杂乱,治理对象是具有档案属性的各类数据资源,不仅仅包括以往政务、企业和个人的档案,新闻媒体、社交媒体和网页等所产生的档案属性数据,也被列入档案数据治理的范畴。对档案部门的工作提出了更高的要求与国家治理体系相匹配。

(二)档案数据治理的重要性与必要性

一方面,档案数据治理在国家治理体系中占有举足轻重的地位。档案治理能力的内涵应与国家治理能力的内涵同源,档案工作由于其自身的政治文化属性,档案数据治理既是构成国家治理体系的重要组成部分,也是实现国家治理体系现代化的重要手段。档案数据治理要在全社会范围内开展,加快档案治理水平和档案治理能力现代化,成为推进国家治理体系现代化的助推器,为实现“十四五”规划的顺利完成做出新的贡献。

另一方面,档案数据治理是推动档案工作转型的力量。从治理的主体上来看,过去档案机构单打独斗的工作模式,与如今的大数据时代发展不相适应。现档案数据治理,需要以档案机构为主体,领导社会组织机构、民众多元主体协作共治。从治理的客体上来看,档案数据治理是适应大数据发展的必由之路,随着大数据的不断发展,档案数据的存储、管理和服务方式也在不断变化,社会大众对档案数据的需求日趋个性化、智慧化,迫使传统档案管理工作模式向档案数据治理模式转型。

三、档案数据治理现状及困境

我国档案数据治理工作正在蓬勃发展,部分城市已经走在前列。近年来,档案数据中心建设项目如雨后春笋般涌现出来,例如浙江省档案馆[12]、三明市档案馆[13]、益阳市档案馆[14]等积极建设档案数据中心,作为全面收集、整合档案数据的资源管理平台,利于档案信息化建设、政务数据的归集和整合,大幅提升档案数据治理水平。对于档案馆内部的数据整合,例如杭州市档案局开发了一个数据集成平台——杭州市电子业务数据归档系统,可以有效地整合、保存、管理、利用各类业务数据,增加了档案部门保存的数据种类和数据量,弥补档案部门间的“数据缝隙”,提升了档案部门数据治理效能[15]。大数据时代下档案馆构建的各类档案数据库也积极助力档案数据治理,例如莱州市档案馆构建的专题档案数据库,不仅盘活数据,提升档案公共服务能力,还能深入挖掘资源获得历史启示,为当地领导的决策增加前瞻性与档案支持,提升治理绩效[16]。

虽然我国档案数据治理工作已经初见成效,传统的档案管理也正在逐步走向档案数据治理,但是我国整体档案数据治理情况仍参差不齐,存在滞后性和失衡性。受资金、人员、信息技术等因素的影响,特别是档案数据治理落后的地方档案馆,很可能简单地将档案数据治理看作是档案数据的整理和保存,忽略了档案数据治理对社会的效益和价值,工作重心放在了简单的档案数据组织工作上,如收集、整理、电子化等基础环节。总之,在大数据时代背景下,数据增长与治理落后、海量数据与价值开发等矛盾日益凸显,档案部门应积极满足公众的数据需求[17],提升公共服务能力与国家治理现代化相匹配,在档案数据治理中数据质量、价值挖掘、数据安全风险等问题值得被重视起来。

(一)档案数据质量参差不齐

一是档案数据规模大。2021年底全国档案部门馆藏电子档案数据1629.9TB,不仅档案数据量大,而且目前档案数据的处理对人工的依赖程度高,且数据处理的效率低,数据质量不易控制,会影响档案的完整性,加上数据量大,进而影响档案的使用效率[18]。二是来源渠道多样化,结构各异。具有档案属性的信息都可以纳入档案数据治理中来,例如文档、表格、网页、音视频等。档案机构部门各自系统建设情况不同,缺乏统一的档案数据标准,既增加了多元档案数据整合的难度和复杂性,还容易造成档案数据标准各异,并且容易导致整合后的数据质量参差不齐。例如,建设浙江绍兴市的档案数据中心时,经常出现档案数据结构标准不一,极大地增加了建设难度[19]。三是影响了档案后续的工作。对质量不一的档案数据很难直接进行发掘开发,参差不齐的档案数据质量增加了后续开发利用的成本,这对些档案数据的治理又提出了新的要求。

(二)对档案数据价值挖掘不足

一是档案数据价值意识不高。档案机构等单位保存了大量、丰富的档案数据资源,但对档案中的数据缺乏价值意识,受以往“重收藏、轻利用”理念的影响,习惯被动地去利用开发档案,只有部分档案数据利用频繁,浪费了丰富的馆藏资源数据,满足不了精准化、个性化的档案需求。二是缺少信息技术支撑档案数据挖掘。尽管现有许多档案机构进行数据开发,但数据开发使用模式简单,主要是粗浅的编研材料和建立简单的检索框架,档案数据的价值挖掘、关联分析的治理技术等信息技术没有得到充分利用,档案数据的隐藏价值没有被充分发现,所蕴含的经济和社会效益没有得到体现。

(三)档案数据安全风险问题

数据安全是大数据时代档案数据治理的先决条件,档案数据安全风险能引起档案数据的损失、价值实现受到限制以及其他不确定问题。一是档案数据安全的法律不够完善。2020年修订的《中华人民共和国档案法》档案数据中有关版权、知识产权等问题没有明确的规范。由于数字化的档案数据内容信息可以被复制粘贴,与原本载体的关联度不高,因而数字化的档案数据不存在传统意义上的“原件”的说法,在人为的转移或者共享的过程中,容易发生一些数据安全性、知识产权相关的风险问题,对此相关部门缺乏必要的权属法律体系[20]。二是信息技术风险问题。大数据时代下信息技术日新月异,不法分子利用漏洞、网络病毒等方式入侵篡改档案数据等风险日益突出。由于档案数据本身的价值性、敏感性特点,极易导致其受到病毒入侵和黑客攻击。不法分子为了进行非法牟利从而入侵攻击、贩卖泄漏档案数据,并且档案数据篡改后不易即时被发现。例如,2016年2月王某辉用非法手段入侵某部委医疗服务信息系统,导致个人档案数据严重泄漏[21]。由此可见,档案数据安全在大数据时代下十分依赖信息技术,存在技术带来的风险问题。

四、大数据时代下档案数据治理的对策

基于信息生命周期理论,从档案数据的产生、组织和开发利用环节为切入点,来探讨大数据时代下的档案数据治理的对策,以多元主体协同共治来强化大数据时代下的档案数据治理能力,积极打造一个契合大数据时代下的档案数据治理安全环境。

(一)档案数据产生阶段

1.多元主体协同共治,增强收集力量

档案部门作为档案数据治理的领头部门,应该积极融入大数据时代,转变单一治理的观念。强调多元化主体协同共治,社会组织机构与社会群众要积极与档案部门合作,以多样化的收集方式来增强收集的力量[22]。档案部门要积极发挥主导作用,近年来对于保护和开发非物质文化遗产档案数据资源,档案部门应该走在前面。在收集非物质文化遗产档案数据资源时,要与图书馆和博物馆保持沟通,可以通過技术手段建立统一的资源平台,共建共治共享珍贵的数据资源。应该积极与当地大数据局达成合作意识,把数据平台链接共享,实现信息化数据化,从而打破信息壁垒。协同共治涉及多方主体,档案部门应该让各主体之间的利益得到协调,让各主体跨系统、跨组织、跨部门的合作形式多样。

2. 扩大收集范围,丰富数据构成

扩大档案数据收集范围,丰富非政务档案数据收集。首先,增加大数据下档案数据的构成种类。例如,加强对地方特色档案的保护和收集,地方特色档案数据资源反映了地方风俗、民俗等,是具有地方历史文化价值的特色数据,对地方社会记忆具有重要意义。其次,加强突发公共事件档案文献数据的收集。档案数据源于社会,其价值也应该回馈给社会。突发公共事件涉及社会全体成员,加强公共事件档案数据记录,建立更完整、更科学的国家治理体系。例如,全球性公共卫生事件新冠病毒疫情,档案部门增强了传染病暴发状态档案数据的收集,为今后突发公共卫生事件提供参考。最后,增加来自非政务性质档案的渠道,例如一些具有档案性质网站和媒体,提高档案数据为群众服务的能力[23]。

(二)档案数据的组织阶段

1. 引入数据处理技术

在大数据生命周期方面这个阶段主要针对档案数据预处理,将收集到的档案数据进行清洗、规范化、一致性等技术处理,使档案数据有序、统一,这一步是为了提高数据的质量,为后续的分析、利用打下基础。一方面,数据处理技术可减少对人工的依赖,不仅降低节约成本,还能有效地提高档案数据的处理速度。例如,浙江省档案馆使用科大讯飞的技术处理声像档案,实现自动编目和著录,极大地提高了效率。另一方面,数据处理技术可以提高档案数据的质量。例如成都市档案馆对于不能全文检索的档案数据资源,采用人工智能、图像识别技术进行分析提取,不仅提升档案数据质量也方便后续的发掘利用[24];又例如在组织档案数据时,可以使用数据仓库ETL工具即时删除无效的档案数据,把有效的档案数据存储在数据库中,从而提高了档案数据的质量。现依托于大数据的新的信息数据技术可以很好地处理档案大数据,档案数据作为更有价值、数量级别大的数据,引入新的数据技术是必不可少的。

2. 多主体协同组织档案数据

一是加强与当地文化机构沟通。当地文化机构对于档案的形成比较了解,在档案数据组织工作中,可以分辨出有效档案数据,也可以保障档案数据元数据的准确性和完整性。目前少数民族档案资料大都散落在各民族地方的文化组织中。档案管理部门加强与各民族文化机构的沟通,高效地组织、整理少数民族档案数据的同时,建立共享少数民族档案平台或数据库、元数据标准,突破档案数据组织的障碍。二是协同档案研究的社会机构。研究档案的科研所、高校、协会等社会机构在档案数据的组织中扮演着举足轻重的角色。例如,档案部门与研究档案的高校、机构,可以研究制定适用于本地区的档案数据组织标准、规范,推动档案数据组织的科学发展。三是发动社会公众群体。通过媒体或档案部门,一些档案数据可以让群众自发地进行组织整理,从而实现社会公众群体与档案部门共治的路径。

(三)档案数据开发与利用阶段

1. 技术赋能档案数据发掘与利用

档案数据的善治是为了对档案数据更深层次地进行开发和挖掘。首先,从内容文本入手发掘。由于档案数据具有复杂性和多样性,适用于大数据分析技术来开发挖掘,例如机器学习实现对罗马历史档案文献的自动转录[25];文本挖掘还包括主题挖掘,是一种基于文本属性特征的相关关系的分析,对专题档案数据的特征项进行文本主题分析,实现对专题档案数据全面分析。其次,引用新的展示技术利用档案数据。利用全息影像、人工智能等技术,创造出一种情景化的演示,让档案数据更加鲜活生动地展示出来,使用户沉浸在档案展示的場景中,从而让用户自身更好地利用档案数据的价值。最后,积极与信息技术公司协同合作。例如浙江省档案馆与阿里云计算公司达成智慧档案研究合作协议,合作研发并且准备将电子档案存证出证的区块链技术、档案便民服务技术等用于实践,积极探寻档案数据利用高效化、治理智慧化,以适应公众对档案利用的新要求[26]。

2.多元渠道提供个性档案数据服务

一是通过用户画像提供个性化服务。在各类用户之间收集用户的喜好,提供个性化的服务。例如,在非物质文化遗产档案资源开发,利用社交媒体收集档案使用者信息,识别其动机和喜好,利用收集的信息进行用户画像分析,把更精确的非物质文化遗产档案展现给用户。二是拓宽服务平台。可以通过微信平台、流行的短视频模式传播特色档案数据资源,使档案资源不再局限于档案馆,改变以往被动地开发利用档案的局面,提高群众利用民生档案的积极性。三是建立用户反馈制度。档案部门应积极调研和关心居民用户的档案需求,探索档案受用群体的档案使用轨迹和档案使用习惯,根据反馈结果不断调整档案数据管理制度,进一步对服务模式进行改进,提高档案数据的开发和利用。

(四)积极防范档案数据治理的安全风险

1.加强档案数据治理安全法治建设

一是加强目前档案数据安全相关法规体系建设。我国已经有《数据安全法》《信息安全技术大数据安全管理指南》等法律法规,但是在当前的档案数据治理中,仍然无法解决当前的安全问题。因此,制定相关政策来保障档案数据治理的安全,新《档案法》为出发点,确保档案数据治理过程中有法可依。解决档案数据在移交、储存、管理等权责问题和涉及数据隐私、知识产权问题,为档案数据的收集、组织、利用全生命周期提供法律依据 [27]。二是档案部门要强化主体执法责任。在档案数据治理的生命周期中依法管理,解决遇到的安全风险问题,做到勇于执法,违法必究。监督档案数据治理过程中的行为规范,摆正执法主体位置,清晰地划清权责范围,尽可能地避免数据安全风险的发生。

2. 构建档案数据安全治理体制机制

一是建立档案数据安全应急机制。结合档案部门的地理和社会环境,利用模拟虚拟技术构建应急预案,确保发生突发安全事件时,化解档案数据所面临的安全问题。二是建立安全协同机制。档案部门除了获得政府的支持,还要领导社会机构、公众参与到档案数据的安全治理中来,形成多元主体共治渠道。例如,档案部门、信息技术企业、高校信息科研所等多元主体协同共治,有效降低对“大数据”“云计算”等技术开发的难度,加强对档案工作各过程信息技术的治理力度,减少数据安全风险。三是运用信息安全技术构成技防机制。档案数据安全技术壁垒有效地保障了数据的完整、保密。特别是在档案数据的存储和利用阶段,运用加密技术、访问控制技术进行身份识别,可以限制部分访问人员对核心档案数据的权限,从而保护关键档案数据不被泄露。还可以利用隐私保护技术,防止档案数据在开发和使用过程中的泄露问题。应对网络攻击时,入侵检测技术可以帮助系统防止破解,即时检测修复系统漏洞。

参考文献:

[1]中办国办印发《“十四五”全国档案事业发展规划》[J].电子政务,2021.

[2]刘越男.数据治理:大数据时代档案管理的新视角和新职能[J].档案学研究 ,2020 (05):50-57.

[3]杨晶晶.设计企业档案数据治理体系研究[J].北京档案,2020(2):26-28.

[4]杨茜茜.概念、内容与定位:我国档案数据治理研究的理论坐标[J].档案学研究, 2021(06):28-34.

[5]常大伟,潘娜.档案数据治理能力的结构体系与建设路径 [J].浙江档案 ,2020(02): 27-29

[6]陈永生,王沐晖,苏焕宁,杨茜茜.基于互联网政务服务平台的文件归档与管理:治理观[J].档案学研究,2019(6):4-11.

[7]金波,杨鹏.“数智”赋能档案治理现代化:话语转向、范式变革与路径构筑[J].档案学研究,2022(02):4-11.

[8]金波,杨鹏.大数据时代档案数据安全治理能力成熟度模型构建[J].档案学通讯, 2022(01):29-36.

[9]金波,杨鹏.大数据时代档案数据安全保障探究[J].档案学通讯,2022(03):30-38.

[10]周林兴,韩永继.档案数据安全治理能力成熟度模型构建研究[J].中国档案,2020(12):79.

[11]金波,杨鹏.大数据时代档案数据治理研究[J].档案学研究,2020(04):29-37.

[12]浙江省档案馆. 浙江省档案馆启动省档案数据中心建设[EB/OL]. [2020-04-14]. http://www.zjda.gov.cn/art/2020/4/14/art_1229005493_42564205.html

[13] 福建省三明市档案馆办公室. 三明市档案馆(档案数据中心)建设项目奠基[EB/OL]. [2021-05-12]. http://www.chinaarchives.cn/home/category/detail/id/34430.html

[14] 益阳市档案馆. 市档案馆馆藏档案数字化率达100% [EB/OL]. [2022-06-24]. http://www.yiyang.gov.cn/yiyang/2/3/73/content_1607266.html

[15]梁凱.“最多跑一次”事项电子业务数据归档系统建 设实践——以杭州市档案局为例[J].浙江档案,2017 (8):31-32.

[16] 莱州市档案馆. 山东莱州市档案馆抓牢专题档案数据库建设[N].中国档案报,2022-04-25(2)

[17]何振,杨文,唐思慧,邢文明.大数据时代档案学教育的新常态与实践拓展[J].档案学研究,2016(1):117-123.

[18]赵生辉,胡莹.“档案数据化”底层逻辑的解析与启示[J].档案学通讯,2021(4):20-27.

[19] 周国刚.树牢档案数字化思维[N]. 中国档案报,2021-09-06(3)

[20]金波,杨鹏.大数据时代档案数据安全治理策略探析[J].情报科学,2020,38(9):30-35.

[21] 中国新闻网.浙江松阳破获特大侵犯公民个人信息案7亿条信息遭泄露[EB/OL].[2017-4-12]. https://www.chinanews.com.cn/sh/2017/04-12/8197266.shtml

[22]金波,晏秦.从档案管理走向档案治理[J].档案学研究,2019(1):46-55.

[23]钱毅.从“数字化”到“数据化”——新技术环境下文件管理若干问题再认识[J]档案学通讯,2018(5):42-45.

[24] 成都市档案馆.成都市档案馆深入推进档案智慧化发展加快融入智慧城市建设[EB/OL].[2022-07-12].http://www.chinaarchives.cn/home/category/detail/id/39516.html

[25]杨建梁,刘越男.机器学习在档案管理中的应用:进展与挑战[J]. 档案学通讯,2019(06):48-56.

[26]省档案馆与阿里云计算有限公司签订智慧档案研究合作框架协议[J].浙江档案,2020(09):9.

[27]肖冬梅,孙蕾.云环境中科学数据的安全风险及其治理对策[J]. 图书馆论坛,2021,41(02):89-98.

作者单位:湘潭大学公共管理学院

猜你喜欢
数据安全档案馆
云南省档案馆馆藏《东巴经》
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
全省部分档案馆新馆掠影
云环境中数据安全去重研究进展
太仓市数字档案馆成为“全国示范数字档案馆”
when与while档案馆
大数据安全搜索与共享