大数据时代档案数据资源整合探究

2022-11-26 03:30李佳男
档案与建设 2022年9期
关键词:资源整合资源

金 波 陈 坚 李佳男 海 啸 杨 鹏

(1.上海大学文化遗产与信息管理学院,上海,200444;2.上海市医疗保险事业管理中心,上海,200041)

档案数据资源整合是档案数据资源建设的重要内容。大数据时代,随着社会对档案信息资源需求的日益增长,档案数据资源布局的不均衡性、分散性、封闭性等成为共享利用的瓶颈,需要立足档案数据资源现状与管理实践,探索档案数据资源整合动力、整合模式和整合策略,利用现代信息技术手段对分散独立的档案数据资源进行整合汇聚、集成管理,打破档案数据孤岛,力争将离散、多元、异构的档案数据资源通过逻辑方式或物理方式联结成一个有序化、系统化、结构化的整体,构建档案数据资源共享空间,为档案数据资源互联互通和开发利用提供支撑。

1 档案数据资源整合内涵

大数据时代,新一代信息技术迅速发展和应用,档案管理工作对象逐渐由模拟态、数字态向数据态转型,档案数据成为档案学研究的新热点,档案数据资源整合也成为新的研究方向。根据档案信息资源整合相关概念,结合数据整合理论,档案数据资源整合的内涵是指:档案部门与社会组织协同合作,利用一定的技术方法,使分散保管的档案数据资源相互联结成为有序化、结构化、系统化的整体,实现档案数据资源集成和融合汇聚。档案数据资源整合对象是档案数据;整合范围应根据整合要求确定,既可以是一定区域内的档案部门,也可以是档案部门与形成机构,或者是档案部门与数据管理部门;整合方法是利用数据管理技术方式手段消除档案数据之间的格式异构、语义异构、系统异构和资源异构,打破档案数据孤岛,使档案数据资源从分散走向集成;整合目的是实现档案数据资源汇聚融合、互联互通、集成共享。开展档案数据资源整合具有重要意义:

一是促进档案数据资源有效集成。大数据时代,数据资源在各种平台和系统中大量形成,档案数据资源分散保管在各个部门和机构中,由于管理体制、软硬件系统、技术标准的差异,部门与行业间形成了“数据鸿沟”“数据孤岛”,如何将分散异构的档案数据资源实现集成统一管理,是档案数据资源整合的首要任务。将档案数据资源进行整合的直接目的就是为了解决“档案数据资源管理无序与有序、分散与集成、孤立与互通、异构与统一之间的矛盾”[1],实现档案数据资源结构标准化、管理系统标准化和运行平台标准化,破除档案数据管理壁垒,促进多源异构档案数据资源的集成统一和互联互通,激活档案数据资源的潜在价值。

二是提高档案数据资源管理与利用效率。通过整合,一方面,能够全面、直观地了解当前档案数据存量、种类和保存状况,发现管理环节中存在的漏洞与不足,以便完善与加强档案数据资源管理,有效提高档案数据资源管理效率。另一方面,档案数据资源由于分散、异构的特点,往往被存储在不同类型、不同地点的数据库中,用户为获取所需的档案数据资源常常需要访问多方数据库,不同数据库采用的查询语言、数据存储方式和数据表示形式往往也不一致,极大降低用户利用档案数据资源效率。而进行档案数据资源整合,对档案数据资源进行集成处理后,便可为用户提供统一通用的档案数据查询界面和检索语言,从而方便用户获取准确、完整、全面的档案数据资源,提高档案数据资源利用效率。

三是推动档案数据资源开放共享。我国档案工作历来十分重视档案保密工作,存在“保密保险,利用危险”的观念,档案资源的开放度较低,与发达国家存在较大差距。大数据时代,数据来源更加多元、数据异构更加突出、数据流动越来越频繁快速,为了加强对档案数据资源的管理,满足社会大众利用需求,充分释放档案数据资源价值,需要强化档案数据资源工作的整体布局和战略规划,通过技术和管理手段整合各社会主体形成的有价值的档案数据资源,加大档案数据资源开放开发力度,构建起跨层级、跨区域、跨部门的一体化档案数据资源交换共享平台,促进档案数据资源开放共享。

2 档案数据资源整合动力

档案数据资源整合在实践中受到多种因素推动,其中包括国家政策的支持、现代信息技术的应用、社会信息需求的拉动、档案资源整合的实践等方面。深入分析探索档案数据资源整合动力,有助于更加科学合理地开展档案数据资源整合工作。

2.1 国家政策支持

大数据时代,数据资源已成为国家经济社会发展的战略性资源,国家高度重视数据资源建设,出台了一系列战略举措,为档案数据资源整合提供政策支持。2015年,国务院印发的《促进大数据发展行动纲要》提出,“加快政府数据开放共享,推动资源整合,提升治理能力。”[2]2021年,《“十四五”全国档案事业发展规划》提出,“依托全国档案查询利用服务平台建立更加便捷的档案信息资源共享联动新机制,推动国家、地区档案信息资源共享平台一体化发展。”[3]可见,数据资源整合已成为提升国家治理能力的重要途径和手段。档案数据资源整合是数据资源整合的重要内容,国家出台的相关政策规划了档案数据资源整合发展蓝图,调动了档案部门主动开展档案数据资源整合的积极性和主动性,有力地推动了档案数据资源整合共享。

2.2 现代信息技术应用

现代信息技术对档案数据资源整合具有重要的推动作用,不仅加快了档案数据资源整合技术的升级,而且变革了档案数据资源整合的方式。一是为档案数据的整合共享创造条件。大数据、云计算等现代信息技术的广泛应用,能够实现档案资源数据化和档案数据资源虚拟存储,为档案数据资源的集约存储、整合利用、集成共享创造条件。二是推动档案数据资源的互联互通。档案数据来源于不同机构、不同部门、不同系统,数据类型多种、数据描述多样、数据内容多元,档案数据资源必然存在结构性异构和语义性异构等问题。[4]利用关联数据技术建立数字档案多维语义关联框架[5],能够实现分散、异构、跨界档案数据资源语义层的关联,有助于档案数据资源之间、档案数据资源与其他领域数据资源之间进行语义互操作;运用人工智能技术、集群技术、数据交换技术等贯通联结多元、分散的档案数据平台,能够实现档案数据在各平台之间的无缝对接和自由流动。三是促进档案数据资源的有效传递。随着移动通信技术的发展及应用,档案信息资源传播方式更加多维、传播速度更加快捷、传播范围更加广泛。“依靠互联网、卫星网等传输途径以及光盘、移动存储设备等传输体系,可以达成全方位、高速度传递档案资源整合成果的目的。”[6]5G、元宇宙等技术的发展与应用,为档案数据资源提供更加广阔的传播平台,推动档案数据资源在更大范围、更广空间、更深领域整合集成。

2.3 社会信息需求拉动

一是用户信息需求的转型。信息时代,“档案用户的信息需求呈现出多样化、网络化等新的特点,其利用目的也呈现出了多元化的发展态势”[7],需要档案部门提供及时、精准、高效、智能的档案信息服务和档案文化服务,激活社会对信息的各方面需求。二是组织管理决策的需求。大数据时代,政府组织决策面对的情况更为复杂多样,需要能够直接解决问题的知识方案。档案作为一种重要的信息资源和组织的核心知识资产,因其真实性、可靠性、原始性成为组织机构进行管理决策的重要参考和分析依据。对档案数据资源进行整合集成,运用数据技术对档案数据资源进行分析挖掘、知识关联和可视化,从海量数据中揭示出隐含潜在价值的知识单元,将档案数据资源转化为能够直接支撑组织开展管理决策的知识资源,有助于充分发挥档案资源的资政作用,提高政府组织决策能效。三是数字记忆建构的需要。大数据时代,社会各领域在进行实践活动的同时形成了海量的数据,档案数据资源作为社会实践活动在数字世界的映射,成为构建社会记忆的基础性资源。作为重要的记忆机构之一,档案馆承担着守护社会记忆的责任,在信息时代的数字记忆建设和存续中扮演着越发重要的角色。因此,为建构完整的数字记忆,档案部门需要联合其他信息机构、数据机构和个人协同开展档案数据资源整合,构建数字记忆资源集成空间,借助数字技术再现历史记忆、编织数字记忆。

2.4 档案资源整合实践

信息时代,为适应政府职能转变,优化政府管理方式,提高政府信息资源管理与利用效率,档案部门主动行动,积极推动档案资源整合。档案部门开展档案信息资源整合的早期实践主要有浦东模式、和县模式、深圳模式和顺德模式等。举例而言,浦东模式是2001年浦东新区提出整合档案管理体制、实行大档案机构框架的构想,其强调整合浦东新区档案局的综合档案工作、规划局的城建档案工作和建设局的房产土地档案工作,在体制上实行档案局、档案馆、城建档案信息管理中心,形成“三块牌子、一个机构、统一管理”的档案工作局面。[8]数字时代下,源于数字转型、电子政务等的推动作用,政府机构开始大力推行无纸化办公,数字档案资源体量增长迅速,为了满足公众多元化、跨区域的利用需求,档案部门针对数字档案资源也开展了一系列整合实践。如2013年,“浙江省丽水市建立‘1+9+N档案协同管理系统’,将市级、9个县(市、区)的党政机关和乡镇数字档案室整合到同一个网络平台上,形成了以市级为中心,9县(市、区)为节点的强大的云档案服务系统。”[9]

多层次、多种类档案资源整合实践的开展,为档案数据资源整合提供了实践依据和宝贵经验。一是在档案数据资源整合过程中要建立统一的数据平台。通过平台发挥聚集效应,实现区域内多方档案资源整合力量的协作,将区域内不同主体的档案数据资源加以有效整合,以实现对档案数据资源的集成管理和共享利用。二是顺应电子政务发展潮流。将档案数据资源集成整合融入到电子政务中,依托电子政务系统收集政府档案数据资源,推进文件、档案资源的一体化管理和整合。三是重点关注民生领域档案数据资源的整合。整合的目的是为了满足公众日益增长的档案利用需求,民生数据资源直接关系到公众的根本利益,需要强化主体协同,整合就业、教育、社保、住房、医疗卫生等方面的民生档案数据资源,满足公众档案信息和文化需求。

3 档案数据资源整合策略

《“十四五”全国档案事业发展规划》提出,“加大相关档案资源跨领域、跨区域、跨层级整合力度……推动档案全面纳入国家大数据战略,在国家相关政策和重大举措中强化电子档案管理要求,实现对国家和社会具有长久保存价值的数据归口各级各类档案馆集中管理。”[10]档案数据资源整合是一项系统工程,在实践中受到信息技术、标准法规、机构状况等多种因素影响,需要理念、管理、技术、平台多要素协同发力。应通过加强档案数据资源整合顶层设计、推进档案数据资源整合新技术应用、完善档案数据资源整合系统平台建设等策略,全面促进档案数据资源整合活动的开展与落实,提升档案数据资源整合能力,填平不同地区、不同层级、不同部门之间的“数字鸿沟”。

3.1 加强档案数据资源整合顶层设计

档案数据资源整合作为一项系统性活动,需要通过顶层设计来谋划布局、指引方向、营造氛围、激励主体、规制行动,为档案数据资源整合提供整体方案与上层牵引。

(1)制定档案数据资源整合规划

作为对档案数据资源整合的宏观管控,顶层设计首先需要做好档案数据资源整合规划,即明确档案数据资源整合总体建设与发展的思路、任务与目标,保证档案数据资源整合质量与效率,将档案数据资源整合纳入到科学、有序、预设的轨道运行,减少不必要的重复或冲突,指引档案数据资源建设,提高工作效率。第一,理清现阶段档案数据资源整合的发展环境与面临挑战,总结经验,认清态势,在此基础上制定规划;第二,明确档案数据资源整合的战略定位,对档案数据资源整合的指导思想、需求、目标、价值做出基本界定与判断,将之作为档案数据资源整合的基本出发点;第三,制定档案数据资源整合的主要任务,明确相关主体责任目标,使档案数据资源整合实践更有方向性和针对性;第四,确立档案数据资源整合实现指标,以便对照检查,保证档案数据资源整合质量;第五,确定档案数据资源整合保障措施与实施建议,如组织实施、科技支撑、人才培养、宣传推广、合作交流等,为档案数据资源整合提供行动指南。

(2)构建档案数据资源整合协同机制

档案数据资源整合要突破单一主体界限,在跨层级、跨系统、跨部门、跨区域间实现档案数据资源集成。为此,构建档案数据资源整合协同机制至关重要,通过疏通和协调档案数据资源整合的内外部关系,强化多主体协同共建,提高档案数据资源整合的广度、深度、全度,破除数据壁垒,实现数据共享利用。第一,构建档案部门间的协同机制。档案部门作为档案数据治理的“元治者”,是档案数据资源整合的主要场域。“按照‘统一平台、互联互通,存量共享、增量共建,物理分散、逻辑集中’的原则,利用大数据技术,打破部门隔阂和‘条块分割’的碎片化状态”[11],通过目标协同、工具协同、规划协同等具体机制路径,优化完善档案部门的档案数据资源整合模式,使档案数据资源在纵向、横向档案部门之间得以充分流通,打破层级隔阂、系统壁垒、区域限制,使各级各类档案部门成为档案数据资源整合的“共同体”。第二,构建档案部门与信息(数据)管理部门间的协同机制。大数据环境下,档案部门不是唯一的档案数据保管部门,很多档案数据资源流向其他数据保管机构。推动档案数据资源整合,需要档案部门主动出击,构建档案部门与信息(数据)管理部门间的协同机制,明确数据权责、共享方式、整合渠道,落实跨界整合,共同推动档案数据资源建设,促进档案数据资源有序流动和共建共享。第三,构建档案部门与其他社会主体间的协同机制。企事业单位、社会团体组织、民众个人等形成和保管的有价值的档案数据,诸如企业经营数据、公共健康数据、民情舆情数据、社交媒体数据等,也是大数据时代档案数据资源的重要组成部分,但这一部分档案数据资源通常游离于档案工作与档案部门管辖范围之外。实现对这部分档案数据资源的整合,形成档案数据资源群,需要档案部门加强与社会主体间的协同,引导激励社会主体参与档案数据资源建设,通过宣传引导、开辟渠道、搭建平台等措施,推动社会档案数据资源集成管理,保障社会档案数据资源融入到档案数据资源仓库中。

(3)健全档案数据资源整合标准规范

完善的标准规范体系是档案数据资源整合的前提,传统档案资源相关的规章、制度、措施难以适应大数据时代的档案数据资源管理。第一,强化档案数据资源整合法制化建设。法制化是实现档案数据资源整合的基础和保障。当前针对档案数据资源建设的相关法规制度缺乏,迫切需要制定专门的管理法规、指南、条例,推动档案数据资源整合,促进档案资源建设。第二,加强档案数据资源整合标准化建设。首先,推动档案元数据标准完善。完善档案元数据标准有助于推动档案数据在各个系统平台的交换和转换,实现档案数据关联集成,推动档案数据有序化整合利用[12];完善档案元数据标准要从本体角度出发,合理构建由形式和内容组成的档案数据资源描述体系。其次,制定档案管理软硬件标准。在档案信息化建设早期,各部门往往采用不同软硬件设施,相互之间难以兼容,档案数据难以进行转换和交换,档案数据存在丢失和失真的风险。因此,要着力推动档案信息化中的网络设施、应用软硬件、档案数据化、存储系统等的标准化建设,制定完善档案数据管理软硬件标准。最后,加强与各级标准的协调,做好标准的衔接工作,避免发生矛盾,维护标准的系统性,提高标准的前瞻性和适用性。

3.2 推进档案数据资源整合新技术应用

大数据时代,数据处理技术持续发展创新,数据处理效能不断提高。在档案数据资源整合中,应当注重关键技术和新技术的引进、选优、应用与推广,推动技术升级与技术赋能,让技术成为档案数据资源整合的重要驱动力。

(1)利用关联数据技术实现档案数据资源关联集成

关联数据是指通过明确的语义表达发布数据资源,使数据之间能够相互关联。关联数据技术在档案数据资源整合过程中很好契合了档案数据内容细粒度的整合需求,具有广阔的应用前景。首先,在档案数据资源整合集成中,可以从档案主题、类型格式、内容属性、时空范围等多个维度,通过计算相关度,建立档案数据资源之间定量化的语义关联,实现档案数据资源的智能管理和精准搜索。与此同时,还可根据用户需求,实现不同时间阶段、地理位置、专业领域档案数据资源的关联聚合,形成具有高度关联、能够满足用户需求的档案数据块。其次,通过关联数据的URI标识与复用机制,确定档案数据实体对象的URI标识,从而在实现信息资源的聚合、知识的关联的同时,利用关联数据自身携带的大量URI链接关联到更多数据集的信息,有效地扩大信息挖掘的信息量、信息范围和深度。[13]再次,通过关联数据的RDF描述与链接机制,将数据转换成关联数据所要求的RDF数据形式[14],利用RDF将分散保存的档案数据资源形成共享集成的关联数据网络,从而提高档案数据资源整合的深度和广度。

(2)利用知识图谱技术构建档案数据知识网络

知识图谱的本质是揭示实体间关系的语义网络,可以形式化地描述事物及其之间的相互关系。[15]大数据时代,档案数据资源整合将逐渐从传统的全宗级、案卷级、文件级过渡到语义层面,知识图谱技术对档案数据资源实现语义层面的整合具有重要意义。运用知识图谱技术实现档案数据资源语义层面的整合主要包括四方面:一是将多源异构档案数据进行结构化处理,统一成特定的格式。多源异构的档案数据既包括结构化数据、半结构化数据和非结构化数据,也有文本、图形、音视频等格式。二是进行知识抽取。包括实体抽取、关系抽取和属性抽取,主要运用专家法、爬虫法、机器学习等方法,构建档案数据资源的实体、属性和关系三元组。三是进行信息融合。信息融合目的是对多源异构知识进行聚合集成,获取蕴含的知识。档案数据信息融合需要数据格式清洗转化,“通过对抽取的实体、属性和关系三元组与已构建的知识图谱进行语义相似度计算,确定最优概念匹配和关系匹配,实现信息融合。”[16]四是进行知识建模和知识存储。将档案数据资源存储于相关的关系数据库中,使档案数据资源、属性、事件等实现关联集成。

(3)利用数据虚拟化技术实现多源异构档案数据集成

数据虚拟化技术是提供一个虚拟的视图,来获取和查阅异构数据库中数据的技术。[17]数据虚拟化技术超越了原有的系统数据管理和存储环境,提供的中间层类似于一个统一、虚拟的整合数据库,用户可以通过同一页面和平台访问各个数据库中的多元异构数据,无须关注数据的存储位置、存储格式等,就能够便捷地获取所需数据资源。数据虚拟化对推进多元异构的档案数据集成具有重要的技术优势。一是应用数据虚拟化技术可以让档案数据的关联性被自动发现或人工定义,无论是实时档案数据还是历史档案数据,无论是文本数据库还是多媒体数据库,无论是关系型数据库还是非关系型数据库,都将被重新分类和关联,并且在新的虚拟平台上进行展现。二是提供统一的数据访问接口。不同的档案数据存储可能使用不同的格式,例如有的档案数据存储在XML文件中,有的存储在HTML网页中,有的存储在Excel电子表格中,数据虚拟化层可以提供一个统一的数据访问接口区,访问不同的存储格式,如ODBC/JDBC/ADO.NET接口等,大大缩短了档案数据的访问时间。三是运用数据虚拟化技术有助于对档案元数据进行规范,档案数据库中可能会存在一些不规范、不标准、不统一的格式,对此,数据虚拟化层可以实现档案数据的集中转换和数据清洗。

3.3 完善档案数据资源系统平台建设

大数据时代,档案数据资源整合需要借助一定的系统平台来实现。档案数据资源系统平台既是档案数据资源的生存环境,也是档案数据运行、流转、保存、利用的场域。因此,完善档案数据资源系统平台建设是推进档案数据资源整合的关键内容。

(1)创建统一的档案数据管理系统

档案数据管理系统是档案数据赖以生存的软硬件平台,离开系统,档案数据采集、处理、存储、利用等一系列处置活动无从谈起。推进档案数据资源整合,需要创建统一的档案数据管理系统,且具有可扩展性、可对接性、可关联性,有利于档案数据资源的快速响应和便捷调取。一方面,加强档案数据融合是基础。档案数据融合要求将分散保存在不同数据库中的不同数据格式、不同数据类型、关联度低的数据进行统一架构、无缝链接、综合集成。其可从三个方面进行:一是统一档案数据格式,解决档案数据资源结构层面的异构问题,排除档案数据融合障碍;二是加强档案数据清洗与转换,提高档案数据质量,减少无用数据或价值密度低的数据对档案数据整合集成的影响;三是完善档案数据语义本体建设,“对档案资源管理领域的知识元进行提炼”[18],建立由责任者、时间、地点、关键词、档号等组成的档案数据关联体系。另一方面,统一系统架构是关键。由管理系统异构导致档案数据整合共享障碍的现象普遍存在,有必要创建基于统一逻辑、统一接口、统一架构的档案数据管理系统,保障档案数据资源整合系统具有良好的耦合性、扩展性、互通性,确保档案数据传递便捷、运行通畅、利用方便、整合高效。[19]

(2)组建国家档案数据资源库

大数据时代,海量档案数据资源被分散保存在不同主体和不同部门,给档案数据资源一站式利用服务带来障碍,需要强化档案馆在保存和管理档案数据资源中的主体地位,“建立国家档案数据库,整合各类数据资源,构建统一的档案数据共享平台,提供档案数据的一站式服务。”[20]首先,加强档案数据化建设。强化档案数据资源规划管理和顶层设计,围绕“增量电子化”“存量数据化”,开展档案数据资源建设,逐步建立以档案数据资源为主导的现代档案资源体系。“加强新型档案资源建设,广泛开展业务数据、公务电子邮件、网页信息、社交媒体信息等的收集归档工作”[21],推动档案部门同数据管理机构、政府部门、社会组织等的有效协同,促进档案数据管理系统与业务系统的无缝对接,实现档案数据应归尽归、应收尽收、应管尽管,建立覆盖全面、种类齐全、内容丰富、质量上乘的档案数据仓储。其次,创建档案数据一体化平台。加快档案数据管理系统平台建设,推进档案数据管理流程重构、技术融合和平台整合,推动国家、地方档案数据资源一体化平台建设,推进档案数据资源跨区域、跨层级、跨部门集成整合,“实现各类信息内容、媒介资源、技术应用和系统平台有效整合、共融共通。”[22]创建档案数据资源共享联动新机制,打造一站式、知识化、智慧型服务平台,探索智慧档案馆建设路径,拓展档案数据应用场景,推动档案数据资源规模、质量和服务能力同步提升。最后,建设国家档案数据库。档案数据整合的基本任务是建立档案数据资源库,在档案数据资源库建设过程中,遵循“利用优先、分步实施、集约高效”的原则,优先完成档案文件级目录数据库和案卷级目录数据库建设,逐步推进全文档案数据库、专题档案数据库、多媒体档案数据库、特色档案数据库建设,“逐步在全国建立起区域性、多层次、分布式、规范化的各类档案数据库群”[23],为档案数据“一站式”利用服务提供资源支撑。

猜你喜欢
资源整合资源
基于MDX数据库的译者参考资源整合对翻译工具能力培养的意义
剥离回用保护富含种子的表土资源
少先队活动与校外资源整合的实践与探索
外卖房等
浅谈资源整合在博物馆教育工作中的应用
我给资源分分类
资源回收
做好绿色资源保护和开发
物流资源整合模式分析
京津冀一体化视角下河北省大数据产业发展现状分析