档案大数据采集和抽取研究

2018-01-23 20:59路宏伟杨蓬勃
山西档案 2018年3期
关键词:纸质

文 / 路宏伟 杨蓬勃

2017年12月27日,国家档案局局长李明华在全国档案局长馆长会议上强调,当前属于“大数据”时代,我国要加速档案工作转型升级。据馆藏档案数据显示,“十一五”末我国馆藏档案已达到3.92亿余卷(件),绝大多数档案数据存留于政府机关和社会各行各业,形成了海量档案数据。由于目前档案数据采取双轨制管理,大多数档案数据的采集和抽取难以满足大数据时代要求,档案大数据的金融价值难以实现。

一、档案大数据概念

档案大数据是指档案业务活动中与档案及档案业务活动密切相关的各种有价值、难以在短时间分析处理的数据集[1]。档案大数据包括在档案数据交换、存储和处理过程中产生的三类档案数据:第一,在档案数据爆炸式增长过程中,短时间内每个参与信息交换的档案数据节点都接收并存储大量数据;第二,在国家档案局颁布的《纸质档案数字化规范》的实施过程中,纸质档案数字化存储带来了大量可被利用的档案数据;第三,随着人工智能等技术的发展,档案数据二次处理会产生更多全新、高价值的档案数据。随着大数据技术与档案工作的交汇融合持续加深,档案大数据已取代传统概念上的档案数据信息化。

目前国内档案大数据采集和抽取存在诸多问题,大量档案数据难以被人工智能深度学习和利用,导致档案大数据无法被商业化利用而失去应有的金融价值。

二、采集和抽取档案大数据过程中存在的主要问题

首先,档案大数据采集缺乏统一标准[2],导致档案大数据系统处理困难。当前新档案数据采集已基本实现自动化,但各家档案馆仍遵循“所需即所用”的观念,根据自身发展需要与设想进行档案数据采集,导致各家档案馆数据采集内容和格式的标准不一致,未能实现档案大数据的标准化采集。而在旧档案数据的处理过程中,为便于永久保存和快捷抽取,档案馆需将重要的纸质版档案转化为电子档案,此过程中各家档案馆电子档案格式也存在不统一的问题,致使人工智能难以识别、读取和分析上述档案大数据,可能出现档案数据采集遗漏现象。档案大数据采集标准的缺乏既不利于档案大数据资源开放共享,也不利于人工智能系统对海量档案数据的深入挖掘,导致档案数据资源无法被充分利用。

其次,档案大数据抽取工作中存在“信息孤岛”现象[3],导致档案大数据的交换和共享困难。在档案大数据抽取过程中存在两个问题:第一,并非所有档案大数据源都对外提供开放的档案数据抽取接口;第二,提供接口的档案大数据源对外抽取接口标准也不一致,难以实现档案大数据的交换和共享。此外,不同档案系统供应商的硬件和软件系统也互不兼容,各档案馆间难以实现档案数据的交换与共享,导致档案大数据无法实时抽取到有效数据,阻碍档案大数据平台的数据整合,最终致使各档案数据源如同散落的“信息孤岛”。

再次,纸质档案难以与电子档案大数据实时同步,无法满足档案大数据对纸质档案的实时抽取和追溯需求。运用双轨制档案管理,将纸质档案和电子档案进行整合管理,既是对传统历史档案或社会记忆的一种重构和维系,也是对电子档案文件的一种保守和折中管理办法[4]。纸质档案对档案大数据而言具有重要意义。它可对电子档案数据进行追溯、核准、备份、监督和纠偏。因此,档案大数据的真实性和可靠性远高于其它大数据系统,具有独特的商业价值。但各档案馆在实际管理过程中,因资金、技术等原因导致物联网、区块链等新型软硬件技术未能用于纸质档案管理,纸质档案的存放状态、位置和内容信息难以与电子档案大数据实时同步,仍需人工辅助完成,难以体现档案大数据的独特商业价值,最终影响其金融价值。

第四,档案大数据的金融价值未能深入挖掘,导致档案大数据采集和抽取标准化建设资金缺乏。档案大数据采集和抽取标准化建设需要大量人力、财力和物力,仅靠政府财政拨款难以完成,阻碍了档案大数据系统的发展,亟需金融资本支持。研究表明,目前对档案数据的利用主要是出于工作需要进行统计分析,仅是对档案数据进行直接反映,无法利用大数据及相关技术对档案资源进行充分挖掘。究其原因,主要是缺乏统一的档案大数据采集和抽取标准,难以构建档案大数据产业链,导致档案大数据的商业和盈利模式缺乏而无法实现金融价值。

第五,档案大数据的抽取缺乏国家安全和个人隐私评级系统支持,导致档案大数据抽取受限。一方面,如果档案大数据所涉及的信息可直接或间接连接查询追溯到某人,则此类信息就能定位到个人隐私信息,如身份、肖像、姓名、个人消费习惯以及宗教信仰等,而上述信息均涉及个人隐私问题;另一方面,档案数字资源是国家和社会充分挑选并保存下来的真实历史记录,其中涉及大量国家机密。由于档案大数据涉及国家安全和个人隐私问题,因此建立完善的档案大数据国家安全和个人隐私评级系统势在必行[5]。

三、采集和抽取档案大数据中问题的解决方案

“档案数据正在成为一种重要的战略资产”已是档案行业共识,拥有档案数据的部门和企业也必然成为档案大数据的直接受益者。但由于档案大数据采集、抽取标准不一致以及档案大数据国家安全和个人隐私评级系统的缺乏,档案大数据难以变成战略资产,导致档案数据拥有者无法获益。为了解决上述问题,亟需构建档案大数据产业链,明确商业模式和盈利模式,吸引金融资本参与建设档案大数据平台,在保障档案大数据国家安全和个人隐私前提下,实现档案大数据的经济效益和社会效益。

(一)建立档案大数据国家安全和个人隐私评级系统,实现档案大数据的合规性采集和抽取

在档案大数据平台价值挖掘的过程中,随着档案大数据采集和抽取流程不断复杂化,档案大数据与互联网的结合进一步增加了国家机密泄漏风险和个人隐私暴露风险。因此,必须通过建立各类档案大数据的国家安全和个人隐私评级系统,针对各类档案大数据需求设立不同权限,实现档案大数据的合规性采集和抽取。此外,档案大数据国家安全和个人隐私评级系统应定期得到维护和完善,确保与时俱进,满足政府对档案大数据的国家安全和个人隐私监管要求。

在国家相关档案管理和隐私保护等法规的基础上,通过建立档案大数据的国家安全和个人隐私评级系统,持续探索合理隐私保护前提下的档案大数据挖掘和共享商业模式,既是档案大数据平台建设的必备前提,也是实现档案大数据金融价值的重要基础。

(二)构建档案大数据产业链,统一档案数据采集和抽取标准

构建档案大数据产业链,在核心企业引领下,上下游企业互动,有助于真正实现档案大数据的商业价值和金融价值。

1.明确档案大数据数据的采集者和提供者。目前档案馆作为档案大数据的合法采集者、提供者和拥有者,属于档案大数据产业链的核心企业之一,但受制于事业单位身份,难以将档案数据转变为经营性资产。首先,档案馆应创新档案数据的管理模式,将档案数据的所有权和经营权分离,在满足国家档案管理相关法规的前提下,将合规性档案数据有偿授权给关联企业和第三方平台经营。其次,应针对不同行业和部门的档案信息,统一档案大数据的采集标准,实现有偿标准化采集。最后,应鼓励档案大数据源提供标准化数据交换接口,并通过第三方平台完成档案数据源的抽取和共享,整合全国的档案大数据,快速建设我国的档案大数据平台。

2.明确档案大数据软硬件设施提供者。档案大数据软件系统提供者主要包括“档案大数据软件技术集成商”“云存储服务商”和“大数据挖掘服务商”。档案大数据软件技术集成商负责提供档案大数据采集和抽取的软件技术服务,档案大数据云存储服务商负责对内提供档案大数据云存储服务、对外提供档案大数据交换服务,而档案大数据挖掘服务商负责提供档案大数据分析和决策服务。

档案大数据硬件设施供应者主要包括“纸质档案数据采集设备生产商”“纸质档案状态监测与位置定位设备生产商”以及“纸质档案数据与电子数据自动追溯与同步设备生产商”,三者分别负责提供“纸质档案的电子数据自动采集设备”“纸质档案状态与定位的低功耗物联网设备”以及“追溯与同步原始纸质档案数据的自动化设备”。

3.构建档案大数据商业模式。伴随着档案数据商业价值的挖掘,档案大数据商业模式将会对档案产业链的发展产生巨大影响。借鉴其他大数据平台的商业模式,档案大数据商业模式可分为“档案数据交易模式”“档案信息服务模式”和“第三方档案数据服务模式”。

(1)档案数据交易模式。档案数据交易模式主要指档案数据采集者通过直接买卖档案大数据获利,进而实现档案大数据的当期金融价值,而档案数据的反复销售则是档案数据采集者不断完善档案大数据的主要动力。通过建立档案数据交易模式,促使各档案数据源采集者自发按照统一标准采集档案大数据,进而实现档案大数据的交换和共享,最终实现规模经济效益。

(2)档案信息服务模式。档案信息服务模式是指档案大数据供应者深入挖掘档案大数据的潜在价值获利,进而实现档案大数据的远期金融价值,如提供其他大数据平台无法提供的精准“征信服务”。档案信息服务模式要求档案数据拥有者同时具备档案数据采集和挖掘能力,促使档案数据拥有者最大限度地挖掘档案大数据的潜在价值。

(3)第三方档案数据服务模式。第三方档案数据服务模式是指档案数据采集者和数据挖掘者之外的第三方平台通过专注提供第三方档案数据获利。第三方档案数据服务平台不但通过各种渠道搜集、交换、聚合和加工档案大数据,而且整合与档案大数据相关的其他行业数据,最终通过该平台提供档案数据交易和挖掘服务,以轻资产方式运营档案大数据平台获利。

4.构建档案大数据盈利模式。档案大数据平台既可从档案大数据的消费市场实现当期获利,也可通过资本市场股权增值实现远期获利。由于缺乏建设档案大数据平台的资金,应当在资本市场吸引风险投资,快速整合档案大数据,建设全国性的档案大数据平台,尽快占领档案大数据消费市场。此方式既有利于档案大数据的快速整合与档案大数据产业链的快速构建,又有利于档案大数据商业模式的快速确立,最终实现档案大数据的金融价值。

猜你喜欢
纸质
中国石材界多家纸质媒体退出行业
信息化时代背景下指导小学生纸质阅读的研究
纸质书籍设计中的纸材的应用与创新
关于纸质档案管理保护工作的思考
四川省图书馆发布2019年阅读报告
“纸质阅读”不会过时
为什么要读纸质书
布达拉宫纸质文物修复——以佛经公文为例
电子疲劳
纸质档案管理标准体系建设研究