大数据时代档案信息资源挖掘的策略与方法

2023-05-30 04:24王晓红田红威郑兆瑞陈美鲜
兰台内外 2023年12期
关键词:档案信息资源数据挖掘大数据

王晓红 田红威 郑兆瑞 陈美鲜

摘 要:当今社会,随着信息技术的不断进步,数据量呈指数级增长,大数据时代已经到来。在这个时代,信息资源成为了社会经济发展的重要基础,档案信息资源则是其中的重要组成部分。大数据时代,档案信息资源也具备着数据体量大、增长速度快;数据种类多、数据结构复杂;处理效率提高、处理技术信息化;信息资源深度挖掘的大数据特征。对此,该文从树立大数据思维、构建数字化档案资源库、加强信息化建设、注重数据价值挖掘四个角度提出策略,为大数据时代下档案信息资源挖掘提供参考。

关键词:大数据;档案信息资源;数据挖掘

大数据(Big data),即海量数据、巨量数据和大资料,是指所涉及的数据规模巨大,以至于在一定的时间内人类无法对其进行拦截、管理与处理,并组织成人类可以解读的信息。大数据通常具有海量、高维、异构、实时、非结构化等特征,可以来自各种各样的数据源,例如社交媒体、物联网、传感器、交易记录、日志、影像、声音等[1]。

随着大数据时代的到来,信息资源成为社会经济发展的重要基础。档案信息资源作为历史文化、社会经济、科技创新等领域的载体,记录了人类社会各个领域的发展变迁和成果,对于人们的科研、教学、文化遗产保护等方面的意义和价值愈加凸显。因此,档案信息资源的利用和管理,尤其是档案信息资源的挖掘和分析,已成为当今研究热点和关注重点之一。然而,传统档案管理方式已经无法满足大数据时代下的信息处理与获取需求[2]。如何对海量的档案信息资源进行高效、准确、全面的挖掘和分析也成为了当前亟须解决的难题。

1 大数据时代档案信息资源的大数据特征

1.1 数据体量大、增长速度快

随着数字化技术的普及,档案信息资源中的数据量呈爆炸式增长。如企业档案中的数据包括各种类型的信息,包括企业的发展历程、财务状况、员工档案等。这些数据量在日积月累中不断增加,并且随着数据种类和结构的增多呈现越来越快的增长趋势。这种快速增长的数据量也需要更大的存储空间,因此,企业需要使用大数据技术,如分布式文件系统和云存储技术来存储和管理这些数据。

1.2 数据种类多、数据结构复杂

档案信息资源中包含的数据种类非常多,数据结构也非常复杂。数据种类方面包括各种文档、图片、视频、音频等多种类型,如医疗企业在疫情期间需要处理来自各个医院的医疗档案数据,其中包括各种类型的数据,如CT扫描图像、心电图、检查报告等。这些数据的结构也区别于传统档案的文本和图像形式,呈现出离散化、碎片化和专业化的特征,需要综合多种学科和技术来进行处理以满足工作需要[3]。为了应对档案信息资源的多样化和复杂性,相关单位也需要采用多种数据处理技术,如机器学习、自然语言处理、图像处理等,帮助企业更好地理解和处理不同类型的数据。

1.3 处理效率提高、处理技术信息化

在档案体量、增长速度、种类都急速增长的背景下,如何快速高效地处理这些档案信息成为档案部门面临的一大难题。特别是对于企业来说,档案信息资源最终要面向企业生产、管理或销售环节,为企业创造价值和收益。因此,对于企业来说如何挖掘档案信息资源的价值则更为重要。例如,某制造企业采用了物联网技术,可以在产品的生命周期内收集大量的数据,这些数据可以被用于监测和优化生产过程。同时,企业也需要使用自动化的工具来处理数据,如数据清洗、数据整合、数据分析等。

1.4 信息资源深度挖掘

企业档案信息资源中包含着丰富的信息,如果能够对这些信息进行深度挖掘,可以为企业带来巨大的价值。例如,企业可以通过数据挖掘技术来进行市场分析,预测市场需求,制定更加科学的营销策略。或者,企业可以对客户数据进行挖掘,找出客户行为模式,从而提高客户满意度和忠诚度。信息资源的深度挖掘也可以帮助企业发现问题,并提供解决方案。例如,某汽车制造企业在生产线上出现了故障,使用大数据技术,可以快速定位故障原因,进行修复和维护,提高生产效率和质量。

2 大数据时代档案信息资源挖掘的挑战

2.1 管理思维陈旧

传统档案管理存在很多问题,如重复建档、难以共享、档案存储不规范等,这些问题都与传统的管理思维有关。一般来说,传统的解决方法是增加人力和财力投入,但由于大数据时代档案信息资源是呈指数级增长等,因此经常出现“投入”与“产出”不匹配的现象。

2.2 档案数字化程度低

传统的档案管理方式大都是纸质管理,缺乏数字化技术的支持,使得档案数字化程度较低。在大数据时代,档案数字化是保证档案信息资源挖掘的前提条件,档案数字化程度的提高是大数据时代档案信息资源挖掘的基础。然而,档案数字化需要大量的资金、技术和人力资源,这也成为制约档案数字化的主要原因。

2.3 信息化建设滞后

档案管理部门的档案管理系统大多数还停留在人工记录和存储的阶段,无法充分利用大数据技术,实现对档案信息资源的高效挖掘。有些档案管理部门在信息化建设方面的投入不足。一些单位在资源有限的情况下,更倾向于投入到直接产生效益的方面,对于档案信息化建设缺乏足够的关注和投入,从而导致信息化建设滞后,影响档案信息资源的挖掘和利用。

2.4 数据价值挖掘不足

一是数据采集过程中的质量问题。由于档案数据存在不完整、不规范、不标准等特点,数据采集难度较大,采集到的数据质量不高,导致数据的利用價值大打折扣。二是数据分析能力的匮乏。由于档案信息资源挖掘领域较新,专业人才和技术手段还不够成熟,导致数据分析的效果不够理想,难以充分挖掘数据的潜在价值。三是还存在数据隐私和安全问题。档案数据涉及个人隐私和国家安全等方面,如果在数据挖掘过程中不能妥善保护数据的隐私和安全,不仅会破坏数据的完整性和可信度,还会对个人和社会带来不良影响。

3 大数据时代档案信息资源挖掘的策略与方法

3.1 树立大数据思维

3.1.1转变管理思维。首先,需要转变管理者和工作人员的意识,将传统档案管理方式的思维局限打破,应意识到大数据时代需要更加开放、创新和协作的思维方式,以更好地适应新的技术和数据环境。这包括从档案管理的“存储、传递、保护”思路转变为更加注重数据的开放、共享、服务和利用,从“管理者”转变为“服务者”,从“主动管理”转变为“主动服务”。其次,需要将数据思维融入到档案管理中。数据思维是指从数据的角度思考问题、解决问题的一种思维方式。管理者和工作人员需要具备数据分析和应用的能力,将数据转化为知识和智慧,使之成为支撑业务和决策的重要依据。例如,可以通过对档案数据的深度分析,发现潜在的业务价值和创新方向。

3.1.2建立大数据文化。在大数据时代,企业需要倡导一种全员参与的大数据文化,让所有员工深刻认识到数据的价值和意义,提高数据分析意识和数据素养,推广数据分析的成功案例,让员工能够更好地理解大数据的价值,并更好地应用到企业的决策和运营中。同时,建立一套全员参与的大数据分析培训和技术支持机制,让员工掌握一定的数据分析技能,进一步提高大数据素养和数据分析能力。除此之外,还可以通过制定数据分析的KPI指标、举办内部数据分析比赛、成立数据分析师团队等方式,提高员工的数据分析能力和数据挖掘水平,让员工从传统的“按部就班”工作方式中走出来,树立大数据思维。

3.1.3建立高效的数据管理机制。大数据时代,档案管理部门需要建立高效的数据收集、处理和管理机制,以保证海量、高维、异构、实时、非结构化的数据得到及时、准确地处理。一方面,可采用现代化的数据处理技术,例如云计算、分布式存储、机器学习等,以提高数据处理的效率和精度;另一方面,还需要建立规范的数据管理制度,明确数据的来源、归属、保护和使用规则,保证数据的完整性和安全性。

3.2构建数字化档案资源库。数字化档案资源库的建设可以实现档案信息的全面数字化,提高档案数据的获取效率和管理水平,为大数据时代档案信息资源挖掘提供更广阔的数据来源。

3.2.1集纳多种类、多结构的档案数据。档案数据的种类繁多,包括文字、图片、声音、视频等多种类型,这些数据具有不同的结构、格式和存储方式。为了实现数字化档案资源库的全面建设,需要将多种类、多结构的档案数据进行集纳,并进行有效管理和维护,同时还需要考虑到数据的组织和管理方式的差异,如元数据的制定和数据标准的统一等,以保证数据的质量和可管理性。

3.2.2拓展数据采集范围。随着大数据时代的到来,档案信息资源挖掘所需要的数据量不断增大,为了满足数据的需求,需要拓展数据采集的范围。数据采集的范围不仅涵盖了传统的档案馆、图书馆等机构,还包括社会各个领域的数据来源,积极与各种机构合作,获取数据源。例如,可以与博物馆、图书馆、档案馆等机构建立合作关系,获取这些机构所收藏的各种档案数据。同时,也可以与企业、研究机构等合作,共享各自所拥有的档案数据。还可以采用自动化的数据采集方法来减少手动采集数据的工作量,提高数据采集效率,例如可以使用网络爬虫技术,从各种网站和数据库中采集档案数据,再加以整理和处理。

3.2.3构建档案信息资源共享平台。数字化档案资源库不仅仅是一个单纯的数据仓库,还需要将其中的数据资源进行共享,这就需要构建档案信息资源共享平台。首先,平台具备高效的数据存储和检索功能,能够快速有效地存储和检索各类档案数据。其次,平台需要具备良好的数据共享机制,使得不同部门或单位能够方便地获取、利用档案信息资源。同时,平台也需要提供安全可靠的数据交换机制,确保档案信息资源在共享过程中不会受到泄露、损坏等问题的影响。最后,在构建数字化档案资源库的过程中,还需要建立相关的法律法规和标准规范,在规范数字化档案资源库的建设过程的同时保障档案信息资源的安全和利用效果。

3.3 加强信息化建设

3.3.1做好需求调研。要深入了解档案信息资源的特点、类型、来源和用途,明确数据挖掘的目标和需求,以便为数据挖掘和分析提供有针对性的支持。档案管理部门需要通过与内部相关部门的沟通,了解各部门对于数据挖掘的需求和期望,根据实际需要选择合适的数据挖掘技术和工具。此外,还需了解外部环境需求,关注社会上的数据挖掘技术和应用情况,根据市场变化调整数据挖掘策略。

3.3.2夯实硬件准备。要提高档案信息资源挖掘的效率和准确性,必须依托良好的硬件设施, 提供充足的计算能力、存储空间和网络带宽。根据数据挖掘的规模和复杂度,选择合适的硬件设备和系统架构,建立安全可靠的数据存储、备份和恢复机制。此外,还需对硬件设备进行维护和升级,以保证其稳定性和性能优化。

3.3.3丰富技术手段。数据挖掘技术是实现档案信息资源挖掘和分析的关键。档案管理部门需要了解和掌握当前最新的数据挖掘技术,以实现更高效、更准确的数据挖掘。具体来说,需要提高数据清洗和预处理的能力,采用先进的数据挖掘算法和模型,结合人工智能、机器学习等技术进行数据分析和挖掘,实现对档案信息资源的深入挖掘。此外,还需要通过培训和知识分享,不断提高员工的数据挖掘能力和技术水平。

3.4 注重数据价值挖掘

3.4.1明确数据管理目标。对于档案信息资源的挖掘来说,主要的目标是提升档案信息资源的利用价值、挖掘档案背后的历史文化价值、保护档案信息资源的安全性等。对此,应根据不同的目标,采取不同的数据挖掘策略和方法,以有效提升数据价值。例如,为挖掘历史文化价值,可以采用自然语言处理技术来分析文本数据,或者采用图像识别技术来分析图片、照片等数据;为提高档案信息资源的利用价值,可以采用机器学习技术来建立预测模型,帮助用户更好地利用档案信息资源等。

3.4.2综合运用数据挖掘技术。数据挖掘技术是指从大量的数据中自动发现隐藏的模式、关系和规律。常见的数据挖掘技术包括聚类分析、关联规则挖掘、分类与预测、异常检测等。为更好地挖掘档案信息资源的价值,可以采用多种数据挖掘技术来综合分析档案数据,发现隐藏的价值。例如,可以使用聚类分析技术来将档案数据划分为不同的类别,进而挖掘不同类别的数据特征;可以使用关联规则挖掘技术来挖掘档案数据之间的关联关系,进而帮助用户更好地理解数据;可以使用分类与预测技术来构建预测模型,预测未来事件的发生。除此之外,还可以结合业务流程进行分析,确定管理过程性数据中的关键节点和关键指标,为数据挖掘提供指导和支持。

参考文献

[1]卞咸杰.大数据时代档案信息资源共享平台数据挖掘模型的研究与实现[J].档案管理,2020(04):21-24.DOI:10.15950/j.cnki.1005-9458.2020.04.007.

[2]趙跃.大数据时代档案数据化的前景展望:意义与困境[J].档案学研究,2019(05):52-60.DOI:10.16065/j.cnki.issn1002-1620.2019.05.009.

[3]金波,晏秦.从档案管理走向档案治理[J].档案学研究,2019(01):46-55.DOI:10.16065/j.cnki.issn1002-1620.2019.01.008.

(作者单位:中国华能集团有限公司)

猜你喜欢
档案信息资源数据挖掘大数据
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
档案信息服务创新的内驱力研究
档案信息资源开发主体多元化理论探析
基于大数据背景下的智慧城市建设研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究