数字图书馆建设中大数据问题的思考

2017-08-27 08:40熊炜
卷宗 2017年17期
关键词:数字图书馆建设

熊炜

摘 要:文章以信息技術飞速发展的当今社会为背景,首先从定义和发展两个方面对大数据的有关内容进行了叙述,然后又列举了数字图书馆大数据所具有的代表性特征,最后结合实际情况,以“数字图书馆如何在建设中合理应用大数据”为主题,展开了深入的探讨。

关键词:数字图书馆;建设;大数据问题

作为信息技术发展进程中的里程碑,物联网、云计算和大数据的出现,均在一定程度上对人们的生活产生了影响。对数字图书馆而言,在对其进行建设的过程中,所涉及数据量的增加以及所涉及种类的多元化,导致人们不得不将关注的重心转向大数据的问题方面。由此可以看出,想要保证数字图书馆建设工作的顺利进行,对大数据问题进行探究是非常有必要的。

1 大数据的概述

1.1 定义

现阶段,大数据在定义方面仍旧存在一定歧义,部分人认为大数据的核心特征在于其所具有的复杂性,而另一部分人则认为大数据的核心特征在于其总量大。在各种不同的定义中被人们普遍认可的观点是:大数据是无法应用传统工具在特定时间内完成挖掘、分析与存储的数据集合。在该定义中,大数据所具有的特征共有两个,其一是数据量大,其二是所包含半结构和非结构数据的数量较多。

1.2 发展

大数据出现之初,就得到了大量IT厂商的认可,并随之开展了大数据的研究工作。以麦肯锡为代表的咨询公司,根据自身所涉及的工作方位针对大数据开展了相关的专项服务,而负责生产软件与硬件的厂商,则纷纷通过对自身现有优势的整合,推出了对大数据进行挖掘、分析和存储的方案[1]。随着相关研究的不断深入,针对大数据所开展的研究工作,也实现了由理论向实践的转变。

2 数字图书馆大数据的特征

2.1 价值高

需要明确一点,在以碎片化形态存在的数据中,往往也会蕴含着宝贵的资源和知识,例如,在长达一个小时的教学视频中,其核心资源可能只有五分钟的时间,但是想要在大量数据中将这关键的五分钟视频资源进行查找,就需要应用大数据的有关技术对其加以辅助,提升信息查找的效率,避免不必要的时间浪费。

2.2 增长迅速

对于数字图书馆而言,在大数据时代最突出的特征即为数据增长的迅速,其中包括新购入的数据库、音频视频资源以及现有资源的数字化等,想要对几百TB的庞大数据进行高效管理,当务之急在于对数据中心的构建与完善[2]。

2.3 类型复杂

在数字图书馆的建设工作取得相应进展的当今社会,开始有越来越多的图书馆根据自身所具有的特点,开始了对特色资源的数字化建设,例如,地方著作、师生著作或教学视频等,这项工作的开展虽然在很大程度上丰富了图书馆的资源储备,但也加剧了资源体系的复杂程度,使非结构数据、半结构数据和结构数据的融合程度不断增加。

3 数字图书馆如何在建设中合理应用大数据

3.1 数据的挖掘

近几年,被人们广泛认可的数据挖掘平台为云计算,也就是说,对云计算进行合理应用,可以在一定程度上实现对大数据问题的有效解决。云计算指的是可以用于配置与共享的资源池,对该计算资源池所包含资源进行释放和分配时,只需要开展极少的互动与管理工作即可。

云计算所包含的服务类型共有三种,分别是平台、基础设施以及软件即服务。现阶段,科研人员尚未根据云计算所具有的特点构建起用以统计的架构,但不同服务类型均具有以下几个方面的共同点:第一点,快速弹性;第二点,宽带网络访问;第三点,资源池化;第四点,自助服务。而云计算所对应的技术体系,则是由SOA构架层、物力资源层、管理中间层和资源池层所构成。

在数字图书馆中对大数据加以应用的主要作用为数据的挖掘、分析和存储。云计算可以在最大程度上实现对数据进行挖掘与部署的效率的提升,并且降低对空间与资源的消耗,除此之外,人们使用频率较高的数据挖掘与分析软件,也可以与云计算平台相连接,因此,在应用大数据的过程中,云计算技术是必不可少的构成部分[3]。对云计算而言,正是由于其在对数据进行挖掘和计算的过程中,所应用的工作方式为分布与并行相结合,因此,和传统服务器相比较而言,在工作效率方面具有较为明显的优势。另外,云计算所具有的弹性特征也在很大程度上提升了其与大数据分析所具有的契合度,通过对云计算的合理应用,人们可以高效完成对数量较多的非结构数据进行可视化分析的工作。

3.2 数据的分析

虽然对处于任意领域中的大数据而言,在定义方面都是相对统一的,但这并不代表其不存在具有代表性的特征。对数字图书馆而言,在对所涉及大数据进行分析的过程中,往往会由于结构化数据所占据比例的增加,与商业公司相比会显得更为简单、容易。

在对数字图书馆进行建设的过程中,最基础同时也是具有最大价值的部分为数据库,因此,数据库在数据分析过程中的作用是无法替代的。SQL作为适用于不同数据库结构并且可以重复使用的高层次工具,在应用其对数据进行分析时,较易由于流程繁琐复杂而影响查询的效率,因此,对于大数据来说,在分析过程中选用以分布式的系统构架为基础所产生的Hadoop作为主要工具可行性更高,Hadoop最突出的特征在于其具有高度的可靠性、扩展性、容错性和工作效率。作为存在免费版本的数据分析工具,现阶段,Hadoop已经成为了大部分经费紧张的数字图书馆的首选。

3.3 数据的存储

对大数据而言,其支撑作用的核心硬件为存储系统,在对数据进行存储和分析的过程中,想要保证获得结果的准确性,数据往往需要在服务器与存储系统之间多次往返。存储系统的发展方向主要有三个方面,分别是强化计算能力、扩大容量以及提高传输速率。传统图书馆所采用的储存方式通常有存储域网络、直接外挂以及网络附加三种,与其他两种存储系统相比,存储域网络系统在传输速率和存储容量方面具有的优势较为突出,通过对存储域网络系统进行分析可以发现,该存储系统之所以具有较高的性能,其核心因素在于以下三个方面性能的支撑:计算能力、存储容量以及传输能力,其中最为突出的性能优势体现在存储性能方面,存储域网络系统中能够叠加高达数千TB容量的磁盘列阵。但其所需采购成本相对较高,因此,对于大部分存在经费紧张问题的图书馆而言,想要根据自身实际需求对存储域网络系统加以采购,是较难实现的,这也在一定程度上导致该存储系统利用率始终无法得到提升[4]。

4 结论

综上所述,随着信息技术的发展,在对数字图书馆进行建设的过程中,面临着前所未有的挑战,导致建设工作进展缓慢的主要原因并不是大数据本身,而是对大数据进行挖掘、分析和存储时需要应用的技术。因此,想要保证数字图书馆建设工作的顺利开展,需要以大数据所具有的特征为基础,以图书馆所具有的需求为核心,对相关技术进行深入的探索。

参考文献

[1]李志.数字图书馆建设面临问题的思考[J].才智,2013,19:218.

[2]廖晓静.高职数字图书馆建设发展相关问题的思考[J].黑龙江史志,2013,19:209.

[3]甘胜界.数字图书馆在大数据时代建设与发展的思考[J].办公自动化,2016,21:53-54+28.

[4]周彦.关于数字图书馆大数据系统建设的思考[J].商,2016,23:221.

猜你喜欢
数字图书馆建设
自贸区建设再出发
基于IUV的4G承载网的模拟建设
《人大建设》伴我成长
浅析“互联网+”时代的图书馆管理
努力建设统一战线学
“五老”说和团促进和谐社区建设