基于Hadoop的图书馆特色资源云服务关键技术研究

2018-06-21 11:46赵嘉凌

软件导刊 2018年5期

赵嘉凌

摘要：为了提升图书馆在大数据下的特色数字资源服务质量，探讨了一种更科学有效的云服务模式。采用Hadoop平台，通过对HDFS涉及的技术细节，包括体系结构、并行数据处理框架Map-reduce以及分布式数据库、HBase展开具体分析，结合广东省特色文献资源的实际情况，探讨了HDFS构建需求与可行性。提出HDFS关键技术应用于广东省特色数字资源云服务的具体方案，但实践效果还有待进一步验证。

关键词：HDFS；云存储；数字资源；云服务

DOI：10.11907/rjdk.172718

中图分类号：TP319

文献标识码：A 文章编号：1672-7800（2018）005-0173-03

Abstract：To improve the quality of library digital resource service in the trend of big data development， this paper discusses a more scientific and effective cloud service mode.The Hadoop platform is adopted to analyze the technical details of HDFS， including architecture， parallel data processing framework Map-reduce and distributed database H Base. Then based on the actual situation of the characteristic literature resources in Guangdong province， the requirement and feasibility of HDFS construction are discussed.The key technologies of HDFS are applied to the specific scheme of digital resource cloud services in Guangdong province. The practical effects need to be further verified.

Key Words：HDFS； cloud storage； digital resources； cloud service

0 引言

随着大数据环境的日益成熟，图书馆特色文献资源将向海量图书馆数字资源方向发展。如广东省特色文献资源包括所有反映广东省特色文化的研究资料，与广东省有关人士的著述、日记、信函、传记、字画、回忆录、著作手稿、聲像资料等，以及广东省地方出版物。其中，广东省内区域的特色资源数据库已经达到了近千个，涵盖了高校、社会科学研究文献机构、公共图书馆等重要文献与服务单位近百家，未来将会有具有区域特色资源的单位涌现出来。在当前大数据社会环境日益成熟的背景下，这些海量的特色文献资源对现有存储与管理系统提出了严峻挑战。如何解决文献资源海量剧增与独立文献机构存储能力不足的矛盾，成为业界探讨的一个新方向[1]。

近年来，针对大数据的处理应用比较广泛的是Hadoop平台，该平台的重要模块HDFS，Hadoop的分布式文件存储系统，通过把传统的单一存储服务器按比例增加到成百上千数量级，形成存储服务器集群，而在集群里每一台存储服务器都能提供本地资源的上传与存储服务。Map-reduce作为Hadoop的一个重要构件，其可为HDFS分布式文件系统提供一个可扩展的平行数据处理框架。综合而言，Hadoop的特性决定其能够满足用户对海量数字资源的存储需求[2]。

1 HDFS及其关键技术分析

1.1 HDFS的特点

HDFS整体架构的优越性能体现在功能设计上，具体包括：

（1）高度容错性。HDFS集群拥有成千上万的服务器，随时都会产生系统故障，即使是常态化的系统故障也不会影响系统的可靠性，系统会在任一服务器出现故障时，以最快的速度自动恢复所有数据。HDFS架构的核心目标是周期性地自动检查该文件系统的所有设备，并对因出现故障而失效的设备进行及时的数据恢复处理[3]。

（2）流式数据访问。HDFS的设计本来就是建立在高吞吐量数据流式访问的基础上，并非交互式的数据访问，因而可以大批量地访问海量数据集。

（3）适合大规模数据。对于HDFS而言，其文件大小的数量级在GB字节到TB字节之间，并且运行这些文件的应用程序同时也拥有了海量数据集。HDFS支持海量规模的文件存储，HDFS文件系统建构在成千上万的计算机集群系统之上，而每台计算机作为一个节点存在。

（4）简单文件读写模型。文件从创建到写入数据，到关闭，完成“写”操作之后便不再对该文件进行修改。HDFS对文件的读写过程采用“一次写入、多次读取”的方式，实现了最大限度的“读写”简化，也解决了数据不一致问题。

（5）移动计算比移动数据经济得多。对于海量的特色资源数据集而言，其存储位置距离数据处理程序越近，数据处理的效率就越高，该方法能有效避免海量数据集大规模已处理造成的网络阻塞，最大限度地提升Hadoop系统数据吞吐量。HDFS将数据处理程序迁移到待处理数据最近的地方，提供相应的规范化API（接口）。

（6）异构软硬件平台兼容性。HDFS源程序采用的编程语言是Java，其决定了该系统本身就具有高可扩展性，在实际应用中，可部署在不同类型的同构或异构系统上，具有跨平台特性，方便大规模HDFS文件数据集在不同平台上迁移[4]。

1.2 HDFS体系架构

HDFS是一种分布式、具有可扩展性的文件存储系统，可实现海量文件资源、跨实体数据库存储。存储于HDFS的文件以“数据块”形式存在，默认数据块的大小为64MB。即存储于HDFS的文件，会按照一块64MB大小平均切割为若干块，若最末一块小于64MB，则其存储空间未满。HDFS体系架构如图1所示，其是HDFS集群典型的体系结构，包含一个名称节点、一个辅助名称节点和多个数据节点。

HDFS将所存文件的元数据存储于名称节点上。该元数据包括所存文件的文件名、存储目录、用户访问权限等相关信息。HDFS分布式文件系统是基于“主/从”体系的，即单一的主节点（名称节点）负责维护整个文件系统的所有文件。该名称节点的具体职责包括负责管理HDFS的命名空间，以及系统性管理用户对文件资源的访问权限。名称节点将数据块分配给数据节点，并存储“数据块—数据节点”的映射信息。名称节点会跟踪监控哪些数据块需要被复制，并在必要情况下启动复制程序。同一文件多个复本将有效提升该文件系统对于数据保护以及数据处理的整体性能。

数据节点负责存储应用程序的数据，以及在用户提出对文件资源的读写请求时，作出响应并提供相应服务。与此同时，数据节点也在名称节点的指令下执行数据块的创建、删除和复制操作[5]。

数据节点周期性地对名称节点发送心跳信息以及数据块的状态报告。收到数据块的心跳信息意味着数据块所在数据节点运行情况正常。以最近一段时间周期为准，名称节点把未接收到心跳信息的所在数据节点标记为“无效”，并且不会分配“输入/输出”任务给该数据节点。数据块状态报告是数据块所在的数据节点中所有数据块的列表，主要功能是提供给名称节点。关于数据块最新位置信息参考，即某一数据块具体位于整个集群系统的哪个位置。名称节点根据最新数据块状态报告，构建并维护最新元数据[6]。

1.3 并行数据处理框架——Map-reduce

Map-reduce是用于跨Hadoop集群平行处理大数据集的一种框架。与HDFS近似，该Map-reduce框架也基于“主—从”模式：①Map阶段，主节点用于接收待处理的输入数据，输入数据被切割成更小的数据块；②分配给大量的从节点对其进行平行处理；③进入Reduce阶段，从节点把运算结果返回给主节点，由主节点进行结果汇总，并输出最终结果。其最大的优点在于对用户和编程人员而言，后台所有复杂的数据并行处理都是透明的，用户即使没有任何关于分布式与并行系统的操作经验，也可以从HDFS分布式系统获取所需的特定资源。

1.4 分布式数据库——HBase

HBase数据库与以往的传统数据库基于表结构与行模式的存储方式不同，HBase数据库是基于列模式的非关系型数据库。传统数据库表中的数据不会因为数据量的增大而被分为多个文件存储，但是HBase数据库列存储模式使其每个列族随着数据量的增大被分为几个文件保存，不同列族的文件也被存储到不同的文件中。HBase数据库这种特殊的存储模式，非常适合应用于分布式文件存储系统，HDFS[7]的操作流程如图2所示。

2 HDFS构建需求与可行性

2.1 HDFS构建需求

广东省图书馆特色数字资源的HDFS系统构建目标是为广东省内各高校图书馆、省市级图书馆提供海量数据存储服务，通过将海量数据存储于分布式文件系统，减轻对存储硬件的依赖。

HDFS系统构建的范畴与基本技术如下：

（1）HDFS功能是为多个“租户”提供资源存储服务。通过远程连接，任何个人都可以将特色文献资源上传到数据中心，即HDFS分布式文件系统。

（2）实现多实例访问。将广东省范围内的海量特色文献资源部署在多台虚拟机上，实现集群存储。

（3）可实现数据拆分。通过将HDFS集群中每台虚拟机挂载一个数据库实例，实现数据的有效拆分[8]。

2.2 HDFS存储可行性分析

广东省内特色文献资源分别有高校图书馆、情报机构的特色馆藏资源、各级图书馆自建的特色文献资源、各级社科类的数据库资源，还有以万方、维普、知网、CALIS为主的专业外购文献资源。针对资源种类多、资源数量庞大及资源增长速度快等特点，在广东省范围内，对特色文献资源，每时每刻都有庞大的反复性读取与数据分析需求。数据读取频率大于数据更新频率，用户随时需要通过不同的终端设备，比如笔记本电脑、PDA、手机等，获取所需的特色文献，这种读取频次是传统数据库无法承受的，而HDFS在存储海量数据方面的优越性十分明显。

3 HDFS关键技术应用

3.1 HBase应用

应用在Hadoop平台上的广东省海量特色资源文件，其存储采用多复本方式，即每个原始文件复制了若干复本，该复本分散于若干主机及网络中，以防止单一机器失效或者网络故障造成数据无法读写。

如2.1提到的HDFS的特征是采用流式数据访问，以及“一次写入、多次读取”的读写方式，在保证系统高容错性的同时，也最大限度保证了数据的一致性。面对HDFS分布式文件存储系统的数据延时访问问题，通过应用HBase数据库可以有效解决，实践证明HBase能够有效提升数据存取访问速度。

HBase通过DFSClient与负责实际数据存储的HDFS分布式存储系统进行“对话”，它充当着HDFS客户端的角色。因此HBase更方便地集中管理非结构化与结构化数据及对该数据的访问。如2.3所述，HDFS与并行数据处理框架——Map-reduce联系紧密，进一步方便用户通过Map-reduce技术，对HBase数据进行并行运算并对结果进行处理[9]。

3.2 MapReduce的应用

基于Hadoop的海量特色文献资源云服务，充分利用海量数据的处理与分析优势，可以通过采用Map-reduce技术，对用户点击资源历史、浏览资源历史、信息反馈等真实地展现出使用特色资源的用户偏好、需求意愿等相关信息，通过分析，可以准确知道相关服务的用户需求，以及未来发展趋势，以便对特色文献资源云服务能力与水平作出更科学合理的决策，包括目标用户的服务细分、精准服务等。基于Hadoop的海量特色文献资源云服务主要为有特色文献研究需求的图书馆用户以及相关研究机构提供文献查询、数据分析与决策服务，同时处理海量特色文献资源结构化、半结构化与非结构化数据，使资源在用户、资源持有者、资源开发者之间都发挥最好的效益[10]。

4 结语

基于Hadoop的图书馆特色资源云服务对象主要是广东省高校用户及对特色资源有研究需要的用户。随着大数据环境的日渐成熟，传统服务系统的支撑技术已经不能满足大数据环境需求，为了尽早适应云服务，本文在对云平台关键技术进行研究的基础上，提出了将HDFS关键技术应用于广东省图书馆特色数字资源服务Hadoop平台的具体方案，但实践效果还有待进一步验证。

参考文献：

[1] 郑玮.托卡马克装置控制系统设计与技术研究[D].武汉：华中科技大学，2014.

[2] 翟永东.Hadoop分布式文件系统（HDFS）可靠性的研究與优化[D].武汉：华中科技大学，2011.

[3] 李彬.基于MapReduce编程模型的航空日志分析研究[D].成都：成都理工大学，2012.

[4] 刘晓.大数据环境下分布式键值系统的架构研究[J].中国金融电脑，2015（6）：72-79.

[5] 高蓟超.Hadoop平台存储策略的研究与优化[D].北京：北京交通大学，2012.

[6] 赵婧.一种适用于P2P-VoD业务的分布式存储系统[D].北京：北京邮电大学，2012.

[7] 洪沙，杨深远.云计算关键技术及基于Hadoop的云计算模型研究[J].软件导刊，2010（9）：9-11.

[8] 彭国庆，周冠宇.云计算分层体系结构研究[J].移动通信，2010（16）：54-58.

[9] 许春玲，张广泉.分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J].苏州大学学报：工科版，2010（4）：5-9+19.

[10] 林清滢.基于Hadoop的云计算模型[J].现代计算机：专业版，2010（7）：114-116+121.

（责任编辑：刘亭亭）