大数据与图书馆发展

2017-12-13 12:01徐红华

中文信息 2017年11期

徐红华

摘要：目前许多图书馆都开展了数字图书馆业务，但是在大数据时代背景下，数字图书馆需要改变目前低端处境，转而往数据图书馆的方向发展。本文首先指明了数字图书馆目前的处境，然后结合大数据的技术和思维，对数字图书馆应该怎么做出改变进行分析，文章最后对数字图书馆将来的发展前景进行了展望。

关键词：数字图书馆大数据数据图书馆

中图分类号：G25 文献标识码：A 文章编号：1003-9082（2017）11-00-02

引言

近日，随着AlphaGo横扫围棋界，人类之前最后一块坚守的智商高地被计算机攻下，这其实不仅是计算机的胜利，也是人类智商的胜利，更是大数据的胜利。众所周知，人工智能是现在整个科技届最炙手可热的概念，而人工智能的核心就是机器学习（Machine Learning）。机器学习这一概念起源于20世纪50年代，中间经过了很长的冰冻期，后来随着SVM的提出，机器学习逐渐火热起来。2012年随着AlexNet网络[13]的出现，神經网络开始击败SVM成为机器学习乃至人工智能的主流，也推动了近五年来绝大部分人工智能成就的出现。而这三者从人工智能到机器学习，再到最核心的神经网络，它们成功的背后全部都是大数据的驱动，这证明现在是大数据[1]的时代，而图书馆作为社会的知识中心，在这股潮流中也要做出相应的改变，把大数据的概念与方法吸收进自身的未来发展中。

一、大数据定义

关于大数据的定义众说纷纭，对大数据的理解取决于定义者的态度和学科背景[4]，总的来说，我们可以从两个角度来理解大数据：把“大数据”看成形容词，它描述的是研究的大数据的特点——数据量大至海量[2][3]，完全超出了现有的计算机硬件水平；把“大数据”看成名词，它指的是大数据的研究对象，即自然与社会两个方面都会产生海量的数据[2][3]。

二、现在数字图书馆的境遇

1.互联网对图书馆的冲击

图书馆从功能上分为公共图书馆和高校图书馆，其中高校图书馆是以服务高校师生为宗旨的重要阵地，是高校文化服务体系的核心组成部分。高校图书馆目前仍然是以纸质藏书为主，并提供网上文献下载服务，是学生和老师获取知识的重要渠道。但是在大数据背景下，尤其是互联网的冲击下，学生和老师们获取知识（尤其是文献）的主要渠道变成了网络，比如CNKI、Google Scholar、百度学术等等，这些网站目前成为了最新研究成果的聚集地，几乎大部分社科类、自然科学类的研究成果都可以在上面找到，并且由于科研机构和教育机构都购买了资料，所以高校师生是可以在高校的IP内免费下载。这种情况下，图书馆的作用就遭到了弱化，如果高校图书馆不对自身做出改变，那么在互联网和大数据的冲击下，自身价值将会损失降低。

2.数字图书馆的缺陷

虽然目前的大多数高校图书馆都开放了数字图书馆服务，但是这些服务现在只停留在查询馆藏图书，文献下载等功能，功能单一，并且不完善。数字图书馆目前存在着标准不规范、文献数字化水平低、数字文献的安全缺乏绝对保障等问题。而开放存取运动的进一步深化发展和以语义、云计算为主等为代表的信息技术出现，则让图书馆面临着巨大的挑战。数字图书馆在建设过程中，由于受到技术所限、资金不足、标准不统一等限制，致使数字图书馆在刚出现的时代就存在诸如接口不统一、资源数据描述不足、检索能力不足、文献数据相互关联性较差、互操作程度较低、资源发现和扩展能力不足等问题，而这些缺点使得数字图书馆成为人们获取知识时所选择的最后渠道。一份关于大学生对高校图书馆使用情况的调研报告则表明，72%的学生是通过网络获得信息，而通过图书馆获得信息的学生只占18%。另一项调查也显示大学生访问图书馆网站（数字图书馆）的只占28%，远低于使用搜索引擎的使用比例，甚至有25.3%的大学生表示从没有去访问过图书馆网站（数字图书馆）。这种现状也引发了图书馆界的担忧与思考，图书馆届的有识之士指出，图书馆必须要提供更好的资金支持，并将之转化为技术支持和服务手段，吸引师生回到图书馆来获取知识，使得图书馆重新成为高校知识的集散地。

3.大数据潮流下图书馆的尴尬

目前在世界的高校以及科研企业的圈子里，Google Scholar已经成为大家获取第一手科研资料当仁不让的来源。而具体到自然科学界，Arxiv更是每日必刷的文献网站。图书馆在这种情况下应该通过资金争取等手段和这些互联网巨头取得合作，获取这些数据资源，并进行有机整合，使得所获得的数据资源能更好的展现在师生面前，帮助师生进行科研活动。如果图书馆满足于现状，只是停留在纸质图书和一些网络资源的堆砌，那么图书馆将不再能满足师生乃至公众的需求，沦为昨日黄花。

三、大数据背景下的图书馆

1.大数据技术下图书馆的挑战

人类最重要的技能是学习，学习很重要的就是能将纷繁复杂的信息进行归类和抽象。对应到大数据层面，最主要的无非就是四个核心问题[3]：

①存储，海量的数据怎样进行存储

②计算，海量的数据如何进行快速计算

③查询，海量的数据如何进行查询，并且快速查到想要的信息

④挖掘，海量的数据如何挖掘出隐藏的知识，即探索到数据之间的关系以及数据背后隐藏的结论。

当我们要把大数据的技术引入到图书馆建设中来的时候，就可以从这四个方面汲取经验，引他山之石可以攻玉。

首先是存储。图书馆之所以被成为图书馆，最原始的含义就是藏书之地，而自从纸被发明出来的那一刻起，成百上千张纸装订成册被称之为的“书”就承担了知识在空间和时间两个维度流传的功能。当书的数量成指数级增长的时候，普通人家就没法装下那么多书了，于是动用政府力量建立作为公共资源出现的图书馆就承担起了这样的功能。时过境迁，之前的两千多年纸这种媒介一直是作为知识载体的不二选择，而图书馆也只是完成藏书，借阅的功能；然而到了今天，随着互联网的发展，人们之间的交流与工作生活变得更加便捷，随之而来的就是产生了海量的有意义的数据，互联网公司趁近水楼台之势，运用各种数学手段对其分析，取得了不错的效果。图书馆这个机构有如此浩如烟海的资料，但是纸质的终究不便于查询和挖掘，如何把它们转化成电子数据，这就是摆在图书馆面前的一个有意义的难题。对于计算机来说，传统的文件系统存储是单机的，不能横跨机器。而大数据时代，HDFS（Hadoop Distributed File System）的出现解决了这一问题，它的出现使得大量的数据横跨成百上千台机器，但你看到的是一个文件系统而不是很多分散的文件系统，当你要引用这些数据的时候，你不用管它们分布在哪些机器上，只需要提供一个文件路径即可。类比之下，图书馆在未来需要做的也是把这些纸质藏书通过某些技术手段转化成电子数据（比如给图书拍照，然后把图片转化成文字），最后把这些文字的电子数据存储到大型服务器上，方便读者去查询。endprint

接下来是计算和查询，这两者虽然对于计算机科学来说是截然不同的两个方面，但是对于图书馆从业者不必要区分开。图书馆方面关心的是怎样为读者提供更好的服务，具体到这点上，就是怎样把数据做更好的整合，符合人类的查询思维，使得读者更快更好的查到自己需要的信息。对于文献总结归纳，传统的方法自然是靠人去做，这就像我们中学时期的语文课一样，由人去通读全文，再靠自己的经验积累，总结出书本文字想要表达出的思想，然后再按一定之规则，把同类别的进行归纳总结，最后供给读者查询使用。但是现在在大数据的时代下，招募这么多人力去干这事已经不太实际，所以如果能依靠机器完成初步的信息获取，那就已经是节省了大部分人力工作。从技术角度来说，MapReduce太慢，是因为它太通用，太强壮，太保守，而快捷的方式有Impala、Presto、Drill，这些轻巧简便，能让用户更快的进行查询，节省宝贵的时间。如果说MapReduce是大砍刀，砍啥都不怕，那么上面列举的快捷方式的三个就是剔骨刀，灵巧锋利，但是不能搞太大太硬的东西，否则会崩溃。

最后也是更深入的就是挖掘。我们都知道大数据的意义就是其背后隐藏的信息，怎么能把大数据背后的信息或者结论挖掘出来是我们所最终希望的。而图书馆作为大数据的拥有者之一，怎样能不浪费资源，在现有大数据的基础上挖掘出对自己有益的结论，以便更好的服务读者。

要解决这个问题，就要引入当下最火热的机器学习和深度学习技术，编程框架包括但不限于Tensorflow、Caffe、Caffe2、PyTorch等，数据挖掘模型包括RNN、LSTM、CNN等。由于图书馆的书大部分是以文字形式呈现的，而文字是一种靠前后顺序以助于理解的媒介形式，这种情况下的问题适合用RNN（循环神经网络）和LSTM（长短时记忆网络）来解决。这些工作可能应该交与公司和科研机构来解决。而图书馆方面的领导以及从业者可以从中汲取灵感，

比如在整理书籍被借阅记录的时候，可以结合时间轴来考虑问题，评判一本书在时间这一维度上的受欢迎程度的曲线变化，最终来决定哪些图书应该放在读者更容易看见更容易借阅的地方，而把那些逐渐淡出读者视野，不再跟得上时代要求的书籍转移到稍微差一点的书架位置，用这种方法来提高图书馆書籍的借阅率。当然这只是举了一个简单的例子，在实际工作中，人们会遇到各种各样复杂的问题，这种跨学科来汲取灵感解决问题的方式还是值得被我们所提倡的。

2.大数据思维下图书馆的挑战

大数据时代，海量数据将驱动创新与发展，同时也将极大的改变人们的思维方式。与传统思维方式强调因果关系不同，人们将逐渐接受数据分析，更加强调数据之间的相关关系、相互关系，人们逐渐抛弃基于假象然后去验证的思维方式，而是根据海量数据自然而然的找寻结果，分析出原因以为人们所用。很显然，目前的数字图书馆对组成数字图书馆的最基本单元的文献资源的唯一标识、科学引用频率统计、元数据描述标准统一、相似性关联及链接等都还无法做到，那么这种境况下，要实现这类基于海量数据的挖掘预测、为信息找用户等服务就还需假以时日，需要图书馆在以上叙述到的短板方面进行修改改进，以满足大数据时代读者思维下的需求。

四、图书馆未来展望

1.数字图书馆往数据图书馆的转型

现有的数字图书馆只是把互联网接入了图书馆，把原来只能到现场查阅的纸质图书部分转移到了网上变成可查阅的电子数据，并且把原本就是网上的文献等数据库进行了版权购买操作，使得师生能够从高校图书馆免费取得第一手文献。虽然这样的改变对传统图书馆来说已经算是一种进步了，但是在现在的大数据时代背景下，仅仅做到这样还是远远不够的，我们希望图书馆能完成从数字图书馆往数据图书馆的转型，真正的契合大数据时代的潮流，完成自己的完美转身。

关于什么是数据图书馆的定义，目前还没有准确的说法，从时代背景来理解，就是从以前简单的堆砌数据资料，变成从数据中提取出有价值的信息，使得数据排列放置更加得当，更加符合读者需求。

数据图书馆从大体上来说应该围绕两点来建立，即数据和数据业务。围绕数据就是要处理数据的存储、计算、查询和挖掘，这是一个很大的课题，单靠图书馆是不可能完成的，必须要依靠外部互联网公司合作来完成，通过引进合作来形成具有数据服务、数据出版和数据增值服务的数据图书馆形态。围绕数据业务，就是利用从数据中挖掘出的信息，如何契合读者需求，构建一整套的服务体系

2.数据图书馆的体系架构

从图书馆的角度来说，可利用的大数据主要分为三类，即文献大数据（纸质藏书、会议、期刊、专利）、用户大数据（个人信息、借阅信息、浏览信息）和其他大数据（政府公告、社交媒体数据、科研机构数据），这三种大数据构成了大数据层，而在大数据层中，这么多数据的存储当然不是存在图书馆一家，而是采用分布式存储、云计算存储、异地存储和异构存储，只要图书馆能通过某种路径获取数据即可达到要求[5]。在有了大数据层之后，我们要对大数据进行计算查询挖掘，这一层正如前文提到的，要用到多种关键技术来实现对数据的计算、分析、清洗与保存，完成从浩如烟海的数据中挖掘出有意义信息的工作。接下来就是用户层，在这一层中，要利用计算层挖掘出的信息，进行整合分析，反向去推算应该把最原始的数据如何有机的摆放整理，以完成对用户基础性服务（数据出版、数据管理和数据研究）和发现性数据服务（动态解析、追踪与检测和趋势预测等）

五、结语

在大数据的时代背景下，数字图书馆需要摆脱目前只是搜索的低端处境，而应该借鉴大数据的技术和思维方式，转而向数据图书馆做出改变发展，只有这样才能满足读者的要求，做到与时俱进。

参考文献

[1]黎建辉，沈志宏，孟小峰. 科学大数据管理：概念、技术与系统[J/OL]. 计算机研究与发展，2017，54（02）：235-247.

[2]孟小峰，杜治娟. 大数据融合研究：问题与挑战[J/OL]. 计算机研究与发展，2016，53（02）：231-246.

[3]李国杰. 对大数据的再认识[J]. 大数据，2015，1（01）：8-16.

[4]程淑娥. 大数据环境下区域科技资源共享平台云服务模式研究[D].哈尔滨理工大学，2017.

[5]顾立平.数据治理———图书馆事业的发展机遇[J].中国图书馆学报，2016（5）：29-45endprint