基于数据采集的互联网档案服务个性化转变

2017-01-28 08:16符昌慧
山西档案 2017年3期
关键词:资源库档案馆个性化

文 / 符昌慧

基于数据采集的互联网档案服务个性化转变

文 / 符昌慧

在互联网的快速发展下,档案服务需要更多的个性化元素。数据采集是实现互联网档案个性化服务的主要方式,但当前存在一些困境,包括有效信息采集困难、档案资源库异构等。这就需要通过数据采集的相关技术支撑,制定目标网站信息评价体系,选择合适的采集工具,加强资源库优化,并通过手动、自动、半自动等采集方式,为打造个性化服务奠定基础。

数据采集;互联网档案服务;个性化

随着信息技术的发展,互联网已经成为档案服务的重要载体,通过数据采集可以提升档案服务的个性化功能,满足人们对档案信息的需求。一直以来,图情档都是一个综合性的大专业。从实际情况看,图书馆的个性化服务走在了前列,而档案馆还需要进一步发展。在当前的档案馆现代化建设中,加强个性化服务能够带动档案馆跟上时代潮流,拓展互联网档案服务范围[1]。数据采集可以构建起内容丰富的档案资源库,为用户提供更多的信息资源,满足每一位用户不同的信息检索需求。

一、互联网档案服务个性化转变的主要困境

(一)有效信息的采集比较困难

互联网信息有着海量化特征,如何在大量信息中采集有效信息是一个难题。互联网档案信息不仅有文本信息,还有图片信息、视频信息、音频信息等,呈现出媒介融合、非规范性、跨区域、跨语言等特色[2]。由于互联网信息传播的倍增效应,信息生产和信息使用存在着较多的矛盾。例如,互联网档案信息日益增多,每时每刻都有大量的档案信息产生,但是信息采集的技术性问题也越来越多,特别是分类采集、精准采集、目标采集等,都是迫切需要解决的难题。在各行各业追崇个性化服务的今天,互联网档案服务也要实现个性化转变。只有及时采集有效信息、满足用户日益增强的信息需求,才能提高互联网档案个性化服务的水平。

(二)档案资源库的结构差异较大

档案资源库是推动互联网档案服务个性化转变的重要基础,但是,从当前的档案资源库现状来看,各档案馆的资源库结构存在较大差异。在资源共享的前提下,如何进行资源库的互通互联成为一道难题[3]。互联网是一个充满竞争的领域,同时也是一个强调合作的领域,为了促进互联网档案服务的个性化转变,需要众多的档案馆之间相互交换资源、交流经验,这是任何一个档案馆创新发展的前提。由于当前各种互联网数据库的结构标准和信息体系不一,使得档案资源库处在一个异构的环境中,而在倡导档案信息个性化服务的今天,互联网数据库的这种异构性阻碍了档案服务的个性化转变,各资源库之间的信息共享不够通畅。

(三)档案数据难以及时反映出事物的动态变化

互联网信息日新月异,只有及时采集到反映出事物动态变化的数据,才能提高信息应用效果。每一个数据都有自身的生命周期,活数据可以延长生命,死数据的生命周期则会快速结束[4]。互联网档案信息增长快速,有着很高的更新频率,这是传统信息所不能比拟的,但是,如何通过采集技术捕捉到活数据,让采集到的信息能够反映出事物的动态变化,成为当前的一项难题。对于互联网档案个性化服务来说,用户感兴趣的是动态的、充满生命力的信息,所以,档案馆不但要多采集此类信息,而且要活用这类信息。只有这样,档案馆才能发挥出档案数据的潜在价值,开发出更多的个性化服务功能。

二、互联网档案服务个性化转变的技术支撑

(一)针对采集目标制定网站信息评价体系

档案馆为了充实自身的资源库,强化互联网档案个性化服务,需要选择质量高、公信力强的目标网站,并针对采集目标进行全面细致的考察,深入了解目标的基本情况,以提高数据采集的完整度和知识水平[5]。此外,档案馆还要掌握采集目标的信息储存格式、更新频率以及检索方式等,并按照目标网站的资源特点与技术特色,制定网站信息评价体系,所用到的指标包括目标网站的信息权威度、信息新颖度、资源广度、资源深度等。在信息评价体系的支撑下,档案馆可以进一步对目标网站做出深度评价,以提高数据采集策略的科学性、可行性、合理性。

(二)选择合适的数据采集工具

在建立起网站信息评价体系之后,档案馆就可以根据评价结果进行数据采集,但是要选择合适的数据采集工具。这时,简单性、实用性、性价比高等因素,都是人们需要考虑的范围。目前比较常用的数据采集工具有火车头、网络爬虫、网络矿工、ET采集等。对于数据结构并不复杂的静态页面采集,可以选择火车头;而对于数据结构复杂的动态页面采集,可以使用网络爬虫和ET采集[6]。网络矿工则具备数据采集和数据分析一体化的功能,但采集状态不够稳定,如果仅作分析用,倒是一个不错的选择。档案馆应根据自身要求做出选择。一个符合实际需求的数据采集工具,往往能够达到事半功倍的效果。

(三)加强档案资源库的优化工作

为了提高信息采集的质量,除了合适的采集工具之外,还要加强档案资源库的优化工作。首先要建立完整的数据接口,能够对数据来源进行自动标注,同时生成文件的标识符,并自动转化成数据库所要求的统一储存格式。其次,还要重视数据资源的有效性,档案资源库应具备自动过滤重复信息或者无用信息的功能,能够对信息资源进行相应的整合、归类、编目、整合等处理操作,使种类不同、主题不同的档案信息可以在资源库中得到优化[7]。档案资源库是数据采集之后的最终归宿,考虑到资源库的异构问题,在优化的过程中我们应尽量集合同类数据库、相近数据库,以使信息资源得到最大程度的共享。

三、打造互联网档案个性化服务的有效方式

(一)通过选择性归档实现互联网档案个性化服务

选择性归档主要通过手动采集的模式进行,在一定程度上可以解决有效信息采集的问题,可以使互联网档案个性化服务有更精确的资源,但工作效率不高,所以应用的范围有限。例如,档案馆可以在互联网海量的信息资源中选定某种范围,然后对档案数据进行相应的归档。当前的选择性归档主要分为两种:一是选择专业的目标网站,通过分析网站状态、网页构建技术、数据类型等,通过相关的采集工具对档案数据进行采集;二是通过搜索引擎查询档案信息主题,根据列出的结果进行数据采集。搜索引擎是当前使用最广泛的信息查询工具,除了传统搜索之外,还有智能搜索、提示搜索、关键词搜索等,但需要手动输入相关信息[8]。选择性归档试图同等对待互联网上的数字档案信息跟传统的纸质档案信息,属于传统信息收集方式的变通与延伸,其优点在于选择出来的每一条档案信息都能保证质量,并且能得到最大程度的应用;条目内容可以在资源库某个主题下进行完整的归档,成功归档的条目能够被集中录入,自动存储到资源库中;用户可以通过资源库检索工具查阅到每一条归档的条目,确保档案信息的有效性。其缺点在于选择性归档属于手动采集模式,对信息的判断有较强的主观性,难免会存在一些遗漏和偏差,并且这种模式主要移植和变通了传统文档保存方式,但是互联网的信息资源变化因素较多,在一定程度上限制了选择性归档的发展。例如,当档案馆的信息采集规模不断扩大时,手动操作的劳动量将会呈现出无限增长的态势,工作效率属于较低层次,所以一般用于采集初期或者针对较小采集量。

(二)通过全面性归档实现互联网档案个性化服务

全面性归档主要通过自动采集的模式进行,有着覆盖范围广、工作效率高的优势,成为当前应用最多的归档方式,是打造互联网档案个性化服务的主要模式。全面性归档采用了智能程序,可以对互联网上所有的档案信息进行自动归档,可以在最大程度上避免数据归档的人工干预,在提高效率的同时还能降低人工成本。在自动采集的模式下,我们需要选择跟资源库匹配的智能采集工具,以及具备性能出色的离线浏览器,以便在任何时间、任何地点采集档案信息。目前使用较为广泛的离线浏览器,如HTTrack、Kiwix for Mac、XOWA for Mac、WebCHM等,除了能够离线抓取之外,还能在指定时间点登录目标网站,自动采集预定的信息内容[9]。由于信息采集面对的数据格式较多,除了文本格式之外,还有图片、视频等,所以我们还需要一些辅助型的特色工具。例如,为了在采集时有效保存网页上的图片,可以采用GlobalFetch极速搜图工具,既可以大批量自动下载网页上的所有图片,还可以自动给图片文件加上注释,非常简单实用。WebCatcher也是一款实用的网页保存工具,除了文字、图片之外,还可以自动保存FLASH动画、视频等。WebShot则可以将网页转化成一个图片进行保存,无论网页的页面有多长都可以完整截取,这对于结构复杂、信息量大的网页采集非常有帮助。随着互联网技术的发展,一些大型网站除了内容丰富之外,数据保护技术也非常出色,于是,一般的采集工具难以捕捉到核心数据,需要有专用软件[10]。具备一定技术水平或者资金实力的档案馆,可以有针对性地开发一些专用捕捉软件,用于信息自动采集中,往往能够取得意想不到的效果。

(三)通过综合性归档实现互联网档案个性化服务

综合性归档通过手动采集和自动采集相结合的模式进行,属于一种半自动模式,一般用于有特殊要求的档案信息采集,例如,既要求信息有效性又要求采集快速性的档案信息采集,就可以使用这种模式。由于选择性归档的工作效率较低,有着极高的人工成本,而全面性归档虽然提高了工作效率,但内容较为宽泛,采集到的信息有一些是有瑕疵的,有许多具备潜在价值的资料也容易被忽略。此外,全面性归档对计算机的要求很高,需要全天候正常运行,具备足够的储存空间,采集工具也需要较多的成本投入。全部采用这种模式,势必要求档案馆有较高的资金实力。综合性归档使用的是半自动采集方式,结合了手动和自动方式的优点,不但能提高采集效率,而且能融进手动模式下的脑力思考,所以有一定的发展需求。目前,中小型档案馆大多采用综合性归档模式,在资金不充足的情况下,发挥了手动采集和自动采集的优点,用合理的资金达到更高的工作效率。

总之,在数据采集理念下,互联网档案服务的个性化转变需要根据档案馆自身情况,选择合理的数据采集方式,不断充实和完善档案资源库,为个性化服务的开展提供资源保障。每一种采集方式都有优势,手动采集针对性强,方便有效信息的采集;自动采集覆盖范围广,工作效率高;半自动采集则综合了前两种方式的优势。但是,三种模式的缺点也比较明显。为了更好地实现互联网档案服务个性化转变,最优方式是有机结合三种类型,以自动采集为主要手段,以另外两种为辅助手段,形成较好的功能互补,以达到事半功倍的效果,使互联网档案个性化服务上升到一个新的层次。

[1]张小兰.档案服务变革与转型策略研究:基于“互联网+”益民服务的视角[J].浙江档案,2017,(3).

[2]刘鑫.“十三五”期间期刊出版单位档案信息化管理改革与路径分析[J].山西档案,2016,(6).

[3]倪晓春,张蓉.关于非物质文化遗产档案数字资源库建设的思考[J].档案学通讯,2017,(2).

[4]刘春年,陈通.基于共词聚类的我国档案信息化研究结构、趋势分析[J].档案管理,2015,(6).

[5]米永宁,耿志杰.应用大数据技术开发数字档案信息资源的现实困境与策略研究[J].北京档案,2016,(11).

[6]田萌.档案信息资源规划的价值取向及其实现[J].山西档案,2015,(5).

[7]曾琴,蒋文昕.社会记忆视角下的数字档案馆建设:以乔治梅森大学历史和新媒体中心为例[J].浙江档案,2016,(8).

[8]赵珺.大数据时代高职院校档案信息化建设研究[J].档案与建设,2016,(12).

[9]孙杰,吴晓文.信息化手段下海洋档案信息资源的整合与共享[J].档案与建设,2016,(7).

[10]王兰成,黄永勤.信息化条件下图片资料档案库规范化建设研究[J].浙江档案,2016,(5).

G270.7

A

1005-9652(2017)03-0072-03

(责任编辑:虞志坚)

符昌慧(1983-),女,江苏盐城人,硕士,盐城工学院档案馆馆员,研究方向:档案数字化管理。

猜你喜欢
资源库档案馆个性化
幼儿园课程资源库建设之浅见
云南省档案馆馆藏《东巴经》
健身气功开放课程资源库建设研究
坚持个性化的写作
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
数控加工专业资源库建设中存在问题及对策
基于共享资源库的混合式教学考核模式研究
上汽大通:C2B个性化定制未来
同桌宝贝
when与while档案馆