基于Web3.0的信息资源共建共享应用研究及实现

2013-02-23 09:18
大众科技 2013年12期
关键词:语义个性化数据库

陈 茫

(桂林理工大学 图书馆,广西 桂林 541004)

1 引言

Web2.0技术的广泛发展和应用,带来了互联网的快速繁荣,给用户提供了海量的信息资源;同时,也因为Web2.0自身的缺陷,使信息无序存在、信息不精准、可信度及可用性不高、搜索效率较低等问题相继的出现。广大用户如何在最短的时间内,获得切合自身需求的信息和知识,以及便捷的互动交流和协同共享方式,成为了一个新的急待我们解决的问题。

这种背景之下,能够为用户提供一种更加高效、精确和个性化的互联网平台的 Web3.O模式成为首选的解决方案。Web3.O其实就是建立在Web2.0基础上,并实现了更加“智能化的人与人和人与机器的交流的”功能的网络模式。

2 研究状况分析

为了优化和创新Web3.0的信息服务模式,当前国内外的相关学界和网络应用服务商等,在技术平台建设之中应用Web3.0技术已成为大势所趋,基于Web3.0的数据库仓库原型系统、综合信息服务平台也已经陆续出现,并逐步受到广大读者用户认可和好评。国内外越来越多的专家、学者和有识之士也正利用这一契机来推出新型Web3.0信息资源服务技术平台,并力图将其融入更多用户的日常学习和生活之中。

2.1 国内外研究状况

在国外,Web3.0的研究热点和难点大都主要集中在Semantic Web(语义网)的研究,并在此基础上,国外的众多专家和学者出现很多研究的理论成果。诸如:2004年,RDF标准和OWL标准的制定,标志着Web3.0的计算机描述语言已经完善;2007年,微软的MSN Space进行了整合创建了新的Windows Live[1]平台以及Eye OS[2]是国外成功Web3.0技术的知名网站等成功的Web3.0案例等。

在国内,我国也把 Semantic Web(语义网)的研究技术列为863计划中的重点研究项目,该项目系统地对Semantic Web进行了介绍,并对Semantic Web及其关键技术做了一些试验与应用研究。2006年,新浪博客[3]推出基于Web3.0技术的博客网站 Blog3.0;2007年,国内第一家具有代表性的基于Web3.O理念的网站——阔地网络诞生;2008年,雅蛙也推出了自己基于Web3.O理念的个性化聚合平台。

2.2 当前存在的主要问题

纵观目前国内外有关Web3.0的相关研究,可以发现,国内外学者探讨最多的是Web3.0的定义、特征、架构及实现机理等,并在此基础上提出了Web3.O的信息组织应该向结构化、个性化和智能化(语义网)方面发展,与此同时,国内外业界也在积极研讨和推出具备Web3.0特征和理念的网站及相关的应用平台。但通过对本领域的研究和调研,本文的作者认为目前有关Web3.O的研究还存在以下的局限:

(1)虽然,目前大家都在致力于分析和探讨了 Web3.O实现的基础和技术,但相关研究都不够系统和深入,缺乏具体可行的解决方案。

(2)虽然,目前国内外有许多网站或者平台系统都声称自己是具备Web3.0的特征,但实质上大都只是从不同的角度实现了Web3.0的部分特征而已。

(3)语义网技术是 Web3.0的重要技术基础,国内有关语义网的相关研究在广度与深度、标准规范等方面与国外的先进水平相比均有一定的距离。

3 Web3.0技术的内涵及特征

不难看出,Web3.O技术为广大的用户提供了一个基于用户个性化需求的智能、高效和综合的解决平台。通过整合各种不同的网络信息资源,整合不同的用户需求,再根据用户的兴趣和需求,提供最为有用的信息聚合,以满足用户的个性化需求,进而提升用户获取和使用信息的效率和质量。

3.1 Web3.0的内涵

作为学界研究和网络应用上最炙手可热的词汇之一,国内外的专家学者对于 Web3.0技术都有自己不同的定义和理解。Web3.0的概念是由Web之父Tim Berners-lee于2007年首先提出,他认为“Web3.0 is something called the Semantic Web.”即Web3.0就是语义网;Jason calacanis认为Web3.0是利用Web2.0的技术作为切实可行的平台,将各种网络资源进行整合后,给用户提供高质量的服务;李硕[4]认为 Web3.0是个人门户和信息聚合的时代,对于个人用户来说,互联网将由一系列的标准化Web组件(如微件Widget等)组装起来,用户可根据个人需求和喜好构建个人门户,等等。

虽然,目前Web3.0还没有较为权威和统一的定义,但是其理论基础还是非常明确的。通过查阅大量的资料,本文的作者认为华中师范大学的熊回香博士[5]在其博士论文中给出的定义较为全面:即Web3.0是全新的解决方案,它是对Web2.0的发展,即将微内容继续拆分,使其标准化、结构化,实现微内容间基于语义的互动连接;同时在应用Blog(博客)、Tag(标签)、Wiki(维客)和 SNS(社交网)等基础上,基于用户行为,采用RDF(资源描述框架)、人工智能和语义网等技术对多家网站信息进行整合使用,最终实现个性化、聚合化、高效率和智能化的互联网服务。总而言之,Web3.0的核心理念是“个性、精准和智能”。

3.2 Web3.0的特征

3.2.1 提供个性化的信息服务

Web3.0的最大优点就是实现个性化信息服务的聚合。信息资源可通过底层的云数据库群进行交互和整合,在语义网以及 RSS等基础设施的支撑下,根据用户的需求进行定制和跟踪,从而实现用户偏好的个性化服务聚合,并最终反馈给用户[6]。

3.2.2 提供精准和智能的信息检索

Web3.0技术是把现代人工智能的技术与方法引入到信息检索系统,使平台具有智能的特征,使信息检索系统能“理解”文件包含的信息内容和用户的信息需要,并且能够在对内容的分析理解、内容表达、知识学习、推理机制、决策等基础上,实现精准和智能的信息检索[7]。

3.2.3 提供多语言、多平台的信息共享

Web3.0的服务模式下,可实现个人PC、互联网、WAP手机终端、PDA、机顶盒以及各种专用终端等不同终端上的兼容。各种不同终端的用户群体均能享受到Web3.0带来的便捷,并且,它也实现网络融合的普适化、公用显示装置与个人智能终端的通用,从而实现真正意义上的多语言、多平台的信息共享。

3.2.4 提供高效和集成的整合资源

Web3.0模式下,运用计算机技术、数据通信技术、网络技术和数据库技术对资源进行统一管理,从而实现信息制作、管理单位中分散存储和管理的各类信息资源高效和集成的整合。

3.3 Web3.0下的信息资源共建共享

Web3.0作为当前最让人期望的网络技术之一,其在信息服务领域的个性化、精准、智能化、跨平台、跨语言、高效率和整合等特点,使得它像我们的“人脑”一样,能提供我们最需求的信息资源。这些Web3.0的特征也和资源共建共享的核心理念不谋而合,共享的信息资源 + Web3.0技术的新的信息共建共享环境,注定会在将来越来越多的领域涉及和实现。

4 系统设计

系统设计描述了建立计算机信息服务系统所需的数据结构和程序构件,它需要考虑系统采取的体系结构风格,系统组成构件的结构、性质,以及所有体系结构构件之间的相互关系。Bass、Clements和Kazman[8]等认为一个程序和计算软件构架是指系统的一个或多个结构。结构中包括软件的构件,构件的外部可见属性以及它们之间的相互关系。系统的构架设计对于系统开发有着非常重要的作用,其设计的成败,直接影响着随后软件开发工程的工作,从而决定着整个工作的成败。

本文以笔者参与的桂林地区某信息资源共建共享系统为例,探讨如何建立一个基于Web3.0的信息资源共建共享系统。该平台吸纳桂林地区科学、教育和文化三大领域科研机构、高等院校和公共图书馆参与,采用整合其现有资源、引进科技文献信息数据库、自建特色数据库等措施,逐步完善和提升桂林地区科技文献信息保障能力。

4.1 系统的总体结构

本系统是基于Web3.0技术的共建共享平台应用系统,采用B/S模式。通过这种模式,不同的用户可以在不同的地点,通过统一的用户界面接入到现有的网络服务应用系统之中;同时,它的系统开发、维护和升级对于管理人员来说也较为方便,管理成本也较为低廉。

本系统采用经典的MVC分层的设计思路[9],如图1系统体系结构示意图所示,整个系统共分成四层:即用户访问层、应用服务层、基础服务层、分布资源层。

4.1.1 用户访问层

用户访问层是整个系统的入口,共建共享平台的各个成员单位(高校图书馆、科学技术情报所、公共图书馆、公共图书馆、其他单位等),都可通过多种终端设备(如Internet、PDA、Intranet、WAP手机、其他专用客户端)接入平台。

4.1.2 应用服务层

应用服务层为整个共享平台的各个用户提供核心的服务,实现信息的共享、检索和推送等功能。该层主要包括以下服务:新闻公告服务、联合目录、自建资源服务、统一检索、RSS推送、知识推荐服务、交流互动服务、反馈评估服务等。

4.1.3 基础服务层

基础服务层提供着整个共享平台的信息交互所需要的基础功能,这些功能由底层服务实现,供应用服务层调用。该层主要提供两个服务:个性化知识搜索和知识存储。用户所需的信息资源经过智能过滤,进入信息结构化处理阶段,一部分经由本体库访问并匹配,继而完成知识的搜索和发现;而另一部分直接经由用户行为特征挖掘的阶段,实现知识存储和发现。

4.1.4 分布资源层

分布资源层是整个共享平台的信息存储层,为其他各个层提供所需的各种数据库、方法工具库、联合目录库和本体库等。本体库用于存储信息资源共享平台的计算机自然语言处理、语义搜索、计算机推理和人工智能等的一个不可或缺的基础数据库;联合目录库是用来存储各个成员之间的共建的联合目录的公共数据书库;云数据库(即Cloud DB,或者简称为“云库”)是存放在各个成员单位内部的一个虚拟“云库”,它的使用如同我们打开水龙头一样,水从城市的哪个水库调过来,甚至从哪个城市调过来都与我们无关,我们只需按照流量付费好了;方法/工具库主要存储各种知识挖掘工具、评估方法和工具等资源。

图1 系统体系结构示意图

5 系统实现

5.1 系统实现的网络拓扑结构

基于Web3.0技术的共建共享平台应用系统是以现有的网络服务平台为依托的,并采用了Web3.0技术进行研究,建设本系统的组网方案。其主要由三个部分组成:云终端用户(科学技术研究所、高校图书馆、公共图书馆、其他单位)、Web3.0网络(WAP协议、TCP/IP/HTTP等协议、其他协议)、云数据库群。其网络拓扑结构示意图,如下图2网络拓扑结构示意图所示:

图2 网络拓扑结构示意图

5.2 基础开发运行环境

本平台采用.NET 和Ajax 等交互式网页内容和页面分离的开发技术,以Visual studio2010 为开发工具,使用.NET 组件、C#,JavaScript 等开发语言,采用MSSQL 2008 Server 数据库对资源共享数据统一管理,统一维护。系统平台运行软件环境要求有Windows2008 Server,IIS服务(IIS6.0以上)和 DNS 服务,以及安装 Framework4.0 框架。客户端操作系统不限,只需要支持浏览器功能即可。

5.3 关键实现基础技术

5.3.1 语义网技术

互联网之父Tim Berners-Lee认为“Web3.O就是语义网”,而许多互联网专家在谈论Web3.O时也大量借鉴了他的理论,然而,Web3.O并不是语义网的同义语,但毫无疑义语义网技术是Web3.O的重要技术基础。语义网技术即是将现有网页看作是数据库中的数据元素,即数据网络,让各种应用程序自动阅读,而不是只是基于浏览器的人工阅读,其通常做法是在现有网页顶部增加一层意义,使现有网页内容更少,更易于计算机读取,而这一层意义就是语义网。它是Web3.O最有希望的基础技术,是互联网未来的发展方向。基于语义网技术的信息检索,就是通过一定的手段和方法,利用计算机程序自动分析信息资源的语义信息,查找和发现具有特定知识单元的信息资源。语义网上每个文档都是一个本体,大的文档又可以分为若干个小的本体。领域本体库构建后,可以利用该领域本体库构建查询本体和信息资源的应用本体。查询时,只需要动态地生成、匹配查询本体和应用本体即可[10]。基于语义网的信息检索模型如下图3所示:

5.3.2 云数据库技术

云数据库是部署和虚拟化在云计算环境中的数据库[11]。一个实例来阐释云数据库的数据访问方法,如图4所示,当客户端请求数据时,它首先向管理器请求一份分区映射图,管理器向客户端发送分区映射图;客户端收到以后,在图中进行搜寻,根据键值找到自己所需数据的存储位置;然后,客户端到指定的数据节点请求数据;最后,由该数据节点把数据返回给客户端.实际上,为了改进性能,同时也为了避免管理器的性能瓶颈,通常会在客户端缓存常用的分区映射图。这样,客户端在很多情况下不必与管理器交互就可以直接访问相应的数据节点。

5.3.3 个性化检索技术

个性化信息检索的主要目的在于为读者提供满足读者查询语义的全面、精准的个性化需求的信息,个性化模块承担着收集、管理并反馈给读者个性 Web的任务。它需要对读者长期的行为进行跟踪,掌握读者的个人信息、个性偏好、使用的关键词、历史浏览记录等,从而对读者构建读者模型。通过读者模型的建立及读者长期行为的跟踪,当用户登录时,就会自动生成用户感兴趣的个性化Web,而在检索时,系统也会考虑读者的个性偏好,针对不同读者提出的相同检索要求,系统会返回不同的个性化检索结果,因此就更加满足了读者的个性需求信息的要求。

5.3.4 共建共享平台性能优化技术

(1)数据库优化

在逻辑设计阶段,要按照范式优化的具体要求来设计数据库逻辑结构,比较其优劣从而选择更好的方案;在数据库物理设计阶段,在有关属性或属性的组合上建立索引时要根据索引优化中的具体要求来进行,使数据库物理结构得以优化;在数据库查询阶段,优化数据查询语句,以提高 SQL语句的执行效率。

(2)查询优化

查询优化的具体实现可分为 3个阶段:第一阶段,信息相关度计算,即将收集的文档或信息通过与用户需求相似性的匹配计算其相关度,并将其计算结果存放在查询列表中,为信息过滤做好准备;第二阶段,信息内容过滤,即通过查询历史记录识别用户需求和偏好,并提取用户偏好的关键特征值,然后通过将被标识的文档或网页的关键属性与用户偏好关键特征值的匹配,过滤与用户偏好不相关的信息;第三阶段,信息结果保存和交互,每个节点通过和另一个节点的交流实现分布查询任务、交流信息或完成查询任务,每个节点只搜索和存储用户感兴趣内容的网络模型和系统交互模式的交互内容,从而实现真正的分布式搜索和查询。

(3)数据传输优化

Web服务在网络中的传输是以XML为基础的消息的请求和响应。数据XML 化了之后,体积会增加,而增加的数据传输会使传输速度降低。一个最直接的解决方案就是对传输的数据先进行压缩以减小体积。数据压缩技术已经发展了很多年,有很多成熟的技术、算法以及工具包。经常用于对数据进行压缩的免费 API有 GZIP、SharpZipLib 等。GZIP和SharpZipLib 都是免费开源的工具,而且使用比较广泛,且性能稳定。这些工具都能很好地应用到Web 服务的数据传输中[12]。

5.4 具体实现效果

桂林地区工程技术文献信息共建共享模式研究的各项工作正在顺利进行当中,中心平台的门户网站已经初具规模(http://202.193.80.193) ,其具体的效果如下图5所示:

6 结论

目前该系统已经初步建成并投入使用,各分学科站点建设进展顺利,在使用过程中,整个系统工作状况良好,在数据采集、数据传输、数据存储与数据发布等各方面都达到了可用性、可靠性、安全性的要求,为桂林地区的社会发展、技术进步、自主创新和工业体系升级提供较为完善的信息保障。尽管本系统在使用过程取得了预期的效果,但是基于Web3.0技术的共建共享平台应用系统的开发是一项比较复杂的工程,涉及到诸多技术与理论,所以本系统在开发上难免存在不足,今后仍需不断完善和改进。总之,可以预见在不久的将来,基于Web3.0技术的应用前景将会一片光明。

[1]百度百科. windows live. [EB/OL]. [2013-02-21]. http: //baike. Baidu.com/view/15505.htm

[2]Eye OS. [EB/OL].[2013-02-21].http://www.eyeos.com/

[3]新浪博客3.0. [EB/OL].[2013-02-21]. http:// blog. sina.com.cn/.

[4]李硕.基于 Web3.0的数字图书馆服务模式创新研究[J].图书馆工作与研究,2009(9):21-23.

[5]熊回香.面向 Web3.0的大众分类研究[D]. 华中师范大学,2011:44.

[6]马启花.基于 Web3.0的高校图书馆图书采访智能化决策设想[J].现代情报,2009,29(4):117-118.

[7]韩娇红.我国智能化信息检索发展及研究现状[J].图书馆学刊,2012(1):49-63.

[8]Bass,L.and P.clenments,and R.Kazman,software Architecture in Practice,2nd ed.Addison-Wesley[C].2003.

[9](美)Martin Fowler,等著.企业应用架构模式[M].王怀民,周斌,译.北京:机械工业出版社,2005.

[10]王志华,赵伟.基于本体的语义网检索模型及关键技术研究[J].计算机工程与设计,2011,Vol.32,No.1:145-148.

[11]Yoon JP.Access control and trustiness for resource management in cloud databases. In: Fiore S,Aloisio G,eds.Proc.of the Int’l Conf. on Grid and Cloud Database Management[C].Berlin: Springer-Verlag,2010,1-19.

[12]李果,张锦等.基于压缩思想的 Web 服务数据传输优化研究[J].计算机应用,2009,12(29):34-36,40.

猜你喜欢
语义个性化数据库
坚持个性化的写作
语言与语义
新闻的个性化写作
数据库
上汽大通:C2B个性化定制未来
数据库
“上”与“下”语义的不对称性及其认知阐释
数据库
数据库
认知范畴模糊与语义模糊