文档搜索引擎的解决方案及其检索功能比较分析

2013-09-12 04:12孙良红张玉祥
图书馆界 2013年5期
关键词:搜索引擎文档检索

孙良红,张玉祥

(山东中医药大学图书馆,山东 济南 250355)

随着网络信息资源的不断丰富和发展,网络资源越来越呈现出纷扰杂乱的面貌。面对海量的信息资源,为了让用户及时准确地获取所需要的信息,网络检索工具应运而生。经过十几年的发展,搜索引擎已经成为人们获取网络信息资源不可或缺的工具之一。然而,网络信息资源的数量正以几何级数级增长,且广大用户的需求呈现多样化的趋势,简单的网页检索已经远远不能满足要求。CNNIC《第26次中国互联网络发展状况统计报告》指出:从2009年开始,搜索引擎进入新一轮的快速发展时期,为了满足用户的多元需求,进一步提升搜索引擎作为互联网入口的地位,国内各搜索引擎厂商服务呈现更加多元化趋势,文档搜索引擎正是为满足用户多元化需求的重要网络应用之一。

1 文档搜索引擎的界定

网络信息资源以各种形式分布式存储在网络中的各个分布式数据库中,不仅存储的信息量庞大,而且存储格式也多种多样。网络中的文档信息资源是指以特定的文档格式分布存储在网络中的特定信息资源,这些资源涉及学术论文、会议报告、商业文档模板、公文模板、教育类资料、法律文件、文学小说等多个领域,格式上包括 pdf、doc、xls、ppt、txt等十数种。

文档搜索引擎是指根据一定的策略,运用计算机程序搜取网络上存在的文档资源,对文档信息进行组织和处理并将处理的信息显示给用户,是一种专门为用户提供文档检索服务的网络系统。虽然文档搜索引擎发展时间不长,但是国内外已有很多专门用于文档检索的引擎,见表1。

表1 国内外主要的文档搜索引擎列表

文档搜索引擎检索的对象为网络中广泛存在的、大量的文档资源,和学术搜索引擎的不同表现在:这些文档资源大部分来自网络用户的上传,在网络中可以开放获取,存储文档的格式更加丰富多样;从文档内容上看,文档搜索引擎是为了满足用户的实际需要,它不仅包括部分学术资源,还包括如商业模板、公文模板以及文学作品等实用性很强的文档资源。文档搜索引擎和商业数据库相比,它的优势表现在其大部分文档资源都可以免费获取。文档搜索引擎不需要独立开发网络资源,只是提供一个供用户共享资源的网络平台,这个平台的资源来自用户,最终受益的也是广大的网络用户。

2 国内外典型文档搜索引擎解决方案

在众多的文档搜索引擎中,可以根据系统模式的不同划分为两种解决方案:一是独立的网络文档存储和检索平台,如百度文库、豆丁和 Docstoc等;二是强化传统搜索引擎的文档检索功能,为用户提供专用的文档检索接口,如 DcoJax、Brupt等。

2.1 独立的网络文档存储和检索平台

独立的文档检索系统的优点是不依赖传统搜索引擎,作为一个独立的网络检索平台可以很好地融合Web 2.0的相关技术,实现搜索引擎的多种个性化功能。缺点主要是:文档资源主要来源于网络用户的贡献,文档的质量良莠不齐,而且存在大量的重复。为方便用户检索,文档搜索引擎要做的主要是对这些文档进行组织和分类。这类文档搜索引擎的发展主要依靠吸引网络用户的数量,利用网络效应来实现其价值,所以网络用户的数量成为其发展的重要决定因素。为了解决这一问题,很多文档搜索引擎通过模仿电子商务嵌入文档营销模式来吸引网络用户的关注。因此,独立的网络文档搜索引擎可以分为两类:共享理念的文档搜索引擎和嵌入营销模式的文档搜索引擎。

2.1.1 共享理念的文档搜索引擎。免费的搜索引擎和传统的搜索引擎一样,普通用户使用它不需要任何费用。其特点就是为网络用户提供免费文档共享的平台,用户通过匿名访问或注册用户登录的方式检索和获取平台中的文档资源。这类文档搜索引擎的典型是百度文库。

百度文库是一个开放的共享平台,用户通过注册一个百度文库的账户,登录系统后就可以在线浏览、上传和下载文档。用户通过上传文档可以获得平台虚拟积分奖励,用于下载自己需要的文档。免费文档可以登录后下载,对于上传用户已标价的文档,下载时需要付出虚拟积分。百度文库的文档主要来自用户上传,百度本身不参与编辑或修改用户上传文档的内容,但是对用户上传的文档需要通过系统的审核。

2.1.2 嵌入营销模式的文档搜索引擎。一些文档搜索引擎模仿电子商务网站的模式,通过嵌入营销模式来吸引更多用户。用户利用这个网络平台来出售自己的文档而获得销售收入。这类型文档搜索引擎的典型是豆丁网和Docstoc。

(1)豆丁网是全球优秀的C2C文档销售与分享社区。和典型的搜索引擎不同,豆丁网更像一个Web 2.0下的网络社区,在这个社区里可以搜索教育资料、论文课件、学术报告、财经分析、原创文学等相关资料。豆丁网的特点是引入了网络营销的概念,首次在文档分享社区中融入了基于C2C理念的文档销售模式。借助豆丁可以对自己的文档进行定价,交易成功后,豆丁网收取固定比例的佣金。

(2)Docstoc是一款优秀的社会性文档分享以及阅读的网络服务系统,为用户提供了在线存储、分享以及交流文档的互联网服务。Docstoc包括有法律、商业、财经、技术、教育等各式各样的文档资源。Docstoc通过DocCash功能来实现对网络文档的销售和管理。DocCash是国外一家可以让用户通过分享各类文档资源并结合Goolge Adsense账号赚钱的服务机构,它支持无限的存储空间和代码调用,是Adsense第三方合作机构,可以通过它申请账号。用户每上传一个文档,都会有一个独立的包含此文档的页面,在这个文档的上面与下面会显示Adsense的广告,如果有人点击所产生广告费,DocCash会收取50%作为佣金。

2.2 传统搜索引擎提供的文档检索工具

传统搜索引擎经过许多年的发展,已经积累了极其丰富的网络资源,为了满足用户对网络中文档资源的检索需求,很多综合性搜索引擎推出了对文档资源检索的专用检索工具。通常情况下,综合性搜索引擎会提供一个简洁的搜索入口或独立的检索界面,用来区别传统的搜索引擎。这类型的文档搜索引擎主要有DocJax和Brupt。

(1)DocJax并不是真正独立的搜索引擎,它的搜索结果大多数都是来自Google、Yahoo和Bing等。DocJax是以英文为主要语言的网站,DocJax除了支持英文,也支持多国语系,包括简体中文、繁体中文或日文都可以正确检索。它采用Web2.0服务形式,支持搜索结果格式过滤,用户可以从搜索结果中挑选自己想要的文件格式,并且搜索的文件可以免费下载。

(2)Brupt是Google的一个自定义搜索引擎,和通过Google高级搜索的结果是一致的,可以搜索pdf、doc、ppt、xls等格式的文档,支持中文搜索。搜索的结果除了显示相关文档的摘要,还支持HTML浏览。

3 文档搜索引擎的检索功能比较分析

文档搜索引擎具有Web 2.0应用系统的典型特点,这些特点表现在文档搜索引擎能够提供给用户更加多样的检索功能,这些新的检索功能给用户检索带来了新的体验。以下选取百度文库、豆丁网、Docstoc、Scribd、Brupt和 DocJax 六个典型的文档搜索引擎,对主要检索功能做比较,并分析所提供个性化功能的差异,见表2。

表2 文档搜索引擎的检索功能比较

3.1 文档搜索引擎的检索功能比较

通过表2可以看到,为了满足用户的检索需求,各个文档搜索引擎提供了丰富多样的检索功能。相对于综合性搜索引擎开发的文档检索工具相比,独立的文档搜索引擎提供了更加丰富多样的检索功能。

(1)在检索模式上,所有搜索引擎均支持关键字检索,独立的文档搜索引擎还支持目录式检索模式,网络文档检索工具来源于综合性搜索引擎,主要给用户带来对其自身文档资源检索的便利性,例如DocJax是谷歌和雅虎合作而开发的一种检索应用系统,主要体现在应用简洁方面,只支持关键字检索模式,而不具备一系列的个性化设置功能。

独立的文档搜索引擎还支持二次检索和精确匹配检索。例如百度文库支持二次检索,在初次检索之后,用户可以根据文档的“相关性”“最多下载”和“最新上传”对检索结果进行二次排序,从而使用户获得更加符合需求的结果;同样Docstoc也支持二次检索,在初次检索后,用户可以根据文档格式、分类、语言等限制条件进行二次检索,而且Docstoc还支持精确匹配检索,例如用户可以只检索文档的标题和精确匹配用户输入的检索关键字进行精确检索。

(2)在检索内容上,各个文档搜索引擎都支持对标题和具体格式的检索。文档搜索引擎根据各自开发的文档阅读器,可以在阅读的时候摆脱具体文档格式的限制,不管是pdf还是Office软件中的各种格式都可以通过这一通用的阅读平台来展现给用户。而且独立的阅读器还可以提供缩放、文档内检索、全屏阅读等功能,给用户带来了新的阅读体验。

(3)在检索的文件格式上,所有的文档搜索引擎基本上都支持pdf、doc、xls和ppt等主流文档存储的格式,并全部支持全文在线浏览。

(4)在支持的语言上,由于文档搜索引擎处于初步发展阶段,国内的主要支持中文,而国外的也主要支持英文,对中文的支持程度还有一定的欠缺。这一点在独立的文档搜索引擎中表现尤为明显。在国外的文档搜索引擎中,只有Docstoc可以很好地支持多国语言,除了对英文和中文的支持,还支持德语、俄语等多种语言。而由综合性搜索引擎发展而来的文档检索工具,对多国语言的支持度比独立的搜索引擎要好得多。例如DocJax能够支持多国语言,其文档来自全球各地,对各国语言的支持也就顺其自然了。

3.2 个性化检索功能比较

通过表3可以看到,独立的文档搜索引擎能够提供更加多样的个性化检索功能。这些个性化的检索功能主要通过加入RSS、标签、API和Digg等技术来实现。书签和RSS是Web2.0环境下重要的应用,大部分文档搜索引擎均支持书签功能,用户通过书签可以在线编辑和管理各种文档,从而有利于对文档的二次检索。API是指应用程序编程接口,通过这个应用用户可以把从文档搜索引擎中检索的文档链接到自己的博客或者网页中,利用该项设置用户可以及时分享和保存自己感兴趣的文档,为二次检索带来了极大的方便。

表3 文档搜索引擎的个性化检索功能

在共享和传播方面,独立的文档搜索引擎拥有广泛的用户基础和合作网站,用户可以很方便地把相关文档分享到自己的个性化空间中。例如豆丁网则可以将自己满意的文档随时共享到人人网等SNS网络中,Scribd的用户可以及时将文档发布到Twitter或者Facebook上,而Docstoc利用其API技术还可以将文档嵌套到个人博客或网站中。由综合性搜索引擎提供的文档检索工具则不具备这一系列的个性化功能。

4 文档搜索引擎发展的趋势

随着网络新技术的不断发展,技术的革新是搜索引擎发展的主要推动力之一。搜索引擎越来越贴近人们的具体需求,文档搜索引擎正是结合Web 2.0技术新的互联网应用系统之一。由于网络新技术和文档搜索引擎的兼容和融合,文档搜索引擎发展的呈现出检索功能多样化、个性化、运营商业化和系统社会化等趋势。

4.1 检索功能多样化、个性化

Web 2.0技术在文档搜索引擎中广泛应用,书签、API、RSS等技术在文档搜索引擎中得到应用,体现了Web 2.0时代网络交互性的特点,为真正意义上的数字图书馆的发展带来了新的活力,个性化的检索服务使得文档搜索引擎更能满足普通用户的个性化的需求。

4.2 商业化趋势

从网络文档的来源来看,大多数文档来自网络用户的上传,由于文档涉及版权问题,商业化是文档搜索引擎发展必然的趋势。既有热心网络用户贡献的文档,也有商业机构等提供的文档,势必会出现共享和商业共存的模式。在这样的商业模式中收入主要有两个来源:植入广告获得收益和出售文档带来的收益。

4.3 社会化趋势

文档搜索引擎的融合性,势必会使更多的人参与到文档共享平台中来。根据Alexa排名,文档搜索引擎的访问量正在逐步上升,已经成为网络社会化的一个重要的组成部分,吸引了大量的用户。在网络时代里,用户才是网络存在的根本出发点和落脚点,文档搜索引擎的社会化趋势将会越来越明显。

5 结语

将来搜索引擎的发展趋势就是向着精确性、专业化、智能化、个性化以及交叉语言检索方向发展,文档搜索引擎尚处于发展的初级阶段,很多文档搜索引擎仅仅是综合性搜索引擎某些功能的强化,专用的文档搜索引擎能够提供更加多样化的检索功能,但是对多国语言的支持和如何吸引更多的用户参与是其发展所面临的困难。面对日益复杂的数字版权保护问题,也是文档搜索引擎发展过程中不得不考虑的问题,如何规避风险又确保人类文化知识的共享和传播,需要找到一种切实可行的办法。尽管问题不少,但是专用的文档搜索引擎必然会给用户带来全新的体验。

[1]CNNIC.中国互联网络发展状况统计报告[R].2010:24.

[2]百度文库[EB/OL].[2013-06-26].http://wenku.baidu.com.

[3]豆丁网[EB/OL].[2013 -06 -26].http://www.docin.com.

[4]Docstoc[EB/OL].[2013 - 06 - 26].http://www.docstoc.com.

[5]DocJax[EB/OL].[2013 -06 -26].http://docjax.net.

[6]Brupt[EB/OL].[2013 - 06 - 26].http://www.brupt.com/.

[7]Scirbd[EB/OL].[2013 - 06 - 26].http://www.scribd.com.

猜你喜欢
搜索引擎文档检索
浅谈Matlab与Word文档的应用接口
Chrome 99 Canary恢复可移除预置搜索引擎选项
有人一声不吭向你扔了个文档
轻松编辑PDF文档
世界表情符号日
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
英国知识产权局商标数据库信息检索
Word文档 高效分合有高招