基于云计算分析大数据信息检索技术

2016-01-27 11:12黄晓清
科学中国人 2016年33期
关键词:信息检索分词搜索引擎

黄晓清

厦门华天涉外职业技术学院

基于云计算分析大数据信息检索技术

黄晓清

厦门华天涉外职业技术学院

信息技术的发展使得信息化时代逐渐到来,信息数量呈现出了一种爆炸性增长的趋势,而云计算以及云存储的出现,也在一定程度上加快了大数据的产生,对于信息检索的效率也提出了较高的要求。本文结合云计算以及大数据的有关概念,对大数据信息检索技术进行了分析和讨论。

云计算;大数据;信息检索技术

前言

计算机技术和网络技术的普及,带动了云服务的增长,也使得越来越多的单位和个人开始将业务转移到了在线应用方面,大量的在线业务产生了海量的数据信息,也就是所谓的大数据。在云计算背景下,如何对大数据进行有效处理,从中快速检索出需要的信息,是需要相关技术人员深入研究的课题。

1 云计算与大数据

云计算是一种基于互联网的全新计算方式,可以通过将共享的信息资源和软硬件资源提供给相应的计算机和设备,使得有限的网络资源发挥出最大效益。

大数据也称巨量数据,指数据量极其巨大,无法通过现有的主流数据处理软件,在合理时间内进行采集、管理、处理的资讯,是继移动计算、物联网、云计算等信息技术之后的又一个新兴事物。当数据容量在10TB-1PB之间时,就可以称之为“大数据”。

无论是云计算还是大数据,都是现代信息技术发展到一定阶段的产物,尤其是大数据的出现,使得数据需要通过TB、PB、ZB等进行描述,在丰富了数据信息的同时,对信息的检索技术也提出了更高的要求,在云计算环境下,想要对大数据进行有效处理,从海量信息中提取出日常所需,就必须加强对信息检索技术的深入研究[1]。

2 基于云计算的大数据信息检索技术

2.1 WEB信息收集与检索

基本上,信息的总量与其价值密度成反比关系,在数以亿记的信息页面中,能够满足日常所需的信息也许只有数页甚至。云计算本身通过对软硬件资源的共享,具有极强的计算能力,能够对信息进行快速处理,不过,面对大数据,又如何利用云计算对其中有价值的信息进行挖掘,是需要解决的关键性问题。就目前而言,云计算中的大数据信息检索过程可以分为两个阶段,一是检索,二是网页收录。

在信息检索云中,所有的服务器都能够对数据信息进行相应的排序和分析,从中计算出相关度较高的服务器,并将其排在最前面。与此同时,可以针对存储服务器上存在的信息进行检索,检索方式包括了深度优先和广度优先两种,检索到的最终结果可以存储在Index Repository中,网页则会直接收录在索引中。结合索引词库以及网页本身的内容,在索引中进行倒排序,对于存储在同一个索引中国的网页标题以及连接数据,可以采用广度优先的方式进行检索,而对于存储在另一个优先级较高的索引中的网页内容,则可以用深度优先的方式检索。存在于检索云服务器中的数据都是经过了分析和整理后的元数据,会按照相关度的高低进行排列,然后结合存储服务器,展开分布式检索,检索的方式不变,检索结果同样存储在Index Repository中。网页收录过程存储于搜索引擎的索引中。当用户发出搜索请求时,实际上是在Index Repository中进行信息的检索,页面内容依照Page Rank的方式编制出倒序检索列表,放置于存储器中。页面标题与连接数据处于同一索引,以广度优先进行搜索,页面内容处于另一个索引中,以深度优先进行搜索[2]。

无论是在网页的收录过程中,还是用户发起信息检索请求的过程中,都会涉及相关度的计算。就目前而言,许多用户在进行信息检索时,都会遇到结果显示缓慢的情况,之所以如此,主要是由搜索引擎中的缓存区域都是事先安排好的,尽管其并不知道用户可能会搜索哪一个关键词,但是其建立了一个常用关键词的词库,在为用户提供便利的同时,也能够在一定程度上提高信息检索的效率。

2.2 检索过程

(1)搜索请求分析:当用户打开搜索引擎,输入关键词,同时点击搜索提交请求后,网页上就会显示出相应的结果。之后,搜索引擎会结合这次搜索请求,进行细致全面的分析以及分词处理。如果是依照搜索请求进行空格分词,则一般需要排除掉重复的信息,才能保证搜索结果的准确性;而如果采用的是中文分词,处理环节会比较麻烦,其主要包括两种不同的分词方式,一是匹配字符串,采用的方法有逆向最大匹配法、正向最大匹配法以及最少切分法,搜索引擎会通过模拟人类思维的方式,针对句子进行检测以及分词,整合词语和表达形式,以方便进行理解。在分词时,通常会首先分析并处理语句的大致意思和语法,避免歧义,由语法子系统、语义子系统以及分词子系统共同构成控制系统,控制搜索引擎工作;二是如果存在相邻的词,中文分词会将其看作是一个词,在这种情况下,用户在输入关键词时加入的停止词如“的”、“吧”等,往往会被搜索引擎自动去除。

(2)搜索请求匹配:在对用户的搜索请求进行分析后,搜索引擎会自动匹配相应的URL,其本身的数量极其巨大,必须结合搜索引擎,依照YRL的匹配程度,进行排序,才能确保结果的有效显示。系统会自动将分词后的信息以及网页本身的Page Rank值同链接中的网页描述信息结合在一起,最终确定检索排序结果,并显示在网页中,从而尽可能确保网页显示的内容能够满足用户的实际需求[3]。

3 结语

在云计算背景下,大数据得到了快速发展,海量数据的涌现对于信息检索技术也提出了更加严峻的挑战。面对着各种智能设备的普及以及不断增长的用户需求,相关技术人员应该加强对于大数据信息检索技术的研究和实践,不断对技术进行更新,以满足用户对于数据检索的个性化需求。

[1]吴雪琴,舒晓苓.基于云计算的大数据信息检索技术研究[J].电脑知识与技术,2014,10(10):2388-2390.

[2]刘月.探究云计算下大数据的信息检索技术应用[J].数字技术与应用,2015,(7):95.

[3]王晓艳,李慧颖.大数据环境下信息检索的变革[J].科技情报开发与经济,2015,(4):117-119.

猜你喜欢
信息检索分词搜索引擎
Chrome 99 Canary恢复可移除预置搜索引擎选项
分词在英语教学中的妙用
世界表情符号日
结巴分词在词云中的应用
结巴分词在词云中的应用
计算机信息检索技术的发展及问题研究
对大学案理研讨课学生信息检索意识若干问题的思考
基于Lucene搜索引擎的研究
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例
搜索引擎,不止有百度与谷歌