基于用户情境及语义网技术的个性化搜索引擎

2011-03-31 05:57
图书馆研究 2011年4期
关键词:搜索引擎本体代理

吴 芳

(沈阳理工大学图书馆,辽宁 沈阳 110159)

随着用户个性化信息需求的增加,用户信息搜索的目的性和针对性越来越明显,搜索的深度和专业性越来越强,搜索的复杂性和层次性越来越凸显。这些变化对搜索引擎提出了更高的要求,搜索引擎必须能够根据用户的个性、学习、教育等不同的特性为用户提供客观、准确、及时、深入的个性化信息,使用户更多地参与到搜索流程中。这是未来搜索引擎发展的必然趋势。

1 搜索引擎现状

搜索引擎是用户在Internet上查找相关信息时最常用的一种工具。随着网络资源的增加,用户对网络搜索引擎的要求越来越高。在信息检索过程中,搜索引擎必须在查询的目的性、查询的准确性、查询式的易于表达性和查询结果的选择性之间作出适当的权衡,从而将具有高度相关性的网页内容返回给用户。当今现有的搜索引擎还不完善,具体表现在以下几个方面:(1)用户在利用搜索引擎进行检索时,因检索式表达的含义比较模糊,搜索引擎返回的检索结果也不尽如人意,虽然附加的检索术语有助于对检索式更进一步的限定,但即便是很有经验的检索者选择最佳的检索术语也很难准确地检索到其所需要的信息;(2)当前,许多大型搜索引擎仍在盲目追求数据库规模,在利用大型数据库的基础上提供信息检索服务,其检索功能基本上还停留在数据库基础建设和流程挖掘层面,所返回的检索结果只是基于简单的关键词匹配,即搜索输出处于一种对搜索结果的初加工状态,并没有考虑到用户在特定时期内特殊的信息需求;(3)事物是普遍联系的。用户提交给搜索引擎的关键词之间总是存在着一定的关系,而在搜索引擎进行检索的过程中却无法识别这种关系的存在,致使检索结果中出现了大量的缺乏关键词之间关系的网页。

据估计,在现有的网络资源中,83%的网站含有商业广告,只有6%的网站含有科学和教育的内容。对于用户而言,其在搜索流程中的识别和控制作用还相对薄弱。因此,须加强搜索基础建设,加强用户搜索目的的分析,在搜索引擎检索过程中融入用户的情境信息,从而实现全新的高匹配性搜索服务。

2 用户情境模型的构建及其与搜索引擎的集成

2.1 用户情境模型的构建

收集用户情境信息的目的是为了了解用户搜索喜好、习惯、目标、心理、个性、知识、行为、专业、交往、创作等方面的基础信息。建立用户情境模型,分析用户的短期兴趣、长期兴趣及其动态的兴趣变化,对其进行存储、表示和描述,并将此模型结构与现有的搜索引擎集成在一起,确定更加个性化的搜索指向、搜索输出项、输出界面、搜索所进入的分类数据库、搜索的性质界定、搜索结果的定量定性等,从而实现以用户为中心的个性化信息检索模式,真正实现搜索引擎面向用户而非面向主题的检索。

图1 用户情境模型的框架结构

图1为所建立的用户情境模型的框架结构。如图1所示,此结构由“特征收集器”和“情境管理器”两个模型组成,包括三个层次:接口层、知识管理层、数据资源/搜索引擎层。每层都存在一些独立的专用的代理完成特定的功能。这些代理支持交互式的监控,获取用户的行为、偏好。查询规范和查询处理既要对情境特征进行收集和归类,还要对相关的结果进行表达。此种结构是通用的、模块化的,很容易与新的类目、本体和搜索引擎结合在一起,同时也具备可配置的特性,能够对用户情境特征的演化与转变进行存储。

2.2 用户情境模型与搜索引擎的集成

图2描述了上述结构与搜索引擎集成在一起的过程。其中,特征收集器存在于用户的计算机中,情境管理器存在于搜索引擎服务器中。

图2 用户情境模型结构与搜索引擎的集成

2.2.1 特征收集器模型

特征收集器模型有两个代理,即自适应代理和喜好代理,它们存在于用户的台式机中,扮演着前端经纪人的角色,主要负责搜集用户基本的个人信息。自适应代理通过监控用户在台式机上的活动获取用户的行为信息,从而保持用户最新的情境特征。喜好代理除和自适应代理发生交互外,还和情境知识代理发生交互作用,为用户提出最适合的建议。喜好代理根据经验和用户以前检索过程中相关的反馈信息得知用户的偏好。

2.2.2 情境管理器模型

情境管理器模型包含四个代理:情境收集器代理、情境知识代理、查询过程代理和集成代理。由于情境收集器代理要和数以百万计的计算机发生交互作用来收集用户的情境特征,因此,它是最薄弱的一个代理。情境管理器提供了一个可配置的特性,这样就使用户能够自行定义他们的情境特征存储在本地机上,也可存储在搜索引擎服务器中。若存储在搜索引擎服务器中,用户须进行注册或者明确其所订阅的情境收集服务,以便在服务器中存储他们的情境特征。

情境收集器代理又依次分为管理人代理、中级代理、服务代理。管理人代理是决定的签署者;中级代理是管理人代理和服务代理之间的使者;服务代理从数以百万计的机器中收集用户的情境特征。每一层代理都具有明确的任务,协作完成用户情境特征的收集。情境收集器代理是一种重要的情境收集方式,它将成为未来搜索引擎建设中的一个重要组成部分。

情境知识代理是最复杂的一个代理,它处理数以百万计的情境特征,建立并维护知识库,查询各种公用的本体领域。如图3所示,此代理应用了情境处理器代理、查询本体代理、知识管理代理来执行上述三个任务。

图3 情境知识代理

情境处理器代理从每个情境特征中处理并获取相关的关键词。查询本体代理应用这些关键词在用户应用之间创建共享的概念理解。知识管理代理将这些信息转换成组织良好的、直观的分类体系并加以保存以便将来应用,如为用户提供相关的反馈和建议并改善检索式。

查询过程代理负责查询式的构造和检索结果的处理。查询式的构造任务是完成情境查询的创建、操作、扩充、执行、持续保存和再利用。结果处理任务包括对返回的查询结果进行分析、过滤,相关信息的匹配以及检索结果的重组排列。

一个查询式可以由用户提供的一个或多个术语来创建,查询过程代理参考情境知识代理来分析用户查询式的句法和语义,然后将此查询式分解成若干个子情境检索式。这其中又包含了各种处理过程:基于概念的匹配、字句含糊意义的消除、词汇参照、查询式的优化等待。用户也可以从喜好代理中选择所建议的一个或多个主题开始查询。查询过程代理为搜索引擎提供情境子检索式或者用户偏好检索,一旦搜索引擎的检索结果被返回,此代理就根据用户的情境特征对结果进行处理,然后再将处理后的结果发送给用户。

集成代理是一个相对简单的代理,主要管理各种公用的本体和搜索引擎,并与查询过程代理和情境知识代理进行交流以提供相关的信息来支持整个情境信息的检索过程。

用户情境模型与搜索引擎集成在一起,大大加强了信息检索服务中对用户情境信息的分析与利用,从而使得搜索引擎的搜索结果从目前输出项的千篇一律向多样化转变,使搜索起点从共用大型抓取数据库向复杂分类数据库和搜索过程数据库转变,使搜索内容从知识信息的简单构成向知识、信息、关系、逻辑、技术等方面的复杂构成转变。

3 语义网技术在所集成的用户情境模型与搜索引擎结构中的应用

语义网是对当前WWW的一个扩展,能够很好地使计算机和人类合作完成工作。语义网采用多层次的表示框架XML,并引入文档模式描述文档结构,但XML没有对结构本身的语义进行描述。如果不知XML元素的语义,计算机仍不能理解信息。因此,需一个更高的层次来描述结构的语义,即RDF。RDF定义了元素之间的关系,表现为三元组集(类似于句子的主体、动词、客体)。XML加上RDF相当于人工智能中的语义网络,可进行简单推理。要计算机相互理解信息,还需要有一套共同的标准的概念体系,即本体(Ontology)。本体主要使用网络本体语言OWL来进行描述,OWL是RDF的子集。XML+RDF+Ontology构成了计算机相互理解的基础。在Ontology层之上还可以有更高的为各种Ontology进行通信提供支持的描述层次。语义网每加一个层次,计算机在知识处理上就多一份能力。

在用户情境模型与搜索引擎集成在一起的结构中,应用语义网和本体技术对所收集到的用户情境信息进行处理,对情境信息的结构和特征进行形式化的描述,将其转化为计算机可理解的形式,并为搜索引擎所使用。同时也便于各实体间对情境信息达成共同的语义理解,从而能够利用已存在的本体对情境信息进行推理,推导出从当前环境中不能直接收集到的情境信息,用于搜索引擎检索结果的过滤、选取与推荐。

由于用户提交给搜索引擎的关键词之间存在一定关系,为了使搜索引擎能够识别这种关系,我们需要利用语义网中的相关技术来明确定义关键词之间的关联信息。即当用户输入某些关键词进行检索时,我们应用语义网中的RDF来描述关键词之间的关系,并用OWL对这个关系进行解释,从而实现对关键词之间语义信息的理解,并以RDF三元组的形式将此关系存储在本体中,以语义标识的形式嵌入到网页内容中。这样,搜索引擎所处理的就不是单一的关键词,而是包含了关键词及其之间关联信息的统一整体。

在搜索引擎检索过程中,情境管理器选择情境信息中那些有限的前向链接,即用户的检索历史,作为搜索引擎可能要扩充的叙词表,以此来对检索结果进行限定和过滤。同时,通过对关键词之间关联信息的处理,将关键词独立的网页从检索结果中过滤掉,即对检索结果中只包含关键词而没包含其关系的那些网页过滤掉,只将那些既包含了关键词又包含了其关系的网页返回给用户,达到检索结果集的少而准,为用户提供其真正所需的信息资源。

在对用户未来的情境进行复杂推理时,情境知识代理将利用本体技术生成一个部分证明树,并产生一个可在网络中查询到的语义标记的描述,把用户的局部情境知识库用到尽可能大的范围内,从而挖掘出用户未来可能存在的部分情境信息,并以此为依据为用户推荐其可能需要的相关信息资源 。另外,还要积极建立各种公用的领域本体,加强搜索引擎对自然语言的理解能力,应用语义网及本体技术对网站网页的标引进行统一规范,各搜索引擎关键词检索统一采用OWL—和RDF的符号及其含义,分类检索所建立的类目体系及使用规则也都采用OWL和DAML+OIL等相关语言,从而在网页构建和搜索引擎检索与标引方面达到统一。

4 结束语

本文从搜索引擎现状出发,提出了应用用户情境模型及语义网技术对现有的搜索引擎进行改进,从而实现深层次的知识挖掘,实现个性化的网络检索。笔者认为,当前的工作主要集中在对所提出的框架结构进行调研、规划、设计和测试上。此课题的研究对网络搜索引擎的发展将起到至关重要的作用,也将提升此类搜索引擎在同类产品中的竞争优势。

[1] 吴祐昕,顺风.网络搜索引擎的发展趋势分析[J].当代传播,2007(3):73-74.

[2] 宋迪,吕英杰,李一军.基于用户偏好的搜索引擎指标分析与评价[J].图书情报工作,2007(1):122-125.

[3] 袁颖,赵捧未.基于语义网的数字图书馆信息检索模型研究[J].科技情报开发与经济,2010(7):1-3.

[4] 储荷婷.语义网与信息检索[J].图书情报知识,2009(127):30-32.

[5] 杜国芳.搜索引擎技术的突破——知识化搜索[J].现代情报,2005(4):155-156.

[6] 孔为民,涂中群.语义网的技术及其应用[J].农业图书情报学刊,2010(1):54-56.

猜你喜欢
搜索引擎本体代理
眼睛是“本体”
代理圣诞老人
代理手金宝 生意特别好
基于本体的机械产品工艺知识表示
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
胜似妈妈的代理家长
专题
Care about the virtue moral education
基于Lucene搜索引擎的研究