突破俄语搜索引擎蜘蛛检索封锁的研究

2016-02-22 11:53陈龙仁
科技视界 2016年4期
关键词:俄语搜索引擎蜘蛛

陈龙仁

【摘 要】“突破俄语搜索引擎蜘蛛检索封锁”对国内企业有更多的机会将产品销售到独联体的各个国家和地区,有非常重要的历史意义。本文结合中俄两种文化文字的互译技术,设计符合中国企业习惯的搜索引擎系统,重点分析了“蜘蛛”和“目录搜索”的核心技术,面对主要技术障碍,提出了系统平台解决方案。

【关键词】搜索;引擎;蜘蛛;俄语

0 引言

为加强中国企业在独联体市场当中的竞争力,增加其产品的附加值。加强对独联体各国的信息渠道建设,加大开放本国的国门,建设此“突破俄语搜索引擎蜘蛛检索封锁”具有非常重要的历史意义。

1 俄语系引擎分析

目前,电子商务由于缺乏编码方案来解决中俄这两种不同语言体系的协调问题,一直以来,在计算机语言中标识困难,导致中国的商品基本上通过欧美、日、韩等国家转销至俄语世界,原因是中国用户不能通过搜索引擎,直接通往俄语国家的信息交流通道[1]。UTF-8 编码接轨较早。为了通过网络技术,给中俄企业沟通、交流、发布及获取信息提供直接的渠道,双方需要有设计全新的编码模型方案解决中俄这两种不同语言体系在计算机语言中表示的问题,首要解决的,就是搜索引擎的标准问题。

俄语Yandex成立于1997年,提供搜索引擎、主题分类目录、免费邮件系统、新闻、反垃圾系统、虚拟主机、百科全书、词典、比较购物系统等服务,同样有竞价和合作联盟。对于能利用文献进行研究的学者来说,这些Yandex资源所提供的电子资源中的文献,研究者可以利用其中的俄文文献进行相关研究,利用Yandex本身提供的资源进行互证;另一方而还可以利用文献进行佐证。按照Yandex的技术风格和运作习惯,不能更有利于中国企业参与当地的市场竞争。如何让俄语词性变化,更加适应中国用户,需要开发一种新的搜索引擎系统,任务是十分急迫的。

中文和俄语分别是世界上最复杂的语言之一,中文的特点在于独特的文字形式,词与词之间没有明显的分隔;而俄语最大的特点就是单词形式多变,词多义现象非常普遍,这些特点使得查询搜索异常困难,但同时也正是因为百度与Yandex都很好地把握了本土语言的特点,保证了搜索的高效性和结果的微准确性[2]。

2 搜索引擎设计

中俄文搜索引擎,要收集因特网上几千万到几十亿个中俄文字网页,并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎,不能适应中文用户的习惯。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来,根据预定的优选规则,排列相应的名次。

百度与Yandex搜索引擎都属于本土化搜索引擎,而Yandex同时兼有门户网站的功能。两者有一个很明显的共同点,就是它们都充分体现出本土化语言特点,比较符合本土用户的搜索习惯。在该搜索引擎的后台模块中,收集的信息一般是能表明网站内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连接)的关键词或者短语,俄方服务器没有中文字库,需在俄方服务器设备中嵌入中俄两国的标准字符库,从而避免在境外使用出现的文字乱码现象[3],索引存放到数据库中。

本项目搜索引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验,也针对万维网数据和用户的特点进行了许多修改[4],其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似,但其所处理的数据对象即万维网数据的繁杂特性决定了搜索引擎系统必须进行系统结构的调整,以适应处理数据和用户查询的需要。中俄双方页面在异域的运行速度非常慢,为实现双方文字在应用终端准确、实时的显现,中俄双方专家拟采用架设镜像服务器(Mirror server)的方式,完成主服务器数据定时备份至镜像服务器,从而分担主机的负载。

2.1 信息抓取方案

搜索引擎系统设计了一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为“蜘蛛”。搜索蜘蛛从已知的数据页出发,就像正常用户的浏览器一样,抓取文件,符合中俄网络语言编码接口软件编制,会跟踪链接,自动访问更多的网页(爬行)。搜索引擎蜘蛛是24小时不停顿的。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本的方法,搜索蜘蛛遇到的新网址,会被存入任务数据库,百队等待抓取,抓取的优先次序策略,是核心技术。

(1)深度优先策略。深度优先就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取。假如,网页A在搜索引擎中的权威度是最高的,D网页的权威是最低的。如果搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高。

(2)宽度优先策略。宽度优先就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。宽度优先就是大家平时所说的扁平化结构。网页的层度不能太多,如果太多会导致收录很难,其实就是搜索引擎蜘蛛的宽度优先策略的原因。

(3)权重优先策略

如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处。本项目搜索引擎蜘蛛是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接的权重,如果说这条连接的权重较高,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优先。

(4)重访抓取策略

昨天搜索引擎的蜘蛛来抓取的网页,今天这个网页又加了新的内容,那么搜索引擎蜘蛛今天优先来抓取新的内容,这就是重访抓取。重访抓取分为两类:1.全部重访:所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次。2.单个重访:单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面。在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种[5]。一种是定期搜索,即每隔一段时间(比如Google一般是28天,yandex 为30天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。例如:一个页面,1个月也不更新一次,搜索引擎蜘蛛第一天来了,是这个样子,第二天,还是这个样子,那么,第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月再来一次,或者等全部重访的时候,才更新一次。

蜘蛛在抓取网页时往往选择离它最近的服务器、最近的网站进行抓取、分析、收录。在本系统中,我们在俄罗斯建立主网站,就是考虑到YANDEX 的工作原理和抓取习惯。YANDEX为俄罗斯最大的搜索引擎,成立于1997年,现在已发展成为俄罗斯使用率最高、最流行、广告服务最专业的搜索引擎,是独联体及东欧地区最普及的搜索引擎。目前YANDEX在俄罗斯搜索引擎市场份额占比为67%,目前日访问量达到5000万人次。由于本系统俄语网站全部翻译、设计、制作、SEO优化、关键词摆放全部由俄罗斯美格公司来存储,更适合YANDEX的抓取习惯,有利于YANDEX更快、更完速的收录网站,从而使网站在搜索引擎中排名更靠前,打破了擎蜘蛛检索默认技术。

2.2 索引方案

页面文件的分解、分析,并以巨大表格的形式存入数据库,这个过程需要合理的索引(index)技术来管理数据库。网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

(1)搜索词提取。用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理。如特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况,搜索词的处理必须十分快速[6]。

(2)排序

对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。没有基于搜索词的搜索引擎优化,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。

(3)核心数据结构

搜索引擎的核心数据结构为倒排文件(也称倒排索引),倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件,即次索引。倒排文件中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于复杂查询。与传统的SQL查询不同,在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排文件”。倒排文件简单一点可以定义为“用文档的关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键词,书的页面是索引目标)。

(4)目录索引

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,建立中俄贸易交流双语平台。在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。如果审核通过,你网页才会出现于搜索引擎中,否则不会显示。搜索引擎收录俄文网站时,只要网站本身没有违反有关的规则,一般都能登录成功,而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

目录索引时则必须将网站放在一个最合适的目录。搜索引擎中各网站的有关信息都是从用户网页中自动提取的,用户拥有更多的自主权,而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。如果系统认为目标网站的目录、网站信息不合适,可以随时对其进行调整。按关键词搜索,返回的结果根据信息关联程度排列网站,其中人为因素要多一些。如果按分层目录搜索,网站的排名则是由标题字母的先后顺序决定。

3 总结

面向俄语市场的国际营销服务的搜索引擎平台将能成为一条新的网络“丝绸之路”。中国企业界急需一个更好、更快捷的“搜索引擎”进入独联体国家,了解独联体国家日益丰富的物质需求,进入独联体国家的千家万户,打开他们的市场,扩大他们的市场,让中国企业的品牌能够在独联体国家深入人心。俄语系国家也迫切需要一个兼顾中国文化的搜索引擎,来解决国内日益饱和的生产加工能力,扩大对外贸易额度,促进本土技术进步。

实施过程中,分别委托两国有资质的技术监测部门,利用测试工具按照中俄文本互译方案,根据需要编写,测试并投入使用。中俄网络语言编码接口软件,填补了中俄互译搜索技术空白,实现GB2312与UTF-8网络语言编码脚本的无缝隙、无差异、无时间间隔实时自动转换。配备相应的软件工具,并成立专门技术小组,设计和维护测试系统,妥善保存测试用例、测试计划、测试报告和最终分析报告,以备测试及维护之用。

【参考文献】

[1]张冬杨.俄罗斯信息技术产业现状及发展趋势[J].欧亚经济,2015,02:68-82+128.

[2]颜素莉.主流中俄文搜索引擎核心技术分析与比较研究[J].计算机时代,2012, 01:3-4+7.

[3]武斌.面向俄文信息处理的机器翻译实验研究[D].中国人民解放军外国语学院,2007.

[4]任俊革,刘晓坤.网络环境下获取期刊原文的途径及难点解决方案[J].图书馆学刊,2010,05:55-57.

[5]王寒松.计算机俄文视窗操作系统词语研究[D].黑龙江大学,2002.

[6]周国长,吕瑞林.俄语互联网有关俄国史研究的资源综述[J].俄罗斯学刊,2014,03:86-92.

[责任编辑:杨玉洁]

猜你喜欢
俄语搜索引擎蜘蛛
俄语歌曲在俄语教学中的应用策略探究
小蜘蛛冻僵了,它在哪儿呢?
基于3D虚拟情境的俄语视听说教学
网络搜索引擎亟待规范
大蜘蛛
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
俄语称呼语的变迁
今日俄语:语法领域中的积极过程*——“今日俄语”系列研究之二