搜索引擎反作弊技术及应用解析

2020-10-21 13:06李亚
科学导报·学术 2020年29期
关键词:搜索引擎应用研究

李亚

摘 要:互联网时代人们检索信息的主要方式都是利用搜索引擎完成的,不管是通用的全文搜索引擎,还是分类别的垂直搜索引擎,面临的主要行为就是作弊行为,网页作弊成为当前搜索引擎面临的一个重大挑战,很多作弊者利用各种作弊技术来骗取虚假或排名。信息时代的不断发展,作弊行为也各种各样,而搜索引擎需要通过不断的优化和完善内部排序算法来有效杜绝作弊行为。

关键词:搜索引擎;反作弊技术;应用研究

优化网页,自然排名才能够有效地靠前,很多网页通过骗术骗过搜索引擎,获得绝佳排名,但是搜索引擎通过学会这些骗术,提高自己防骗能力,这就是反作弊算法。网络作弊的直接后果就是导致搜索引擎的质量直线下降。在当前网页作弊主要分为内容作弊,链接作弊和隐藏技术。网络网页作弊的大量泛滥会影响搜索引擎正常工作,也给用户在获取信息过程中带来极大麻烦,因此通过研究各种网页作弊的技术和方法。将当前反作弊技术分为三大类,分别是基于网页特征分析方法,基于网络链接分析方法和检测各种隐藏技术的方法。

一、作弊网页的危害概述

搜索引擎是通过收取网络中主要信息进行索引,构建用户的搜索请求提交给搜索引擎后,搜索引擎会通过搜索系统选出符合条件的网页。网站的盈利就主要是借助于流量,网站流量越大,网站就可以拉到更多广告投放,实现大面积的盈利,因此就有很多网站站长为了提高自身网站流量而进行作弊,利用一些非正常的手段提高网站搜索引擎内部排名[1]。作弊网页的存在对搜索引擎的威胁是非常明显的,它不仅会增加搜索引擎的负担,而且严重降低了用户对搜索引擎的信任程度。经过研究证明网页作弊同时具备多样性和复杂性的特点,这给搜索引擎带来极大的困难。随着时代的发展,网络作弊具备多样性和复杂性的特征,很多情况下是几种作弊方式相互结合的情况,这给搜索引擎工作带来了极大的困难。所以需要通过反作弊技术和算法做好一定的作弊检测,减少作弊网页的危害。

二、反作弊技术和算法的基本研究

反作弊技术主要分为基于网页特征分析的方法,基于网络链接分析的方法,以及检测各种隐藏技术的方法。

(一)基于网页特征分析的方法

基于网页特征分析技术,这种方法就是从大规模的网页实验中提取网页特征,通过统计的方法对特征进行分析,发展作弊网页和正常网页之间的不同特点,根据这些特征建立好一个网页分类器,实现当网页自动分为作弊网页和正常网页。这是作为一项非常基础的反作弊技术,通过对网页主机名组成,主机和IP个数比例入链和出链数站点网页的平均更新率内容等信息进行有效的研究,发现其中蕴含的特征:有些域名很长,域名中还有一些特殊的字符,同时频繁更换内容,那么这些网页就极有可能是作弊网页。通过对这些特征进行有效的识别研究,就能够对作弊网页和正常网页进行有效的区分,但是由于时代的不断发展,这些作弊网页的技术也在不断发展,因此要想利用网页特征分析的方法,有效的实现反作弊技术的发展,那么网页特征分析的方法也需要与时俱进,不断更新[2]。搜索引擎在抓取网页时对网页正文标题标签进行分析,如果发现某个站点内存在大量重复内容或者是网页的出现,那么就可以判断是一个作弊网页。比如在一个网页中出现超级和免费电影等词语,这些词语出现是单一的那么就不能判定为作弊网页,但是这些词语出现的频率极高,出现多次这样的词语,那么就可以判定为作弊网页,利用这种相关性的评分方式,能够对这样的网页进行评测

(二)基于网络链接分析的方法

基于页面链接分析的方法主要有两种思路,分别是从正面出发的HillTop算法和TrustRank算法,以及从反面出发的Bad Rank算法,HillTop算法是在2001年提出的,这种算法认为主题相关的网页之间的链接对于权重计算贡献应该比主题不相关,链接的价值更高,所以这种算法就是假设网络中的文档,所指向的网页不会是作弊页面,专家页面指向排序应该更高。但是这种算法存在着一个致命弊端就是,如果找不到数量足够的专家,文档至少有两个,那么该算法就失效。TrustRank算法是在2004年提出的,利用这种算法衡量网页的可信度,从中挑出那些可能使用链接作弊的网页,由人工判别是否在排名中降权,这种算法的依据是好的页面很少会有链接指向作弊页面。但是需要有反作弊专家挑选网页中的一个好的集合,根据这些集合中的链接关系,找到同样好的网页,将好的网页也放在集合中。BadRank算法和提到的以上两种算法是完全不同的,它是从反面出发,发现那些肯定是作弊的网页。主要流程就是维持一个作弊网易的黑名单,这个黑名单是通过用户举报或利用技術获得的,然后内容就是黑名单发现其他的作弊网页。

(三)检测各种隐藏技术的方法

结束语:

总结全文,网页作弊成为搜索引擎的重大威胁,作弊网页在搜索引擎检索中获得较高排名,获取流量,利用多种作弊方式欺骗搜索引擎。伴随着信息化时代的发展,新的作弊技术不断出现,甚至互相融合,给搜索引擎带来了极大的困难,为了进一步增强反作弊技术,净化网络环境,给用户带来更好的搜索功能体验,需要对检测作弊技术进行不断的更新,结合用户的行为习惯,不断地改善排序算法,提高搜索引擎的反作弊效率。

参考文献

[1] 高尚建,魏国,杨功.网站搜索引擎优化策略研究[J].科学技术创新,2020(18):98-99.

[2] 顾惠超.大数据分析下智能搜索引擎的构建研究[J].信息与电脑(理论版),2020,32(04):125-126.

[3] 王庆福,王兴国.搜索引擎反作弊方法研究[J].电脑知识与技术,2016,12(15):202-203.

猜你喜欢
搜索引擎应用研究
Chrome 99 Canary恢复可移除预置搜索引擎选项
世界表情符号日
进驻数字课堂的新兴教学媒体
AG接入技术在固网NGN的应用研究
空域分类关键技术及应用研究
分层教学,兼顾全体
网络搜索引擎
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌
图解免费搜索引擎(之上网找歌篇)