基于链接分析法的农业网站评价工具的选择*——以辽宁省和山东省为例

2015-12-07 09:02高祥永董玉萍
图书馆学刊 2015年11期
关键词:搜狗搜索引擎网页

高祥永 董玉萍

(沈阳工程学院图书馆,辽宁沈阳110136)

基于链接分析法的农业网站评价工具的选择*——以辽宁省和山东省为例

高祥永董玉萍

(沈阳工程学院图书馆,辽宁沈阳110136)

我国的农业信息化发展迅猛,农业网站数量增幅明显,农业信息也越来越丰富,但农业专业搜索引擎覆盖率不高,不能很好地满足农业信息用户的需求,阻碍了我国农业信息化的进一步发展。初选4种检索工具对辽宁省和山东省政府、事业、企业龙头等20个农业网站样本进行链接分析和灰度关联分析,并通过分析结果评价出目前最适合作为评价和利用农业网站的检索工具。

农业网站链接分析灰度关联分析搜索引擎评价

第四届“全国农业大数据农业空间技术暨智慧农业创新与发展交流研讨会”于2015年4月17~19日在陕西西安召开。第二届中国农业展望大会于2015年4月20~21日在北京召开。在今年召开的两会上,政府工作报告指出现代农业、农业电子商务等是未来政策扶持的重要方向。与此同时,各地方政府也在大力扶持农资巨头以及互联网巨头进行互联网改造。而我国农业互联网发展并没有像国外一样先进和完善;对农业网站评估工具还没有统一规范;各种检索工具、搜索引擎并驱发展,搜索引擎不仅是网络的导航者,也是网络计量研究中最重要的数据收集工具之一。过去很多学者都运用搜素引擎来收集数据,他们运用的搜索引擎包括Google、AllTheWeb、AltaVista等。但由于谷歌已经在2010年退出中国大陆市场,用它来做评价工具有一定的困难;All⁃TheWeb以及AltaVista分别在2011年4月4日和2013年7月8日关闭[1]。笔者采用最大的中文搜索引擎百度、搜狗、常用作链接分析工具的ChinaZ以及Alexa作为评定农业网站的初选评价工具,并利用灰色关联分析来验证初选工具。

1 网站评价工具的选择

1.1百度

百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000年1月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。用户通过百度主页,可以迅速地找到相关的搜索结果,这些结果来自于百度超过数百亿的中文网页数据库。如今,百度已经成为大多数中国人首选的网络搜索引擎[2]。

1.2搜狗

搜狗是搜狐公司的旗下子公司,于2004年8月3日推出,目的是增强搜狐网的搜索技能,主要经营搜狐公司的搜索业务。2010年8月9日搜狐与阿里巴巴宣布将分拆搜狗成立独立公司,引入战略投资,注资后的搜狗有望成为仅次于百度的中文搜索工具[3]。

1.3ChinaZ

ChinaZ是“站长之家”的简称,“站长之家”是国内知名的站长类网站,创建于2002年3月,是一家专门针对中文站点提供资讯、技术、资源、服务的网站。网站用户104万余人,拥有专业的行业资讯频道、国内权威建站源码下载中心、站长聚集的交流社区以及强大建站素材库,Alexa世界排名为第96位[4]。ChinaZ提供的数据主要有外链接数和Google PR输出值[5]。

1.4Alexa

Alexa Internet是亚马逊公司的一家子公司,总部位于加利福尼亚州旧金山。于1996年由布鲁斯特·卡利(Brewster Kahle)及布鲁斯·吉里亚特(Bruce Gilliat)成立,作为Internet Archive的分支,受到杰奎琳·萨福拉的埃托勒投资支持。Al⁃exa是一家专门发布网站世界排名的网站。以搜索引擎起家的Alexa创建于1996年4月(美国),目的是让互联网网友在分享虚拟世界资源的同时,更多地参与互联网资源的组织。

Alexa每天在网上搜集超过1000GB的信息,不仅给出多达几十亿的网址链接,而且为其中的每一个网站进行了排名。可以说,Alexa是当前拥有URL数量最庞大、排名信息发布最详尽的网站。Alexa免费提供Alexa中文排名官方数据查询、网站访问量查询、网站浏览量查询、排名变化趋势数据查询[6]。

2 初选工具试运行的结果

2.1样本选择

山东和辽宁都是我国的农业大省,笔者以辽宁与山东的农业门户网站为研究目标,进行链接分析。农业网站可以分为3类,即政府网站、事业网站和企业网站,课题所选网站都是具有本地区代表性的单位。其中,政府网站和事业网站的数量少,但社会影响力大,企业网站数量多,但社会影响力较小,具体情况如表2、表3所示[7]。

2.2研究工具、指标及检索方法

网站的各种链接数据可以通过搜索引擎得到。笔者选择百度、搜狗、Chinaz以及Alexa作为研究工具,检索方法是在百度以及搜狗引擎输入检索式,检索式如表1所示(这里以辽宁金农网址为例),另将得到的数据录入进行处理。

2.2.1网页数

一般是指某网站内的网页数,在一定程度上反映了网站的大小,反映出网站的规模和内容的丰富程度。

2.2.2总链接数

一般是指搜索到的与某网站存在链接的网页总数,反映了网站被链接的多少。链接总数是衡量网站链接数量特征最重要的指标之一,它反映了网站被链接的总数,体现了该网站的网络辐射力和影响力。通常网站中的链接数量越多,揭示信息的程度就越高,有着更完备的组织体系,通过访问此类型的网站用户就能获取更为丰富的信息资源。

2.2.3内链接数

一般是指针对某网站范围内搜索得到的与该网站存在链接的网页数,反映了网站内部结构的完备性。

2.2.4外链接数

一般是指针对某网站范围外搜索得到的与该网站存在链接的网页数,网站的外部链接数是评价网站影响力和价值的重要尺度。它能更好地反映网站建设的质量。

2.2.5网络影响因子

网络影响因子=总链接数/网页数,反映的是网站网页被外部链接的平均水平。

2.2.6外部网络影响因子

外部网络影响因子=外链接数/网页数,能反映网站的水平。

2.2.7PR值

PR值是Google特有的衡量网页重要程度的指标,用来标识网页的等级和重要性。级别为1~10级,10级为满分。由于PR值最直接的影响因素是来自链接,所以网站所得到的高质量导入链接越多,网站PR值就越高,PR值越高则说明该网站网页在搜索排名中的地位越重要。

表1 检索式列表[8]

表2 辽宁省样本网站

表3 山东省样本网站

表4 百度检索指标数据

表5 搜狗检索指标数据

表6 GooglePR输出值

表7 ChinaZ数据(网页总数)

表8 Alexa数据

2.3灰度关联分析

灰色关联分析是灰色系统理论中探索系统内各因素的数值关系,能够对一个系统发展变化趋势提出量化的度量。也适用于主要搜索引擎发展态势的分析。我们可通过被分析对象因素间关联度的大小次序描述,判断搜索引擎各测度值对网页对象的影响程度,使搜索引擎的综合排序结果更为客观可靠。

搜索引擎综合评价步骤:

①确定分析数列,以网页数、总链接数、内链接数……PR值为参考序列和比较序列。

②对确定序列进行无量纲化处理以便于比较,通过排序可以得出较准确的判断。

③求灰色关联系数公式:

ρ∈(0,∞),称为分辨系数。ρ越小,分辨力越大,一般ρ的取值区间为(0,1)。具体取值可视情况而定,当ρ≤0.5463时,分辨力最好,通常取ρ=0.5。

④计算

分别计算出百度、搜狗引擎的比较和参考序列各指标、对应因素的关联系数均值,形成反映农业网站和百度等公共搜索引擎各因素间的关联序。

⑤关联度按大小排序,得出综合评价结果

根据以上步骤,首先选取各个链接指标数据中最大数值作为参考数值,记作x0,具体数值如表9和表10。把表9、表10的数据带入公式(1),计算出各个网站的关联度并排序(见表11、12)。因为计算方式的关系,笔者在表11、12中列出19个样本网站的灰色关联度。

表9 指标数据灰度分析(百度)

表10 指标数据灰度分析(搜狗)

表11 百度关联度降序排列结果

表12 搜狗关联度降序排列结果

3 链接结果分析与说明

基于以上链接分析工具与检索方法相对有效的假设前提,我们可以对辽宁省与山东省农业网站链接状况及影响因素做出如下分析与讨论,以便为评估农业网站选择检索工具提供借鉴性信息,从而进一步发挥农业网站的价值[9]。

①总体看来,辽宁省与山东省的农业网站在7个排序状况中基本平分秋色,反映出两个农业大省的样本网站在初选的检索工具排序中不分伯仲,排名差别不大。

②表4、5、11中,前4名完全吻合,在表4-8、11中,前5名的网站均为政府及事业单位网站,尤其是在表4、6、7中,前10名均为政府事业单位,也就是说政府及事业单位的网站建设综合质量在初选的检索工具中所得的数据分析结果一致,而且与GooglePR输出值排列顺序基本一致。山东农业信息网在表6、8中位列第一,在其他3个排序中均为第二,辽宁金农网在表4、5、7、11、和12中均为第一,其余剩下两个排序均为第二,也就是说前两名均被辽宁金农网以及山东农业信息网占据。综合7个排序,大多政府及事业单位名列前位,但沈阳农业大学在以百度、搜狗为检索工具中分别排在第20和第16位,在百度、搜狗的灰度关联排名中分别为11、12位,笔者认为百度与搜狗均为商业性网站,百度跟搜狗都是商业搜索引擎,沈阳农业大学属于非营利性组织的公办大学,并且以教学为主,因而在表4、5、11、12中位居后位。

③政府及事业单位(除公办大学)在7个排序中均名列前茅,这说明政府及事业单位相对于农业企业单位对社会影响力总体更大。希森马铃薯产业集团在表4、6、7、8中均排在企业农业网站前列,甚至超过了一些政府及事业单位农业网站,笔者认为主要原因是由于百度属于商业搜索引擎,一些企业在商业搜索引擎投入大量的资金来做广告宣传,因此排名会受到一定的影响。

④济南圣泉集团股份有限公司在表12中位列第三位,究其原因发现其在表5中的总链接数非常高,数值不准确,可能有以下原因:①搜狗网站本身存在大量的非实质的链接,譬如自链接、商业广告、软件下载等。②有可能是网站有病毒,影响了检索结果,从而使其排名在搜狗灰色关联分析中位居前列。百度虽然也是一种商业网站,但其在搜索过程中通过自定的设计方式剔除了相当一部分的虚假链接。通过此排名也看出了百度在检索工具中数据更为贴近其他5个表的结果。

⑤观察比较两大搜索引擎检索得到的数据和经过灰色关联度计算后的结果,可以看出,表4-8、11中各个网站排名次序偏差不大。总体上看,涉及百度的排序与Google PR输出值、Alexa数据、ChinaZ数据的排序反差不大,其次是在链接分析中,百度所能查到的数据更为全面与准确,其影响力也较大。

⑥笔者初选的4个检索工具中,Alexa的数据并不完全,一部分网站根本查不到排名信息,在以搜狗为检索工具时也出现无法查询到数据的情况。分析以上几个表得知,以百度为检索工具的数据较为完整,以搜狗为检索工具的排序与其他6个排序有更大的偏差。在7个排序中,多数的农业小企业的网站排名均在后面,尤其在Google PR输出值的表6中有的Google PR输出值甚至为0,Google PR输出值在大多数的链接分析案例中均作为主要参考对象。因此笔者认为通过百度与GooglePR值的综合使用来评价网络链接为最优[10]。

4 结语

网站的评价不仅要从网站的设计风格、网站建设的内容等方面考虑,而且还需要一种定量的方法来加以评价,这样会更加客观和有说服力。笔者主要列举了辽宁省、山东省20个具有代表性的样本网站,选出4种检索工具进行链接分析,并利用灰色关联度工具,旨在选出最适合作为农业网站评价的检索工具,虽然商业搜索引擎不太稳定,但笔者选取了在同一时间段并采用相同的检索方法与指令,采集的数据具有较高参考价值。在链接数据统计过程中,有些数据出现了异常,但也在合理解释区间内。因此,得到的数据分析结果的参考价值可取[11]。

在农业网站领域,国外也已经有了比较完善的农业信息专业搜索引擎。比较著名的有:①美国农业网络信息中心(www.agnic.org),是美国国家农业图书馆与一些大学、研究机构以及政府机构自愿组成的联合体,其每个成员都负责农业科学中某一领域的信息工作,各成员单位间互相提供信息服务。每个成员在享受服务的同时,也有为其他成员提供服务的义务,服务方式主要是通过互联网相互提供电子形式的农业信息和检索服务。②法国Hyltel Multimedia公司在1998年创建的农业垂直搜索引擎WEB-AGRI SEARCH(www.web-agri.com),有法、英双语言版本,主要提供3种服务:农业搜索引擎、农业期刊导航和农业站点导航[12]。而在我国,对农业网站评估的检索工具并没有统一规范和普遍应用,希望研究者进一步完善现有的搜索引擎,并针对网络信息计量学研究研制出专门的农业搜索引擎,这对我国农业信息化发展以及信息化的服务质量有着非常重要的影响。

[1]邱均平.网络计量学[M].北京:科学出版社,2010.

[2]百度百科.百度[EB/OL].[2015-04-20].http://baike.baidu. com/view/262.htm.

[3]百度百科.搜狗[EB/OL].[2015-04-03].http://baike.baidu. com/view/24982.htm.

[4]百度百科.站长之家[EB/OL].[2014-12-20].http://baike. baidu.com/view/1687888.htm.

[5]马健,等.基于主成分分析法的农业科技网站评价方法研究[J].安徽农业科学,2011(39):6118-6122.

[6]百度百科.alexa[EB/OL].[2015-05-11].http://baike.baidu. com/subview/663/10876471.htm.

[7]刘伟刚.浅析链接分析在辽宁农业网站评价方面的应用[J].经济研究导刊,2014(30):63-65.

[8]姚湘中.我国211重点大学图书馆网站的链接分析[J].图书馆学刊,2007(4):138-140.

[9]岳峻,傅泽田,高文.农业信息智能获取技术[M].北京:科学出版社,2011.

[10]陈太洋.我国大学图书馆网站链接的实证分析——以中国“211工程”高校为例[J].图书馆杂志,2007(3):43-49.

[11]赵发珍.基于链接分析法的网络社区影响力研究——以国内30个网络社区网站为例[J].现代情报,2013(33):91-95.

[12]徐洋.基于用户行为学习的农业信息元搜索引擎研究[D].北京:中国农业科学院,2010.

高祥永男,1972年生。硕士,副研究馆员,副馆长。研究方向:图书馆学、信息服务。

董玉萍女,1985年生。硕士,馆员。

G350;S126

*本文系辽宁省社科规划基金项目“典型省份农业网站影响力评价研究”(项目编号:L12DGL028)成果。

(2015-07-10;责编:姚雪梅。)

猜你喜欢
搜狗搜索引擎网页
基于HTML5与CSS3的网页设计技术研究
世界表情符号日
腾讯拟147亿元全资收购搜狗
搜狗:牵头成立AI创新联盟
搜狗二季度财报 表现不如预期
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
搜狗三季度营收同比增长
网络搜索引擎亟待规范