搜索引擎优化助力纸媒网站发展

2012-06-25 09:20王建东
中国传媒科技 2012年21期
关键词:域名搜索引擎蜘蛛

文 | 王建东

我们网站从2012年1月5日上线至今已10月有余,其间网站业务逐步拓展,内容更加丰富,流量持续增长。随着网站的发展,对网站推广工作的要求也越来越高——如何让广大网民更快的看到网站精彩的内容,令其获得更好的用户体验,这些都是我们接下来要关注的重点。

除了直接通过域名访问主站之外,大多数网民都是通过搜索引擎的相关搜索结果访问到我们的网站。因此如何将网民感兴趣的内容通过搜索引擎友好的呈献给他们是我们面对的主要问题。而以搜索引擎为媒介来实现网站内容推广的最常见方式和手段就是搜索引擎优化(SEO)。

搜索引擎优化简介

什么是搜索引擎优化

搜索引擎优化(SEO,Search Engine Optimization),指从自然搜索结果获得网站流量的技术和过程,进一步讲是在了解搜索引擎自然排名机制的基础上,对网站进行内部以及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量,从而达成网站销售及品牌建设的目标。

SEO按其行为性质可分为黑帽、白帽、灰帽三类。SEO行业内一些不符合搜索引擎质量规范的优化手法,也就是通过一些“作弊”手段来实现SEO的手法称为黑帽;正规的符合搜索引擎网站质量规范的则称之为白帽;由于搜索引擎公布的规范和准则较笼统,有很大的解释空间,因此一些不能明确归入黑帽和白帽的优化手法被称为灰帽。本文探讨的就是健康、长久的、也是搜索引擎鼓励和支持的白帽SEO。

为什么做SEO

SEO是给网站带来流量的最好方法,没有“之一”。

※ 搜索流量质量高。其他方法是把网站推到本来没有访问意图的网民面前。来自搜索引擎的访客则是主动寻找网站相关内容,目标非常精准,转化率高。

※ 性价比高。SEO虽不免费,但是成本是相对较低的,尤其是网站管理员自己掌握并实施SEO技术时。

※ 可扩展性。只要掌握了关键词研究和内容扩展方法,网站可以不断增加目标关键词及流量。

※ 长期有效。网络广告、PPC(搜索广告)一旦停止投放,流量立即停止。事件营销效果明显,但话题过去后流量也会消失。但只要不作弊,搜索排名一旦上去,可以维持相当长时间,可以保证一定的流量。

※ 提高网站易用性,改善用户体验。SEO是很少的必须修改网站才能实现的推广方法之一,而SEO对页面的要求很多是与易用性相通的。

参考消息网站的SEO

为保证SEO工作有序进行,我们将其工作重心分为三个部分,并按以下三个阶段来实施。

※ 第一阶段是信息规范化建设。针对页面信息和URL规范化问题进行整改,保证网站入口统一,权重集中并有效的继承到子页面,便于搜索引擎抓取。

※ 第二阶段是关键词建设。搜索引擎的访问形式同普通用户是一样的,一篇文章的关键词如果和正文内容没有较高的相关性,一定会影响用户体验,而搜索引擎可能会降低该页面的权重,最终影响抓取效果,这也是通过内容提高网站权重的重点之一。

※ 第三阶段是外部链接建设。在保证页面及URL规范和关键词良性建设的同时,多途径、多渠道拓展网站外部链接市场是本阶段的重点工

作。良好的外部链接可以有效提升网站权重并带来可观的流量,是网站推广工作的重要途径之一。

网站SEO工作是协调统一的,三个阶段也是相辅相成的,其划分是以当前工作重点为标准,在特定条件下可以相互转化。

本文主要讨论的是第一阶段,即信息规范化建设阶段。

所谓信息规范化建设就是指为搜索引擎蜘蛛的抓取提供友好的途径,包括域名设计、页面设计、权重规划、URL规范设计、网站结构设计、内容更新频率规范等。

SEO的工作就是和搜索引擎打交道,目的是为了让自己的页面被搜索引擎更快更多地抓取并收录。理论上蜘蛛能爬行和抓取所有页面,但实际上是不可能的。网站想让自己的更多页面被收录,就要想方设法吸引蜘蛛来抓取。蜘蛛所要做的就是尽量抓取重要页面,蜘蛛判断页面重要性主要参考以下几方面:

网站和页面权重。质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,会有更多页面被收录。

页面更新度。如果页面内容经常更新,蜘蛛会更加频繁地访问这种页面,页面上出现的新链接也会被蜘蛛更快地跟踪。

导入链接。无论是外部链接还是网站内部链接,蜘蛛都是靠导入链接进入页面。高质量的导入链接可使页面上的导出链接爬行深度增加。

与首页点击距离。一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也越大。

蜘蛛抓取的原理是我们SEO工作的行为参考,从上述原则我们可以看出除第三条导入链接外,其他内容均涉及到规范化建设的范畴。接下来我从以下几个方面探讨SEO的初期工作内容:

域名设计

域名是网民对网站的第一印象,令其记住域名对网站发展非常重要。域名选取一般遵从以下几点:

※ 域名尽量简短,越短的域名,网民的记忆成本就越低。

※ 域名可以和网站主题或网站名称相呼应,让人看到域名就能联想到网站内容,比如使用公司名称、商标、网站名称或者公司产品等信息来选择域名。

※ 使用何种形式的域名后缀对搜索没有影响,但域名后缀也需要考虑方便网民记忆。.com、.cn、.net等常见的域名后缀更容易记忆,一些不常见的后缀可能会让人产生不信任感,增加其判断成本。

参考消息网在挑选域名时充分考虑了上述原则,从网民的记忆成本以及对域名的信任程度等角度出发,选取“cankaoxiaoxi.com”作为主域名。《参考消息》日均发行量300万份以上,传阅量超千万,在国内拥有相当庞大的读者群体。网站域名采用其汉语拼音全拼的形式,既方便用户记忆,也便于其产生良好的信任度从而提高用户粘度,并有利于网民之间的口口相传。

页面设计

在品牌众多的搜索引擎行业里,SEO工作有其广泛的共性,也有针对某搜索引擎的个性化需求。就国内市场而言,百度因其受众面广、影响力大等优点,是我站以及国内各大网站SEO工作的重点对象。

现阶段我站在页面设计方面主要考虑以下三个问题:

※ 一是链接标识问题。

百度通过蜘蛛程序抓取互联网上的网页,经过处理后编录到索引中。目前蜘蛛只能读懂文本内容,flash、

图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度无法识别。我们在页面设计时遵从业界通用方式,使用文字而不是flash、图片、Javascript等来显示重要的内容或链接。

※ 二是页面title和meta description设置问题。

网页的title用于告诉网民和搜索引擎这个网页的主要内容是什么,搜索引擎在判断一个网页内容权重时title是主要参考信息之一。网页title是其主要内容的概括,搜索引擎可以通过网页标题迅速判断网页的主题。每个网页的内容都是不同的,每个网页都应该具有独一无二的title。网民在百度中搜索到网页时,title会作为最重要的内容显示在摘要中,一个主题明确的title可以帮助他们更方便地从搜索结果中判断网页上内容是否符合其需求。title要对网民有吸引力,令其产生信任感。

参考消息网站页面title格式如下:

首页:网站名称

频道页:频道名称_网站名称

文章页:文章title_频道名称_网站名称

Meta description是对网页内容的精练概括。如果description描述与网页内容相符,百度会把description当作摘要的选择目标之一,一个好的description会帮助网民更方便的从搜索结果中判断网页内容是否和需求相符。

Meta description不是权值计算的参考因素,这个标签存在与否不影响网页权值,只会用做搜索结果摘要的一个选择目标。目前网站description内容显示的是《参考消息》的简要介绍。

※ 三是定期清除死链接。

网站死链过多,不仅影响网民的访问体验,也影响百度对网站质量的判断。百度站长平台支持通过Sitemap向百度提交网站的死链列表。通过死链删除的接口可以让百度更快更全面的发现网站死链,从而进行有效删除。

注:提交需要删除的网址后,需要做如下处理,才能被百度有效删除:

使用robots.txt阻止其被抓取。

或者返回404状态码表示当前页面不存在。

权重规划

权重是影响搜索引擎抓取的重要因素。参考消息网站权重目前偏低,同一篇稿件,参考消息在新华网专区的搜索结果排在参考消息官网页面之前,这个结果是可以预料的。提高网站权重一是要靠良好的原创内容吸引蜘蛛,二要靠合理的外部链接合作进行推广,三则是规范化的URL设计以保证网站权重的集中和有效传递。这部分将在URL规范化设计中详细探讨。

权重问题是一个长期的工作,要坚持不懈才能展现效果。

URL规范化设计

创建具有良好的描述性、规范、简单的URL,既有利于网民记忆和判断网页的内容,也有利于搜索引擎更有效的抓取网站内容。网站设计之初,就应进行合理的URL规划。

网站中同一网页,只对应一个URL。如果网站上多个URL都能访问同样的内容,会引发如下问题:

1. 搜索引擎会选某一种URL作为标准,可能会与正式URL有所不同。

2. 用户可能为同一网页的不同

URL做推荐,多个URL分散了该网页的权重。

URL设计还应注意以下几点:

※ 让网民可以从URL判断出网页内容以及网站结构信息,并可以预测将要看到的内容。

※ URL应尽量简短。长URL不仅不美观,网民还很难从中获取有用的额外信息。另一方面,短URL还有助于减小页面文件大小,加快网页打开速度,提升用户体验。

※ 正常的动态URL对搜索引擎没有影响。URL是动态还是静态对搜索引擎没有影响,但尽量减少动态URL中包含的变量参数,这样既有助于减小URL长度,也可以减少让搜索引擎掉入黑洞的风险。

参考消息网站建站之初首页地址为http://www.cankaoxiaoxi.com,但其上“首页”的链接地址为http://cankaoxiaoxi.com,搜索引擎蜘蛛会把这两个URL当作不同的地址来对待,但这两者其实是同一个地址。这会带来以下问题:

※ CMS系统在不同的地方链接到不同的URL,分散了页面权重,不利于排名。

※ 外部链接也可能指向不同的URL,分散权重。

※ 搜索引擎判断的规范化网址可能不是我们想要的那个网址。

如果网址规范化问题严重,可能会影响收录。对于搜索引擎来讲,一个权重不高的域名,其被收录的总页面数和蜘蛛总爬行时间是有限的。搜索引擎把资源花在收录不规范网址上,留给独特内容的资源就少了。更有甚者,搜索引擎在收录了多个指向同一站点的URL地址后会导致内容复制,复制内容过多,搜索引擎可能认为网站存在作弊嫌疑。

针对上述情况,我们将所有http://cankaoxiaoxi.com的域名内容都进行了301跳转;对于防止网民输错而启用的备用域名也实现了301永久跳转到主域名。并使用robots.txt禁止蜘蛛抓取本站不想向用户展现的形式。

网站结构设计

网站应该有清晰的结构和明晰的导航,这可以帮助网民快速从网站中找到自己需要的内容,也可以帮助搜索引擎快速理解网站中每一个网页所处的结构层次。

网站一般应采用树型结构,树型结构通常分为以下三个层次:首页——频道——文章页。像一棵大树一样,首先有一个树干(首页),然后再是树枝(频道),最后是树叶(普通内容页)。树型结构的扩展性更强,网站内容变多时,可以通过细分树枝(频道)来轻松应对。

理想的网站结构应该是扁平化的,从首页到内容页的层次要尽量少,这样搜索引擎处理起来会更简单。

同时,网站也应该是一个网状结构,网站上每个网页都应该有指向上、下级网页以及相关内容的链接:首页有到频道页的链接,频道页有到首页和普通内容页的链接、普通内容页有到上级频道以及首页的链接、内容相关的网页间互相有链接。网站中每一个网页,都应该是网站结构的一部分,都应该能通过其他网页链接到。重要的内容,应该能从首页或者网站结构中比较浅的层次访问到。

目前我站结构体系分为首页、频道页、栏目页、内容页四个层面,符合网站结构扁平化的要求,可以保证所有页面在四次点击之内访问到。

另外,网站还要有简明、清晰的导航系统,可以让网民快速找到自己需要的内容,同时也可以帮助搜索引擎更好的了解网站的结构。

参考消息网站设计时为每个页面都加上了导航栏,让用户可以方便的返回频道、网站首页,也可以让搜索引擎方便的定位网页在网站结构中的层次;使用面包屑式导航,容易让用户理解当前所处的位置,如,网站首页→频道→当前浏览页面。

还有一个非常需要注意的地方是了解子站和子目录的区别。选择使用子域名还是子目录来合理的分配网站内容,对网站在搜索引擎中的表现会有较大的影响。在某个频道的内容没有丰富到可以当作一个独立站点存在之前,使用目录形式;等频道下积累了足够的内容,再转换成子域名的形式。一个网页能否排到搜索结果的前面,“出身”很重要——如果其出自一个站点权重较高的网站,那排到前面的可能性就越大,反之则越小。通常情况下主站点的权重是最高的,子站点会从主站点继承一部分权重,继承的多少,视子站点质量而定。在内容没有丰富到可以作为一个独立站点之前,把内容放到主站点下一个目录中能在搜索引擎中获得更好的表现。

内容差异度较大或者关联度不高,则使用子站点形式。搜索引擎会识别站点的主题,如果站点中内容关联度不高,可能导致搜索引擎识别错误。关联度不高的内容,放在不同的子域名下,可以帮助搜索引擎更好的理解站点的主题。

切记不要滥用子域名。无丰富内容而滥用大量子域名,会被搜索引擎当作作弊行为而受到惩罚。

页面内容更新频率规范

正如前面提到的,页面内容经常更新,蜘蛛会更加频繁地访问这类页面,页面上出现的新链接也会被蜘蛛更快地跟踪。

参考消息网作为一个新站点,内容增加频率要保持稳定合理的上升趋势,在保证高质量原创稿件持续增长的同时还要避免盲目的增大转发量。对于搜索引擎来说,如果一个网站在短期内发稿数量出现指数增长,则有可能被认为存在作弊行为,不利于网站良性发展。

良好的内容建设

搜索引擎只是网站上一个普通的访客,对网站的抓取方式、对网站/网页的价值判断,也都是从网民的角度出发的,任何对用户体验的改进,都是对搜索引擎改进。对搜索引擎的优化,同时也会让广大网民受益。

网站内容建设以服务网站核心价值为主,提供给搜索引擎收录的也应该是对自己核心价值有帮助的内容。网站的内容应该是面向用户的,提供符合用户需求的原创内容至关重要。资源较丰富的内容,可以通过专题等更丰富的内容组织形式提供给用户,让用户以最低的成本获取所有需要的信息。未来我站会向Web2.0类型的网站转变,充分利用自己的优势,让网民通过投票、评论等手段自己去判断资源的质量,形成有机的互动,这些互动可能会被搜索引擎用来判断网站资源的价值。推荐信息会被搜索引擎用来判断网站价值的高低。适当的鼓励、引导网民推荐网站,对网站在搜索引擎中的表现有很大帮助。

总结及展望

现在参考消息网还处于SEO工作的初级阶段,主要针对页面信息和URL规范化问题进行优化,保证网站入口统一,权重集中并有效的继承到子页面,便于搜索引擎抓取。

接下来我们的工作重点将放在关键词建设上。网站需要有效流量,对于新闻网站来说有效流量就是新闻内容,也是网民搜索需要的内容。这就要求选取的关键词要和文章内容有较高的关联性。从用户体验角度来讲,如果点击搜索到的链接后,发现内容与自己需求不符或者相差很大,访客是不会继续浏览网站的。因此即使带来了一定的流量,但是其没有可持续性,很快就衰减了。对于百度蜘蛛来讲,如果关键词和内容相关性低,那么程序会认为该站点存在欺诈行为,会降低权重,从而导致抓取率下降。这也是通过内容提高网站权重的重点之一。

SEO工作是一项长期的、细节化的工作,需要坚持不懈的努力才能看到成果,不能一蹴而就。

网站技术人员不可能对搜索引擎细节了解的很清楚,因此只有在共性的原则上不断尝试,摸清每个搜索引擎的脾气才能达到预期的效果。当然,搜索引擎的各种算法也在不断变化,这也意味着我们要紧盯搜索引擎的发展方向,做到与时俱进。

猜你喜欢
域名搜索引擎蜘蛛
世界表情符号日
《江苏教育研究》官方网站域名变更公告
小蜘蛛冻僵了,它在哪儿呢?
蜘蛛
网络搜索引擎亟待规范
大蜘蛛
基于Lucene搜索引擎的研究
顶级域名争夺战:ICANN放出1930个通用顶级域名,申请者有上千家
搜索引擎,不止有百度与谷歌