Skip to main content

网站优化第一步——让蜘蛛更容易发现和爬行

索搜引擎蜘蛛、机器人和爬虫是你的朋友。如果要进行SEO,你不只需要喜欢它们,同时你真的需要特意地把它们吸引到你的网站上来。在SEO中,蜘蛛、机器人和爬虫大体上讲的是同一种东西,但是別过分担忧——它们都没有腿和触角。所以,让我们统一用“蜘蛛(spider)”这个词來称呼它们。请牢记,有时你需要吸引这些机器人,或者把你的网站伪装成“蜘蛛诱饵”。这都属于同一个原则。

蜘蛛网络

那么,什么是蜘蛛,为什么我们要把它请到我的网站上来呢。

蜘蛛是一种程序,或者是一段自动化的脚本(经常被称为bot,即robot的缩写),它在网上不停辛勤奔跑到各个URL上去。蜘蛛通过它们所浏览的网页上面的链接从一个URL爬到另一个URL。

主流搜索引擎接连不断地将它们的蜘蛛派出去浏览广阔的互联网。蜘蛛首先找到各个页面,然后把页面上的文本和代码复制并储存在它们巨大的索引服务器上,这个过程叫做爬行(spidering)。这个巨大的索引,实际上就是一个包含搜索引擎蜘蛛可以成功访问到的所有网站页面的数据库。该索引被用来作为当你搜索时,可以非常快速地得到一个结果的仓库。当你在一个例如百度的搜索引擎上输入一个搜索词并提交,你实际搜索的是搜索引擎所索引的全部内容,而不是当时互联网的实际内容。

当然,网页会变化。有时,网页和网站的变化周期非常短。除此以外,新的网站和网页随时都在快速出现。这也是为什么蜘蛛始终都在那里不停地爬行,一遍又一遍地浏览网页,并且建立和更新搜索引擎的索引信息。

搜索引擎索引库里面的内容是蜘蛛浏览网页时看到的内容。蜘蛛所看到的内容可能和一般的访问者看到的大相径庭。如果你想查看蜘蛛看到的某个网页的内容是什么,你可以使用IE浏览器来访问它,然后按下Ctrl+A组合键,并浏览复制下来的内容。或者,你可以借助百度,点由搜索结果下面的“百度快照”链接,就可以看到蜘蛛最近对这个页面做的快照了。

百度快照

首先也是最重要的一点是,蜘蛛将它们爬过的每个页面的字和词组合起来。它们索引文本和链接。当你在搜索框中输入一个搜索词时,搜索引擎尽量精确地找出和搜索词组最匹配的网页。

不同的搜索引擎有它们独具特色的蜘蛛,和你所期料的一样,它们并不是都以完令一样的方式来运行。有些蜘蛛获取页面上全部的内容,而有些可能只是对其中的某些部分感兴趣。大部分蜘蛛都认为,页面的标题以及靠近页面顶部的内容,比远在页而下面的内容更重要。蜘蛛在爬行网站时经常遇到障碍并越过这些障碍,比如说,在网站上,没有让它们继续爬行的链接,或者它们遇到了由怪异技术或代码造成的问题。蜘蛛还可能由于遇到技术阻碍,而进入陷阱,从而使它们不能轻易完成工作。

所以,任何SEO工作的第一步的重要部分都是让蜘蛛更容易发现和爬行你的网站。如果你的网站没有被蜘蛛爬过,它们也就不会建立关于你网站的搜索引擎索引。如果网页没有在索引与中,搜索者也不会在搜索引擎中找到它,因为搜索引擎认为那个页面根本就不存在。与此同时,搜索者可能找到其他网页,并且很有可能是你的竞争对手的网页。

链接和精心设计的站点结构是建立个体网页、网站栏目与其他站内网页和栏目之间关系的桥梁。这将给蜘蛛提供淸晰的爬行道路。