Baiduspider不支持noindex

October 11, 2008 6 Comments 分类: 百度

以前一直不太关心我这个博客在百度的搜录情况,今天去查看了一下,发现百度的搜录量比Google多出不少,研究是怎么来的。结果发现原来Baiduspider只支持部分meta robots协议,比如<meta name=”robots” content=”noindex” />,百度就不支持。居然到现在才发现,实在是失误。刚到百度搜索帮助中心去看了一下,居然还赫赫的写着:

baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

从上面这段话来看,百度所谓的遵守互联网meta robots协议,似乎仅支持noarchive标签。

在百度上site:www.onepx.com 2006或者2007、2008,可以发现一打结果,都是博客的按月存档,这部分页面我都定义了meta robots:

  • <meta name=”robots” content=”noindex,follow” />

noindex的意思是让搜索引擎不要对当前页面创建索引。我一直在使用meta robots + robots.txt的方式来控制搜索引擎对我这个博客的索引,如果没有记错的话,我早在2007年5月份就开始在按月存档页面上使用noindex了,所以Google和Yahoo那边一直没有这些按月存档,我也就没有关心这个问题,直到今天才发现……按月份存档在wordpress博客上是一定要屏蔽掉的,否则容易被搜索引擎认为是复制网页,会带来啥后果就不好说了。所以我只好给Baiduspider开小灶了,在robots.txt中加入:

  • User-agent: Baiduspider
    Disallow: /200*

Baiduspider,你就不能国际化一点?

相关文章
6 条评论
See sth. ? Say sth. !
  1. 请教一下。不知道你有没有注意过,在 Google 搜索,”Baiduspider不支持noindex”,搜索结果里面有个日期,2008年10月11日。然而这个日期在实际页面里是不存在的,那么这是什么?

    [回复]

    Shawn October 13, 2008
  2. 查到了,Fresh Crawl

    [回复]

    Shawn October 13, 2008
  3. @shawn
    是Google自己加的,已经好几个月了,我新发的post很多都有,但又不是全有。部分2007年的老老post也被google加上了。

    [回复]

    Ryan October 13, 2008
  4. 晕,我还在打字你就查到了…
    不得不说的是,技术上google比百度好很多。

    [回复]

    Ryan October 13, 2008
  5. 我也是偶然发现的,以前从来没注意过。。。还瓜兮兮得去看源码,以为哪个插件自作主张在给我加东西。

    [回复]

    Shawn October 13, 2008
  6. ╔═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╗
    ║ │ │ │ │ │ │ │ │ │ │ │ │究│人│基║
    ║ │ │ │ │ │ │ │ │ │ │ │ │的│工│本║
    ║ │ │ │ │ │ │ │ │ │ │ │ │价│操│上║
    ║ │ │ │ │ │ │ │ │ │ │ │ │值│作│不║
    ║ │ │ │ │ │ │ │ │ │ │ │ │。│的│研║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │东│究║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │西│百║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │没│度║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │有│了║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │研│,║
    ╚═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╝

    [回复]

    c。d。。 October 14, 2008

发表评论

Commenter Gravatar