昨天,眼镜蛇在腾讯微博中(http://t.qq.com/yanjingshe)提出“百度对动态页面的抓取优于静态的”观点,也大量给了举证。比如SEO圈通常用的ZBLOG博客,做小行业门户用到的DEDE CMS,以及地方站用的较多的DISCUZ论坛等,从多个网站的百度SITE中很容易的看出,动态的页面被收录的情况要优于静态的。
从admin5.com站长网来看,动态URL收录的情况更明显一些。图王的ADMIN5是带用户发布系统的,每天有大量站长所写的文章分享,并且多数是原创、首发的。但发布有个规则,先入库,可以用动态的URL访问(plus/view.php),经过A5编辑审核后,才在首页给入口,并以静态URL的链接进入(article/xxxx/xxxx.shtml)。问题就在这里,通过百度当天收录查询,A5的文章大量收录为编辑未审核前的动态URL,这个URL必须有一个入口,可能是会员的列表页,可能是专有的列表页,但这个入口传递下来的权重,远没编辑审核后首页给入口的静态URL赋予的权重高。谷歌搜索引擎很明显的将首页有入口的静态URL关键词给予排名,完全忽略掉(或者未爬取)未审核前的动态URL。而百度,应该是先抓取了动态URL的页面,之后根据首页的入口抓取静态的页面,动态的先抓,而且内容原创,后抓的则认为是转载内容,加上百度去重规则,后者多数不再收录。
上面的这种只是推测,同一个网站不同的两个URL,针对百度是,先爬到入口不重要的动态原创页面,后抓到入口重要的静态可能被认为是转载的页面,百度多数赋予了前者予以检索,而忽略后者。针对谷歌,根本没爬动态页面,直接通过首页入口将编辑审核后的静态页面抓取做排名检索。
这时可以明显看出蜘蛛爬行轨迹,百度的蜘蛛将经常出现大量原创链接的入口页做时常更新,这个入口页不必是网站的首页等权重较高的地方。而谷歌是根据网站的权重来安排爬取规则,即使一个入口页出现了大量的原创链接,因为那个入口页权重很低,谷歌就不会时常以他为入口去爬取的,谷歌更喜欢从权重高的入口页去抓新内容。
很明显,百度的蜘蛛及索引的排名规则设计的不合理。