robots禁止收录写法
这里蔡江先把几种常用的写出来,后面再讲每一句的含义:
禁止所有搜索引擎抓取: User-agent: *
Disallow: / 禁止百度蜘蛛抓取: User-agent: baiduspider
Disallow: / 允许百度抓取,禁止谷歌抓取: User-agent: *
Allow: /
User-agent: baiduspider
Allow: /
User-agent: Googlebot
Disallow: /
聪明的朋友可能已经看出来了改如何写robots了。没看明白的不着急,请看下文
robots是一行或多行User-agent开始,后面跟上多个Disallow和Allow行,参照上面案例
User-agent: 后面跟搜索引擎机器人的名字
Disallow: (不可以被抓取)
Allow: (可以被抓取)
注:robots所有属性后面都要加 一个空格。例如:Allow: xxx,冒号的后面一定要有一个空格(半角下的空格)
下面重点说下百度蜘蛛的通配符:
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。
附上我的站点的robots,我用的织梦:
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
Disallow: /index.php
Disallow: /member
Disallow: /plus/vote
检查robots是否书写正确
注:写robots要严格按照规则来写,不然写出来的是无效的。写好之后可以到百度站长平台robots更新一下,检查robots是否书写正确。另外robots中还可以加入网站地图sitemap,有些人认为这不安全,写到里面容易被人轻松获得了网站的链接。我认为真正有人想采集网站的文章,不是知道网站地图与否能够阻挡的了的。所以robots中大可以申明网站地图的链接。