在网站上线之前,我们要做一些操作,其中,有一项是很重要的,那就是robots.txt文件的设置,其实,robots文件的书写也是一种seo技术,有一定的技术含量。那么,下面顺时seo博客就来教大家robots.txt写法,让你的网站收录能够快速稳定的提升。
什么是robots
robots是Robots Exclusion Protocol的缩写,意思是“网络爬虫排除标准”,通俗的说就是爬虫协议或者是机器人协议,通常用名为robots.txt这样的文件来写这个协议,意在告诉搜索引擎,网站上哪些页面可以抓取,哪些页面不可以抓取。搜索引擎在访问网站时,会先查看robots.txt文件,遵守我们设置的robots协议进行页面的抓取,不过有些搜索引擎可能会不遵守robots协议而随意抓取我们网站的内容,我们将之称为流氓。注意:robots.txt文件必须放在网站根目录中。
robots常见属性含义
User-agent:用户代理,用于书写搜索引擎蜘蛛的名称,*代表所有的搜索引擎,写法是:User-agent: /*,注意冒号后面要有一个空格,如果是某个搜索引擎,【北京关键词批量优化:15611115563】,那么,在冒号后面写上该搜索引擎蜘蛛的名称即可,【北京软件开发:15611115563】,如百度蜘蛛,【北京网站seo公司:15611115563】,则是:User-agent: Baiduspider。
Disallow:用于告诉搜索引擎不可以抓取的页面。
Allow:用于告诉搜索引擎可以抓取的页面。
robots.txt常见写法示例
1.所有搜索引擎可以访问网站所有页面:
robots写法:User-agent: *
Allow: /
不让访问任何页面则把Allow换成Disallow
2.某个搜索引擎可以访问网站所有页面:(以百度举例)
robots写法:User-agent: Baiduspider
Allow: /
不让访问任何页面则把Allow换成Disallow
3.限制某个目录不被任何搜索引擎抓取,以目录a举例:
robots写法:User-agent: *
Disallow: /a/
4.限制某个路径不被任何搜索引擎抓取,以路径123.html举例:
robots写法:User-agent: *
Disallow: /123.html
5.允许目录a中的1.html被抓取,目录a其他页面不被抓取:(部分目录中的页面允许抓取)
robots写法:User-agent: *
Disallow: /a/
Allow: /a/1.html
6.禁止访问以.html为后缀的路径:
robots写法:User-agent: *
Disallow: /*.html(*表示任意字符)
7.禁止动态页面被抓取:
robots写法:User-agent: *
Disallow: /*?*
8.禁止所有图片被抓取:
robots写法:User-agent: *
Disallow: /*.jpg$($表示结束字符)
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.bmp$
Disallow: /*.swf$
Disallow: /*.psd$
注意:要将所有的图片格式屏蔽掉
robots协议写法要点
1.一个User-agent:代表一个协议,协议可以有多个,但是User-agent: *只能有一个;
2.所有冒号后面必须有一个空格
3.隐私文件一定要屏蔽抓取,比如网站后台,还有一些博客插件、模板等文件也要屏蔽抓取。
(责任编辑:北京网站建设,北京网站制作公司)