搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider我们俗称蜘蛛,它在访问一个网站时,会首先会检查该网站的根域下是否有一个robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您robots.txt中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
但是很多朋友只知道复制别人给出robots写法,自己却没有真正了解里面的内容是什么意思,其说说起来并不复杂,robots.txt里面通常包含三个规则:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
1、User-agent:指定搜索引擎蜘蛛。后面如果是*,那就代表所有的搜索引擎,如果单独写明:Baiduspider,那就是指百度蜘蛛。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
2、Disallow :指定禁止收录的地址。后面如果是/,那就是指所有文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
3、Allow: 指定允许收录的地址文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
了解了这三个规则,就知道了robots中每一行的含义。我们也就能更有针对性的部署我们的robots文件了,需要注意的是冒号后面必须有一个空格。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
例如禁止所有搜索引擎收录:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
User-agent: *
Disallow: /文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
允许所有搜索引擎收录:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
User-agent: *文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Allow: /文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
下面分享一个wordpress程序的robots文件写法:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
User-agent: *文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /comments/feed/文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /*/trackback文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /wp-admin/文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /wp-includes/文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /wp-content/plugins/文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /wp-content/themes/文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /*?replytocom=文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /*/comment-page-*文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /?r=*文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /?p=*文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Disallow: /page/文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
Allow: /wp-content/uploads/文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html
上面的 User-agent:*意思就是对所有的蜘蛛进行定义,Disallow 是拒绝收录,我想大家都懂的。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/youhua/2871.html