默认的robots.txt是这样的,在浏览器输入http://你的域名/robots.txt:
- User-agent:*
- Disallow:/wp-admin/
- allow:/wp-admin/admin-ajax.php
格式:
User-agent:
用于描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。
Disallow:
用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。
举例:
例一:"Disallow:/help"是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。
例二:"Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。
例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。
#:Robots.txt 协议中的注释符。
综合例子 :
例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录,以及 "/tmp/"目录和 /foo.html 文件,设置方法如下:
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html
例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容,设置方法如下:
User-agent: *
Disallow: /cgi/
User-agent: slurp
Disallow:
例三:禁止任何搜索引擎抓取我的网站,设置方法如下:
User-agent: *
Disallow: /
例四:只禁止某个搜索引擎抓取我的网站如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:
User-agent: slurp
Disallow: /
步骤:新建一个txt文本,放到网站的根目录,设置可以参考下面这个:
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /trackback/
- Disallow: /comments/
- Disallow: /attachment/
- Disallow: /comments/feed
- Disallow: /feed
- Disallow: /*/feed
- Disallow: /*/comment-page-*
- Disallow: /*?replytocom=*
- Disallow: /*/trackback
- Disallow: /?s=*
- Disallow: /*/?s=*\
- Disallow: /wp-*.php
- Sitemap: https://www.haoht123.com/sitemap.html
1)Disallow: /wp-admin/、Disallow: /wp-content/和 Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
2)Disallow: /*/comment-page-*和 Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
3)Disallow: /category/*/page/和 Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。(这一条子凡并未添加到上面演示,因为不同 WordPress 站点可能会有所不同,大家可以根据需要添加)
4)Disallow: /*/trackback 和 Disallow: /trackback/
禁止搜索引擎抓取收录 trackback 等垃圾信息
5)Disallow: /feed、Disallow: /*/feed 和 Disallow: /comments/feed
禁止搜索引擎抓取收录 feed 链接,feed 只用于订阅本站,与搜索引擎无关。
6)Disallow: /?s=*和 Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
7)Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
8)Disallow: /wp-*.php
禁止搜索引擎抓取 WordPress 网站根目录的以 wp 开头的文件。
9)Sitemap: http://yourdomain.com/sitemap.html
这个就是为了方便搜索引擎利用的网站地图,具体的根据自己网站需要添加。
最后去百度站长平台,进行检测,如下图:
扩展,常见搜索引擎蜘蛛:
- 百度蜘蛛:Baiduspider
- 谷歌蜘蛛:Googlebot
- 360蜘蛛:360Spider
- SOSO蜘蛛:Sosospider
- 雅虎蜘蛛:Yahoo! Slurp China或者Yahoo! Slurp
- 有道蜘蛛:YoudaoBot,YodaoBot(两个都有)
- 搜狗蜘蛛:Sogou News Spider
- MSN蜘蛛:msnbot,msnbot-media
- 必应蜘蛛:bingbot
- 一搜蜘蛛:YisouSpider
- Alexa蜘蛛:ia_archiver
- 宜搜蜘蛛:EasouSpider
- 即刻蜘蛛:JikeSpider
以上仅供参考,如有不对,还请指正。