做营销产品,就上羽薇网

robots协议的常见问题

2021-09-06

来源：羽薇网

一、robots协议是什么？

搜索蜘蛛在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件，这个文件用于指定搜索蜘蛛（爬虫）在您网站上的抓取范围。

其实就是一个文件，用户写好了代码，放到虚拟根目录上，用于告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

二、支持哪些robots Meta标签？

目前的网站插件代码支持nofollow、noarchive两种robotsMeta标签，不过，在百度官方的《百度搜索引擎优化指南》中，百度明确表示只支持网站的nofollow、noarchive两种meta标签，两种标签的写法参考如下：

1）防止所有搜索引擎显示你的网站快照，可将此元标记置入部分：<meta name="robots" content="noarchive">

2）不想搜索引擎追踪此网页上的链接，而且不传递链接权重的，可以将此元标记置入：<meta name="robots" content="nofollow">

三、网站管理员如何上传robots协议

robots文件需要用户自己写代码，保存为txt文件，然后上传到网站的虚拟根目录。

四、其他常见问题

Q：需要针对“www.aaa.com/bbb.html”这个页面在根目录上传robots文件，如何操作？

A：robots文件需要用户自己写，目前没有针对某个页面的虚拟根目录，用户写好了上传到网站的虚拟根目录即可。

Q：网站后台没有上传robots文件但是输入“www.aaa.com/robots.txt”依然可以访问，是默认如此吗？

A：这个是nginx配置的问题，访问以txt为后缀的文件会被加上text/plain的contentType。如果改为text/htmI会有安全性问题，暂不处理。

Q：上传了robots没有在sitemap体现，正常吗？

A：正常。网站的sitemap 生成是根据站点页面链接的，后台上传了robots 是不会体现到sitemap的。