wordpress robots配置-wp建站如何设置robots文件

大家好，我是飞小优，有很多新手在利用wordpress建站时不知道如何创建robots文件，那笔者今天给大家介绍如何如何创建该文件。

Robots协议定义

robots协议（也称为爬虫协议、爬虫规则、机器人协议等）也就是robots.txt，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令，故需要搜索引擎自觉遵守。一些病毒如malware（马威尔病毒）经常通过忽略robots协议的方式，获取网站后台数据和个人信息。

语法结构

User-agent: *
Disallow: /

DEMO释义

Disallow: /?s= –> Disallow: 是告诉搜索引擎不要收录 /?s= 则是禁止收录的链接
Allow: .htm$ –> Allow：是告诉搜索引擎可以收录

示例代码

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

基于这个，小编这里给大家写了一些针对wordpress的robots.txt：

Robots创建实例应用

情形1：配置伪静态

网页的URL结构是：你的域名/xxx.html 结尾的，那么可以参考下面的robots.txt作参考：

User-agent: *
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?*
Disallow: /cgi-sys/
Disallow: /img-sys/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: （填写你的网站地图xml）
# END XML-SITEMAP-PLUGIN

情形2：未配置伪静态或静态化

网页的URL以动态字符串结尾的：你的域名/?P=123，那么可以使用下面的robots.txt作参考：

User-agent: *
Disallow: /?s=
Disallow: /?feed=
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?tis=buy$
Disallow: /*?tis=dl$
Disallow: /*?tis=img$
Disallow: /cgi-sys/
Disallow: /img-sys/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: （填写你的网站地图xml）
# END XML-SITEMAP-PLUGIN

以上内容仅供参考，具体要针对你自己的网站做出一些修改，将他们保存在一个名为robots.txt的文档中，上传到网站的根目录就OK了！上述代码会允许所有搜索引擎的爬虫都可以访问您的网站。

排除某些常规页面禁止爬虫访问

如果您希望排除某些页面或目录不被搜索引擎爬虫访问，可以添加以下语句:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /feed/
Disallow: /tag/
Disallow: /category/

在上述代码中，/wp-admin/、/wp-includes/、/wp-content/plugins/等目录和页面将不会被搜索引擎爬虫访问。

如果您希望允许某些搜索引擎爬虫访问您的网站，可以添加以下语句：

User-agent: Googlebot
Disallow:

User-agent: Bingbot
Disallow:

在上述代码中，GoogleBot和BingBot可以访问网站的所有页面。保存文件并上传到网站的根目录下。

注意事项

Robots文件只是一个指导搜索引擎爬虫如何访问您网站的建议，搜索引擎仍有可能访问您想要屏蔽的页面。
添加Disallow指令只是要求爬虫不要访问这些页面，但并不能保证这些页面不被收录在搜索结果中。

写在最后

关于WP建站的robots文件怎么写，笔者已经给出全部内容介绍，对关于robots文件知识点 拓展介绍内容请查看该文档，如：

Disallow: /index.php/及Disallow: /index.php的区别

Disallow：/XXX及Disallow: /XXX/等变体介绍与用法

Disallow: /?和Disallow: /?* 及Disallow: /*?*的区别

以上就是关于如何设置wordpress的robots文件的教程内容介绍，有任何问题请再文章下方留言。

如何设置wordpress的robots文件？

* 文章内容很有用，那就5星好评吧!😘

Robots协议定义

语法结构

DEMO释义

示例代码

Robots创建实例应用

情形1：配置伪静态

情形2：未配置伪静态或静态化

排除某些常规页面禁止爬虫访问

注意事项

写在最后

独立站遇到技术卡点？来专业出海问答库找答案

发表回复

如何设置wordpress的robots文件？

* 文章内容很有用，那就5星好评吧!😘

Robots协议定义

语法结构

DEMO释义

示例代码

Robots创建实例应用

情形1：配置伪静态

情形2：未配置伪静态或静态化

排除某些常规页面禁止爬虫访问

注意事项

写在最后

独立站遇到技术卡点？来专业出海问答库找答案

相关问答

发表回复