大家好,我是飞小优,有很多新手在利用wordpress建站时不知道如何创建robots文件,那笔者今天给大家介绍如何如何创建该文件。

Robots协议定义

robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。

语法结构

User-agent: *
Disallow: /

DEMO释义

Disallow: /?s= –> Disallow: 是告诉搜索引擎不要收录  /?s= 则是禁止收录的链接
Allow: .htm$ –> Allow:是告诉搜索引擎可以收录

示例代码

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

基于这个,小编这里给大家写了一些针对wordpress的robots.txt

Robots创建实例应用

情形1:配置伪静态

网页的URL结构是:你的域名/xxx.html 结尾的,那么可以参考下面的robots.txt作参考:

User-agent: *
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?*
Disallow: /cgi-sys/
Disallow: /img-sys/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: (填写你的网站地图xml)
# END XML-SITEMAP-PLUGIN

情形2:未配置伪静态或静态化

网页的URL以动态字符串结尾的:你的域名/?P=123,那么可以使用下面的robots.txt作参考:

User-agent: *
Disallow: /?s=
Disallow: /?feed=
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?tis=buy$
Disallow: /*?tis=dl$
Disallow: /*?tis=img$
Disallow: /cgi-sys/
Disallow: /img-sys/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: (填写你的网站地图xml)
# END XML-SITEMAP-PLUGIN

以上内容仅供参考,具体要针对你自己的网站做出一些修改,将他们保存在一个名为robots.txt的文档中,上传到网站的根目录就OK了!  上述代码会允许所有搜索引擎的爬虫都可以访问您的网站。

排除某些常规页面禁止爬虫访问

如果您希望排除某些页面或目录不被搜索引擎爬虫访问,可以添加以下语句:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /feed/
Disallow: /tag/
Disallow: /category/

在上述代码中,/wp-admin/、/wp-includes/、/wp-content/plugins/等目录和页面将不会被搜索引擎爬虫访问。

如果您希望允许某些搜索引擎爬虫访问您的网站,可以添加以下语句:

User-agent: Googlebot
Disallow:

User-agent: Bingbot
Disallow:

在上述代码中,GoogleBotBingBot可以访问网站的所有页面。保存文件并上传到网站的根目录下。

注意事项

  • Robots文件只是一个指导搜索引擎爬虫如何访问您网站的建议,搜索引擎仍有可能访问您想要屏蔽的页面。
  • 添加Disallow指令只是要求爬虫不要访问这些页面,但并不能保证这些页面不被收录在搜索结果中。

写在最后

关于WP建站的robots文件怎么写,笔者已经给出全部内容介绍,对关于robots文件知识点 拓展介绍内容请查看该文档,如:

如何设置wordpress的robots文件?

以上就是关于如何设置wordpress的robots文件的教程内容介绍,有任何问题请再文章下方留言。

* 文章内容很有用,那就5星好评吧!😘

0 / 5 好评 5

Your page rank:

发表回复

Please Login to Comment
数字人
微信

扫码了解更多服务

qr

1对1专家沟通

小程序

funion_xcx