大家好,我是飞小优,有很多新手在利用wordpress建站时不知道如何创建robots文件,那笔者今天给大家介绍如何如何创建该文件。
Robots协议定义
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。
语法结构
User-agent: *
Disallow: /
DEMO释义
Disallow: /?s=
–> Disallow: 是告诉搜索引擎不要收录 /?s= 则是禁止收录的链接
Allow: .htm$
–> Allow:是告诉搜索引擎可以收录
示例代码
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
基于这个,小编这里给大家写了一些针对wordpress的robots.txt
:
Robots创建实例应用
情形1:配置伪静态
网页的URL结构是:你的域名/xxx.html
结尾的,那么可以参考下面的robots.txt作参考:
User-agent: *
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?*
Disallow: /cgi-sys/
Disallow: /img-sys/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: (填写你的网站地图xml)
# END XML-SITEMAP-PLUGIN
情形2:未配置伪静态或静态化
网页的URL以动态字符串结尾的:你的域名/?P=123
,那么可以使用下面的robots.txt作参考:
User-agent: *
Disallow: /?s=
Disallow: /?feed=
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?tis=buy$
Disallow: /*?tis=dl$
Disallow: /*?tis=img$
Disallow: /cgi-sys/
Disallow: /img-sys/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: (填写你的网站地图xml)
# END XML-SITEMAP-PLUGIN
以上内容仅供参考,具体要针对你自己的网站做出一些修改,将他们保存在一个名为robots.txt的文档中,上传到网站的根目录就OK了! 上述代码会允许所有搜索引擎的爬虫都可以访问您的网站。
排除某些常规页面禁止爬虫访问
如果您希望排除某些页面或目录不被搜索引擎爬虫访问,可以添加以下语句:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /feed/
Disallow: /tag/
Disallow: /category/
在上述代码中,/wp-admin/、/wp-includes/、/wp-content/plugins/等目录和页面将不会被搜索引擎爬虫访问。
如果您希望允许某些搜索引擎爬虫访问您的网站,可以添加以下语句:
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
在上述代码中,GoogleBot
和BingBot
可以访问网站的所有页面。保存文件并上传到网站的根目录下。
注意事项
Robots
文件只是一个指导搜索引擎爬虫如何访问您网站的建议,搜索引擎仍有可能访问您想要屏蔽的页面。- 添加
Disallow
指令只是要求爬虫不要访问这些页面,但并不能保证这些页面不被收录在搜索结果中。
写在最后
关于WP建站的robots文件怎么写,笔者已经给出全部内容介绍,对关于robots文件知识点 拓展介绍内容请查看该文档,如:
以上就是关于如何设置wordpress的robots文件的教程内容介绍,有任何问题请再文章下方留言。