吉林省长春市

robots写法优化/什么叫robots?

20200521 Aaron 8847

robots.txt文件写法优化

什么是robots文件?

–Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息。

在我们优化中一般需要把一些不参与排名的页面以及死链接需要使用该文件来屏蔽。

使用该协议一方面也是为了保护你网站的安全,部分网站的隐私不被盗取,第二个可以屏蔽不需要实现排名的页面,从而可以避免网页的权重被分散。

robots文件存放在我们网站的根目录

我们在分析别人网站或者自己站点有没有这个robots.txt文件的时候,我们只需要在你网站的根域名后面加上robots.txt文件名就可以

http://www.eduaskyx.com/robots.txt

大家需要记住robots.txt这个文件名需要使用小写。

如果站点底下没有这个文件,则表明网站的所有文件,蜘蛛都可以抓取

robots文件的格式写法

•User-agent:蜘蛛名称

•Disallow:内容名称

•Allow:内容名称

User-agent:*这个*是个通配符,表明是所有搜索引擎蜘蛛的名称。

Disallow:后面跟的是你要禁止抓取的内容

Allow:后面跟的是允许抓取的内容

在真实的使用过程中一般至少需要写一个Disallow记录。至于Allow这样的记录一般很少会用到。不写Allow的内容就表明默认为搜索搜索引擎都是可以抓取的。

Disallow:/admin

Disallow:/admin/

–禁止写法

•Disallow:/admin这里定义是禁止爬寻admin目录

•Disallow:/admin/*.htm禁止访问/admin/目录下所有以“.htm”为后缀URL(包含子目录)

•Disallow:/*?*禁止访问网站中所有包含问号(?)的网址

•Disallow:/.jpg$禁止抓取网页所有的.jpg格式的图片

•Disallow:/ab/adc.html禁止爬取ab文件夹下面的adc.html文件。

我们在书写自己网站robots.txt的时候,首先我们把站点根目录的robots.txt下载下来

把我给你们发的那个文件上面需要禁止的写到你的网站robots.txt里面

重新上传到你站点的根目录覆盖之前的。


标签: robots优化
诺加达网络营销

网站建设|网站优化|竞价推广|网络营销 版权所有 2018-2020 吉ICP备18004535号