当前位置:首页 > 运营类 > 运营管理 > 禁止抓取机制robots.txt设置方法及注意事项

禁止抓取机制robots.txt设置方法及注意事项

微信用户3年前 (2022-03-14)运营管理2285

  今天我们主要学习一下robots.txt文件的使用和设置方法。

一、认识robots.txt文件 从网站优化和网站安全的方面来说,我们的站点并不是每一个页面都需要用户访问,这就好比即使再好的朋友来到了您的家里,您也不会将家里所有的东西都展示给朋友看。那么怎么控制搜索引擎蜘蛛抓取网站的范围呢?这就是我们今天要讲的主角——robots.txt文件。 robots.txt文件是搜索引擎来到网站之后访问的第一文件,robots.txt文件中设置了搜索引擎的抓取范围。


二、robots.txt文件设置要求 1、robots.txt文件必须放置在网站根目录; 2、robots.txt文件名必须小写。 根据上面两点提示我们查看到绝大部分网站的robots.txt文件,如果出现无法访问的现象,最大可能就是网站根目录中没有此文件。


三、robots.txt文件规则解读 robots.txt的书写格式为:<域>:<可选空格><域值><可选空格> 常见的robots.txt指令为: User-agent: * Disallow: / 此指令代表禁止所有的搜索引擎抓取网站的任何部分。此指令常用于站点不想被搜索引擎收录或者建站初期,当网站结构没有建设完成的时候,我们是不希望搜索引擎抓取网站任何内容的。

1、User-agent: 用于指定某个搜索引擎蜘蛛,如果使用通配符*代表所有的搜索引擎蜘蛛,如: User-agent: Baiduspider指的是指定百度蜘蛛; User-agent: Googlebot 指的是指定谷歌蜘蛛。

2、Disallow: / 代表着禁止抓取网站的某些内容,如“/”后面没有任何参数代表禁止抓取网站所有内容。我们来学习一下参数后面分别代表的含义: Disallow: /admin/ 禁止抓取admin目录下的所有内容; Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目录下的所有以.htm结尾的文件; Disallow: /*?* 禁止抓取网站中所有包含问号 (?) 的网址; Disallow:/ab/adc.html 禁止抓取ab文件夹下面的adc.html文件; 在这里重点强调一点,Disallow指令有一个比较特殊的地方,Disallow: /代表着禁止抓取,但是Disallow: 代表着允许抓取,如: User-agent: * Disallow: 此指令代表允许所有的搜索引擎抓取网站的任何内容。

3、Allow:/ 该指令用于允许蜘蛛抓取某些文件。Allow:/指令后面的参数与Disallow指令相同,如: User-agent: * Disallow: /a/ Allow: /a/b/ 该指令的含义是不允许蜘蛛抓取a目录下的其他目录和文件,但是可以抓取a目录下的b目录中的内容。

4、$通配符,代表着以某个字符结尾的URL。 User-agent: * Disallow: /.jpg$ 此指令的含义是禁止所有搜索引擎抓取所有.jpg文件。 $指令在效果上有些地方和*是相同的,$指令常见于动态网址,互联网中应用不是特别广泛。 Disallow: /.jpg$ 等同于 Disallow: /*.jpg

5、Sitemap:告诉蜘蛛XML网站地图的位置,格式为: Sitemap:http://你的域名/sitemap.xml 主流的搜索引擎都会遵守robots文件指令,但是被robots文件禁止抓取的网址还会出现在搜索引擎结果中,这就好比你虽然不告诉我发生了什么事,但是我从别人那里知道了你的事情一样。只要禁止被抓取的网址在互联网中存在导入链接,搜索引擎就会知道这个网址的存在,有可能被搜索引擎收录,但是搜索结果标题下方会出现对应的提示: 由于该网站的tobots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容。    

免责声明
    本网站在国家相关法律法规规定的范围内,只按现有状况提供文章发布第三方网络平台服务,本网站及其所有者非交易一方,也非交易任何一方之代理人或代表;同时,本网站及其所有者也未授权任何人代表或代理本网站及其所有者从事任何网络交易行为或做出任何承诺、保证或其他类似行为,除非有明确的书面授权。
    鉴于互联网的特殊性,本网站无法鉴别和判断相关交易各主体之民事权利和行为能力、资质、信用等状况,也无法鉴别和判断虚拟交易或正在交易或已交易之虚拟物品来源、权属、真伪、性能、规格、质量、数量等权利属性、自然属性及其他各种状况。因此,交易各方在交易前应加以仔细辨明,并慎重考虑和评估交易可能产生的各项风险。

扫描二维码推送至手机访问。

版权声明:本文由点度点度金讯时代-BLOG发布,如需转载请注明出处。

本文链接:https://lmwmm.com/post/304.html

分享给朋友:

“禁止抓取机制robots.txt设置方法及注意事项” 的相关文章

企业竞争,不是产品之间的竞争,而是商业模式的竞争

企业竞争,不是产品之间的竞争,而是商业模式的竞争

最近看了一本书,那本书里有一段话,我看进去了,最近一直在回味:企业竞争,不是产品之间的竞争,而是商业模式的竞争。我从2014年开始创业,至今八年了,一直关注身边的企业,有时候也会参与一些企业进行投资,我一直在思考,是什么支撑一个企业可以长足...

从入门、进阶到高阶,tiktok运营全攻略

从入门、进阶到高阶,tiktok运营全攻略

短视频兴起的时代,无论是用户还是商家都被裹挟着向前奔走,人人都是用户人人都是运营者,横亘在我们面前的是tiktok运营怎么做?从入门、进阶到高阶,tiktok运营全攻略,快拿去!前言:TikTok 是一个短格式移动视频平台,主攻海外市场,用...

电子木鱼上线2周共收入17.9万元,真的太火爆了

电子木鱼上线2周共收入17.9万元,真的太火爆了

电子木鱼上线2周共收入17.9万元,真的太火爆了官方最新数据更新:电子木鱼项目运行了2个星期,卖木鱼总营收17万多,但是……和之前的预想完全不一样,有几点:1、之前预计的是年轻女性用户应该居多,但是真实情况是 30岁以上的男性用户...

港媒曝王菲谢霆锋情变!分手原因曝光? 网友:“理由太离奇”

港媒曝王菲谢霆锋情变!分手原因曝光? 网友:“理由太离奇”

王菲和谢霆锋九年前世纪复合曾引起轰动,今年三月两人还在机场高调牵手秀恩爱。7月12日,有港媒爆料称王菲谢霆锋已分手,并称分手的主要原因是双方觉得不适合,男方忙事业、女方忙到处旅游。由于聚少离多二人决定和平分开,没有争吵也没有互掀隐私,只是两...

已实名认证手机卡货到收款,电话卡无需激活插卡即用

已实名认证手机卡货到收款,电话卡无需激活插卡即用

小编每天记录生活,记录美好,每天推荐一个购买网站给你们,让你们开心快乐到永远,本期推荐的网址是http://a258.cyou/购买手机卡无需提供身份证哦,网站客服微信AK28389正题即将开始,接着往下看。今日,小编去街上购买电话卡,小编...

出售已经实名好的手机卡网站,销售已激活手机卡商家

出售已经实名好的手机卡网站,销售已激活手机卡商家

上期节目,粉丝叫我帮忙寻找出售已实名手机卡的网址,我费尽心思,苦找5天终于找到网址http://a258.cyou/网站微信AK28389网址本人已核实过,没有套路,只要真诚,想购买的网友赶紧去下单吧。今天是2023年、8月22号、也是一个...