欢迎进入极速独立站群官方网! 咨询电话:13135381668 销售QQ:1000207
2019年创业最赚钱的50个项目
最近经常有朋友问我一些robots的问题,今天我就将robots使用的一些心得和技巧和大家一起分享一下,欢迎各位拍砖指正。
robots性质:TXT的文本文件。
应用原理:当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
方法:User-Agent: 适用下列规则的漫游器 Disallow: 要拦截的网页 ,下面是一些常用的robots文件的写法,供大家参考
robots的作用:1.站群网站管理者可以声明该网站中不想被搜索蜘蛛访问的部分,或者指定搜索引擎只收录指定的内容,可以有效的保护网站管理者的信息2.根据奥卡姆剃刀定律(http://www.chengshinet.com/SEO/20090114-88.html)避免站内搜索的结果页和一些动态链接产生的重复页被抓取而影响网站的整体质量。3.robots.txt文件里还可以直接向搜索引擎指出网站地图sitemap文件的位置。4.避免蜘蛛光临网站查看robots文件时产生404错误信息。
下面介绍一些,robots的一些技巧和具体操作;
1.限定搜索蜘蛛抓取的文件的范围:
允许所有的搜索蜘蛛的访问
User-agent: *
Disallow:
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的管理登陆后台,以防泄露网站信息
User-agent: *
Disallow: /admin/
禁止某个搜索引擎的访问(即下面提到的淘宝屏蔽百度)
User-agent: Baiduspider
Disallow: /
只允许某个搜索引擎的访问(下例中的Google)
User-agent: Google
Disallow:
User-agent: *
Disallow: /
禁止蜘蛛抓取特定文件类型(例如,.txt)的所有文件,可使用以下 robots.txt 条目:
User-agent: *Disallow: /*.txt$ 要阻止搜索蜘蛛抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意 字符串,然后是问号,而后又是任意字符串),可使用以下条目:User-agent: GooglebotDisallow: /*?2.禁止某些搜索结果页和打印页面的被抓取。http://www.chengshinet.com/robots.txtUser-agent: * Disallow: /plus/feedback_js.php Disallow: /plus/mytag_js.php Disallow: /plus/rss.phpDisallow: /plus/search.php 3.robots文件中 提交网站地图User-agent: *Sitemap: http://www.xxx.com/sitemap.xml目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,但是有的时候搜索引擎为了维护搜索的公正性和良好的用户体验,仍然对一些重要的URL进行了有效的索取,我们来看一个 robots.txt范例:http://www.taobao.com/robots.txt访问以上具体地址,我们可以看到robots.txt的具体内容如下:
User-agent: BaiduspiderDisallow: /User-agent: baiduspiderDisallow: /以上文本表达的意思是禁止百度的搜索机器人访问www.taobao.com 站点下的所有文件。
具体语法分析:User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人,如果是相应的如baiduspider即为百度蜘蛛;Disallow:后面为不允许访问的文件目录。目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则但是当你使用百度搜索淘宝的时 候,仍然会出现网站的索引,如下图
但是不容质疑的是robots文件也会使泄露一些网站的登录后台的地址,很多网站管理员认为屏蔽了搜索蜘蛛,网站就安全了,其实有的时候也就泄露了网站的信息了,怎么保证信息的不被泄露呢,最有效的方法是对robots文件进行301重定向设置。
本文首发:成事网络营销 http://www.chengshinet.com/blog/ 站长QQ:573218273 欢迎大家拍砖指正,新建SEO知无不言群61842653,欢迎SEO的爱好者加入,一起共同进步!