您现在的位置是:帮助中心 > 网站运营 > 怎么屏蔽蜘蛛对某个文件夹 或者是某个文件进行爬行

怎么屏蔽蜘蛛对某个文件夹 或者是某个文件进行爬行

时间:2015-12-20 22:40 来源:武林数据 阅读次数: 复制分享 我要评论

云主机
屏蔽蜘蛛对某个文件夹:
User-agent: *
Disallow: /admin/
屏蔽蜘蛛对某个文件夹下的某个文件
User-agent: *
Disallow: /admin/abc.html



  孤风认为普通状况下,网站树立并运营之后老是但愿被查找引擎收录的数目越多越好。但这只是凡间状况下,大局部人所但愿的。有些时分,我们照样会但愿查找引擎蜘蛛不要拜访网站的某些文件夹,当然也有不但愿查找引擎收录的页面。
  
  比方说,网站方才树立并没有真正投入运营,还没有本质性的内容时;还有过多的收录页面招致网站权重的涣散,而恰好你想要靠拢权重到某些个最主要的页面时;再比方树立一个镜像网站,并首要经过其他的推行伎俩(这里指除了SEO以外的推行办法)对网站进交运营时……
  
  而查找引擎收录网站页面是需求经过蜘蛛拜访网站,并对页面内容进行抓取。所以凡间状况下,想要阻止查找引擎的收录就需求限制、屏障蜘蛛的拜访与抓取。下面笔者引见几种常用的屏障蜘蛛抓取的办法。
  
  孤风指出1.robots.txt规矩文件。
  
  人人都晓得robots.txt是指引查找引擎蜘蛛对该网站拜访与否的规矩,平常运用的也比拟多。普通的建议是不管网站能否有需求屏障收录的内容,都要在根目次下树立robots.txt文件。
  
  robots.txt文件规矩的写法很简略,比方需求屏障某一个查找引擎的蜘蛛拜访一切目次,就如许写:
  
  User-agent:Googlebot
  
  Disallow:/
  
  再比方制止一切蜘蛛拜访、抓取某一个目次则:
  
  User-agent:*
  
  Disallow:/admin/
  
  孤风指出2.robotsMeta标签。
  
  假如说robots.txt是一个放在网站中的规矩文件,那robotsMeta就是放在某个网页中的标签。两者的实践功用是大致一样的,但robots.txt是大局部查找引擎都支撑的方法,然后者倒是大局部查找引擎都不支撑的。别的比拟较下,robotsMeta用来对某几个页面独自设置时运用。
  
  robotsMeta标签必需寄存在“…”代码之内:
  
  …
  
  <metaname=”robots”content=”index,follow”/>
  
  个中“index”指的是索引,“follow”指的是跟踪链接并传递响应的权重。当然响应的还有“noindex”和“nofollow”,功用则正好相反。
  
  孤风指出3.效劳器装备文件。
  
  这种办法是最不经常见的屏障蜘蛛的办法,首要用于屏障那些“不遵守”robots.txt规矩的蜘蛛。
  
  办法就是一段工夫的剖析网站日记,发现需求屏障的蜘蛛以及它的ip。然后经过效劳器的装备文件将其屏障,然后完成屏障某一个蜘蛛抓取网站。当然这种办法运用起来并不灵敏,比方不克不及屏障蜘蛛独自对某一个文件夹(或网页)的抓取。
  
  因效劳器及其系统的分歧,详细还请拜见相关设置办法。
  
  除以上提到的三种屏障蜘蛛抓取的办法以外,应该是有其他的办法可以到达屏障蜘蛛抓取的目标,欢送列位高手在空闲之时予以增补。
  
  但就以上三种办法而言,第一种robots.txt规矩文件的运用更为普遍。