怎么屏蔽蜘蛛对某个文件夹或者是某个文件进行爬行

时间：2015-12-20 22:40 来源：武林数据阅读次数：复制分享我要评论

屏蔽蜘蛛对某个文件夹：
User-agent: *
Disallow: /admin/
屏蔽蜘蛛对某个文件夹下的某个文件
User-agent: *
Disallow: /admin/abc.html

　　孤风认为普通状况下，网站树立并运营之后老是但愿被查找引擎收录的数目越多越好。但这只是凡间状况下，大局部人所但愿的。有些时分，我们照样会但愿查找引擎蜘蛛不要拜访网站的某些文件夹，当然也有不但愿查找引擎收录的页面。
　　
　　比方说，网站方才树立并没有真正投入运营，还没有本质性的内容时；还有过多的收录页面招致网站权重的涣散，而恰好你想要靠拢权重到某些个最主要的页面时；再比方树立一个镜像网站，并首要经过其他的推行伎俩（这里指除了SEO以外的推行办法）对网站进交运营时……
　　
　　而查找引擎收录网站页面是需求经过蜘蛛拜访网站，并对页面内容进行抓取。所以凡间状况下，想要阻止查找引擎的收录就需求限制、屏障蜘蛛的拜访与抓取。下面笔者引见几种常用的屏障蜘蛛抓取的办法。
　　
　　孤风指出1.robots.txt规矩文件。
　　
　　人人都晓得robots.txt是指引查找引擎蜘蛛对该网站拜访与否的规矩，平常运用的也比拟多。普通的建议是不管网站能否有需求屏障收录的内容，都要在根目次下树立robots.txt文件。
　　
　　robots.txt文件规矩的写法很简略，比方需求屏障某一个查找引擎的蜘蛛拜访一切目次，就如许写：
　　
　　User-agent:Googlebot
　　
　　Disallow:/
　　
　　再比方制止一切蜘蛛拜访、抓取某一个目次则：
　　
　　User-agent:*
　　
　　Disallow:/admin/
　　
　　孤风指出2.robotsMeta标签。
　　
　　假如说robots.txt是一个放在网站中的规矩文件，那robotsMeta就是放在某个网页中的标签。两者的实践功用是大致一样的，但robots.txt是大局部查找引擎都支撑的方法，然后者倒是大局部查找引擎都不支撑的。别的比拟较下，robotsMeta用来对某几个页面独自设置时运用。
　　
　　robotsMeta标签必需寄存在“…”代码之内：
　　
　　…
　　
　　<metaname=”robots”content=”index,follow”/>
　　
　　个中“index”指的是索引，“follow”指的是跟踪链接并传递响应的权重。当然响应的还有“noindex”和“nofollow”，功用则正好相反。
　　
　　孤风指出3.效劳器装备文件。
　　
　　这种办法是最不经常见的屏障蜘蛛的办法，首要用于屏障那些“不遵守”robots.txt规矩的蜘蛛。
　　
　　办法就是一段工夫的剖析网站日记，发现需求屏障的蜘蛛以及它的ip。然后经过效劳器的装备文件将其屏障，然后完成屏障某一个蜘蛛抓取网站。当然这种办法运用起来并不灵敏，比方不克不及屏障蜘蛛独自对某一个文件夹（或网页）的抓取。
　　
　　因效劳器及其系统的分歧，详细还请拜见相关设置办法。
　　
　　除以上提到的三种屏障蜘蛛抓取的办法以外，应该是有其他的办法可以到达屏障蜘蛛抓取的目标，欢送列位高手在空闲之时予以增补。
　　
　　但就以上三种办法而言，第一种robots.txt规矩文件的运用更为普遍。

上一篇：外链跳转代码,外链跳转方法

下一篇：网站标题、关键词和描述被恶意篡改，搜索引擎点击跳转

怎么屏蔽蜘蛛对某个文件夹 或者是某个文件进行爬行

怎么屏蔽蜘蛛对某个文件夹或者是某个文件进行爬行