请教,怎么样检测,服务器是不是屏蔽蜘蛛了蜘蛛的IP呢?

你的位置: &&
搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)
搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)
一、搜索引擎的蜘蛛,是不是爬得越多越好? & & &当然不是!不论什么搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载。另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据。只代表它“到此一游”留下痕迹而已。因此你的网站为它“服务过、接待过”。 & & &对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。像提高网站有效利用率虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。可以肯定的说,当今互联网的网络流量至少有2/3的流量爬虫带来的。因此反爬虫是一个值得网站长期探索和解决的问题。搜索引擎的主要工作流程(图)搜索引擎爬虫对网站的负面影响。1.网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。例如,原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。2.搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。不论是实际生产监控,还是网友反映,部分搜索引擎爬虫可用几个词来形容“坏蜘蛛”“恶爬虫”。很多讨论搜索引擎相关的文章,已经将它们列过排行榜。有兴趣的可更多了解它。百度蜘蛛工作图3.与网站主题不相关的搜索引擎爬虫消耗资源。例如,典型的例子搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取工具。”被各大电子商务购物网站屏蔽。拒绝一淘网抓取其商品信息及用户产生的点评内容。被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。统计发现EtaoSpider爬虫的一天爬行量比“百度蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等主流蜘蛛爬虫多几倍,并且是远远的多。重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。中文成语词典可用一个词来形容,这个词留给大家想吧。4.一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。你懂的...5.robots.txt文件不是万能!肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。不错正规的搜索引擎会遵守规则,且不会及时生效。实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。6.还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具,等等,只有你想不到的工具,没有它做不到的...二、有效指引搜索引擎对应的措施,及解决方法:1.依据空间流量实际情况,就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间流量还足够使用,先保证正常浏览器优先。2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP。这是最直接、有效的屏蔽方法。3.WWW服务器层面做限制。例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。4.最后robots.txt文件做限制。搜索引擎国际规则还是要遵循规则的,让robots.txt明示公布于众。后续文章会详细介绍该方法,包括如果发现蜘蛛,从网站的日志里统计蜘蛛,发现未知的蜘蛛。针对不同的蜘蛛,屏蔽蜘蛛、禁止爬虫怎么样更高效,更快捷。并且通过实例来介绍。象形图示蜘蛛,爬虫机器人(图)三、收集最新最准确各大搜索引擎蜘蛛名称信息来源线上:最新最准确根据线上空间的访问日志来整理常见的蜘蛛名称,不求最全,但力求爬虫信息资料最新最准确。以下搜索引擎蜘蛛名称都是根据线上空间日志亲手提取。各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。其实有效常用的搜索引擎就那么几个,只要在robots.txt文件里把常用的几个搜索引擎蜘蛛允许放行就好了,其它的爬虫统统通过通配符(*)禁止掉,屏蔽某些蜘蛛。现况:从网上获取的搜索引擎蜘蛛名称,几乎都是原文复制粘贴的转载又转载的文章,而且很多的资料都是过期的了,这些旧资料根本就没修正和更新(实际用处不大),并且关于蜘蛛名称、大小写众说不一,根本就获取不到一个准确无误的资料信息。最新最准确各大搜索引擎蜘蛛名称:1、百度蜘蛛:Baiduspider网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛。常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。2、谷歌蜘蛛:Googlebot这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“ Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo! 名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述,不知道有效无效。6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)7、搜狗蜘蛛:Sogou News Spider搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,(参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou概括,无法验证不知道有没有效)看看最权威的百度的robots.txt ,/robots.txt 就为Sogou搜狗蜘蛛费了不少字节,占了一大块领地。“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。线上常见&Sogou web spider/4.0& ;&Sogou News Spider/4.0& ;&Sogou inst spider/4.0& 可以为它颁个“占名为王”奖。8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)9、必应蜘蛛:bingbot 线上( bingbot/2.0;)10、一搜蜘蛛:YisouSpider11、Alexa蜘蛛:ia_archiver12、宜搜蜘蛛:EasouSpider13、即刻蜘蛛:JikeSpider14、一淘网蜘蛛:EtaoSpider&Mozilla/5.0 ( EtaoSpider/1.0; http://省略/EtaoSpider)&根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者眼睛是雪亮的。另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外噶,对中文网站用处很小。那不如就节省下资源。小结:这次分析了对搜索引擎爬虫的危害,蜘蛛对网站的负面影响;如何有效指引搜索引擎对应的措施,及解决方法;收集来源线上最新最准确各大搜索引擎蜘蛛名称。本文出自 “Jimmy Li我站在巨人肩膀上” 博客,请务必保留此出处http://jimmyli./3190309
最新热门tag搜索:问题、网站、SEOer人名
请教一下,61.135.189.X是什么蜘蛛的IP
我被这个IP搞的烦透了
每次服务器高负载的时候,都有这个IP段的连接在
浏览: 738发布于:
貌似是搜狗的吧,阿门
曾经帮助过您的人发布了一些问题,不妨去瞧瞧:
还没有人帮助过你,赶紧去邀请一下
试试看吧,有何不可呢?
(5 个回答)
(11 个回答)
(7 个回答)
(31 个回答)
(48 个回答)
(54 个回答)
(25 个回答)
(13 个回答)
(15 个回答)
(0 个回答)
(1 个回答)
(1 个回答)
(1 个回答)
(0 个回答)
(6 个回答)
(0 个回答)
(1 个回答)
始于2007年 深圳市夫唯伙伴信息咨询有限公司 版权所有 | 粤ICP备号 | 粤公网安备0号查看: 699|回复: 11
服务器流量突然暴增怎么办?貌似清一色百度蜘蛛IP!
威望值经验值金钱
&&向坛友大侠请教一下:小站原来的空间每月流量是45G,日IP流量400左右,但到每个月底空间流量总是不够用,大约超出5G的样子。
&&今年7月份我换了一个每月80G流量的空间,心想这回总该绰绰有余了!但到了9月份空间流量突然暴涨,每天达到5G上下,仅半个月(至9月15日),就耗掉了61G的空间流量,奇怪的是网站IP流量却没有上涨,每天只有300多个IP。
&&疑惑之下,我仔细查看了数据库的IP访问记录,结果几乎清一色都是220.181.108.***的IP地址,网上查了一下,应该可以确认这就是百度蜘蛛的IP地址,总共大概不下几十个IP段。
&&请教前辈大侠们:我该如何处理啊?再这样下去80G的空间流量还是不够啊!
美瞳网 隐形眼镜
威望值经验值金钱
威望值经验值金钱
路过,看看。
威望值经验值金钱
&&恩 吸引蜘蛛 是好事啊
涡街流量计
威望值经验值金钱
除了主流搜索引擎都必掉,要淡定~~~
威望值经验值金钱
好像没什么好办法
自清洗过滤器
威望值经验值金钱
恭喜了& && &&&
中国海带紫菜网
威望值经验值金钱
www. www. www. www.nordfx.cc
威望值经验值金钱
暂时屏蔽一些百度蜘蛛IP地址可以吗?
美瞳网 隐形眼镜
威望值经验值金钱
那也不错嘛
威望值经验值金钱
恭喜了& && &&&
威望值经验值金钱
恭喜你啊呵呵
淘宝网女装
工作日:09:00-18:00 帖子删除请您加QQ: / SEO优化: / SEO建站: / 广告业务:
Powered by - -

我要回帖

更多关于 屏蔽蜘蛛 的文章

 

随机推荐