彻底屏蔽SOSO爬虫

时间:12-06-13 栏目:站长の天地 作者:wukong 评论:0 点击: 1,073 次

在许多时候,网站被搜索引擎收录并带来流量是每位站长非常期待的,不过有时一些搜索引擎会不请自来,更甚者会给网站带来沉重的负担。尤其当你的网站有比较多图片的时候,isp肯定会听你的机。

前阵子我对我的一个B2C外贸网站优化设置了规则,结果发现SOSO仍然在上面,时而baiduspider+也在。明明已经通过robots.txt屏蔽了这两个搜索引擎的爬虫,这两个家伙居然是如此地不守规矩,无论你用SosoSpider或者 SosoSpider+,它依然我行我素,实在令人气愤。

于是我检查了网站的访问日志,老天一天几百次的访问,可通过Google Analysis访问统计查看流量来源看,居然一个引入流量都没有。NND既然你 性无能 那还来干啥啊?给网站带来负担不说居然还不给流量?当然我们知道老外肯定不会用SOSO搜索英文关键词的啦。所以彻底干掉它势在必行。

偶然看见有人在分析SOSO爬虫,看看搜搜爬虫的如下特点:

(1)每次几十个爬虫同时爬取网站,没有间隔,持续抓取。这点极为过分!Sosospider难道以为所有的主机都是架设在云计算平台上的啊?!根本不考虑一般主机的承受能力,多线程爬取,无节制爬取,占用大量带宽,损耗大量流量!这也是为什么Sosospider在网上遭受这么多指责的最主要原因。像网络蠕虫一样讨厌!

(2)在爬取日志中Referer不为空,并且与其Request-URI一致。例如,以下是一条典型的Sosospider的爬取日志:

121.14.96.153 – - [03/Dec/2008:14:20:11 +0800] “GET / HTTP/1.1″ 200 4256 “http://www.megarc.com/” “Mozilla/4.0 (compatible; MSIE 6.0)”

Sosospider与其它爬虫不同,它不会将Referer留空,而是会写上待爬取的URL,这样初看之下让人误以为是正常访问日志。

(3)不读取robots.txt。虽然在Soso网站的声明页中,说Sosospider会遵从 Robots.txt的协议,但是实践证明,在User-Agent中标明了Sosospider的爬虫会定期(或许是几天)读取一次 robots.txt,但是似乎这个会读取robots.txt的爬虫根本控制不了其他爬虫,尤其是那些在User-Agent字段里完全不标明 Sosospider的爬虫。它们完全不理会robots.txt中禁止访问的页面,照爬取不误。

(4)在User-Agent字段中,大部分的soso爬虫都不标明自己的身份。通常就如第二点中所显示的一样,直接标明”Mozilla/4.0 (compatible; MSIE 6.0)”,这点也是极不道德的,似乎Sosospider有着分裂的“人格”。

我立刻意识到是那个惹人厌的Sosospider爬虫(这些ip段为soso的爬虫,是从网上查询到的,未必确凿,但是其爬取方式与表明身份的Sosospider类似,以下假定这些爬虫是soso的)又来了,这个爬虫具有如下特点:

既然你不买 robots.txt 的账,那只有屏蔽爬虫服务器IP了,方法虽笨了点但最有效, .htaccess 编写规则格式如下。
<Files *>
order deny,allow
Deny from 124.115.4. 124.115.0. 64.69.34.135 216.240.136.125 218.15.197.69 155.69.160.99 58.60.13. 121.14.96. 58.60.14. 58.61.164. 202.108.7.209
< /Files>
如果你使用的是Apache的Web服务,那么可以用下方法阻止这些ip段的访问控制,仅供大家参考:
<Directory “/XXX/XXX/XXX”>
Options None
AllowOverride ALL
Order Deny,Allow
Deny from 124.115.4. 124.115.0. 64.69.34.135 216.240.136.125 218.15.197.69 155.69.160.99 58.60.13. 121.14.96. 58.60.14. 58.61.164. 202.108.7.209
< /Directory>
通过上述设置,那令人生厌的Spider再也没回来。。。。。。

声明: 本文由( wukong )原创编译,转载请保留链接: 彻底屏蔽SOSO爬虫

彻底屏蔽SOSO爬虫:等您坐沙发呢!

发表评论

您必须 [ 登录 ] 才能发表留言!

------====== 本站公告 ======------
大家有任何疑问和建议,请到这里留言:点击留言板

读者排行