当前位置: 主页 > 日志 > Webscraping >

Web数据抓取经验分享:从谷歌缓存(Google Cache)中抓取

最近遇到了个比较BT的网站,限制每个IP每天只能下载50个页面,多余50就会出现block提示信息。即便用30个代理一天也才只能下载1500个页面。

 

Richard给我推荐了两个解决方案:

(1)从Google Cache中读取页面。

(2)利用Google Translation。

 

我首先尝试了方案二(Google Cache被墙了,所以一开始我没有选择它)。

方案二为了获取最终页面,需要额外下载两个Google Translation的跳转页面,所以速度肯定会比较慢(慢点无所谓啊,只要能顺利地下完就ok)。

下了整整一晚上,得到了5000多条记录。这时杯具发生了,Google Translation也被那个网站block了。

(我的猜测:Google Translation有很多个服务器,每次将翻译请求随机发送给这些服务器之一,因此一开始没有被block,后来所有服务器都达到50上限后就杯具了。)

 

不得不采用方案一,翻。

 

 

Google Cache的读取接口:  'http://www.google.com/search?&q=cache%3A' + urllib.quote(url)

这里会有一个30X跳转,建议使用urllib2(自动下载跳转后的页面),而不要用httplib(不会自动跳转)。

 

 

 

 

 

[日志信息]

该日志于 2011-05-07 12:46 由 redice 发表在 redice's Blog ,你除了可以发表评论外,还可以转载 “Web数据抓取经验分享:从谷歌缓存(Google Cache)中抓取” 日志到你的网站或博客,但是请保留源地址及作者信息,谢谢!!    (尊重他人劳动,你我共同努力)
   
验证(必填):   点击我更换验证码

redice's Blog  is powered by DedeCms |  Theme by Monkeii.Lee |  网站地图 |  本服务器由西安鲲之鹏网络信息技术有限公司友情提供

返回顶部