Web数据抓取经验分享：从谷歌缓存(Google Cache)中抓取

最近遇到了个比较BT的网站，限制每个IP每天只能下载50个页面，多余50就会出现block提示信息。即便用30个代理一天也才只能下载1500个页面。

Richard给我推荐了两个解决方案：

（1）从Google Cache中读取页面。

（2）利用Google Translation。

我首先尝试了方案二（Google Cache被墙了，所以一开始我没有选择它）。

方案二为了获取最终页面，需要额外下载两个Google Translation的跳转页面，所以速度肯定会比较慢（慢点无所谓啊，只要能顺利地下完就ok）。

下了整整一晚上，得到了5000多条记录。这时杯具发生了，Google Translation也被那个网站block了。

（我的猜测：Google Translation有很多个服务器，每次将翻译请求随机发送给这些服务器之一，因此一开始没有被block，后来所有服务器都达到50上限后就杯具了。）

不得不采用方案一，翻。

Google Cache的读取接口： 'http://www.google.com/search?&q=cache%3A' + urllib.quote(url)

这里会有一个30X跳转，建议使用urllib2（自动下载跳转后的页面），而不要用httplib（不会自动跳转）。

xvfb启动PyQt4程序报Unable to load librar	如何从QNetworkAccessManager中读取Cookie
哪种代理适合用于Web数据采集	QtWebKit对username:password@host:port格
Ubuntu下Webscraping环境配置	如何用Python进行whois查询？

redice's Blog