image_crawler:网站图片爬虫、免费IP代理、豆瓣电影爬虫

974 阅读1分钟
原文链接: github.com

1.网站的图片爬虫

  • 微信公众号爬虫,因为微信公众号无网页端展示,只能用第三方搜狗平台的微信公众号。
  • 新浪微博爬虫,使用webdriver登录来获取cookie,然后通过cookie调取接口来获取微博数据。详细分析见 Python实现微博爬虫
  • 花瓣网爬虫,以花瓣下的旅行模块为例 huaban.com/favorite/tr…

2.爬虫IP代理

  • 免费IP代理,详情见IPProxy文件夹。
  • 包含181代理,快代理,讯代理。

3.豆瓣电影爬虫

  • 因为懒的再去新建一个Repository,所以也放这了。