爬虫技术(二)-客户端爬虫

9,956 阅读8分钟

在上一篇文章《一篇文章了解爬虫技术现状》中,我们总结了目前后台爬虫所面临的交互困难、javascript解析麻烦、以及ip限制三大问题。本期,我们不妨换一种思路来重新思考,说不定会别开生面、柳暗花明。

承上

书接上文,我们说明了目前后台爬虫所面临的三大问题,此三点对于后台爬虫来说基本条条都是硬伤,当然,现在有些网站安全性考虑的不够,安全策略并非太过复杂,在有些场景下,对后端爬虫来说不至于会致命,但是,一旦有个新的需求遇到了这三座大山的其中一个,那将会是很麻烦的一件事。既然如此,在穷途陌路的时候,我们何不换个思路?

山重水复疑无路,柳暗花明又一村,千呼万唤始出来,蓦然回首,犹抱琵琶半遮面!

障碍,不一定非得正面跨过去,有时候,绕过去会更容易。

再思

遇到交互困难的场景有哪些?

上文中我们提到,后台爬虫说面临的第一座大山就是交互困难。但是,不是所有的网页都会有复杂的交互,其实,和爬虫(会对爬取结果产生重要影响)相关90%的网页交互都是验证码!而这些验证码通常都在登录页。比如我们要爬取某人的所有微博评论、qq空间留言、邮件列表等等。对于这些场景,我们爬虫必须要进行登录,否则无法获取内容。而对于搜索引擎的爬虫来说,这些内容是没有必要的,百度谷歌不可能取爬取用户这些信息。也就是说,无论是在怎样的需求场景下,我们遇到这种交互问题之前,都是都是需要用户告诉我们用户明和密码,然后我们再去爬,然后才能遇到验证码问题。所以,这种需求场景必然有个用户授权/登录的过程,那么在你们的产品当中,一般的交互会是这样:产品中会提供一个让用户授权/登录页面,用户授权/登录后,将账户信息加密发送到后台,后台拿到账户信息后,启动爬虫去尝试登录,如果遇到验证码,后台再返回给端上,由用户手动完成,然后后台获取到用户输入的验证码(可以是一组操作值),再继续进行登录验证,这样才能完成整个流程,大家想想12306的抢票软件的流程,正是如此。可见这样的产品交互是很复杂的。好了,我们总结一下,遇到这种情况的本质原因是爬虫在执行过程中需要用户通过端(app或网页)进行手动授权,而授权的过程需要端和后台一次或多次交互

如何才能突破ip限制?

其实,这是最容易得出结论的一个问题,我们稍加思考,就会意识到,只要爬取是在后台进行,那么ip就永远有限,这个问题就不可能彻底解决!

行文至此,今天要介绍的主角已经呼之欲出了,想必你也已经猜到了。在揭开它面纱之前我们先来看看近几年业务需求发生的变化。

新的需求场景

众所周知,近年来随着P2P的快速发展,互联网金融更是处于风口浪尖,这个万亿级的市场,吸引了一大批公司,像蚂蚁金服、陆金所、爱钱进、理财通、百度金融等等。而互联网金融的本质主要是风险控制、所以一个强大征信平台至关重要。从业务角度来看,互联网金融公司一般都会分为两块:资产端和资金端,也就是贷款方和投资方,而这里最具风险的就是对贷款方的资质审核,这和传统的金融没什么区别,而所谓互联网金融,无非是将认证流程提到了线上,借款时通过相应平台的的app完成。而认证流程往往需要获取用户信息,如信用卡代还的借款需要爬取用户信用卡账单邮箱、通话记录,有的甚至要爬支付宝交易记录、京东淘宝购买记录等等,这些都是需要用户授权/登录的,而这些网站通常为了安全期间,对ip请求的次数、频率都有着严格的限制,这导致传统的后台爬虫不能胜任,此时急需一种新的解决方案。

客户端爬取方案

经过之前的诸多铺垫,换个思路想想,如果能在用户端完成数据获取,像后台爬虫面临的三座大山还会存在吗?对于ip限制,由于数据获取是在用户端完成的,我们每一个用户的ip可以大致认为是不同的,那么ip限制则不攻自破;对于动态验证,需要爬取用户登录后的信息时,我们肯定需要用户授权,所以对于验证码,我们可以引导用户自己操作,而无需和后台进行交互;而对于javascript解析的问题,如果爬取是在客户端进行,那么我们能否引入浏览器的javascript虚拟机呢?可不可以用v8? 如果可以,那么我们的爬取脚本是不是也能用javascript去写?如果可以,那么我们的爬取脚本中是不是可以用jQuery解析网页,直接发起ajax请求?如果可以,那怎一个爽字了得,不可能有比这更容易的写的爬虫了!从此,javascript真的要一统天下了呀,好可怕。。。

换个行!我们平复一下激动的心情!

好,我们回过头来看一下,如果采用客户端方案,之前后台遇到到的三大问题是否都可以解决。

  1. 交互复杂;客户端爬取是在端上进行,无需再和后台交互,用户登录成功后再爬取,最终只需要将爬取的数据上报给后台就行。
  2. Javascript解析问题;如果爬取是在端上,所以没有后台高并发吞资源的情况,我们完全可以引入和浏览器一样的javascript运行环境。
  3. ip限制问题;彻底解决了!

客户端爬取方案可能遇到的问题

事无巨细,我们先关注以下几点:

  1. 脚本放在哪

    传统后台爬取的程序是在后台,如果目标网站发生变化,可以随时更新爬取程序。但客户端爬取将会有问题,爬取脚本保存在客户端,那么就麻烦了。看来脚本是不能保存在端上,那么必须有一套脚本下发、更新的机制。

  2. 如何进行错误收集

    如果目标网站发生变化导致我们脚本不能正常工作或抛出异常,如果是在后台,我们可以有服务器打点、报警等及时发现处理,如果在端上我们应该如何及时应对错误?

  3. 如何进行版本管理

    版本管理分为爬取脚本版本和sdk版本,脚本支持的sdk版本范围如何匹配?

  4. 怎么写脚本

    用什么语言?如何控制爬取流程?如何和端通信?

完整的客户端爬取平台

综上所述,下面,我们想想,一个完整、友好的、理想的的客户端爬取平台应该是什么样子的。

  1. 跨平台;在移动互联网时代,最起码支持ios/android.
  2. 云管理平台;主要用于配置脚本参数、更新脚本、统计脚本爬取状态、错误分析等。如果你是开发者,那么云管理平台同时也是发布、管理自己脚本的地方。
  3. 爬取脚本使用javascript语言;一来前端程序员可以很快上手,二来,javascript天生和网页更配。这样会降低开发难度和成本,学习成本很低。
  4. 脚本商店;互联网上的网页浩如烟海,开发者可以有偿或无偿的把自己的脚本发布到脚本商店,供其它人使用、共享。

最后

本文本想打算直接介绍客户端爬取平台,但我觉得在介绍新的事物之前应该要弄明白缘起,只有了解了它的诞生环境,才能更好的理解它的价值。下一篇我们将隆重介绍全球第一个开放的客户端爬取平台。如依然有兴趣,敬请关注。

本文章允许免费转载,但请注明原作者及原文链接。