健壮高效的网络爬虫总结

743 阅读6分钟

原文链接:juejin.cn/post/684490…

1.爬取

绝大多数情况下要么是网页,要么是app

1.1网页

服务端渲染

就是页面的结果是由服务器渲染后返回的,有效信息包含在请求的HTML页面里。

解决方法:直接用HTTP请求库就可以实现爬取了

客户端渲染

就是页面的主要内容有JavaScript渲染而成的,真实的数据是通过Ajax接口形式获取的

解决方法:

​ 1.寻找Ajax接口,可以直接使用Chrome开发者工具直接查看Ajax具体的请求方式、参数等内容,然后用HTTP请求库模拟即可,另外还可以通过设置代理抓包来查看接口

​ 2.模拟浏览器执行,网页接口和逻辑较为复杂的情况下:Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html等来实现

​ 3.直接提取JavaScript数据,真实数据没有经过Ajax接口获取,而是直接包含在HTML结果的某个变量中,直接使用正则表达式将其提取出来

​ 4.模拟执行JavaScript,有时候模拟浏览器执行效率会偏低,如果我们把JavaScript的某些执行和加密逻辑摸清楚了,可以直接执行相关的JavaScript来完成逻辑处理和接口请求。比如使用Selenium、PyExecjs、PyV8、js2py等库来完成即可

1.2app抓取

对于App的爬取,这里分了四个处理情况:

1.对于普通无加密接口,这种直接抓包拿到接口的具体请求形式就好了,可用的抓包工具有Charles、Fiddler、mitmproxy

2.对于加密参数的接口,一种方法可以试试处理,例如Fiddler、mitmdump、Xposed等,另一种方法是将加密逻辑破解,直接模拟构造即可,可能需要一些反编译技巧。

3.对于加密内容的接口,即接口返回结果完全看不懂是什么东西,可以使用可见即可爬的工具Appium,也可以使用Xposed来hook获取渲染结果,也可以通过反编译和改写手机底层来破解。

4.对于非常规协议,可以使用Wireshark来抓取所有协议的包,或者使用Tcpdump来进行TCP数据包截获

2.解析

对于HTML类型的页面来说,常用的解析方法:正则、Xpath、CSS Selector,对于某些接口来说常见的可能就是JSON、XML类型,使用对应的库进行处理即可

智能解析

​ 1.readability算法:定义了不同区块的不同标注集合,通过权重计算来得到最可能的区块位置

​ 2.疏密度判断,计算单位个数区块内的平均为本内容长度,根据疏密程度来大致区分。

​ 3.Scrapyly自学习,是scrapy开发的组件,指定页页面和提取结果样例,可以自学习提取规则,提取其他同类型页面

​ 4.深度学习,使用深度学习来对未知进行监督学习,需要大量标注数据

3.存储

1.文件:如JSON、CSV、TXT、图片、视频、音频等,常用的一些库csv、xlwt、json、pandas、pickle、python-docx等

2.数据库,分为关系型数据库、非关系性数据库,如MySQL、MongoDB、HBase等,常用的库有pymysql、pymongo、redis等

3.搜索引擎,如Solr、ElasticSearch等,便于检索和实现文本匹配,常用的库有elasticsearch、pysolr等

4.云存储,某些媒体文件可以存到七牛云、又拍云、阿里云、腾讯云、Amazon S3等,常用的库有qiniu、upyun、boto、azure-storage、google-cloud-storage等。

4.反爬

简单分为费浏览器监测、封IP、验证码、封账号、字体反爬等

4.1封IP

1.首先寻找手机站点、APP站点,如果存在此类站点,反爬会相对较弱。

2.使用代理,如抓取免费代理、购买付费代理、使用Tor代理、Socks代理等。

3.在代理的基础上维护自己的代理池,防止代理浪费,保证实时可用。

4.搭建ADSL拨号代理,稳定高效。

4.2验证码

验证码分为多种,如普通图形验证码,算术题验证码、滑块验证码、点触验证码、手机验证码、扫二维码等。

1.普通图形验证码,如果非常规整且没有变形或干扰,可以使用OCR识别,也可以使用机器学习、深度学习来进行模型训练,当然打码平台是最方便的方式。

对于算术验证码,推荐直接使用打码平台

对于滑块验证码,可以使用破解算法,也可以模拟滑动。后者的关键在于缺口的找寻,可以使用图片对比,也可以写基本的图形识别算法,也可以对接打码平台,也可以使用深度学习训练识别接口。

对于点触验证码,推荐使用打码平台

对于手机验证码,可以使用验证码分发平台,也可以购买专门的收码设备,也可以人工验证。

对于扫二维码,可以人工扫码,也可以对接打码平台。

4.3封账号

某些网站需要登录才能爬取,但是一个账号登录之后请求过于频繁会被封号,为了避免封号,可以采取如下措施:

寻找手机站点或App站点,此种类别通常是接口形式,校验较弱。

寻找无登录接口,尽可能寻找无需登录即可爬的接口。

维护Cookies池,使用批量账号模拟登录,使用时随机挑选可用cookies使用

5.加速

当爬取的数据量非常大时,如何高效快速的进行数据抓取是关键

多线程、多进程、异步、分布式、细节优化等

5.1多进程、多线程

爬虫时网络请求密集型任务,所以使用多进程和多线程可以大大提高抓取效率,如使用threading、multiprocessing等。

5.2异步

将爬取可以运行其他任务,如使用asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy等。

5.3分布式

分布式的关键在于共享爬取队列,可以使用:

​ celery:异步任务队列

​ huey:小型多线程任务队列

​ rq:基于Redis的任务队列

​ rabbitmq:灵活可靠的消息队列

​ kafka:分布式消息系统等来实现任务队列的对接,也可以使用现成的框架:

​ pyspider:rabbitmq Redis实现分布

​ Scrapy-Redis:基于Redis实现分布

​ Scrapy-Cluster:scrapy分布式系统

5.4优化

可以采取某些优化措施来实现爬取的加速:

DNS缓存

使用更快的解析方法

使用更高效的去重方法

模块分离化管控

5.4架构

如果搭建了分布式,要实现高效的爬取和管理调度、监控等操作,我们可以使用两种架构来维护我们的爬虫项目。

1.将Scrapy项目打包成Docker镜像,使用K8S控制调度过程。

2.将Scrapy项目部署到Scrapyd,使用专门的管理工具如SpiderKeeper、Gerapy等管理