八爪鱼对接QA一览

公司有一段时间在做数据合规检测，需要用到八爪鱼工具爬取图文数据。下面是与八爪鱼工作人员沟通以及自己的理解，整理的一份QA文档，供大家参考。

1.怎么获取八爪鱼采集到的云数据？

答：八爪鱼工作人员配置好采集规则，触发采集并完成后，可以通过提供的Api获取云数据。另外，也可以通过八爪鱼工具本地导出数据。

2.触发规则爬取数据并入云数据库成功后有没有状态通知？我们什么时机去要云数据比较合适呢？

答：增值Api提供的任务的状态查询，可根据状态，进行相应逻辑处理。

3.例如微博的全量数据爬取、增量数据爬取，怎么操作？

答：如果需要全量数据爬取，可以通过“设置循环翻页的次数”（自己把握循环数值），来得到获取全部微博数据，需设置cookie。

如果需要增量采集，可以把这个循环次数设置小一点，这样子只采集最新的页数数据；或者，也可以通过设置触发器，通过时间条件，只采集最近时间发布的信息。

4.公众号爬取数据需要注意什么？

答：爬取公众号增量数据，有免费模板规则，不可导出、导入。在搜狗微信公众号配置。

爬取公众号全量数据，要定义规则，账号密码登录后台，需设置页面cookie。

5.微博爬取数据，如果不用cookie登录，最多能爬取多少数据？

答：不用cookie登录，最多只能爬取微博第一页的数据。这个场景适合增量爬取，如果是需要全量爬取，就必须要cookie登录了。

6.公众爬取的内容类型有哪些？

答：目前看到八爪鱼爬取公众号的内容类型，暂时是图文类型，对于发布文本消息、图片消息、音乐视频消息忽略；另外，对于删除的图文信息，也会忽略。

忽略的记录，只会爬取到标题，没有内容和时间。

7.八爪鱼重复记录的判定方法是？

答：判定所有字段都相同，才认为是重复。

8.怎么获取最近爬取的20条增量数据？

答：通过获取任务数据api，入参offset和size的值设置。

例如：

第一次请求得到的数据基础：

入参：offset=0，size=1

出参：

"offset": 4727,

"restTotal": 3099,

"total": 3100

第二次，再获取最近爬取的20条数据：

offset = offset + restTotal - 20

size = 20

备注：offset为数据相对开始的消费请求数据后的偏移量，restTotal为数据相对最后的偏移量。（原理就是，得到最后的offset偏移量，减去最近的数量即可。offset + restTotal=总偏移量，4727+3099=7826）