八爪鱼对接QA一览

918 阅读3分钟
公司有一段时间在做数据合规检测,需要用到八爪鱼工具爬取图文数据。下面是与八爪鱼工作人员沟通以及自己的理解,整理的一份QA文档,供大家参考。

1.怎么获取八爪鱼采集到的云数据?

答:八爪鱼工作人员配置好采集规则,触发采集并完成后,可以通过提供的Api获取云数据。另外,也可以通过八爪鱼工具本地导出数据。


2.触发规则爬取数据并入云数据库成功后有没有状态通知?我们什么时机去要云数据比较合适呢?
答:增值Api提供的任务的状态查询,可根据状态,进行相应逻辑处理。

3.例如微博的全量数据爬取、增量数据爬取,怎么操作?
答:如果需要全量数据爬取,可以通过“设置循环翻页的次数”(自己把握循环数值),来得到获取全部微博数据,需设置cookie。
如果需要增量采集,可以把这个循环次数设置小一点,这样子只采集最新的页数数据;或者,也可以通过设置触发器,通过时间条件,只采集最近时间发布的信息。

4.公众号爬取数据需要注意什么?
答:爬取公众号增量数据,有免费模板规则,不可导出、导入。在搜狗微信公众号配置。
爬取公众号全量数据,要定义规则,账号密码登录后台,需设置页面cookie。

5.微博爬取数据,如果不用cookie登录,最多能爬取多少数据?
答:不用cookie登录,最多只能爬取微博第一页的数据。这个场景适合增量爬取,如果是需要全量爬取,就必须要cookie登录了。

6.公众爬取的内容类型有哪些?
答:目前看到八爪鱼爬取公众号的内容类型,暂时是图文类型,对于发布文本消息、图片消息、音乐视频消息忽略;另外,对于删除的图文信息,也会忽略。
忽略的记录,只会爬取到标题,没有内容和时间。


7.八爪鱼重复记录的判定方法是?
答:判定所有字段都相同,才认为是重复。

8.怎么获取最近爬取的20条增量数据?
答:通过获取任务数据api,入参offset和size的值设置。
例如:
第一次请求得到的数据基础:
入参:offset=0,size=1
出参:
"offset": 4727,
"restTotal": 3099,
"total": 3100
第二次,再获取最近爬取的20条数据:
offset = offset + restTotal - 20
size = 20
备注:offset为数据相对开始的消费请求数据后的偏移量,restTotal为数据相对最后的偏移量。(原理就是,得到最后的offset偏移量,减去最近的数量即可。offset + restTotal=总偏移量,4727+3099=7826)