大数据风控系统概述

1,391 阅读8分钟

为什么要做风控系统

不做的话,会有以下风险:

  • 各种小号、垃圾账号泛滥
  • 撞库攻击、盗号、毁号、拖库等
  • 拉新 10w 留存率不到 5%
  • 百万营销费用,却增加不了用户粘性
  • 投票票数差距非常悬殊
  • 各种榜单被垃圾账号占领
  • 实物奖励被机器人领走
  • 红包被秒抢
  • 下单不付款占库存
  • 虚拟占座
  • 刷单炒信
  • ……

风控场景

  • 营销活动反作弊

防御现金红包奖励、优惠劵促销、电商秒杀等营销活动场景下薅羊毛、黄牛党倒卖等各种欺诈行为

  • 内容防盗爬

防御行业竞争数据、高价值内容、隐私数据等被盗爬行为

  • 渠道流量反作弊

防御 iOS、国内外 Android 等各类渠道推广流量作弊行为

  • 刷榜刷单防护

防御直播热度排行、电商销量排行、热门内容推荐等场景下恶意刷榜刷单行为

  • 虚假用户裂变识别

防御拉新、助力砍价、电商拼团等场景下虚假用户裂变行为

  • 支付风控

防御盗卡交易、游戏代充等欺诈行为

作弊手段

打接口和虚拟机

这两种手法比较相似,都是用电脑模拟手机等移动设备,以虚假设备信息和网站、APP 的服务器端通信。

这种低成本手段是移动互联网水大鱼大时期的遗留物,铭刻着各平台未对黑产痛下杀手时的“美好记忆”,由于操作简便,不需额外资源,仍是目前主流的黑产手段之一。

识别打接口的主要方式是:引入设备标识判断逻辑,没有任何设备标识信息或信息不正确,就会被判断为打接口“假客户端”。

识别虚拟机的方法:其中一种方法是看 CPU、PC 上虚拟机使用的 CPU 指令集架构和移动设备会有明显差别,如果发现指令集属于 PC 而非移动设备,则识别成功。

设备农场

此后,黑产不得不启用更高成本的新手段——用真实手机作恶,设备农场形态应运而生。

这是与黑产对决的一个长期堡垒,攻防双方的手段交替进化,主要经历下面几个阶段:

简单刷机(通过修改单个设备信息,如 IMEI 号,用一台手机模拟出多个移动设备)、

复杂刷机(通过修改多维度设备信息模拟移动设备)、

Hook 改机(通过劫持系统函数、返还虚假信息模拟移动设备)和

多开(通过劫持系统函数,同时在单台手机上打开几十个相同应用,如几十个微信,提高作恶效率),把黑产逼到了不得不启用“真机农场”的境地。

而真机农场,就是“老老实实”地把一台手机当做一个设备来用,相比用一台真实设计模拟数个虚假设备,其成本已十分高昂。

反欺诈工程师们也找到了应对真机农场的关键:即便不刷机、不 Hook,群控却依然是黑产无法绕过的核心,所以在对群控多维痕迹进行专门检测后,真机农场也无所遁形。

2018 年的黑产新动向:云手机、硬件插件和积分墙

云手机

2018 年 9 月下旬,云手机横空出世。就像其名称所展示的,这是云计算在黑产界的最新应用。和“云手机”的对决,

云手机和传统设备农场的最大区别是:它背后并不是一个真正的手机,而是一套搭载在云服务器上的虚拟手机。

在云手机加持的新型农场里,场景更加“科幻”——挂在墙上的不再是成百上千的手机,而是一片片装载了安卓的板卡,这些板卡可被电脑群控,模拟正常智能手机的注册、点击、分享等一系列用户行为。

硬件插件

在云计算之外,黑产也开始用起了硬件插件。

大牛是一款可插装在苹果手机上的硬件,它最牛的功能是,是插上之后,能让苹果手机在不“越狱”(开放用户操作权限)的情形下实现改机和篡改 GPS 的目的。

搞清了这个原理后,只要识别出相关特征,大牛也就不牛了。

积分墙

目前这波黑产中最难搞定的 Boss 级手段——积分墙。积分墙其实就是“人刷”,由羊头和羊群协作完成。

厉害的羊头能触及多达万级乃至十万级的职业、半职业羊毛党。一旦有大漏洞出现,羊头就会将消息层层放出,组织大家一起薅——在由各种信号、传输协议连接的“平静互联网”中,羊头引领这支大军,进行着“夺金不用刀”的无声“抢劫”。

电商平台今年初的优惠券漏洞,就可以理解成一次惊动全网的“积分墙”。积分墙的攻防难点在于,背后是真人、真设备。很难识别,这也是我们近期对抗的重点,不过现在也快识别得差不多了。”

识别的方法也自成体系,主要通过团伙特征和行为时序异常等维度来综合判断,再结合通过大数据例行运营挖掘出的积分墙应用,一起做到风险可控。

风控系统解决方案

全链路风控解决方案,包括三大部分:事前预防、事中检测处置、事后分析回馈

  • 事前预防:通过数据采集收集用户侧信息、通过业务规则来限定参与活动的门槛、通过身份核验来确认用户身份等手段,防止风险事件的发生。
  • 事中检测处置:通过实时在线的手段来检测风险,并做相应的风险处置,防止风险事件的发生。
  • 事后分析回馈:基于长周期的离线数据分析,计算用户侧、设备侧、IP 侧、业务侧的各种风险特征,并作用于事前风控和事中风控。

风控主要功能

从数据提供规范、支持规则和社群、黑产库、输出方式等方面提供完整的解决方案风控引擎主要的工作是识别风险,一般的风控引擎都需要如下几个功能:

  • 名单服务:建立黑、白、灰名单;
  • 画像服务:建立基于 IP、手机号、账户等层级的画像服务;
  • 指标计算:一般包括高频类统计、求和、计数、求平均值、求最大值、求最小值等等;
  • 风控模型:基于采集到的数据,建立风控模型,比如:设备模型、行为模型、业务模型等;基于机器学习、深度学习技术来构建业务模型、设备模型、行为模型,或文本类模型(异常地址检测、异常昵称检测)等;
  • 规则引擎:最终的风控数据进入规则引擎,由规则引擎判断是否存在风险。风控运营需基于业务建立各种风控规则,以识别风险。

风控系统架构

数据采集

用户信息/ 设备指纹 / 操作行为 / 网络数据 / 提现数据 /第三方数据

机器学习模型

  • 社交网络

欺诈团伙识别,基于手机号、设备、IP,行为等建立时域关联网络,利用社群发现、风险传播等无监督算法精准防御黑产团伙欺诈行为

  • 离群点分析

识别异常频率行为用户,如刷量用户

  • 复杂事件处理

基于一些规则模型,检测异常行为。比如信用卡盗刷检测,识别用户短时间内切换不同地点登陆账户

  • 效果评估

准确率 召回率

异常团伙示例

通过机器学习模型生成的团伙行为特征如下所示:

社群成员有相同的手机型号和手机号前缀,且启动时间高度一致,还都在充电,该团伙疑似为设备农场作弊。

规则引擎

根据规则和阈值进行判断,返回用户风控等级,下面为几个规则引擎方案:

  • 借助成熟的规则引擎,比如 Drools,Drools 和 Java 环境结合的非常好,本身也非常完善,支持很多特性,不过使用比较繁琐,有较高门槛
  • 基于 Groovy 等动态语言自己完成
  • Spark SQL + 规则转化成的 SQL 语句构建规则引擎对用户风控指标进行分级

管理系统

  • 指标管理
  • 指标组合管理
  • 阈值管理
  • 名单管理
  • 提现审批

参考

https://zhuanlan.zhihu.com/p/84747637https://www.cnblogs.com/cx2016/p/11647110.htmlhttps://www.jianshu.com/p/a14f1d9a1d9dhttps://ixyzero.com/blog/archives/4270.html

更多文章

知识图谱在大数据中的应用

基于Spark Graphx+Neo4j实现用户社群发现

基于大数据聚类社群的作弊用户发现方法

基于 Apache Flink 和规则引擎的实时风控解决方案

Flink 在同程艺龙实时计算平台的研发与应用实践

MapReduce Shuffle 和 Spark Shuffle 原理概述

携程是如何把大数据用于实时风控的