阅读 69

换个角度理解PSI(1)——从信息熵到IV和PSI的关系

做风控模型的同学对IV和PSI值都熟悉,IV值一般用于衡量变量的重要性,PSI用来监控模型分和特征的稳定性。

一般对于计算的公式也是比较熟悉的,但是对于内在的原理,为什么IV可以衡量变量的重要性和PSI可以衡量一个特征的稳定性的可能有些模糊的认识,但是不是十分清晰,本文从公式入手,从信息论熵的角度去解释,同时也讲一些个人对IV和PSI的区别和联系的认识

IV定义

IV的全拼为Information Value,即信息价值,一般用作入模特征的筛选,用来衡量特征对模型的预测能力:

其中为特征的分箱数。 特征的IV值越大,则表示该特征的信息价值也就越大。为什么IV可以表示特征的信息,我们从公式中的对数项入手。

从IV公式中提取WOE

将上述公式转化如下

其中为特征的分箱数。 我们发现WOE的定义,正是IV的的对数项,从公式里可以知道,原始定义为该分数段下坏人占总体坏人比例该分数段下好人占总体好人比例的差异。变换后的WOE的含义是该分数段下坏用户和好用户的比值好用户总数与坏用户总数的差异。总之WOE越大,说明该分数段内好坏人的比例差异越大,则说明该特征的区分能力越强。

一般在实践中,计算特征的WOE需要先对变量离散化,也就是常说的分箱。对WOE分箱分为有监督和无监督分箱:一般无监督分箱方法有等频,等距,聚类方法;有监督方法有Best-KS 和 卡方分箱,这块讲起来也得两篇文章,有机会我们细聊。

拉回到WOE的解释,对特征分箱后,传统评分卡为了可解释性还会调整每个分段的单调性,保证特征分箱后是单调的,也就是我们定义坏用户为1时,预测坏人的概率随着特征的增加单调递增或递减。

我们再回到WOE的公式,也就是IV的对数项,其实在信息熵的一部分,叫做自信息

WOE与信息熵

熵来源于热力学定义,其物理意义是体系混乱程度的度量。一条信息包含了多少信息量,取决于它的不确定性。如果有两条信息,一条是信息是,今年夏天热带雨林都会有大量降水;另一条是今年夏天沙漠会有大量降水。比较明显的是,第一句话我们凭借经验判断,确定性很高,所以不需要去引入其他信息,所以第一句话包含的熵较低;而第二句话和我们的常识不符,确定性较低,如果真的发生的话,我们需要去大量的外部知识来验证,所以第二句话包含的熵很高。

也就是我们发现,一条信息的信息量大小和它的发生的概率成反比,和不确定性成正比,即发生的概率越小不确定性越高信息量越大熵越大,发生的概率越大不确定性越低信息量越小熵越小。

考虑一个离散的随机变量,我们要找的信息量函数应该为概率函数的单调函数,且满足如下关系:

  1. 假设有两个独立不相关的事件,则有两件事情同时发生后获得的信息量等于每一件事情发生的单独信息量,即
  1. 两个独立不相关事件同时发生的概率,等于分别发生的概率的乘积:

根据上述关系我们很容易看到有对数关系(因为对数法则才有乘积同加和关系的转化)。因此我们有:

其中负号是为了保证信息量为正数或零。 最后,正式引入熵的概念,熵为关于分布上信息量的期望。

到这里,我们就得到了熵的定义,表示随机变量不确定的度量我们可以看出,随机变量的取值越多,状态数也越多,信息熵就越大;且可以推断,为均匀分布时熵最大。

我们回到WOE的定义中,WOE中的可以理解为分箱中好坏人比例的差异,在某个分箱中,除了好坏人比例相同即为1时,此时信息量为零,在其他情况下,好坏人比例的差异越大,则信息量越大,熵越大。

再看PSI定义

PSI的全拼为popularity stability index,即为群体稳定性指标,用于衡量测试样本和建模样本分数间数据分布差异性,是模型稳定性的常见指标。

其中,是分箱数,Actual是实际占比,Expected是预期占比,一般来说PSI越小说明模型越稳定,PSI小于0.1表明模型稳定性较高,0.1-0.25之间稳定性一般,0.25以上说明模型不稳定,需要重新训练。

总结

通过上述分析,我们发现IV和PSI的公式可以用一个通用表达式表示:

在IV定义中, 表示当前分组中坏人占比,表示当前分组中好人占比,IV衡量的是变量对好坏人的区分能力的差异越大,证明特征区分能力越好。。 在PSI定义中,表示当前分组中实际占比,表示当前分组中,对照组也就是预期占比,PSI衡量的是变量的稳定性的差异越小,证明特征的稳定性越好。

参考资料

[1]《数据化风控》 单良 / 乔杨
[2]《统计学习方法》 李航
[3] https://blog.csdn.net/u012837965/article/details/94720028/
[4] https://www.jianshu.com/p/103b4d70fbfd [5] https://www.cnblogs.com/kyrieng/p/8694705.html