线性回归的损失函数与逻辑回归的损失函数

2,293 阅读3分钟
原文链接: blog.csdn.net

一、线性回归损失函数的两种解释

线性回归的损失函数是平方损失函数,为什么使用平方的形式,参考:线性回归损失函数为什么要用平方形式,讲得很清楚。
在线性回归中,对于训练数据样本 ( x i ,y i ) ,我们有如下的拟合直线:

y i ˆ =θ ⋅x i
构建的损失函数是:
C =∑ i =1 n (y i −y i ˆ ) 2
表示每一个训练点 ( x i ,y i ) 到拟合直线 y i ˆ =θ ⋅x i 的竖直距离的平方和,通过最小化上面的损失函数可以求得拟合直线的最佳参数 θ 。
这里的损失函数之所以使用平方形式,是使用了“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。
第二种解释是 极大似然估计误差的思想,暂时没搞明白,先保留。参考:blog.csdn.net/saltriver/a…

二、逻辑回归的损失函数

逻辑回归的损失函数使用的是对数损失函数,而不是平方损失函数。平方损失函数是线性回归在假设样本满足高斯分布的条件下推导得到的,而逻辑回归假设样本服从伯努力分布(0-1分布)
伯努利分布的概率质量函数pmf为:

P (X =n) ={ p 1 −p , n=1 , n=0

1.对数损失函数的形式

L (Y,P (Y| X))= −logP (Y| X) 这个对数损失函数的意思是指分类为Y的情况下,使P(Y|X)达到最大。若模型是用最大概率的分类来做预测的,而Y是代表分类为正确的分类,而P(Y|X)则是代表正确分类的概率,那对数取反就是 P (Y | X ) 越大,损失函数就越小。 P (Y | X )=1 时,损失就降为0,不可能再低了。
伯努利分布的似然函数可以写成:

L (θ)=∏ i =1 m P (y=1| x i ) y i P (y =0| x i ) 1 −y i
对数似然函数为:
log L(θ)= ∑ i =1 m [y i logP (y =1| x i )+ (1− y i )log (1 −P (y =1| x i )) ]
其中的一项即为对数损失,在逻辑回归中可表示为:
L (Y,P (Y| X))= −logP (Y| X)=y i logP (Y | X )+( 1−y i )log (1−P (Y | X ))
其中 P (Y| X)=P (y=1| x) 。
损失函数的图像如下所示
这里写图片描述

2.直接根据对数损失函数的形式得到目标函数

逻辑回归 P (Y=y | x) 表达式如下,符合伯努利分布:

P (X=y | x)=⎧ ⎩⎨ h θ (x)=g(f (x))=1 1 +ex p(− f( x)) 1 −h θ (x )=1 −g (f (x))=e xp(− f(x )) 1 +e xp (−f (x )) , y =1 , y =0
对数损失函数的标准形式为:
L (Y,P (Y| X))= −log( Y| X )
将逻辑回归的表达式带入对数损失函数中,可以得到:
L (y,P (Y=y | X))= {log (h θ (x)) log (1 −h θ (x )) , y= 1 , y= 0
将上式进行化简,可以得到最终的目标函数:
J (θ)=−1 m ∑ i =1 m [ y i log( h θ (x i )) +( 1−y i )log (1− h θ (x i )) ]

参考:
www.zhihu.com/question/27…
blog.csdn.net/saltriver/a…
blog.csdn.net/saltriver/a…