[关闭]
@frank-shaw 2015-07-31T12:52:39.000000Z 字数 2457 阅读 19172

Logistic Loss函数、Logistics回归与极大似然估计

机器学习理论


一直对Loss函数的类型的具体由来是怎样的弄不清楚。现在学到了经验风险最小化方面的知识,感觉可以尝试去探索一番。

Logistic函数与Logistic回归

通常,Logistic函数的定义如下:

P(x)=11+exp(x)(1)

其中xRP(x)[0,1]。其中一个重要性质为:
P(x)=11+exp(x)=11+1exp(x)=exp(x)1+exp(x)=111+exp(x)=1P(x)

logistic函数图像:
logistic图像

公式(1)则是被应用到了Logistic回归中,常见形式如下:

P(y=1|β,x)=11+exp(βTx)=exp(βTx)1+exp(βTx)P(y=0|β,x)=111+exp(βTx)=11+exp(βTx)(2)

其中β为相应参数,x表示特征向量,此时y{0,1}表示的是样本标签。

另一种表示形式将标签与预测函数放在了一起:

P(g=±1|β,x)=11+exp(gβTx)(3)

此时的样本标签g{±1}。很容易证明P(g=1|β,x)=1P(g=1|β,x)。显然,这种形式和第一种logistic回归形式本质上并没有区别。

第一种形式的分类法则:
logistics回归1
相似的,第二中形式的分类法则:
logistics回归2

Logistic Loss

既然两种形式是等价的,为了适应更加广泛的分类Loss最小化框架,我们使用第二种形式来表示Logistic回归。

首先定义y为样本标签,x为特征向量。该分类Loss最小化框架可以表示为:

argminβiL(yi,f(xi))

其中f为假设函数,L表示的是loss函数。

对于logistic回归,对应于该分类框架,我们有:

f(x)=βTxL(y,f(x))=log(1+exp(yf(x)))

这里使用的Loss函数即为Logistic Loss函数。实际上,我们可以通过该Loss最小化框架得到极大似然法则。如果将Logistic回归第二种表示形式代入到此时的L(y,f(x)),可得:
L(y,f(x))=log(1+exp(yf(x)))=log(1P(y|β,x))

由此,Loss最小化可以表示为:
argminβiL(yi,f(xi))=argminβilog(1P(yi|β,xi))=argmaxβilog(P(yi|β,xi))=argmaxβiP(yi|β,xi)

上式等式最后即为极大似然估计的表示形式。也就是说,Logistic回归模型使用的Loss函数为Logistic Loss函数,使用极大似然估计法的目的是为了使得该Loss函数最小。

感想

这个时候,我似乎想明白了很多事情。将之前零散的知识点串联起来了。网易《机器学习》第二课中讲到线性回归的时候,将12i(f(xi)yi)2作为Loss函数,最终通过极大似然估计解释了使用这个Loss函数的原因。接着就直接使用极大似然估计来求解Logistic回归问题,至于为什么以及最小化的是哪一个Loss函数,并没有提及。直到现在才弄懂。

当然,如果在Loss函数后面加上一个关于变量的L2范数,这个时候可以推导出贝叶斯学派的极大后验概率估计法则(MAP),在此不展开。似乎,很多算法之间的差异性都可以用Loss函数来解释。

参考文献:
《Regularized Regression under Quadratic Loss, Logistic Loss, Sigmoidal Loss, and Hinge Loss》
《Notes on Logistic Loss Function》

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注