@nearby 2018-02-18T12:57:38.000000Z 字数 1470 阅读 2567

#4 Loss function: Hinge Loss and Cross Entropy Loss

Multiclass SVM loss (Hinge Loss)

( $x_i$ , $y_i$ )，其中 $x_i$ 为输入图像， $y_i$ 为正确的分类标签。 $s=f(x_i;W)$ 为得分函数（score function），SVM损失函数如下：

$L_i=\sum_{j \neq y_i}max(0,s_j-s_{y_i}+1)$

$s_{y_i}$ 为被判定为正确类别的得分。总的损失函数为所有训练样本上的损失和求平均：
full training loss:

$L=\frac{1}{N}\sum_{i=1}^{N}L_i$

当 $L_i$ 取平均时，不改变总的损失函数 $L$

当 $j=y_i$ 时， $L_i=0$ ，不改变 $L$

当 $L_i=\sum_{j \neq y_i}max(0,s_j-s_{y_i}+1)^{2}$ 时，影响 $L$ ，此时对 $L$ 做了非线性改变

初始化时，通常 $W$ 的取值很小，则得分函数 $s\sim=0$ ，此时 $L_i=N-1$ 。可以利用这一点来进行代码调试，打印出第一次迭代时的loss，看是否符合这一规律。

当找到使 $L=0$ 的 $W$ 时，W并不唯一，因为W做scale后，仍可保证损失函数为0.由此引入了正则化项，以选择出合适的 $W$

Regularized weights

$L=\frac{1}{N}\sum_{i=1}^{N}\sum_{j\neq y_i}max(0, f(x_i;W)_j-f(x_i;W)_{y_i}+1)+\lambda R(W)$
等式前半部分，为了获得使Loss为0的权重，后半部分为了使W唯一，避免陷入局部最优，二者相互制约，最终使得 $L$ 最小。
常见的正则化形式如下（W是一个K行l列的权重矩阵）：

$L_2$ Regularization $R(W)=\sum_{k}\sum_{l}W_{k,l}^2$

$L_1$ Regularization $R(W)=\sum_{k}\sum_{l}|W_{k,l}|$

Elastic Net弹性网模型（ $L_1+L_2$ ） $R(W)=\sum_{k}\sum_{l}\beta W_{k,l}^2+|W_{k,l}|$

Max Normalization

Dropout

example
$x=[1,1,1,1]$
$W_1=[1,0,0,0]$
$W_2=[0.25, 0.25, 0.25, 0.25]$
$W_1^Tx=W_2^Tx=1$
虽然 $W_1$ $W_2$ 都可以能得到相同的得分，但 $W_2$ 考虑了 $x$ 的所有像素点，比 $W_1$ 更合适。从正则化角度来考虑，加上正则化项后， $W_2$ 得到的损失函数嗯小。

Softmax Classifier (Multinomial Logistic Regression)

softmax是LR的泛化形式，函数表达式如下：

$\sigma(z)_j=\frac{e^{z_j}}{\sum_{k=1}^{K}e^{z_k}}$
softmax可以理解为每个类别没有归一化的对数概率，它将拉大正确的分类类别与其他类别的差距。
Cross Entropy Loss

$P(Y=k|x=x_i)=\frac{e^{s_k}}{\sum_{j}e^{s_j}}$

$s=f(x_i;W)$

$P$ 可理解为属于每一类的概率，即把得分转换为概率。

$L_i=-logP(Y=y_i|x=x_i)=-log(\frac{e^{s_k}}{\sum_{j}e^{s_j}})$
其中

$y_i$ 为正确的分类类别。最大化属于正确类别的概率，等价于最小化概率的log负值。

$L_i$ 的最小值为0，最大值为正无穷；

初始化时W通常很小，此时 $s\sim=0$ ， $L_i=logN$ 同样的，可以用来调试时判断损失函数是否有错。

#4 Loss function: Hinge Loss and Cross Entropy Loss

Multiclass SVM loss (Hinge Loss)

Regularized weights

Softmax Classifier (Multinomial Logistic Regression)

Softmax vs. SVM

内容目录

选择主题