交叉熵（分类loss）

定义

\sum_{k = 1}^{N} p_{k} l o g_{2} \frac{1}{q_{k}}

交叉熵的起源

交叉熵，相对熵 (KL 散度)，JS散度，Wasserstein距离（推土机距离）

交叉熵的问题

过度自信

众所周知，分类问题的常规评估指标是正确率，而标准的损失函数则是交叉熵，交叉熵有着收敛快的优点，但它并非是正确率的光滑近似，这就带来了训练和预测的不一致性问题。另一方面，当训练样本的预测概率很低时，交叉熵会给出一个非常巨大的损失（趋于 $- l o g 0^{+} = \infty - l o g 0^{+} = \infty$ ），这意味着交叉熵会特别关注预测概率低的样本——哪怕这个样本可能是“脏数据”。所以，交叉熵训练出来的模型往往有过度自信现象，即每个样本都给出较高的预测概率，这会带来两个副作用：一是对脏数据的过度拟合带来的效果下降，二是预测的概率值无法作为不确定性的良好指标。