标签:ranking input 激活 符号 targe 目的 art logs label
原文: http://www.voidcn.com/article/p-rtzqgqkz-bpg.html
最近看了下 PyTorch 的损失函数文档,整理了下自己的理解,重新格式化了公式如下,以便以后查阅。
注意下面的损失函数都是在单个样本上计算的,粗体表示向量,否则是标量。向量的维度用 表示。
也叫作 Huber Loss,误差在 (-1,1) 上是平方损失,其他情况是 L1 损失。
平方损失函数
二分类用的交叉熵,TODO
交叉熵损失函数
而 是没有经过 Softmax 的激活值。参考 cs231n 作业里对 Softmax Loss 的推导。
负对数似然损失函数(Negative Log Likelihood)
在前面接上一个 LogSoftMax 层就等价于交叉熵损失了。注意这里的 和上个交叉熵损失里的不一样(虽然符号我给写一样了),这里是经过 运算后的数值,
和上面类似,但是多了几个维度,一般用在图片上。
比如用全卷积网络做 Semantic Segmentation 时,最后图片的每个点都会预测一个类别标签。
KL 散度,又叫做相对熵,算的是两个分布之间的距离,越相似则越接近零。
注意这里的 是 概率,刚开始还以为 API 弄错了。
评价相似度的损失
这里的三个都是标量,y 只能取 1 或者 -1,取 1 时表示 x1 比 x2 要大;反之 x2 要大。参数 margin 表示两个向量至少要相聚 margin 的大小,否则 loss 非负。默认 margin 取零。
多分类(multi-class)的 Hinge 损失,
其中 表示标签, 默认取 1, 默认取 1,也可以取别的值。参考 cs231n 作业里对 SVM Loss 的推导。
多类别(multi-class)多分类(multi-classification)的 Hinge 损失,是上面 MultiMarginLoss 在多类别上的拓展。同时限定 p = 1,margin = 1.
这个接口有点坑,是直接从 Torch 那里抄过来的,见 MultiLabelMarginCriterion 的描述。而 Lua 的下标和 Python 不一样,前者的数组下标是从 1 开始的,所以用 0 表示占位符。有几个坑需要注意,
举个梨子,
import torch
loss = torch.nn.MultiLabelMarginLoss()
x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
print loss(x, y) # will give 0.8500
按照上面的理解,第 3, 0 个是正确的类,1, 2 不是,那么,
*注意这里推导的第二行,我为了简短,都省略了 max(0, x) 符号。
多标签二分类问题,这 项都是二分类问题,其实就是把 个二分类的 loss 加起来,化简一下。其中 只能取 两种,代表正类和负类。和下面的其实是等价的,只是 的形式不同。
上面的多分类版本,根据最大熵的多标签 one-versue-all 损失,其中
只能取
两种,代表正类和负类。
余弦相似度的损失,目的是让两个向量尽量相近。注意这两个向量都是有梯度的。
margin 可以取 ,但是比较建议取 0-0.5 较好。
不知道做啥用的。另外文档里写错了, 的维度应该是一样的。
[pytorch]pytorch loss function 总结
标签:ranking input 激活 符号 targe 目的 art logs label
原文地址:https://www.cnblogs.com/kk17/p/10246324.html