码迷,mamicode.com
首页 > 其他好文 > 详细

3-11日学习记录

时间:2020-03-13 01:06:40      阅读:104      评论:0      收藏:0      [点我收藏+]

标签:bsp   trie   cpu   height   ror   git   code   loss   proc   

1.MSE到底有没有根号??

https://discuss.pytorch.org/t/how-is-the-mseloss-implemented/12972

torch在实现时非常简单,就是 ((input-target)**2).mean(),平方然后均值这个样子。

https://blog.csdn.net/xiaowei_cqu/article/details/9004193(待看)

技术图片

 

 天啦,一直都没有,是我记错了。。那个根号应该是针对L2距离的,就是欧几里得距离,而不是MSE。跪。

但是这个均值,我还是有问题,为什么不是针对样本,而是针对每个值呢?我明白了,你最后获得这个不也是得需要/len(x)的嘛,也就是针对每个样本的损失了~~~.mean()算是针对每个特征的损失了。

2.关于各种方式存储稀疏矩阵python,这个讲的非常具体

https://www.cnblogs.com/hellojamest/p/11769467.html (待看)

3.果然我就猜测是否会GPU内存溢出。。 

RuntimeError: CUDA out of memory. Tried to allocate 1.28 GiB (GPU 0; 10.76 GiB total capacity;
8.17 GiB already allocated; 825.56 MiB free; 1.02 GiB cached)

 

 https://github.com/pytorch/pytorch/issues/958,从这个解答中可以看出,有一个例子是给了好多全连接层,然后溢出了。这个链接的讲解是great的!!!

那我有个疑问,如果GPU溢出的话, 能不能放到cpu上来训练,但是这样的话,模型还有什么意义。。。

 https://zhuanlan.zhihu.com/p/61892329 这个里面的让我很震惊啊,真的是这个意思啊,原来溢出是和数据集大小和模型大小是没关系的吗,握哭了,原来是这样。

技术图片

 

 以后遇到溢出的话,就直接只考虑把batch_size足够减小就好了。。。

 

3-12————————————————

 4.如果模型不收敛

https://zhuanlan.zhihu.com/p/36369878

http://theorangeduck.com/page/neural-network-not-working#batchsize

5.sklearn中的另一个标准化方法StandardScaler

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

技术图片

 

 均值和标准差:

>>> scaler.mean_
array([0.5, 0.5])
>>> scaler.var_
array([0.25, 0.25])

 

总的过程就是x-miu/std,是标准差,不是方差哦。

 

3-11日学习记录

标签:bsp   trie   cpu   height   ror   git   code   loss   proc   

原文地址:https://www.cnblogs.com/BlueBlueSea/p/12483881.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!