该文主要采用“知识蒸馏”方法对BERT(预训练语言模型)精简、优化,将较大模型压缩成较小的模型,最终目的是:提高模型推理的效率,让运行在智能手机等硬件设备上的深度学习模型具有轻量级、响应快及能源利用率高等特性。 在2019年的NLP领域预训练+微调的模型训练思路百家争鸣,ElMo、GPT、BERT、 ...
分类:
其他好文 时间:
2020-02-03 20:58:10
阅读次数:
155
机器学习的模型由哪三个部分组成,机器学习的 cost function 与 loss function 的关系。 ...
分类:
其他好文 时间:
2020-02-03 09:41:51
阅读次数:
153
原博客:https://blog.csdn.net/huplion/article/details/79069365 (在此仅作学习记录作用) 一、前言 在前几篇文章中,我们学习到如何在训练集上设置权重,并由此计算出损失(loss),其中loss是有两部分组成,分别是数据损失项和正则化项目。我们最终 ...
分类:
编程语言 时间:
2020-02-02 13:57:38
阅读次数:
57
import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' import tensorflow as tf #tensorboard --logdir="./" def linearregression(): with tf.variable_scope(" ...
分类:
其他好文 时间:
2020-01-31 20:44:31
阅读次数:
83
在tf.keras中,metrics其实就是起到了一个测量表的作用,即测量损失或者模型精度的变化。metrics的使用分为以下四步: step1:Build a meter acc_meter = metrics.Accuracy() loss_meter = metrics.Mean() step ...
1.MSE(均方误差) MSE是指真实值与预测值(估计值)差平方的期望,计算公式如下: MSE = 1/m (Σ(ym-y'm)2),所得结果越大,表明预测效果越差,即y和y'相差越大 y = tf.constant([1,2,3,0,2]) y = tf.one_hot(y,depth=4) y ...
分类:
其他好文 时间:
2020-01-27 15:40:00
阅读次数:
100
当前代码绘制的图片会出现下图中文字重叠的情况: plt.subplot(211) plt.plot(epochs,loss,'bo',label='Training loss') plt.plot(epochs,val_loss,'b',label='Validation loss') plt.ti ...
分类:
编程语言 时间:
2020-01-27 15:25:06
阅读次数:
881
1. softmax 损失函数:归一化指数函数,可以将一个K维向量z“压缩”到另一个K维实向量σ(z)中,使每一个元素的范围在(0,1)之间,并且所有元素的和为1。 softmax loss包含三个部分:指数化、归一化、取-log(x) ①指数化:是指将一个样本中各个分类的得分指数化,使得各分类的得 ...
分类:
其他好文 时间:
2020-01-22 23:57:32
阅读次数:
245
记录一下李宏毅机器学习课程关于对抗攻击的内容; 1、 一般模型training过程: 输入x_0,调整模型Network的参数θ,使得输出y_0和y_true的loss越小越好;损失函数:L_train(θ) = C(y_0, y_true) Non-targeted Attack: 固定模型Net ...
分类:
其他好文 时间:
2020-01-17 23:03:56
阅读次数:
83
参考:https://github.com/vandit15/Class-balanced-loss-pytorch 其中的class_balanced_loss.py: import numpy as np import torch import torch.nn.functional as F ...
分类:
其他好文 时间:
2020-01-15 19:13:33
阅读次数:
96