理论部分: 矢量计算 在模型训练或预测时,我们常常会同时处理多个数据样本并用到矢量计算。在介绍线性回归的矢量计算表达式之前,让我们先考虑对两个向量相加的两种方法。 向量相加的一种方法是,将这两个向量按元素逐一做标量加法。 向量相加的另一种方法是,将这两个向量直接做矢量加法。 线性回归的基本要素 模型 ...
分类:
其他好文 时间:
2020-02-14 18:22:13
阅读次数:
90
ValueError The passed save_path is not a valid checkpoint ...
分类:
其他好文 时间:
2020-02-07 18:51:00
阅读次数:
432
其他问题 1. 模型选择、欠拟合和过拟合 1.1 训练误差和泛化误差 1.2 模型选择 1.2.1 验证数据集 1.2.2 $K$ 折交叉验证 由于验证数据集不参与模型训练,当训练数据不够用时,预留大量的验证数据显得太奢侈。一种改善的方法是$K$折交叉验证($K$ fold cross valida ...
分类:
其他好文 时间:
2020-02-06 23:24:59
阅读次数:
101
在之前的文章当中,我们介绍过了简单的朴素贝叶斯分类模型,介绍过最小二乘法,所以这期文章我们顺水推舟,来讲讲 线性回归 模型。 线性回归的本质其实是一种 统计学 当中的回归分析方法,考察的是 自变量和因变量之间的线性关联 。后来也许是建模的过程和模型训练的方式和机器学习的理念比较接近,所以近年来,这个 ...
分类:
其他好文 时间:
2020-02-05 10:16:34
阅读次数:
71
该文主要采用“知识蒸馏”方法对BERT(预训练语言模型)精简、优化,将较大模型压缩成较小的模型,最终目的是:提高模型推理的效率,让运行在智能手机等硬件设备上的深度学习模型具有轻量级、响应快及能源利用率高等特性。 在2019年的NLP领域预训练+微调的模型训练思路百家争鸣,ElMo、GPT、BERT、 ...
分类:
其他好文 时间:
2020-02-03 20:58:10
阅读次数:
155
layers介绍 Flatten和Dense介绍 优化器 损失函数 compile用法 第二个是onehot编码 模型训练 model.fit 两种创建模型的方法 from tensorflow.python.keras.preprocessing.image import load_img,img ...
training set: 用来训练模型 validation set : 用来做model selection test set : 用来评估所选出来的model的实际性能 我们知道,在做模型训练之前,我们必须选择所训练的模型的形式:线性模型(y = wx+b)或者非线性模型(SVM,decisi ...
分类:
其他好文 时间:
2020-01-18 10:49:16
阅读次数:
97
验证集与测试集的区别 验证集 —— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。 测试集 —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。 一个形象的比喻: 训练集 学生的课本;学生 根据课本里的内容来掌握知识。 验 ...
分类:
其他好文 时间:
2020-01-03 14:17:48
阅读次数:
55
GBDT(梯度提升迭代决策树) 总结 优先解决回归问题,将第一个数据的残差传入到第二个数据中去 构建下一个数据集的数据是上一个数据集的残差 详述 GBDT也是Boosting算法的一种,但是和AdaBoost算法不同;区别如下: AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值,然后 ...
分类:
编程语言 时间:
2020-01-01 17:03:27
阅读次数:
195
深度残差收缩网络是一种新颖的深度学习算法,实际上是深度残差网络的升级版本,能够在一定程度上提高深度学习方法在含噪数据上的特征学习效果。 首先,简单回顾一下深度残差网络,深度残差网络的基本模块如下图所示。相较于普通的卷积神经网络,深度残差网络引入了跨层的恒等映射,来减小模型训练的难度,提高准确率。 然 ...
分类:
其他好文 时间:
2019-12-28 22:54:46
阅读次数:
138