em,是一种含有隐含变量的概率模型参数的极大似然估计法。主要应用在机器学习以及计算机视觉的数据聚类领域。 lr,逻辑回归,本质也是线性回归,通过拟合拟合样本的某个曲线,然后使用逻辑函数进行区间缩放,但是一般用来分类,主要用在点击率预估、推荐系统等; svm,支撑向量机,通过找到样本空间中的一个超平面 ...
分类:
编程语言 时间:
2020-05-13 19:44:45
阅读次数:
114
逻辑回归、正则化、感知机 正则化 为避免过拟合,增强模型的泛化能力,可以使用正则化的方法。 1. Lasso回归 L1正则化 $$ J(\theta)=\frac{1}{2n}(\mathtt X\theta Y)^T(\mathtt X\theta Y)+\alpha\lVert \theta\r ...
分类:
其他好文 时间:
2020-05-13 16:36:28
阅读次数:
60
名为回归,其实为一种分类算法 数据集: $$D = \lbrace x_i, y_i \rbrace i = 1, 2 , ..., n$$ 其中 $$x_i = (x_{i1}; x_{i2}; ...; x_{im})$$ 即每个样本有m个属性 $$ y_i = \begin{cases} 1 ...
分类:
编程语言 时间:
2020-05-03 01:04:17
阅读次数:
80
一:为什么需要神经网络 (一)案例 为了很好的拟合数据,我们需要保留较多的相关参数,虽然可以使用正则化进行优化。但是无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大。 之前我们已经看到过,使用非线性的多项式项,能够帮助我们建立更好的分类模型。假设我们有非常多的特征,例 ...
分类:
其他好文 时间:
2020-05-02 22:37:21
阅读次数:
208
本文主要记录: 1. 离散特征如何预处理之后嵌入 2.使用pytorch怎么使用nn.embedding 以推荐系统中:考虑输入样本只有两个特征,用逻辑回归来预测点击率ctr 看图混个眼熟,后面再说明: 一、离散数据预处理 假设一个样本有两个离散特征【职业,省份】,第一个特征种类有10种,第二个特征 ...
分类:
其他好文 时间:
2020-05-02 09:46:29
阅读次数:
260
为什么要进行连续特征离散化 参考 "知乎用户" 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型的快速迭代;这个点理解 1. 稀疏向量内积乘法运算速度快,计算结果方便存 ...
分类:
其他好文 时间:
2020-05-01 16:50:47
阅读次数:
44
到现在为止,我们已经学习了几种不同的学习算法,包括线性回归和逻辑回归,它们能够有效地解决许多问题,但是当将它们应用到某些特定的机器学习应用时,会遇到过拟合(over-fitting)的问题,可能会导致它们效果很差。 一:过度拟合问题 (一)线性回归中的过拟合问题 继续使用线性回归来预测房价的例子,我 ...
分类:
其他好文 时间:
2020-05-01 12:51:33
阅读次数:
86
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归是用正则化来防止过拟合的, 正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。 2.用logiftic回归来进行实践操作,数据不限 from sklearn.datasets im ...
分类:
其他好文 时间:
2020-04-29 21:58:51
阅读次数:
61
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 答(1): 1. 增加样本量,这是万能的方法,适用任何模型。 2. 如果数据稀疏,使用L1正则,其他情况,用L2要好,可自己尝试。 3. 通过特征选择,剔除一些不重要的特征,从而降低模型复杂度。 4. 如果还过拟合 ...
分类:
其他好文 时间:
2020-04-29 21:48:31
阅读次数:
76
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 过拟合就是参数调的太符合样本,所以解决的方法就有两方面 1.样本。 原本样本只有A,导致参数符合A,现在增加样本种类和大小,这样参数调整出来就符合更多的A。 2.参数。 让参数调整的没那么好。这就衍生出正则化、dr ...
分类:
其他好文 时间:
2020-04-29 21:38:00
阅读次数:
52