经常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加的好呢? 选择最优模型的指导思想是从两个方面去考察:一个是似然函数最大化,另一个是模型 ...
分类:
其他好文 时间:
2019-06-19 21:37:27
阅读次数:
476
1.对词用独热编码进行表示的缺点 向量的维度会随着句子中词的类型的增大而增大,最后可能会造成维度灾难2、任意两个词之间都是孤立的,仅仅将词符号化,不包含任何语义信息,根本无法表示出在语义层面上词与词之间的相关信息,而这一点是致命的。 2.用向量代表词的好处 3.词嵌入的由来 在NLP之分词中提过,o ...
分类:
其他好文 时间:
2019-06-16 20:05:09
阅读次数:
206
书中重要定义及一些理解 先通过介绍逻辑史蒂的分布来引出logist模型 而通过极大似然法来推导模型的参数估计问题 通过对模型参数的似然函数通过求导来得到递归方程 通过公式可以看出logist是对前面的感知机的升级版,感知机的判断方式过于简单。而其梯度下降的时候也将sign的去掉了,否则无法微分。 后 ...
分类:
其他好文 时间:
2019-06-12 11:03:38
阅读次数:
94
目录 大白话5分钟带你走进人工智能-第一节开篇介绍以及线性回归简介篇 大白话5分钟带你走进人工智能-第二节概率基础及高斯分布 大白话5分钟带你走进人工智能-第三节最大似然推导mse损失函数(深度解析最小二乘来源)(1) 大白话5分钟带你走进人工智能-第四节最大似然推导mse损失函数(深度解析最小二乘 ...
分类:
其他好文 时间:
2019-05-27 10:29:12
阅读次数:
152
逻辑回归模型是针对线性可分问题的一种易于实现而且性能优异的分类模型。 它假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降法来求解参数,来达到将数据二分类的目的。 算法推导 引入几率比(odds):指一个事件发生的概率与不发生概率的比值。对其求log,可得: $$ logit(p) = ...
分类:
其他好文 时间:
2019-05-15 16:08:09
阅读次数:
178
学贝叶斯方法时绕不过去的一个问题,现在系统地总结一下。 之前过于纠结字眼,似然和概率到底有什么区别?以及这一个奇妙的对等关系(连续才是f,离散就是p)。 wiki:在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 这里我们讨论的范围已经界定了,那就是在指定模型下(比 ...
分类:
其他好文 时间:
2019-05-14 09:44:10
阅读次数:
221
from: https://blog.csdn.net/shenxiaoming77/article/details/77505549 先验概率和后验概率 教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。 假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。 ...
分类:
其他好文 时间:
2019-05-14 09:24:44
阅读次数:
109
这篇博客整理K均值聚类的内容,包括: 1、K均值聚类的原理; 2、初始类中心的选择和类别数K的确定; 3、K均值聚类和EM算法、高斯混合模型的关系。 一、K均值聚类的原理 K均值聚类(K-means)是一种基于中心的聚类算法,通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和 ...
分类:
编程语言 时间:
2019-05-13 14:14:06
阅读次数:
763
高斯函数与正态分布 高斯函数或者说正态分布函数在很多场合都得到广泛应用,其是概率论和统计学的核心,在最大似然估计、贝叶斯估计中必不可少。其也是稀疏贝叶斯估计的重要基础。下面对高斯函数的一些基本知识点进行归纳和总结,不当之处,欢迎批评指正。 (1) 高斯函数高斯函数定义如下\begin{equatio ...
分类:
其他好文 时间:
2019-05-13 09:17:03
阅读次数:
185
一、EM算法概述 EM算法(Expectation Maximization Algorithm,期望极大算法)是一种迭代算法,用于求解含有隐变量的概率模型参数的极大似然估计(MLE)或极大后验概率估计(MAP)。EM算法是一种比较通用的参数估计算法,被广泛用于朴素贝叶斯、GMM(高斯混合模型)、K ...
分类:
编程语言 时间:
2019-05-12 00:55:20
阅读次数:
208