我们在训练模型的过程,都会经常进行数据采样,为了就是让我们的模型可以更好的去学习数据的特征,从而让效果更佳。但这是比较浅层的理解,更本质上,数据采样就是对随机现象的模拟,根据给定的概率分布从而模拟一个随机事件。 ...
分类:
其他好文 时间:
2019-08-02 16:30:39
阅读次数:
140
GAN Generative Adversarial Networks 生成对抗网络.学习真实世界的真实数据的分布,用于创造以假乱真的数据.比如前段时间很火的应用deep fake.deep nude. 由两部分构成,生成网络g,对抗网络d. g用于创建假的数据.d用于判别数据.d和我们平常用的神经 ...
分类:
其他好文 时间:
2019-07-27 12:50:03
阅读次数:
119
概率图模型构建了这样一幅图,用观测节点表示观测到的数据,用隐含节点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决的问题。 概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等。主要在NLP领域用的较为广泛 1 概 ...
分类:
其他好文 时间:
2019-07-21 01:49:40
阅读次数:
146
学习大数据分析与应用课程的首要任务,是先了解统计与建模方法和数据挖掘方法所呈现出来的效果,然后依次学习Excel数据处理及编程、MySQL数据库的简单操作及Hadoop的基础知识。从而为进阶、提高打好基础。基础统计与建模方法演示探索性数据分析演示常用概率分布和渐进性演示置信区间和假设检验演示线性回归模型演示广义线性回归模型演示数据挖掘方法演示分类预测基本流程演示数据预处理演示分类方法演示聚类分析演
分类:
其他好文 时间:
2019-07-20 17:15:41
阅读次数:
121
在此记录下常见的机器学习面试问题。 判别式模型和生成式模型的区别? 判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。 生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。 由 ...
分类:
其他好文 时间:
2019-07-09 19:24:27
阅读次数:
97
一、简介 https://cloud.tencent.com/developer/article/1058777 1、LDA是一种主题模型 作用:可以将每篇文档的主题以概率分布的形式给出【给定一篇文档,推测其主题分布】。 从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行 ...
分类:
其他好文 时间:
2019-07-08 12:01:06
阅读次数:
175
今天天气太凉快,跟这个日历上属于夏天的那一页显得格格不入!就连我我床下那台废弃的ThinkPad,居然也十分透凉气,那外壳连我的体温高都没有,于是,我就开始想一个方法,让我那个废弃的电脑发热,顺便用它提出一个我认为有必要出现的概念。一个统计学上的概念, > 让人理解一个概率分布的真正在现实中的表现。 ...
分类:
其他好文 时间:
2019-07-08 00:06:04
阅读次数:
116
交叉熵公式 参考回答: 交叉熵:设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是: 在一定程度上,相对熵可以度量两个随机变量的“距离”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大于等于0的。 互信息:两个随机变量X,Y的互信息定义为X,Y的联合分 ...
分类:
编程语言 时间:
2019-06-03 21:41:01
阅读次数:
422
为什么GAN不能直接用于NLP中? 生成图像是用随机的向量做实值的映射变换,是连续的过程。因此可以将判别器的误差反向传播到生成器。 在自然语言处理中,encoder解码生成文本的过程中,模型生成词的过程其实是在词表中选词的过程,它是根据当前网络输出的词语的整个概率分布,选取概率最大的词。这个选词的过 ...
分类:
其他好文 时间:
2019-06-01 21:25:10
阅读次数:
111