1.概述 利用语言模型来获得一个上下文相关的预训练表示,称为ELMo。它使用的是一个双向的LSTM语言模型,由一个前向和一个后向语言模型构成,目标函数就是取这两个方向语言模型的最大似然。 2.模型结构 3.双向语言模型 前向概率计算: 后向概率计算: t代表token,即词 最后将前向和后向合并 最 ...
分类:
其他好文 时间:
2020-05-18 09:30:05
阅读次数:
114
em,是一种含有隐含变量的概率模型参数的极大似然估计法。主要应用在机器学习以及计算机视觉的数据聚类领域。 lr,逻辑回归,本质也是线性回归,通过拟合拟合样本的某个曲线,然后使用逻辑函数进行区间缩放,但是一般用来分类,主要用在点击率预估、推荐系统等; svm,支撑向量机,通过找到样本空间中的一个超平面 ...
分类:
编程语言 时间:
2020-05-13 19:44:45
阅读次数:
114
"TOC" 个人博客: 概率与似然 对于最大似然估计我们使用最简单的抛硬币问题来进行讲解 概率 当我们抛一枚硬币的时候,就可以去猜测抛硬币的各种情况的可能性,这个可能性就称为 概率 一枚质地均匀的硬币,在不考虑其他情况下是符合二项分布的,即正面和翻面的概率都是0.5,那么我们抛10次硬币5次正面在上 ...
分类:
其他好文 时间:
2020-05-03 10:48:22
阅读次数:
61
题目描述 试证明,对于参数 $\omega$,对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的。 证明方法 凸函数的二阶条件,如果$f(x)$是凸函数的充要条件 $$ \nabla ^2 f(x) \succeq 0 $$ 对定义域内所有$x$成立,且$f(x)$ 定义域为 ...
分类:
其他好文 时间:
2020-05-01 17:06:17
阅读次数:
162
1、(Bayes)贝叶斯定理 $P(A|B)=\frac{P(B|A)P(A))}{P(B)}$(“后验概率=标准似然度 先验概率”) 2、伯努利分布 伯努利分布(英语:Bernoulli distribution),又名两点分布或者0 1分布,是一个离散型概率分布。 概率质量函数:$f_{X}(x ...
分类:
其他好文 时间:
2020-04-30 19:27:03
阅读次数:
86
0.相关概念 数据:X 参数:theta 假设概率模型为:x~p(x|theta) 【xi服从于p(x|theta),并且是独立同分布(iid)】 明确先验、后验和似然的概念: 似然(likelihood):p(X|theta) 先验(prior):p(theta):(随机变量)参数theta所服从 ...
分类:
其他好文 时间:
2020-04-27 22:25:24
阅读次数:
66
预热知识必知如何求类条件概率密度:我们知道贝叶斯决策中关键便在于知道后验概率,那么问题便集中在求解类条件概率密度!那么如何求呢?答案便是:将类条件概率密度进行参数化。 最大似然估计和贝叶斯估计参数估计:鉴于类条件概率密度难求,我们将其进行参数化,这样我们便只需要对参数进行求解就行了,问题难度将大大降 ...
分类:
其他好文 时间:
2020-04-09 15:28:09
阅读次数:
85
前言:介绍了最简单的最大似然估计,距离实现「朴素贝叶斯」还有一些距离。在这篇文章,我想分享一下,我所理解的「最大似然估计 - 高斯分布」。 问题 (这里都是玩具数据,为了方便理解才列出) 0123456789101112 X 1 2 3 4 4.2 4.4 4.6 4.8 5 6 7 8 y 0 0 ...
分类:
其他好文 时间:
2020-04-07 20:02:22
阅读次数:
247
统计推断的两大学派 在统计领域,有两种对立的思想学派:贝叶斯学派和经典学派(也称频率学派),它们之间最重要的区别就是如何看待被估计的未知参数。贝叶斯学派的观点是将其看成是已知分布的随机变量,而经典学派的观点是将其看成未知的待估计的常量。 贝叶斯统计推断 具体来说,贝叶斯推断方法是将未知参数看做是一个 ...
分类:
其他好文 时间:
2020-03-30 19:27:46
阅读次数:
86
概述 译自https://jaan.io/what is variational autoencoder vae tutorial/ 在讨论变分自动编码器时,为什么深度学习研究人员和概率机器学习人员会感到困惑? 什么是变体自动编码器? 为什么这个词会引起混乱? 这是因为神经网络和概率模型在基本概念和 ...
分类:
其他好文 时间:
2020-03-25 18:58:58
阅读次数:
259