在构建语言模型中,我们需要理解n元模型以及网络架构。 一、 n元语法 n元语法通过马尔可夫假设简化模型,马尔科夫假设是指一个词的出现只与前面n个词相关,即n阶马尔可夫链(Markov chain of order n)。 来看以下几个例子,下面分别是1元,2元,3元语法模型的结果。 $P\left( ...
分类:
编程语言 时间:
2020-03-06 17:27:51
阅读次数:
63
1、从随机变量分布中采样 研究人员提出的概率模型对于分析方法来说往往过于复杂。越来越多的研究人员依赖数学计算的方法处理复杂的概率模型,研究者通过使用计算的方法,摆脱一些分析技术所需要的不切实际的假设。(如,正态和独立) 大多数近似方法的关键是在于从分布中采样的能力,我们需要通过采样来预测特定的模型在 ...
分类:
其他好文 时间:
2020-02-26 18:51:23
阅读次数:
63
Good resource, Markov Chains Explained Visually, http://setosa.io/ev/markov-chains/ 马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain),因俄国数学家 ...
分类:
其他好文 时间:
2020-02-25 20:29:49
阅读次数:
86
目前的从头预测软件大多是基于HMM(隐马尔科夫链)和贝叶斯理论,通过已有物种的注释信息对软件进行训练,从训练结果中去推断一段基因序列中可能的结构,在这方面做的最好的工具是AUGUSTUS它可以仅使用序列信息进行预测,也可以整合EST, cDNA, RNA-seq数据作为先验模型进行预测。 安装 安装 ...
分类:
其他好文 时间:
2020-02-25 09:48:43
阅读次数:
224
\1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。 马尔 ...
分类:
其他好文 时间:
2020-02-03 13:37:17
阅读次数:
120
条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。 HMM引入了马尔科夫假设,即当前时刻的状态只与其前一时刻的状态有关,HMM是一种生成式概率图模型,条件随机场(CRF)与HMM ...
分类:
其他好文 时间:
2020-01-14 20:30:15
阅读次数:
77
本科阶段学了三四遍的HMM,机器学习课,自然语言处理课,中文信息处理课;如今学研究生的自然语言处理,又碰见了这个老熟人; 虽多次碰到,但总觉得一知半解,对其了解不够全面,借着这次的机会,我想要直接搞定这个大名鼎鼎的模型,也省着之后遇到再费心。 Outline 模型引入与背景介绍 从概率图讲起 贝叶斯 ...
分类:
其他好文 时间:
2019-12-24 23:48:08
阅读次数:
103
1. Entropy 2. 序列熵(无记忆,有记忆,马尔科夫) 3. Fixed-to-variable-length codes (给n个输出symbols进行变长编码) 4. Asymptotic Equipartition Property 渐近等分性 渐近等分性是指随机变量长序列的一种重要特 ...
分类:
其他好文 时间:
2019-12-04 10:39:08
阅读次数:
106
这一部分我们关注正的矩阵,矩阵中的每个元素都大于零。一个重要的事实: 最大的特征值是正的实数,其对应的特征向量也如是 。最大的特征值控制着矩阵 $A$ 的乘方。 假设我们用 $A$ 连续乘以一个正的向量 $\boldsymbol u_0=(a, 1 a)$, $k$ 步后我们得到 $A^k\bold ...
分类:
其他好文 时间:
2019-11-26 22:36:21
阅读次数:
68
Part0:随机数的性质 随机数一般来说符合下面这几个性质. (马尔科夫性)$1.$它产生时后面那个数与前面的毫无关系. (不确定性)$2.$给定样本的一部分和随机算法,无法推出样本的剩余部分. (不可再现性)$3.$其随机样本不可重现. 另外还要说一下统计学伪随机数概念. 统计学伪随机性.统计学伪 ...
分类:
其他好文 时间:
2019-11-02 15:55:04
阅读次数:
78