码迷,mamicode.com
首页 >  
搜索关键字:统计语言模型    ( 39个结果
统计语言模型
概念 统计语言模型是NLP的基础,是描述自然语言内在的规律的数学模型。广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注等。 简单地说,统计语言模型就是给定一个句子W(由多个单词w1,w2,w3...组成),计算该句子可信(合理)的概率的模型,即$P(W)=P(w_1,w_2,w_ ...
分类:编程语言   时间:2020-02-07 16:29:54    阅读次数:63
常见统计模型
统计语言模型 抽取概率 :在一个文档DOC中随机抽取了一个词Word,被抽中的概率。 用户搜索W1、W2,W1在Doc1中的抽取概率为1%,W2的抽取概率为2%,则本次搜索中,Doc1的相关性的分为1% 2%,依次可以计算出所有文档的相关性得分,并按相关性对搜索结果进行排序。 特点 :与BM25效果 ...
分类:其他好文   时间:2020-01-08 14:32:19    阅读次数:110
GCN
what is graph embedding. embedding 在数学上是一个映射函数: f: X >Y, 一个空间点到另一个空间的映射,通常为高维到低维的映射. 而计算机和神经网络善于处理低纬度信息. statistical language model: 统计语言模型 是用来计算一个句子的 ...
分类:其他好文   时间:2019-10-15 18:54:20    阅读次数:83
读《数学之美》有感
刚开始老师让我们看《数学之美》这本书我是表示很不理解的,因为我想又不是语文课,为什么要写读后感,又不是数学课为什么要看数学之美,但是看了之后,我才发现这本书真的很有用。 其实我还没有读几章节,但是前面讲统计语言模型不仅引起了我很大的兴趣,而且给了我很大的启发。书中提到,如果想知道一个S序列在文中出现 ...
分类:其他好文   时间:2019-09-01 18:38:59    阅读次数:98
《数学之美》读书
也算是给自己立个flag,看自己是什么时候能够吧数学之美能够读完,同时保证在读的过程当中有记录。 第一版读者赞誉 第二版出版说明 第一版序言 第二版序言 第二版前言 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理——从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含马尔可 ...
分类:其他好文   时间:2019-05-29 16:20:48    阅读次数:112
win10下安装Cygwin配置gcc编译环境
首先要说明的是,我个人安装cygwin的用途是为了使用kenlm工具训练通及语言模型。 注:统计语言模型工具有比较多的选择,目前比较好的有srilm以及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。 因为使用该工具在Linux环境下比较方便,我是win10系 ...
分类:Windows程序   时间:2019-04-21 14:27:09    阅读次数:454
第二节 数学基础与语言学基础
数学基础与语言学基础内容: 数学基础:概率论,(从大规模预料中统计较小的语言单位的相关的统计信息,然后运用统计推理技术计算更高一级的语言单位出现的概率) 语言学基础 实用知识 统计自然语言处理的步骤: 收集自然语言词汇的分布情况; 根据这些分布情况进行统计推导。(最典型的例子:构造统计语言模型) 数 ...
分类:编程语言   时间:2018-12-08 21:11:09    阅读次数:223
统计分词
思想: 把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词 利用字与字相邻出现的频率反映词的可靠度 buzhou: 建立统计语言模型 对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式 语言模型: 长度为m的字符串确定其概率分布为P(w1,w ...
分类:其他好文   时间:2018-11-07 18:16:34    阅读次数:191
统计语言模型
从基于规则到基于统计的语言模型的转变 基于马尔科夫假设,即任意一个词出现的概率只与它前面的词有关,可得到一个二元模型。乃至基于一个N-1阶马尔科夫假设,对应的语言模型是N元模型。一般N取值非常小,通常为2,可取到3或者4。 对于样本中未出现的零概率问题,使用古德-图灵估计方法进行平滑处理。对于出现频 ...
分类:编程语言   时间:2018-09-04 10:37:27    阅读次数:177
文本处理知识点总结
1. 将word映射到一个新的空间中,并以多维的连续实数空间向量进行表示,叫做 ,或者 . 2. n gram: n gram是一种统计语言模型。根据前n 1个item预测第n个item,这些item可以是音素(语言识别应用),字符(输入法应用),词(分词应用)或碱基对。一般可以从大规模文本或者语料 ...
分类:其他好文   时间:2018-07-13 23:45:21    阅读次数:292
39条   1 2 3 4 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!