首先要说明的是,我个人安装cygwin的用途是为了使用kenlm工具训练通及语言模型。 注:统计语言模型工具有比较多的选择,目前比较好的有srilm以及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。 因为使用该工具在Linux环境下比较方便,我是win10系 ...
来源: Ngram 折扣平滑算法 本文档翻译自 srilm 手册 ngram-discount.7.html NAME ngram-discount – 这里主要说明 srilm 中实现的平滑算法 NOTATION a_z 代表以 a 为起始词,以 z 为结束词的 ngram,其中_代表 0 个或多 ...
分类:
编程语言 时间:
2018-10-09 14:25:10
阅读次数:
546
零、环境配置 tcl首先要下载下来c/c++ compiler GNU make,GNU gawk,GNU gzip这些最基本的也要有 环境配置不好会报错。一开始我在自己的虚拟机上安装的时候就各种错误。估计是tcl的问题。在实验室的集群上安装的就很顺利。有可能是因为实验室的电脑环境配置的比较全了。 ...
分类:
系统相关 时间:
2017-10-01 23:00:06
阅读次数:
330
转自:http://blog.csdn.net/inger_h/article/details/52789339 在已经训练好模型的情况下,需要针对一个新任务做在线识别应该怎么做呢? 一种情况是,用已有的声学模型和新训练的语言模型。 语言模型可以同srilm等工具训练,但是怎样将语言模型与DNN声学 ...
分类:
其他好文 时间:
2017-09-21 13:22:59
阅读次数:
666
官网 网上搜的安装教程:SRILM的安装方法 最近做的一个项目要用到语言模型,在网上找了一些开源的工具包试了一下。废话不多说,下面直接介绍一下SRILM的安装方法。 我实在ubuntu14.04底下使用SRILM。 SRILM的下载地址(我使用的是1.7.1版本) 1、安装 tcl 有用SRILM要 ...
分类:
其他好文 时间:
2017-08-30 11:54:14
阅读次数:
541
先看一下语言模型的输出格式 [html] view plain copy \data\ ngram 1=64000 ngram 2=522530 ngram 3=173445 \1-grams: -5.24036 'cause -0.2084827 -4.675221 'em -0.221857 - ...
分类:
编程语言 时间:
2017-08-29 17:15:57
阅读次数:
297
SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型,包括最大似然估计及相应的平滑算法;而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块,这也是最早实现的模块,包括两个工 具:ngram-count和ngram,相应的被用来估计语言模型和 ...
分类:
编程语言 时间:
2017-08-07 11:42:42
阅读次数:
3712
本文档翻译自srilm手册ngram-discount.7.html NAME ngram-discount – 这里主要说明srilm中实现的平滑算法 NOTATION a_z 代表以a为起始词,以z为结束词的ngram,其中_代表0个或多个词 p(a_z) 前n-1个词为a_的情况下,第n个词为 ...
分类:
编程语言 时间:
2017-03-04 12:57:45
阅读次数:
555
老版本线程不安全
最近几天,在倒腾多线程的翻译解码器。单线程没问题的解码器,放在多线程下就经常无故的 segmentation fault (core dumped)。排查了一天原因,才发现是语言模型的问题。
老版本的SRILM不支持多线程,多个进程环境下报错。错误具体表现如下:
将语言模型作为公共资源,多个线程去读取,会报segmentation fault (core dumpe...
分类:
编程语言 时间:
2015-07-20 11:03:26
阅读次数:
520
用srilm测试语言模型的表现时,结果报告中会给出两个ppl的值如下:ppl= 87.1826 ppl1= 113.915它们的计算公式为:ppl = 10^(-logprob / (words - OOVs + sentences))ppl1 = 10^(-logprob / (words - O...
分类:
其他好文 时间:
2014-12-17 10:44:15
阅读次数:
1891