【sphinx】sphinxTrain文档笔记

时间：2016-01-22 17:53:24 阅读：461 评论：0 收藏：0 [点我收藏+]

标签：

如果需要训练的模型词汇量只有50-60个，而且你的所有测试词汇都包含在训练词汇中。那么训练基于单词的模型可能比基于音素的会更好。

基于单词的模型训练方法：1）定义的phoneset改为单词列表 2）词典中的map，是单词指向它本身

而如果训练基于音素的，要保证每个连接状态有充足的例子-5~10个的例子

训练之前，确定你要训练的模型需要的资源是否充足

半连续 semi-continue模型的训练----训练：每个hmm模型要求5个状态，对10000个triphone的模型，要求如下：

5 states/triphone                    = 50,000 states每个triphone是5个状态，总共5w个状态
For a 4-stream feature-set, each     = 1024 floating point numbers/state 每个状态是4*256个点数。4是特征个数，256是混合权重个数
state has a total of 4*256 mixture   
weights
                                     = 205Mb buffer for 50,000 states

连续模型 continue模型的训练---对于10000个triphone

5 states/triphone         = 50,000 states  每个triphone5个状态，总共5w个状态
39 means (assuming a
39-component feature
vector) and 39
variances per state       = 79 floating points per state    39个均值（假设是个39维度的特征向量），每个状态有39个方差
                          = 15.8Mb buffer for 50,000 states

识别过程中的搜索方法，有广度优先遍历。广度优先遍历的流程为：

1 1.initialize()
2 2. createInitialLists()
3 3. recognize(nframes)
4 4.recognize():

【sphinx】sphinxTrain文档笔记

标签：

原文地址：http://www.cnblogs.com/lijieqiong/p/5151709.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行