标签:count line 训练 格式 lex mini mkdir ram inter
转自:http://blog.csdn.net/inger_h/article/details/52789339
在已经训练好模型的情况下,需要针对一个新任务做在线识别应该怎么做呢?
ngram-count -text train.txt -order 3 -limit-vocab -vocab wordlist -unk -map-unk "<unk>" -kndiscount -interpolate -lm srilm.o3g.kn.gz
mkdir -p $lang_own cp -r $lang/* $lang_own gunzip -c $lm | utils/find_arpa_oovs.pl $lang_own/words.txt > $lang_own_tmp/oovs.txt || exit 1 gunzip -c $lm | grep -v ‘<s> <s>‘ | grep -v ‘</s> <s>‘ | grep -v ‘</s> </s>‘ | arpa2fst - | fstprint | utils/remove_oovs.pl $lang_own_tmp/oovs.txt | utils/eps2disambig.pl | utils/s2eps.pl | fstcompile --isymbols=$lang_own/words.txt --osymbols=$lang_own/words.txt --keep_isymbols=false --keep_osymbols=false | fstrmepsilon | fstarcsort --sort_type=ilabel > $lang_own/G.fst utils/validate_lang.pl --skip-determinization-check $lang_own || exit 1;最后生成新的语言模型在graph_own_dir
graph_own_dir=$model_dir/graph_own utils/mkgraph.sh $lang_own $model_dir $graph_own_dir || exit 1;
utils/prepare_lang.sh --phone-symbol-table $lang/phones.txt $dict_own "<SPOKEN_NOISE>" $lang_own_tmp $lang_own新生成的lang就会在lang_own目录下。--phone-symbol-table选项十分重要,它保证了新lexicon里面的音素和原来识别器里面的音素是对应的。最后再生成语言模型。
graph_own_dir=$model_dir/graph_own
utils/mkgraph.sh $lang_own $model_dir $graph_own_dir || exit 1;
标签:count line 训练 格式 lex mini mkdir ram inter
原文地址:http://www.cnblogs.com/welen/p/7567429.html