标签:
模型:信源-信道-接收者
原理:编码和解码
聚类:概念的归类。
没啥可说的,跳过
马尔科夫假设:每当一种情况发生的时候,就假设任意一个词出现的概率之和它前面的词有关。
马尔科夫模型之中,假设任意一个词出现的概率之和它前面的N-1个词有关。实际应用之中至多是N=3。
假设在语料库之中出现r次的词有个,当r(单词在网页之中出现的频度)较小的时候,统计不可靠。因此出现r次的那些词在计算它们的概率的时候要使用一个更小一点的次数,
训练语料和模型应用的领域应该有较高的相似度。数据量尽可能的大。尤其是高阶模型,更需要更多的数据。有时,需要对噪声进行处理,在成本不高的情况下,需要过滤训练数据。
标签:
原文地址:http://www.cnblogs.com/chengxuyuanxiaowang/p/4507471.html