码迷,mamicode.com
首页 > 其他好文 > 详细

统计分词

时间:2018-11-07 18:16:34      阅读:191      评论:0      收藏:0      [点我收藏+]

标签:语言   概率   概率计算   单词   不同   思想   统计   字符串   利用   

思想:

     把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词

     利用字与字相邻出现的频率反映词的可靠度

buzhou:

    建立统计语言模型

    对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式

语言模型:

   长度为m的字符串确定其概率分布为P(w1,w2,.......wm)其中,w1,w2,wm依次表示文本中的各个词语

统计分词

标签:语言   概率   概率计算   单词   不同   思想   统计   字符串   利用   

原文地址:https://www.cnblogs.com/hapyygril/p/9924188.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!