码迷,mamicode.com
首页 > 其他好文 > 详细

汉语分词工具的研发-----

时间:2017-05-13 14:52:55      阅读:153      评论:0      收藏:0      [点我收藏+]

标签:速度   3.0   0kb   好的   nbsp   tin   实践   arch   实体   

当时打酱油做的大创,除了看源代码之外,什么数学原理,始终没有动手实践过,站在巨人的肩上,就这么完成了大创。。

想不到时隔两年还要被迫回来学习,所以呀  出来混  还是要脚踏实地  亲力亲为  当时偷的懒  早晚都还要还回来的。

说到分词:

一:ICTCLAS

研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典.

ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器

而ICTCLAS采用了层叠隐马尔可夫模型(Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的理论框架中,获得最好的总体效果.

https://zhidao.baidu.com/question/489947141753803492.html(使用链接)

 

汉语分词工具的研发-----

标签:速度   3.0   0kb   好的   nbsp   tin   实践   arch   实体   

原文地址:http://www.cnblogs.com/maowuyu-xb/p/6848914.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!