码迷,mamicode.com
首页 > 其他好文 > 详细

千万级巨型汉语词库分享

时间:2014-11-08 23:24:08      阅读:474      评论:0      收藏:0      [点我收藏+]

标签:style   http   io   color   ar   sp   strong   on   问题   

bubuko.com,布布扣
算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,“人”“保”作为名字的二三字的确非常有可能,但是正常人都不会取这个名字。要是我把“人”“保”这两个字的频度降低或删除的话,“袭人”“王保全”这些名字又无法识别。本来博客“自然语言处理”分类下就有“语料库”这一小类...

继续阅读码农场 » 千万级巨型汉语词库分享

原文链接http://www.hankcs.com/nlp/corpus/tens-of-millions-of-giant-chinese-word-library-share.html

千万级巨型汉语词库分享

标签:style   http   io   color   ar   sp   strong   on   问题   

原文地址:http://www.cnblogs.com/hankcs/p/4084142.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!