码迷,mamicode.com
首页 > 其他好文 > 详细

关于hanlp自定义词典的使用

时间:2017-12-28 11:49:36      阅读:199      评论:0      收藏:0      [点我收藏+]

标签:优先级   表示   路径   roo   优先   path   3.3   txt   默认   

首先要求自定义词典为utf-8编码格式,可用editplus等工具转换。

词典要求在配置文件中进行设置:

#本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相对路径,请参考:https://github.com/hankcs/HanLP/pull/254)
#Windows用户请注意,路径分隔符统一使用/
root=D:/学习/data-for-1.3.3/




#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库,请不要删除。所有词典统一使用UTF-8编码。
#增加农业词典
CustomDictionaryPath=data/dictionary/custom/agriculture.txt; CustomDictionary.txt; 现代汉语补充词库.txt;

关于hanlp自定义词典的使用

标签:优先级   表示   路径   roo   优先   path   3.3   txt   默认   

原文地址:https://www.cnblogs.com/herosoft/p/8133994.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!