标签:使用 on c r python 源码 d 文档 编码
nltk同时也能处理中文的场景,只要做如下改动:
使用中文分词器(如我选用了结巴分词)
对中文字符做编码处理,使用unicode编码方式
python的源码编码统一声明为 gbk
使用支持中文的语料库
to be continue...
nltk-比较中文文档相似度
原文地址:http://my.oschina.net/kakablue/blog/314513