码迷,mamicode.com
首页 > 其他好文 > 详细

nltk-比较中文文档相似度

时间:2014-09-17 10:30:22      阅读:275      评论:0      收藏:0      [点我收藏+]

标签:使用   on   c   r   python   源码   d   文档   编码   

nltk同时也能处理中文的场景,只要做如下改动:

  1. 使用中文分词器(如我选用了结巴分词)

  2. 对中文字符做编码处理,使用unicode编码方式

  3. python的源码编码统一声明为 gbk

  4. 使用支持中文的语料库

to be continue...


nltk-比较中文文档相似度

标签:使用   on   c   r   python   源码   d   文档   编码   

原文地址:http://my.oschina.net/kakablue/blog/314513

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!