码迷,mamicode.com
首页 > 其他好文 > 详细

[NLP]文本去除非汉字字符

时间:2015-09-08 15:01:38      阅读:154      评论:0      收藏:0      [点我收藏+]

标签:

最近有个需求就是去除一个文本里面所有的非汉字字符。

unicide的汉字有个范围u4e00-u9fa5。所以这个范围内的留下来就可以了。

1 blog=u"【雅虎开始提示Chrome用户“升级”到Firefox】http://t.cn/RzHTFF5 国外有关浏览器、搜索引擎那些事儿,也是刀光剑影,恩怨江湖啊!@2gua ,你说尼?[挖鼻屎]"
2 blog_new = u""
3 for i in range(0,len(blog)):
4     if(blog[i]>=u\u4e00 and blog[i]<=u\u9fa5):
5         blog_new = blog_new+blog[i]
6         
7 print blog_new

 

[NLP]文本去除非汉字字符

标签:

原文地址:http://www.cnblogs.com/Sean-le/p/4791441.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!