码迷,mamicode.com
首页 > 其他好文 > 详细

中文文档预处理

时间:2017-05-07 00:16:52      阅读:293      评论:0      收藏:0      [点我收藏+]

标签:文件   实现   批处理   UI   而且   操作   预处理   自定义   python脚本   

最近做个东西,需要对中文文档进行预处理。

首先是统一编码和删除标点符号等操作,用ULTRAEDIT和EDITPLUS可以分别很快的做到这一点。UITRAEDIT的替换里可以对一个文件夹目录的所有文件同时替换,可以用来批处理。

然后是分句和分词,分句一般是在去标点符号前(标点符号可以用停用表去),一般是用句号进行分句。分词我用的是现成的库,jieba分词,对中文的支持比较好。而且它可以用自定义词典限制分词的结构。

当然需要进行批处理的话最好自己弄个python脚本。jieba好像有个依赖库我给忘了。

然后是去停用词。分词以后去停用词就很简单了,自己写个脚本。但是停用词库如果有特殊需求的话最好还是自己造一个,如果只是通用的停用词的话网上随便一搜都是。

去完了预处理大概就差不多了,如果是跟语义有关系的话最好用一个浅层的work2vec实现对词义的向量化。(在有大量训练集的前提下)python里面有一个支持它的框架叫gensim。

over

中文文档预处理

标签:文件   实现   批处理   UI   而且   操作   预处理   自定义   python脚本   

原文地址:http://www.cnblogs.com/qiucheng/p/6818926.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!