码迷,mamicode.com
首页 > 其他好文 > 详细

文本预处理去除标点符号

时间:2015-07-27 18:13:23      阅读:316      评论:0      收藏:0      [点我收藏+]

标签:

NLP 分词或word2vec之前,一般都需要先进行标点符号的预处理,直接上解决的代码,精简。

#!/usr/bin/env python
# coding=utf-8

from string import punctuation
import re
import sys
reload(sys)
sys.setdefaultencoding(utf-8)

import codecs

# 英文标点符号+中文标点符号
punc = punctuation + u.,;《》?!“”‘’@#¥%…&×()——+【】{};;●,。&~、|\s::

print punc

fr = codecs.open(./train_jkm.txt,encoding=utf-8)
fw = codecs.open(./train_clean.txt,w,encoding=utf-8)

# 利用正则表达式替换为一个空格
for line in fr:
    line = re.sub(r"[{}]+".format(punc)," ",line)
    fw.write(line+ )

fr.close()
fw.close()

 

文本预处理去除标点符号

标签:

原文地址:http://www.cnblogs.com/jkmiao/p/4680621.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!