文本预处理去除标点符号

时间：2015-07-27 18:13:23 阅读：316 评论：0 收藏：0 [点我收藏+]

标签：

NLP 分词或word2vec之前，一般都需要先进行标点符号的预处理，直接上解决的代码，精简。

#!/usr/bin/env python
# coding=utf-8

from string import punctuation
import re
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)

import codecs

# 英文标点符号+中文标点符号
punc = punctuation + u‘.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|\s:：‘

print punc

fr = codecs.open(‘./train_jkm.txt‘,encoding=‘utf-8‘)
fw = codecs.open(‘./train_clean.txt‘,‘w‘,encoding=‘utf-8‘)

# 利用正则表达式替换为一个空格
for line in fr:
    line = re.sub(r"[{}]+".format(punc)," ",line)
    fw.write(line+‘ ‘)

fr.close()
fw.close()

文本预处理去除标点符号

标签：

原文地址：http://www.cnblogs.com/jkmiao/p/4680621.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行