【Python】Python在文本分析中将中文和非中文进行分割

时间：2014-12-31 18:35:56 阅读：365 评论：0 收藏：0 [点我收藏+]

1.问题描述

进行文本分析的时候需要将中文和非中文进行分开处理，下面通过Python将文本中的中文部分提取出来进行需要的处理。

2.问题解决

开发环境：Linux

程序代码如下：split.py

#!/usr/bin/python
#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("utf8")

import re                                                        #导入正则表达式模块：re模块

def translate(inputFile, outputFile):
	fin = open(inputFile, 'r')                                   #以读的方式打开输入文件
	fout = open(outputFile, 'w')                                 #以写的方式打开输出文件

	for eachLine in fin:                                         #按行读入文件内容
		line = eachLine.strip().decode('utf-8', 'ignore')        #处理前进行相关的处理，包括转换成Unicode等
		
		p2 = re.compile(ur'[^\u4e00-\u9fa5]')                    #中文的编码范围是：\u4e00到\u9fa5
		
		zh = " ".join(p2.split(line)).strip()                    
		zh = ",".join(zh.split())

		outStr = zh                                              #经过相关处理后得到中文的文本

		fout.write(outStr.strip().encode('utf-8') + '\n')
		
	fin.close()
	fout.close()

if __name__ == '__main__':
	translate(sys.argv[1], sys.argv[2])                          ##通过获得命令行参数获得输入输出文件名来执行，方便

程序完成之后，在Linux命令行输入：python split.py myinput.txt myoutput.txt

就能够执行了。最终的翻译结果都写入到输出文件myoutput.txt中了。

3.注意问题

(1)第16行，中文的编码范围是：\u4e00到\u9fa5，所以该行的[^\u4e00-\u9fa5]表示非中文，也就是根据非中文切分出中文的文本。

希望对大家有所帮助，谢谢。

【Python】Python在文本分析中将中文和非中文进行分割

标签：python 中文

原文地址：http://blog.csdn.net/xiaoguaihai/article/details/42296251

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行