Ubuntu下Python无法识别中文

时间：2018-12-23 19:28:55 阅读：519 评论：0 收藏：0 [点我收藏+]

标签：enc 形式 nta 解决 python can encoding rac file

在NLP的相关任务中，应用python处理中文是很常见的。在这个过程中，由于编码方式的不一致，可能会出现以下两种错误：

　　1)SyntaxError: Non-ASCII character in file ‘文件名’

　　2)UnicodeDecodeError: ‘ascii‘ codec can‘t decode

　　解决方法是：更改Python的编码方式为utf8模式，分为单文档内的临时更改，以及全局更改两种方式

　　1.单文档内临时更改：在文档的开始处第一行（前面无任何内容），加入一行代码： # coding： utf8

　　或者在文档内添加以下代码，不要求在第一行，但也一般在文档开始的部分，添加代码： import sys reload（sys） sys.setdefaultencoding(‘utf8‘)

　　2.全局更改在/usr/lib/python2.7目录下的sitecustomize.py文件内加入上述代码 # coding： utf8 import sys reload（sys） sys.setdefaultencoding(‘utf8‘)最后，中文标点的处理需要格外注意（可以按下面形式处理）： endSign="！。" endSign=endSign.decode(‘utf-8‘)这两行代码，第一行是列举的中文标点，第二行是编码为utf8，第二行不能遗漏，否则可能出现上面第二个UnicodeDecodeError:错误

Ubuntu下Python无法识别中文

标签：enc 形式 nta 解决 python can encoding rac file

原文地址：https://www.cnblogs.com/yxp400/p/10165052.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行