python 遇到 syntaxerror: non-ascii character问题

时间：2014-06-21 23:25:51 阅读：516 评论：0 收藏：0 [点我收藏+]

在源文件的第一行或第二行添加：（必须在第一行或者第二行）

# -*- coding:utf-8 -*-

bubuko.com,布布扣

详细信息如下面解释：

Python对于decode＆encode错误的默认处理方式为strict，也就是直接报错，而java使用replace的方式来处理了，因此java出现中文问题后会打印出很多"??"。此外，Python的默认的encoding是ASCII，而java的默认encoding跟操作系统的encoding是一致的。在这一点上，我觉得java更为合理，这样对程序员更为友好，也减少了newbies开始时的挫折感，是有利于语言的推广的。但是，Python也有它的道理，毕竟ASCII是唯一的全世界所有平台都支持的字符集，而且问题始终是问题，始终会出现的，逃避它还不如早点面对它。

在这之前，我们先要了解Python中有两种字符串，分别是一般的字符串（每个字符用8bits表示）和Unicode字符串（每个字符用一个或者多个字节表示），它们可以相互转换。关于Unicode，Joel Spolsky 在 The Absolute Minimum EverySoftware Developer Absolutely, Positively Must Know About Unicode and CharacterSets (No Excuses!) 中有生动的说明，Jason Orendorff 在 Unicode for programmers 有着更为全面的描述，在此我就不再多说什么了。来看下面的代码：

s = u"中文你好"

print s

运行上述代码，Python会给出下面的错误提示:

SyntaxError:Non-ASCII character ‘\xd6‘ in fileD:\Users\Administrator\workspace\Python27_guan\src\knn_algorithms\test.py online 1, but no encoding declared; see http://www.python.org/peps/pep-0263.htmlfor details

说是遇到非ASCII字符了，并让我们参考pep-0263。PEP-0263（Python Enhancement Proposal）上面说得很清楚了，如下截图：

bubuko.com,布布扣

参考网址：http://legacy.python.org/dev/peps/pep-0263/

问题解决方案实例:

Examples

These are some examples to clarify the different styles for defining the source code encoding at the top of a Python source

    file:

    1. With interpreter binary and using Emacs style file encoding

       comment:

          #!/usr/bin/python

          # -*- coding: latin-1 -*-

          import os, sys

...

          #!/usr/bin/python

          # -*- coding: iso-8859-15 -*-

          import os, sys

...

          #!/usr/bin/python

          # -*- coding: ascii -*-

          import os, sys

...

    2. Without interpreter line, using plain text:

          # This Python file uses the following encoding: utf-8

          import os, sys

...

    3. Text editors might have different ways of defining the file‘s

       encoding, e.g.

          #!/usr/local/bin/python

          # coding: latin-1

          import os, sys

...

    4. Without encoding comment, Python‘s parser will assume ASCII

       text:

          #!/usr/local/bin/python

          import os, sys

...

    5. Encoding comments which don‘t work:

       Missing "coding:" prefix:

          #!/usr/local/bin/python

          # latin-1

          import os, sys

...

       Encoding comment not on line 1 or 2:

          #!/usr/local/bin/python

          # -*- coding: latin-1 -*-

          import os, sys

...

       Unsupported encoding:

          #!/usr/local/bin/python

          # -*- coding: utf-42 -*-

          import os, sys

...

Python也意识到了国际化问题，并提出了解决方案。根据提案上面的要求，我们有如下代码进行测试：

bubuko.com,布布扣

程序运行的结果如下：

参考代码：

# -*- coding:gb2312 -*-

print "-------------code 1----------------"

a = "中文a我爱你"

print a

print a.find("我")

b = a.replace("爱", "喜欢")

print b

print "--------------code 2----------------"

x = "中文a我爱你"

y = unicode(x, "gb2312")

print y.encode("gb2312")

print y.find(u"我")

z = y.replace(u"爱", u"喜欢")

print z.encode("gb2312")

print "---------------code 3----------------"

print y

     我们可以看到，通过引入编码声明，我们可以正常地在使用中文了，而且在code 1和2中，控制台也能正确的把中文打印出来。但是，很明显，上面的代码也反映出了不少的问题：
    1、code 1 和 2在使用print时采用了不同的方式，1是直接print，而2在print之前先进行编码
    2、code 1 和 2中在同样的字符串查找同一个字符“我”，得出的结果不一样（分别是5和3）

为什么？为什么？我们可以先在脑海中模拟一下我们使用Python的流程：

首先，我们先用编辑器编写好源代码，保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法，那么该文件就以相应的编码方式保存在磁盘中。注意：编码声明和源文件的编码不一定是一致的，你完全可以在编码声明中声明编码为UTF-8，但是用GB2312来保存源文件。当然，我们不可能自寻烦恼，故意写错，而且好的IDE也能强制保证两者的一致性，但是，如果我们用记事本或者EditPlus等编辑器来编写代码的话，一不小心就会出现这种问题的。
得到一个.py文件后，我们就可以运行它了，我们就把代码交给Python解析器来完成解析工作。解析器读入文件时，先解析文件中的编码声明，我们假设文件的编码为gb2312，那么先将文件中的内容由gb2312转换成Unicode，然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后，解析器把这些UTF-8字节串分段，解析。如果遇到使用Unicode字符串，那么就使用相应的UTF-8字节串创建Unicode字符串，如果程序中使用的是一般的字符串，那么解析器先将UTF-8字节串通过Unicode转换成相应编码（这里就是gb2312编码）的字节串，并用其创建一般的字符串对象。也就是说，Unicode字符串跟一般字符串在内存中的存放格式是不一样的，前者使用UTF-8的格式，后者使用GB2312格式。

好了，内存中的字符串存放格式我们知道了，下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统，让操作系统相应的程序（譬如cmd窗口）进行显示。这里有两种情况：
1、若字符串是一般的字符串，那么print只需把内存中相应的字节串推送给操作系统。如例子中的code1。
2、如果字符串是Unicode字符串，那么print在推送之前先进行相应的encode：我们可以显示使用Unicode的encode方法使用合适的编码方式来编码（例子中code 2），否则Python使用默认的编码方式进行编码，也就是ASCII（例子中的code 3）。当然ASCII是不可能正确编码中文的，因此Python报错。（实际上在测试程序的时候：y = unicode(x, "gb2312")

类似y = u‘中文a我爱你‘的），该地方我用eclipse+Python编写的，但能跑出其中的结果。没有报错，下面我用Python自带的集成工具操作信息如下：

    至此，上面的三个问题我们已经可以解析第一和第三个了。至于第二个问题，因为Python中有两种字符串，一般字符串和Unicode字符串，两者都有各自的字符处理方法。对于前者，方法是以字节的方式进行的，而且在GB2312中，每个汉字占用两个字节，因此得到的结果是5；对于后者，也就是Unicode字符串，所有字符都是统一看待的，因此得到3。
     虽然上面只提到了控制台程序的中文问题，但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题，同时Python为Unicode提供了极为良好的支持，因此，我建议大家在编写Python的程序时，都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述，大家可以参考一下。
    Python中能导致出现中文问题的地方还很多，譬如文件的读写，网络数据的传输等，希望大家能多多交流，共同解决这些问题。