Unicode字符串

时间：2015-08-10 18:13:37 阅读：114 评论：0 收藏：0 [点我收藏+]

计算机只能处理数字，要处理文本，就必须先把文本转化成数字处理。最早的计算机在设计时采用8bit为1个字节，所以，一个字节能表示的最大整数是255（11111111），0~255被用来表示一些英文字母、数字、符号，这就是ASCII编码。

要表示中文，一个字节肯定是不够的，至少需要两个字节，中国制定了GB2312编码，其他国家也制定了一些编码。

为了将这些编码统一起来，Unicode编码应运而生。

但Python产生比unicode早，早期Python不支持unicode，后来对unicode做了支持，要表示中文，要在字符串前加:u（不影响字符串其他的定义规则，比如多行字符串和raw字符串）

例如：u‘中文‘

注意：如果中文字符串在Python环境下出现了UnicodeDecodeError，这是因为.py文件保存的格式有问题，可以在第一行添加注释：

#-*- coding: utf-8 -*-

目的是告诉解释器以utf-8的格式读取源文件，保存.py文件时应该选择utf-8编码。

原文地址：http://blog.csdn.net/sunflower_csdn/article/details/47401155

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行