计算机只能处理数字,要处理文本,就必须先把文本转化成数字处理。最早的计算机在设计时采用8bit为1个字节,所以,一个字节能表示的最大整数是255(11111111),0~255被用来表示一些英文字母、数字、符号,这就是ASCII编码。
要表示中文,一个字节肯定是不够的,至少需要两个字节,中国制定了GB2312编码,其他国家也制定了一些编码。
为了将这些编码统一起来,Unicode编码应运而生。
但Python产生比unicode早,早期Python不支持unicode,后来对unicode做了支持,要表示中文,要在字符串前加:u(不影响字符串其他的定义规则,比如多行字符串和raw字符串)
例如:u‘中文‘
注意:如果中文字符串在Python环境下出现了UnicodeDecodeError,这是因为.py文件保存的格式有问题,可以在第一行添加注释:
#-*- coding: utf-8 -*-
目的是告诉解释器以utf-8的格式读取源文件,保存.py文件时应该选择utf-8编码。
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/sunflower_csdn/article/details/47401155