码迷,mamicode.com
首页 > 其他好文 > 详细

day01-文件编码

时间:2017-08-30 21:37:46      阅读:123      评论:0      收藏:0      [点我收藏+]

标签:字符   python3   class   utf-8   输出   blog   style   ascii   ash   

  1. 汉字编码:gb2312(简体汉字)<——兼容——gbk(简体、繁体)<——兼容——gb18030(简体、繁体、少数民族)。
  2. ascii->unicode->utf-8

python3:所有字符串用Unicode表示,编码后用bytes类型表示:

s=我爱北京天安门。
s_gbk=s.encode(gbk)
print(s_gbk)

输出:

b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3

更换编码方式,采用utf-8编码:

s=我爱北京天安门。
s_utf8=s.encode(utf-8)
print(s_utf8)

输出:

b\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82

万恶的美帝用utf-8把每个汉字用3个字节表示,gbk编码用两个字节表示。

s=我爱北京天安门。
s_gbk=s.encode(gbk)
s_gb2312=s.encode(gb2312)
s_gb18030=s.encode(gb18030)
print(s_gbk)
print(s_gb2312)
print(s_gb18030)

输出:

b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3
b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3
b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3

向下兼容。

s=我爱北京天安门。
s_gbk=s.encode(gbk)
s_gbk_decode=s_gbk.decode(gbk)
s_gbk_decode_encode=s_gbk_decode.encode(utf-8)
print(s_gbk)
print(s_gbk_decode_encode)

输出:

b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3
b\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82

 

day01-文件编码

标签:字符   python3   class   utf-8   输出   blog   style   ascii   ash   

原文地址:http://www.cnblogs.com/Franklin-Kite/p/7455301.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!