码迷,mamicode.com
首页 > 编程语言 > 详细

Python学习笔记015——汉字编码

时间:2018-02-10 11:12:58      阅读:172      评论:0      收藏:0      [点我收藏+]

标签:enc   pytho   div   www.   发布   lin   字符串   str   inux   

1 字符串的编码(encode)格式

GB2312   GBK   GB18030  UTF-8  ASCII

其中常用的编码格式有

国标系列:GB18030(GBK(GB2312)) (windows常用) 

国际标准:UNICODE16 <---> UTF-8 (Linux / Mac OS X / IOS / Android等常用)

 

一个汉字对应多少个字节?

2个(GBK)/ 3个(UTF-8)

1.1  GB2312-80编码

1980年发布

两个字节进行编码,编码范围(A1A1-FEFE) (0xa1-0xfe)(0xa1-xfe) 含有6763个汉字和682个字符

1.2 GBK编码

1995年制订

用两字节编码(8140~FEFE)

完全兼容GB2312,共21003个汉字(汉文,蒙文等)

1.3 GB18030-2005 编码

2005年制订共27533个汉字,用两个字节和四字节进行编码,两字节与GBK相同。

四字节: 略

1.4 UNICODE16编码(0x0000 ~ 0xFFFF)

UTF-8编码 (8-bit Unicode Transformation Format)

UNICODE <<---->> UTF-8互转 0000~007F 一字节(ASCII) 0080~07FF 二字节 0800~FFFF 三字节(汉字落在此区)

UNICODE编码:UNICODE16(两字节)、UNICODE32(四字节编码)。

 

可以参考:

Python 文本和字节序列

Python 字节与字节数组 - PyTips 0x08

 

Python学习笔记015——汉字编码

标签:enc   pytho   div   www.   发布   lin   字符串   str   inux   

原文地址:https://www.cnblogs.com/gengyi/p/8438003.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!