码迷,mamicode.com
首页 > 编程语言 > 详细

python笔记

时间:2016-10-23 23:41:01      阅读:182      评论:0      收藏:0      [点我收藏+]

标签:byte   笔记   ascii   中文   bytes   扩展   client   状态   标准   

字符编码与encode、decode的问题:

 用8个开关表示世界万物

  ASCII :  American Standard Code for Information Interchange,美国信息互换标准代码,只用了前7位,127个状态

  GB2312:是对ASCII的中文扩展(前127不变,大于127的+后边另一个大于127的表示中文)两个字节表示一个汉字

  GBK:包括了GB2312 的所有内容,增加了近20000个新的汉字(包括繁体字)和符号

  GB18030:加了几千个新的少数民族的字,GBK的扩展

  以上的汉字编码标准叫做“DBCS“(Double Byte Character Set 双字节字符集)

  Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “unicode“。unicode中“字节”表示8位的物理存储单元,“字符”表示文化符号,一个汉字是一个字符,占两个字节;

 byte(字节流)——>str:decode()方法;读取网页上的信息a=urllib.request.urlopen(url);a是一个“<class ‘http.client.HTTPResponse‘>”,a.read()读取网页上的内容,读取的内容是bytes字节流

python笔记

标签:byte   笔记   ascii   中文   bytes   扩展   client   状态   标准   

原文地址:http://www.cnblogs.com/timleee/p/5991178.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!