标签:进制 覆盖 -- 包装 英文字母 文件操作 映射 磁盘 大脑
1.计算机五大部件(冯诺依曼体系):输入、输出、内存memory、cpu(运算器单元(核心)(心脏)、控制器单元(大脑))。在主板上焊接的东西,叫内部存储芯片不同于内存。7.【中文信息化过程。Gbk等价 cp93编码页,输出字符或者图形,是真正的01 还是字符。由此出现了Ascii码。信息化。好处在于统计时,计算机会有推荐。中国字与数字之间建立编码表,台湾出的表叫大五码。一个字节被占完,用的是两个字节描述中文。一个字节256中变化,两个汉字映射到汉字上去。告诉你是几个字符,它就只是字节组成的序列。去按照字节去理解就不能当字符了。97当字符来理解是a。编码变又覆盖了Ascii.0-127都留着了。现在编码表扩展了。65535中状态,单字节肯定不够,中文是用不掉两个字节的。你得告诉我查哪张表,对应查看中文。但只是都覆盖127个(包含)。各国各自成一套体系。
【冲突-->unicode】你要夹杂跟你这个编码表冲突的,你这么写到一片文档。不能使用与他冲突的编码表。编码表已经阻碍交流,后来,unicode系统,对全世界所有文字规定编码范围,整合到编码体系中了。给你gbk挪位置了。照顾到已使用的一部分数字范围。所以一部分是要做映射的。你换到unicode对应的是谁,你要映射,因为范围已经改变过了。现在这些库已经帮你改变过了。没有推行太好。10:09.全部是双字节,太占内存。
【utf】由unicode(全是双字节)转化而来,是传输标准。utf-8.每8位做一次传输,所以叫-8。好处:英文字母Ascii依然是占一个字节,与unicode做转换。中文是三字节,是变长字节定义的,多字节编码系统。1,2,3,4字节。常见汉字范围都在3字节范围。gbk下是占两字节。wins占2字节,所以坚持使用gbk,你传输的时候转成utf-8就行了。转的时候内部映射过去就可以了。有的网页显示,utf-8,gbk。浏览器会自动给你选择,你在网页中选错了标准,就出现乱码。文本文件与编码相关。编码不能给错,处理文本文件时。codepage映射到。按字节和字符理解分别是什么,要查表。
Cp936指的是中文gbk编码。如何编很重要。文本模式给人看,二进制的给机器看。
下左16进制。右边是用utf-8打开的兼容了Ascii。文本模式下与编码关系大。文本映射成字符。
8.(1)【mode--w】在w模式下打开文件F = open(‘test’, ‘w’)只读模式,用read打不开。默认是只读打开。有的话再write的话清空。
写入后不一定是立即写磁盘,关闭后一定可以看到的,因为close后相当于又做了一次倾倒进buffer的操作。是攒够了才写入的。背后有一个叫buffer缓冲的东西。
如果写open(‘test’, ‘w’)
(2)【mode--x】在x模式下打开文件(可写的模式):要求文件不存在,要是有,又在x下回抛异常,不支持读。一般用眼ls看...很少用x判断存不存在。Rm - rf删掉再创建才可以。
(3)【mode--a追加模式】写模式,不支持读。不存在则创建。
文件打开后,然后write,在尾部追加数据,不关心文件是否存在。
标签:进制 覆盖 -- 包装 英文字母 文件操作 映射 磁盘 大脑
原文地址:http://blog.51cto.com/13889496/2169267