七、编码、文件

时间：2018-05-20 18:50:08 阅读：174 评论：0 收藏：0 [点我收藏+]

标签：round bit 简单国家 display 是你稳定性字母 pychar

一、编码

1.1：内存和硬盘

CPU：从内存中读取程序的指令，然后解码并运行程序；
硬盘：永久保存数据；
内存：临时存储数据，任何程序运行都需事先加载到内存；
应用软件：调用操作系统提供的接口；间接地使用计算机硬件，加载到内存中；
操作系统：控制硬件，提供系统调用接口，加载到内存中；

1.2：文本编辑器存取文件的原理　　

　　例如（nodepad++,pycharm,word等），打开编辑器就可以启动一个进程，是在内存中的，所以在编辑器编写的内容也都是存放在内存中的，断电后数据就丢失了。因而需要保存在硬盘上，点击保存按钮或快捷键，就把内存中的数据保存到了硬盘上。在这一点上，我们编写的py文件（没有执行时），跟编写的其他文件没有什么区别，都只是编写一堆字符而已。

1.3：python解释器执行py文件的原理

例如python 、test.py：

　　第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器；

　　第二阶段：python解释器相当于文本编辑器，去打开test.py，从硬盘上将test.py的文件内容读入到内存中；

　　第三阶段：python解释器执行刚刚加载到内存中的test.py的代码（在该阶段，即执行时，才会识别python的语法，执行到字符串时，会开辟内存空间存放字符串）；

python解释器与文本编辑器相同点：python解释器是解释执行文件内容的，因而python解释器具备读py文件的功能，这一点与文本编辑器一样；

python解释器与文本编辑器不同点：文本编辑器将文件内容读入内存后，是为了显示/编辑，而python解释器将文件内容读入内存后，是为了执行（识别python的语法）；

1.3：编码解释

　　计算机想要工作必须通电，高低电平（高电平即二进制数1，低电平即二进制数0），计算机只认识数字，让计算机读懂人类的字符就必须经过：字符---------（翻译过程）-------------数字，实际就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码。

　　1.一个python文件中的内容是由一堆字符组成的（python文件未执行时）

　　2.python中的数据类型字符串是由一串字符组成的（python文件执行时）

1.5：编码的发展史

阶段一：

现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII；
ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符；
ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了（英文字符/键盘的所有其他字符）；
后来为了将拉丁文也编码进了ASCII表，将最高位也占用了；

阶段二:

为了满足中文，中国人定制了GBK；
GBK:2Bytes代表一个字符，为了满足其他国家，各个国家纷纷定制了自己的编码，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里；

阶段三：

各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码；
于是产生了unicode，　统一用2Bytes代表一个字符，　2**16-1=65535，可代表6万多个字符，因而兼容万国语言；
但对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间（二进制最终都是以电或者磁的方式存储到存储介质中的）；
于是产生了UTF-8，对英文字符只用1Bytes表示，对中文字符用3Bytes；

阶段四：

unicode：简单粗暴，多有的字符都是2Bytes,优点是字符--数字的转换速度快；缺点是占用空间大。
utf-8:精准，可变长，优点是节省空间；缺点是转换速度慢，因为每次转换都需要计算出需要多长Bytes才能够准确表示。
内存中使用的编码是unicode，用空间换时间（程序都需要加载到内存才能运行，因而内存应该是越快越好）
硬盘中或网络传输用utf-8，保证数据传输的稳定性。

1： 所有程序，最终都要加载到内存，程序保存到硬盘不同的国家用不同的编码格式，但是到内存中我们为了兼容万国（计算机可以运行任何国家的程序原因在于此），统一且固定使用unicode，
2： 这就是为何内存固定用unicode的原因，你可能会说兼容万国我可以用utf－8啊，可以，完全可以正常工作，之所以不用肯定是unicode比utf－8更高效啊（uicode固定用2个字节编码
3：utf－8则需要计算），但是unicode更浪费空间，没错，这就是用空间换时间的一种做法，而存放到硬盘，或者网络传输，都需要把unicode转成utf－8，
4： 因为数据的传输，追求的是稳定，高效，数据量越小数据传输就越靠谱，于是都转成utf－8格式的，而不是unicode。

View Code

1.6：字符编码转换

文件从内存刷到硬盘的操作简称存文件
文件从硬盘读到内存的操作简称读文件
乱码：存文件时就已经乱码或者存文件时不乱码而读文件时乱码

技术分享图片

ascii：数字，字母 特殊字符。
      字节：8位表示一个字节。
      字符：是你看到的内容的最小组成单位。
        abc ： a 一个字符。
        中国：中 一个字符。
          a : 0000 1011

unicode: 万国码
    起初：   
　　　　a : 0000 1011 0000 1011
       中: 0000 1011 0000 1111
    升级：   
　　　　a : 0000 1011 0000 1011 0000 1011 0000 1011
       中: 0000 1011 0000 1111 0000 1011 0000 1011

utf-8：最少用8位表示一个字符。
         a: 0000 1011
      欧洲： 0000 1011 0000 1011
     亚洲中：0000 1011 0000 1011 0000 1011

gbk：国标
         a: 0000 1011
        中文：0000 1011 0000 1011 两个字节。

不同编码之间的二进制是不能互相识别的。
对于文件的存储，及传输不能是unicode的编码。

    python3x
        int
        bool
        bytes:内部编码方式：(非unicode，utf-8,gbk.gb2312...)
        str : 内部编码方式unicode
        list
        dict
        tuple

bytes:内部编码方式：(非unicode，utf-8,gbk.gb2312...)
str : 内部编码方式unicode

对于字母

str：

表现形式：s1 = ‘alex‘
内部编码：unicode

bytes：

表现形式：s2 = b‘alex‘
内部编码：非unicode

对于中文

str：

表现形式：s1 = ‘中国‘
内部编码：unicode

bytes：

表现形式：b1 = b‘\xe4\xb8\xad\xe5\x9b\xbd‘
内部编码：非unicode

例子：

unicode和utf-8之间的转换：

s1 = ‘alex‘
#将alex从unicode编码转换为utf-8
b1 = s1.encode(‘utf-8‘)
print(b1)
#输出结果：
b‘alex‘

s1 = ‘alex‘
b1 = b‘alex‘
print(s1.capitalize())
print(b1.capitalize())
#输出结果：
Alex
b‘Alex‘

s2 = ‘中国‘
b2 = s2.encode(‘utf-8‘)
print(b2)
#输出结果：
b‘\xe4\xb8\xad\xe5\x9b\xbd‘

unicode----->utf-8------>unicode

s1 = ‘alex‘
# str ---> bytes encode 编码
b1 = s1.encode(‘utf-8‘)
print(b1)
#bytes---> str  decode 解码
s2 = b1.decode(‘utf-8‘)
print(s2)
#输出结果：
b‘alex‘
alex

Unicode、gbk、utf-8之间的转换：

s1 = ‘alex‘
b2 = s1.encode(‘gbk‘)
s3 = b2.decode(‘gbk‘)
print(b2)
print(s3)
#输出结果：
b‘alex‘
alex

s1 = ‘alex‘
b1 = s1.encode(‘utf-8‘)
s2 = b1.decode(‘gbk‘)
print(s2)
#输出结果：
alex

utf-8、gbk之间的转换

s4 = ‘中国‘
b4 = s4.encode(‘utf-8‘) # utf-8 bytes
print(b4)
b6 = b4.decode(‘utf-8‘).encode(‘gbk‘)
print(b6)
#输出结果：
b‘\xe4\xb8\xad\xe5\x9b\xbd‘   #bytes类型的utf-8一个中文3个字节
b‘\xd6\xd0\xb9\xfa‘         #bytes类型的gbk一个中文2个字节

二、文件

七、编码、文件

标签：round bit 简单国家 display 是你稳定性字母 pychar

原文地址：https://www.cnblogs.com/bingo1024/p/9064138.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行