标签:乱码 查看 nic 字符集 中文 unicode 两种 sci 原理
ASCII -->latin1 -->unicode编码
字符 --> 数字编码存在一个对应的关系
使用内置函数chr和ord能够查看数字二号字符的对应关系
ord获取字符对应的编码;chr根据编码获取对应的字符
print(ord(‘a‘))
print(chr(65))
print(ord(‘你‘))
print(chr(12371))
‘‘‘
97
A
20320
こ
‘‘‘
print(‘你‘.encode(‘gbk‘))
print(‘你‘.encode(‘big5‘))
print(‘你‘.encode(‘utf-8‘))
‘‘‘
b‘\xc4\xe3‘
b‘\xa7A‘
b‘\xe4\xbd\xa0‘
‘‘‘
x = b‘\xe4\xbd\xa0‘
print(x.decode(‘utf8‘))
‘‘‘
你
‘‘‘
原理:汉字写入的方式和读取的方式采用的两种不同的字符编码集,所以打开之后会乱码。
# 把‘你好’使用gbk编码
y = ‘你好‘.encode(‘utf-8‘)
print(y)
# gbk一个汉字占两个字节
print(y.decode(‘gbk‘))
print(y.decode(‘utf-8‘))
‘‘‘
b‘\xe4\xbd\xa0\xe5\xa5\xbd‘
浣犲ソ
你好
‘‘‘
txt 纯文本乱码,修改字符集 word 记事本打开
标签:乱码 查看 nic 字符集 中文 unicode 两种 sci 原理
原文地址:https://www.cnblogs.com/moumoonmm/p/13052578.html