标签:chinese als nic 汉字 进制 编码 二进制 return 机器
python在执行代码过程是不知道这个字符是什么意思的、是否是中文,而是把所有代码翻译成二进制也就是000111这种形式,机器可以看懂的语言。
也就是在计算机中所有的字符都是有数字来表示的。汉字也是有数字表示的,Unicdoe4E00~9FFF表示中文,所以如果一个字符的utf-8编码在这个区间内,就说明它是中文。
中文编码对应表
GBK UTF16 UTF8 汉字
D2BB 4E00 E4 B8 80 一
B6A1 4E01 E4 B8 81 丁
C6DF 4E03 E4 B8 83 七
CDF2 4E07 E4 B8 87 万
.
.
.
EDE8 9F9B E9 BE 9B 龛
B9EA 9F9F E9 BE 9F 龟
D9DF 9FA0 E9 BE A0 龠
python判断中文的方式:
(1)
def is_Chinese(ch): if ‘\u4e00‘ <= ch <= ‘\u9fff‘: return True return False
(2)
def is_chinese(ch): if ch < ‘一‘ or ch > ‘龥‘: return False return True
标签:chinese als nic 汉字 进制 编码 二进制 return 机器
原文地址:https://www.cnblogs.com/erbaodabao0611/p/10103996.html