代码点(Code Point):在 Unicode 代码空间中的一个值,取值 0x0 至 0x10FFFF,代表一个字符。代码单元(Code Unit):在具体编码形式中的最小单位。比如 UTF-16 中一个 code unit 为 16 bits,UTF-8 中一个 code unit 为 8 b ...
分类:
编程语言 时间:
2020-05-23 16:23:32
阅读次数:
65
Python 中的数据结构是通过某种方式组织在一起的数据元素的集合,这些数据元素可以是数字、字符、甚至可以是其他数据结构 在 Python 中,最基本的数据结构是序列(列表和元组),序列中的每个元素都有一个序号(元素的具体位置),这个序号叫索引,索引下标从 0 开始,以此类推...... 本文着重介 ...
分类:
编程语言 时间:
2020-05-23 12:59:19
阅读次数:
58
Windows Teminal是一款新式、快速、高效、强大的终端应用程序,适用于命令行工具、命令提示符、PowerShell、WSL(Linux子系统)等等的Shell用户,主要功能包括多选项卡、窗格、Unicode/UTF-8字符支持、GPU 加速文本渲染引擎,以及自定义主题、样式和配置等等。 ...
Python里面的字符一般默认为Unicode字符,属于str类型;而编码则是将字符转换成字节流的过程,反之解码是将字节流解析为字符的过程。 所谓的字节流,在pyhton里面,属于bytes类型。 1. python有两种方式实现编码和解码: encode 和 decode 方法:encode()函 ...
分类:
编程语言 时间:
2020-05-21 22:27:35
阅读次数:
74
在读取桌面文件的时候一直报错:(unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 一开始写的: xlsx = pd.ExcelFile('C:\Us ...
分类:
编程语言 时间:
2020-05-20 12:38:14
阅读次数:
69
Base64编码常作为电子邮件的传输编码,将邮件内容编码成ascii码进行传输。 Python和Mysql中都提供了base64编码和解码的函数。 Python:直接使用字符串编码会报错TypeError(原因:python3中字符都为unicode编码,而b64encode函数的参数为byte类型 ...
分类:
数据库 时间:
2020-05-19 23:15:15
阅读次数:
137
刚刚在输入的时候突然发生了这样一件事。当我输入10112时,一开始是乱码,后来复制了一下符号,就输入成功,不再是乱码。但过了一会后,接着输入的就又是乱码了。以上的输入都是在QQ的聊天框。 ①??????①?①? 目前看到的确定alt+数字输入的Unicode码,虽然目前还不知道是怎么回事造成这个样子 ...
①ASCII码中:一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。 ②UTF-8编码中:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。 ③Unicode编码 ...
分类:
其他好文 时间:
2020-05-18 18:49:53
阅读次数:
86
为了解决存储和网络的传输的问题,出现了UTF,即对unicode进行转化 Utf-8:使用1,2,3,4个字节表示所有字符,优先使用1个字符,无法满足空间则增加到2 --> 3 -- > 4 Utf-16:使用2,4个字节表示所有字符;优先使用2个字节,否则使用4个字节表示 Utf-32:使用4个字 ...
分类:
其他好文 时间:
2020-05-18 12:12:10
阅读次数:
68
Tesseract-ocr可以OCR识别藏文、梵文,识别为Unicode字符,效果还不错 1、下载Windows安装版 Windows安装版地址:https://github.com/UB-Mannheim/tesseract/wiki 所有版本下载地址: https://digi.bib.uni- ...