Python里面的字符一般默认为Unicode字符,属于str类型;而编码则是将字符转换成字节流的过程,反之解码是将字节流解析为字符的过程。 所谓的字节流,在pyhton里面,属于bytes类型。 1. python有两种方式实现编码和解码: encode 和 decode 方法:encode()函 ...
分类:
编程语言 时间:
2020-05-21 22:27:35
阅读次数:
74
在读取桌面文件的时候一直报错:(unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 一开始写的: xlsx = pd.ExcelFile('C:\Us ...
分类:
编程语言 时间:
2020-05-20 12:38:14
阅读次数:
69
Base64编码常作为电子邮件的传输编码,将邮件内容编码成ascii码进行传输。 Python和Mysql中都提供了base64编码和解码的函数。 Python:直接使用字符串编码会报错TypeError(原因:python3中字符都为unicode编码,而b64encode函数的参数为byte类型 ...
分类:
数据库 时间:
2020-05-19 23:15:15
阅读次数:
137
刚刚在输入的时候突然发生了这样一件事。当我输入10112时,一开始是乱码,后来复制了一下符号,就输入成功,不再是乱码。但过了一会后,接着输入的就又是乱码了。以上的输入都是在QQ的聊天框。 ①??????①?①? 目前看到的确定alt+数字输入的Unicode码,虽然目前还不知道是怎么回事造成这个样子 ...
①ASCII码中:一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。 ②UTF-8编码中:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。 ③Unicode编码 ...
分类:
其他好文 时间:
2020-05-18 18:49:53
阅读次数:
86
为了解决存储和网络的传输的问题,出现了UTF,即对unicode进行转化 Utf-8:使用1,2,3,4个字节表示所有字符,优先使用1个字符,无法满足空间则增加到2 --> 3 -- > 4 Utf-16:使用2,4个字节表示所有字符;优先使用2个字节,否则使用4个字节表示 Utf-32:使用4个字 ...
分类:
其他好文 时间:
2020-05-18 12:12:10
阅读次数:
68
Tesseract-ocr可以OCR识别藏文、梵文,识别为Unicode字符,效果还不错 1、下载Windows安装版 Windows安装版地址:https://github.com/UB-Mannheim/tesseract/wiki 所有版本下载地址: https://digi.bib.uni- ...
前面章节中我们已经学会了如何用 Python 输出 "Hello, World!",英文没有问题,但是如果你输出中文字符 "你好,世界" 就有可能会碰到中文编码问题。 Python 文件中如果未指定编码,在执行过程会出现报错: 以上程序执行输出结果为: Python中默认的编码格式是 ASCII 格 ...
分类:
编程语言 时间:
2020-05-17 16:01:17
阅读次数:
77
JSON Lines文本文件格式的文档 本页描述JSON Lines文本格式,也称为换行符分隔的JSON。JSON Lines是一种方便的格式,用于存储可以一次处理一条记录的结构化数据。它与Unix样式的文本处理工具和Shell管道一起很好地工作。这是日志文件的绝佳格式。这也是在协作流程之间传递消息 ...
分类:
Web程序 时间:
2020-05-16 19:07:53
阅读次数:
87
[TOC] 字符集 Unicode 是世界通用字符集,可以表示世界上所有的字符,长度固定为两个字节,16位 字符编码 ASCLL码 单字节编码,因为一开始计算机编码的需求比较简单,只需要表示出26位英文字母和一些常用字符,不需要用到256位,所以最后一位固定为0,其余七位表示字符。 GB2312 最 ...
分类:
其他好文 时间:
2020-05-16 18:59:36
阅读次数:
79