码迷,mamicode.com
首页 > 其他好文 > 详细

文件-读取与编码检测

时间:2018-04-14 15:29:07      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:span   file   char   code   读取内容   int   utf8   info   pytho   

 

文件存放在硬盘是以二进制方式存储,读取出来需要对其根据字符编码表进行转换,python3默认以utf-8编码。

utf8三个字节一个字符,gbk两个字节一个字符

文件读取

以utf-8编码打开gbk存储的文件并读取内容

f=open(file=test.txt,mode=r,encoding=utf-8)
data=f.read()
f.close()
print(data)

file:需打开的文件

mode:打开方式

encoding:打开的编码格式

技术分享图片

以gbk方式打开即可正常读取

f=open(file=test.txt,mode=r,encoding=gbk)
data=f.read()
f.close()
print(data)

技术分享图片

文件编码检测

chardet更具编码规律尝试检测文件编码

import chardet

f=open(test.txt,mode=rb)
data=f.read()
f.close()
result=chardet.detect(data)
print(result)

技术分享图片

confidence:编码可信度

encoding:可能的编码

根据可能的编码格式进行解码(decode)

import chardet

f=open(test.txt,mode=rb)
data=f.read()
f.close()
result=chardet.detect(data)
print(result)
#根据chardet检测出来的编码格式进行解码
print(data.decode(gb2312))

技术分享图片

 

文件-读取与编码检测

标签:span   file   char   code   读取内容   int   utf8   info   pytho   

原文地址:https://www.cnblogs.com/yaya625202/p/8831592.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!