首页
Web开发
Windows程序
编程语言
数据库
移动开发
系统相关
微信
其他好文
会员
首页
>
编程语言
> 详细
浅析Python编码问题
时间:
2015-02-06 16:28:21
阅读:
220
评论:
0
收藏:
0
[点我收藏+]
标签:
浅析Python编码问题
http://www.th7.cn/Program/Python/201303/128631.shtml
2013-03-11 07:49:40--点击数:40
更多0
? 首先这些问题只有在python2.X版本出现,因为3.X版本中python环境就只有unicode类型的字符串了,即所有程序中处理的都会自动转换 成unicode字符串。那么2.X的python程序开发中如何避免和理清编码问题呢?首先要保持一个良好的统一规则,不然一切都是白扯了,统一都用 utf-8是最好的。
1.处理非ASCII编码
Python的默认编码是ascii编码,当python中间处理非ASCII编码时,经常会出现如下错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)
0x??是超出128的数字
我们常在文件开头加上编码属性:# -*- coding=utf8 -*-
所以无法处理其他编码时需要设置python的默认编码为所需要的编码,主要有以下2个方法:
01. 首选方法
import sys reload(sys)#重新加载sys
sys.setdefaultencoding('utf-8')#看你的编码需要utf-8还是gb2312
为什么要在调用setdefaultencoding时必须要先reload一次sys模块呢?因为这里的import语句其实并不是sys的第一次导入 语句,也就是说这里其实可能是第二、三次进行sys模块的import,这里只是一个对sys的引用,只能reload才能进行重新加载;那么为什么要重 新加载,而直接引用过来则不能调用该函数呢?因为setdefaultencoding函数在被系统调用后被删除了,所以通过import引用进来时其实 已经没有了,所以必须reload一次sys模块,这样setdefaultencoding才会为可用,才能在代码里修改解释器当前的字符编码。
02.方法2- 全局设置
在Python的Lib/site-packages文件夹下新建一个sitecustomize.py文件(sitecustomize.py是一个特殊文件, Python 在启动时将尝试加载该文件,因此所有代码都将运行该文件),即可自动设置代码。
import sys
sys.setdefaultencoding('gb2312')
3. 检查当前编码
import sys
sys.getdefaultencoding()
浅析Python编码问题 - InSun - Minghacker is Insun
2.字符编码判断
通过chardet可以实现对字符串/文件的编码检测。
01. chardet的安装
通过easy_install工具可以实现chardet的快速安装,命令如下:easy_install.exe chardet
02. chardet的使用
chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。
import urllib
import chardet
rawdata = urllib.urlopen('http://www.sina.com.cn/').read()
print chardet.detect(rawdata)
#result: {'confidence': 0.99, 'encoding': 'GB2312'}
3.文件处理的解码
response = urllib.urlopen(url)
text = response.read().decode("utf-8")#add by insun
按照第一步设置了utf8编码 然后写了个抓取豆瓣mp3的程序 存储下来的mp3名字都是乱码 打印出来缺全是正确的中文
娴锛璇.mp3
这时候显然就需要解码
decode("utf-8")
我们不走远 姑且不谈BOM头问题。
4.Python操作Mysql中文乱码问题
Python操作MySQL需要安装Python-MySQL
可以从网上搜索一下,和一般的Python包一样安装
安装好之后,模块名字叫做MySQLdb ,在Window和Linux环境下都可以使用
用下面几个措施,保证MySQL的输出没有乱麻:
1 Python文件设置编码 utf-8 (文件前面加上 #encoding=utf-8)
2 MySQL数据库charset=utf-8
3 Python连接MySQL是加上参数 charset=utf8
4 设置Python的默认编码为 utf-8 (sys.setdefaultencoding(utf-8)
#encoding=utf-8
import sys
import MySQLdb
reload(sys)
sys.setdefaultencoding('utf-8')
db=MySQLdb.connect(user='root',charset='utf8')
cur=db.cursor()
cur.execute('use mydb')
cur.execute('select * from mytb limit 100')
f=file("/home/user/work/tem.txt",'w')
for i in cur.fetchall():
f.write(str(i))
f.write(" ")
f.close()
cur.close()
来自为知笔记(Wiz)
浅析Python编码问题
标签:
原文地址:http://www.cnblogs.com/highroom/p/e874c81400fad4d3fdfaf9d8aae9ead3.html
踩
(
0
)
赞
(
0
)
举报
评论
一句话评论(
0
)
登录后才能评论!
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行
更多
Spring Cloud 从入门到精通(一)Nacos 服务中心初探
2021-07-29
基础的排序算法
2021-07-29
SpringBoot|常用配置介绍
2021-07-29
关于 .NET 与 JAVA 在 JIT 编译上的一些差异
2021-07-29
C语言常用函数-toupper()将字符转换为大写英文字母函数
2021-07-29
《手把手教你》系列技巧篇(十)-java+ selenium自动化测试-元素定位大法之By class name(详细教程)
2021-07-28
4-1 YAML配置文件 注入 JavaBean中
2021-07-28
【python】 用来将对象持久化的 pickle 模块
2021-07-28
马拉车算法
2021-07-28
用Python进行冒泡排序
2021-07-28
友情链接
兰亭集智
国之画
百度统计
站长统计
阿里云
chrome插件
新版天听网
关于我们
-
联系我们
-
留言反馈
© 2014
mamicode.com
版权所有 联系我们:gaon5@hotmail.com
迷上了代码!