码迷,mamicode.com
首页 > 编程语言 > 详细

python3中文字符编码问题

时间:2016-08-18 19:36:55      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:

最近在进行网络爬虫时,被中文的编码问题搞得很头疼,特别是在windows环境下。

 

1.爬取到的中文网页内容,在解析时出现解析错误

一般情况下,我们都是用urllib中的相关函数,进行web页面的爬取,然后进行相关处理。

但是经常在处理中文web时,对文本内容的处理,经常出现一些编码错误。

为了彻底解决这个问题,一般是先编码再解码,但是还是会儿出现一些问题……

后来,我的解决办法:

使用requests库,很好地支持非英文字符。

import requests

response = requests.get(url)

response.encoding = ‘utf-8‘      #显示地制定网页编码,一般情况下可以不用

html = response.text  #html的内容都是用utf-8的编码规则编码的

bsobj = BeautifulSoup(html, ‘html.parser‘)

 

2.中文编码输出到文件中

只需在打开文件时,传入相应的关键字参数即可

fileobj = open(file,‘w‘,encoding=‘utf-8‘)

其它流程不变

python3中文字符编码问题

标签:

原文地址:http://www.cnblogs.com/flyinghorse/p/5785023.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!