码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫系列:判断目标网页编码的几种方法

时间:2018-03-09 12:36:46      阅读:244      评论:0      收藏:0      [点我收藏+]

标签:abd   python爬虫   AC   iad   结构   区别   英文   内容   action   

在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。

技术分享图片

代码运行结果:

技术分享图片

从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。http://www.aibbt.com/a/18106.html

Python爬虫系列:判断目标网页编码的几种方法

标签:abd   python爬虫   AC   iad   结构   区别   英文   内容   action   

原文地址:https://www.cnblogs.com/5rjscn/p/8533196.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!