码迷,mamicode.com
首页 > Web开发 > 详细

获取任意网页的编码格式

时间:2017-08-07 14:26:50      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:body   get   arc   arch   准确率   使用   网页   meta   set   

如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99%
content=requests.get(url).content
bianma_group=re.search(‘<meta[\s\S]*?charset="?([a-zA-Z0-9\-]*)‘, respbody0, re.IGNORECASE)
if bianma_group:
print bianma_group.group(1)

获取任意网页的编码格式

标签:body   get   arc   arch   准确率   使用   网页   meta   set   

原文地址:http://www.cnblogs.com/ydf0509/p/7298863.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!