码迷,mamicode.com
首页 > 编程语言 > 详细

python3中urllib.request.urlopen.read读取的网页格式问题

时间:2016-05-04 22:30:17      阅读:2394      评论:0      收藏:0      [点我收藏+]

标签:

#!/usr/bin/env python3
#-*- coding: utf-8 -*-
#<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>

import urllib.request
str0 =r <a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>
title0=str0.find(r<a title)
print(title0)
href0=str0.find(rhref)
print(href0)
html0=str0.find(rhtml)
print(html0)
url=str0[href0+6:html0+4]
print(url)
content = urllib.request.urlopen(url).read()#当该语句读取的返回值是bytes类型时,要将其转换成utf-8才能正常显示在python程序中

print(type(content))#此时为bytes类型
print(content.decode(utf-8))#需要进行类型转换才能正常显示在python中
print(type(content.decode(utf-8)))#返回解码后的类型,此时为str类型
filename= url[-20:]
open(filename,wb).write(content)#在写文件时,要写成bytes类型的文件‘wb’

初学python,所用python3.5,根据教程写代码,所抓取的网页为新浪博客中的一篇文章,在使用urllib.request.urlopen(url).read()的返回值时,发现content的类型为bytes,如果不进行类型转换的话,在python打印时是乱码。

解决方案是将content解码成utf-8类型再打印,输出成文件时要以‘wb’写成字节文件。

其中在谷歌浏览器中审查元素页面打开时,head位置显示的类型是utf-8,但是实际python程序读取的格式却为bytes类型,此处不解。

python3中urllib.request.urlopen.read读取的网页格式问题

标签:

原文地址:http://www.cnblogs.com/StocksZ/p/5459971.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!