码迷,mamicode.com
首页 > 编程语言 > 详细

Python3 urllib抓取指定URL的内容

时间:2014-12-07 20:19:36      阅读:222      评论:0      收藏:0      [点我收藏+]

标签:blog   http   ar   使用   sp   java   strong   on   数据   

最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。

Python爬虫主要使用的是urllib模块,Python2.x版本是urllib2,很多博客里面的示例都是使用urllib2的,因为我使用的是Python3.3.2,所以在文档里面没有urllib2这个模块,import的时候会报错,找不到该模块,应该是已经将他们整合在一起了。

下面是一个简单的代码示例:

 

[python] view plaincopy
 
  1. #encoding:UTF-8  
  2. import urllib.request  
  3. def getdata():  
  4.     url="http://www.baidu.com"  
  5.     data=urllib.request.urlopen(url).read()  
  6.     print(data)  
  7.   
  8. getdata()  

结果:

 

bubuko.com,布布扣

中文转码,修改一下代码:

 

[python] view plaincopy
 
  1. #encoding:UTF-8  
  2. import urllib.request  
  3. def getdata():  
  4.     url="http://www.baidu.com"  
  5.     data=urllib.request.urlopen(url).read()  
  6.     z_data=data.decode(‘UTF-8‘)  
  7.     print(z_data)  
  8.   
  9. getdata()  

结果如下:

 

bubuko.com,布布扣

 

研究Python到现在有差不多一周的时间这样,由于是刚入门,所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。

好了,以后再慢慢研究。欢各路前辈指导。

Python3 urllib抓取指定URL的内容

标签:blog   http   ar   使用   sp   java   strong   on   数据   

原文地址:http://www.cnblogs.com/fclbky/p/4149748.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!