Python网络爬虫之网页抓取(一)

时间：2017-04-08 13:28:46 阅读：209 评论：0 收藏：0 [点我收藏+]

　　网络爬虫，我们可以把它理解为在网络上面爬行的一只蜘蛛，互联网就比如一张大网，而爬虫就像一只蜘蛛在这上面爬来爬去，遇到资源它就可以把它抓取下来。

　　在浏览器中输入一个网址，即打开一个网页后，我们可以看到这个页面上有好多文字、图片等，这个过程其实就是用户输入一个网址后，向服务器发出了一个请求，服务器经过解析后，发送给浏览器HTML、JS、CSS等文件，浏览器解析后，就出现了许许多多的文字、图片等。因此，我们看到的网页实质是由HTML代码构成的，只不过经过浏览器的解释后，将这些代码隐藏起来了；爬虫要爬的就是这些内容，通过分析和过滤这些HTML代码，实现对文字、图片等资源的获取。

　　爬虫爬取数据时必须要有一个明确的URL才可以获取数据，URL即统一资源定位符，就是我们常说的网址。爬虫爬取网页，其实就是根据URL来获取它的网页信息。对于静态网页，下面有两种简单的方法可以实现网页信息的抓取。

1. 调用urillib2库里面的urlopen方法，传入一个URL(即网址)，执行urlopen方法后，返回一个response对象，返回信息便被保存在这里面，通过response对象的read方法，返回获取到的网页内容，代码如下：

1 import urllib2
2  
3 response = urllib2.urlopen("http://www.cnblogs.com/mix88/")
4 print response.read()

2. 通过构造一个request对象，urlopen方法传入一个request请求来实现网页的抓取，代码如下：

1 import urllib2
2  
3 request = urllib2.Request("http://www.cnblogs.com/mix88/")
4 response = urllib2.urlopen(request)
5 print response.read()

Python网络爬虫之网页抓取(一)

标签：信息 log .com 资源用户简单构造 request请求理解

原文地址：http://www.cnblogs.com/mix88/p/6681641.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行