1.pyquery简介
python中的pyquery模块语法与jquery相近,可用来解析HTML文件。官方文档地址:https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素,使得解析HTML文件极为方便。
2.实例
2.1 爬取豆瓣电影页面中主演
右键chrome中的审查元素,观察到主演的标...
分类:
编程语言 时间:
2014-07-22 23:02:54
阅读次数:
455
一、网络爬虫的定义网络爬虫,即Web
Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这...
分类:
编程语言 时间:
2014-05-27 00:15:52
阅读次数:
328
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,
然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:
编程语言 时间:
2014-05-27 00:12:25
阅读次数:
323
1. 科普
通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。
抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...
分类:
编程语言 时间:
2014-05-07 02:41:56
阅读次数:
368