废话不多说,先上代码: 结果如下: 由于时间原因,我只抓取了“煎蛋网”上的十个页面的美女图片罢了,大家可以更改其中的循环次数,可以抓取很多,这里我只抓取了250个图片,一共51.2kb,哈哈,可以很好的欣赏美女图片了,看的都要流鼻血了。。。 当然,此程序还是不够完善,只是我初学python网络爬虫的 ...
分类:
编程语言 时间:
2017-06-26 00:42:48
阅读次数:
1011
前面介绍的scrapy爬虫只能爬取单个网页。如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页 对应的网页代码: 我们再看进入后面章节的网页,可以看到增加了上一页 对应的网页代码: 通过对比上面的网页代码可以看到. 上一页,目录, ...
分类:
编程语言 时间:
2017-06-25 11:11:27
阅读次数:
217
Shell调试: 进入项目所在目录,scrapy shell “网址” 如下例中的: scrapy shell http://www.w3school.com.cn/xml/xml_syntax.asp 可以在如下终端界面调用过程代码如下所示: 相关的网页代码: 我们用scrapy来爬取一个具体的网 ...
分类:
编程语言 时间:
2017-06-20 22:28:01
阅读次数:
271
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果: 下面介绍下HTMLParser的用法: ...
分类:
编程语言 时间:
2017-06-18 21:52:03
阅读次数:
309
这个提示的意思是没有给BeautifulSoup中传递一个解析网页的方式。有2中方式可以使用:html.parser以及lxml。这里我们先用html.parser,lxml后面再讲。代码改成如下就OK了 在解析网页前,我们先来看几个概念,标签,属性。 比如下面的网页结构。<a href=”1.sh ...
分类:
编程语言 时间:
2017-06-17 17:18:35
阅读次数:
626
目录 目录 Python网络爬虫与信息提取 淘宝商品比价定向爬虫 目标获取淘宝搜索页面的信息 理解淘宝的搜索接口翻页的处理 技术路线requests-refootnote 代码如下 股票数据定向爬虫 列表内容 爬取网站原则 代码如下 代码优化 目录 Python网络爬虫与信息提取 淘宝商品比价定向爬 ...
分类:
编程语言 时间:
2017-06-06 01:03:56
阅读次数:
704
如果要爬取的内容嵌在网页源代码中的话,直接下载网页源代码再利用正则表达式来寻找就ok了。下面是个简单的例子: 注意,decode方法有时候可能会报错,例如 具体原因不知道,可以用decode的一个参数,如下 replace表示遇到不能转码的字符就将其替换成问号还是什么的。。。这也算是一个折中的方法吧 ...
分类:
编程语言 时间:
2017-06-03 21:47:27
阅读次数:
274
获取http://www.qiushibaike.com/textnew/的所有段子,并且按照页码保存到本地一共35页。二话不说上代码,正则表达式有待研究。网站源码片段: <a href="/users/32215536/" target="_blank" title="吃了两碗又盛"> <h2>吃 ...
分类:
编程语言 时间:
2017-05-27 19:14:23
阅读次数:
283
网络爬虫,我们可以把它理解为在网络上面爬行的一只蜘蛛,互联网就比如一张大网,而爬虫就像一只蜘蛛在这上面爬来爬去, 遇到资源它就可以把它抓取下来。 在浏览器中输入一个网址,即打开一个网页后,我们可以看到这个页面上有好多文字、图片等,这个过程其实就是用户输入一个网址后,向服务器发出了一个请求,服务器经过 ...
分类:
编程语言 时间:
2017-04-08 13:28:46
阅读次数:
209
使用已登录的Cookie访问登录的网站在网络爬虫中经常使用 1.使用浏览器手动登录网站,点击你需要访问的页面,比如我想访问的资源地址是 http://27.24.159.151:8005/student/GradeQueryPersonal.aspx 访问之后,使用F12启动调试 可以看到访问该资源 ...
分类:
编程语言 时间:
2017-04-08 11:34:08
阅读次数:
1005