WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。 采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来实现多线程,创建链接池,自动解析网页代码获取请求链接,封装正则表达式等等。 但是如果使用框架,就不再 ...
分类:
编程语言 时间:
2017-04-24 17:14:47
阅读次数:
654
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫主要应对的问题:1.http请求 2.解析html源码 3.应对反爬机制。 觉得爬虫挺有意思的,恰好看到知乎有人分享的一个爬虫小教程:https://zhuanlan.zhihu.com/p/20410446 立马学起! 主要 ...
分类:
编程语言 时间:
2017-04-16 21:42:47
阅读次数:
311
本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录。旨在进行更多的爬虫实践练习以及模块学习。 工具 1.Python 3.5 2.BeautifulSoup、xlwt模块 开始动手 首先查看目标网页的url: https://book. ...
分类:
编程语言 时间:
2016-11-15 08:19:12
阅读次数:
268
我们经常浏览网页,有时候看到一些精美的图片,想下载下来保存,但是太多,如果一张一张的下载,那太费时了;如果你喜欢看书,看小说,那么浏览小说网站是常有的事,但是有时候我们不能联网,比如农村老家,如果还想看,我们有没有想过一次性保存到手机里。网站上的小说都是一章一个页面,难道要我们一次一个章节复制粘贴保 ...
之前用nodejs的cheerio来做,不过nodejs的异步回掉太恶心了,受不了。 后来发现了php的htmlpagedom库,类似jquery的选择器语法,而且支持中文。 安装 composer install wa72/htmlpagedom 1、读取一个简单的网页,如: 2、如何分析,使用j ...
分类:
Web程序 时间:
2016-07-11 12:01:45
阅读次数:
170