码迷,mamicode.com
首页 >  
搜索关键字:webmagic    ( 94个结果
基于webmagic的爬虫小应用--爬取知乎用户信息
最近跟舍友@小疯一起研究爬虫 他写了个小应用-CSDN博客爬虫 有兴趣的朋友可以点进去看看哦~ 一起学习。 一起进步。 听到“爬虫”,是不是第一时间想到python/php ? 多少想玩爬虫的java学习者就因为语言不通而止步。Java是真的不能做爬虫吗? 当然不是。 只不过python的3行代码能解决的问题,而Java要30行。这里推荐大家一个大牛做的java爬虫框架...
分类:Web程序   时间:2016-05-03 18:07:07    阅读次数:573
WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(二)
关于一些基本内容可查看上一篇博客:http://blog.csdn.net/u013082989/article/details/51176073 一、首先看一下爬虫的内容: (1)学科类型、课程、课程对应章节、课程对应参考教材(主要是要将课程章节对应到上一级爬取的课程上,还有就是课程教材的爬取比较麻烦,下面会讲到) 课程章节: 课程教材 教材内容 二、...
分类:数据库   时间:2016-04-20 13:45:39    阅读次数:340
简单的网络爬虫,下载GitHub的头像
基于Web Magic的一个爬虫框架(https://github.com/code4craft/webmagic)开发的,可以下载github的用户的头像。 使用Apache的HttpClient对页面进行请求,用JSoup对下载来的html文档进行过滤找到合适的图片链接,再发送一次HttpReq ...
分类:其他好文   时间:2016-03-31 23:35:09    阅读次数:369
java爬虫框架webmagic
最近需要爬去网站的一些商品,就开始在网上找方法,本来是想着用Python做的,因为以前用Python写过一个小脚本,爬取一个文献网站上的免费文献. 步骤大概是这样的:1,先获取给定URL的html文件,然后在这个文件中用正则表达式匹配出需要的URL(可能含有分页的URL),然后再获取匹配出的URL的
分类:编程语言   时间:2016-02-26 20:43:20    阅读次数:237
webmagic加上了注解支持
今天有个网友在博客回帖,能不能用注解来写一个爬虫?想了想,因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样),ResultItems的key-value形式难免会有点麻烦,何不将抽取和Model合为一体呢?好了!现在爬osc博客只有这点代码了!而且这个对象本身是可以继续使用的!...
分类:Web程序   时间:2016-01-22 03:01:58    阅读次数:257
Selenium来抓取动态加载的页面
一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。但是有些页面是通过js以及ajax动态加载的,例如:花瓣网。这时如果我们直接分析原始页面的html,是得不到有效的信息的。当然,因...
分类:其他好文   时间:2016-01-22 02:59:11    阅读次数:960
当Scheduler拿不到url的 时候,不能立即退出
在webmagic的多线程抓取中有一个比较麻烦的问题:当Scheduler拿不到url的 时候,不能立即退出,需要等到没抓完的线程都运行完毕,没有新url产生时,才能退出。之前使用Thread.sleep来实现,当拿不到url 时,sleep一段时间再取,确定没有线程执行之后,再退出。但是这种方式始...
分类:Web程序   时间:2016-01-21 23:27:51    阅读次数:233
Movie Hell诞生之路
平时电影看的比较多(记得当时学校内网睿思上的电影都快被我看光了),所以觉得应该为这个兴趣做点什么。首先归纳一下过程中涉及到的相关知识点:linux(ubuntu), mysql, spring, mybatis, webmagic(爬虫), js/html/css/jsp, nginx。大概就这么多...
分类:其他好文   时间:2016-01-13 19:33:28    阅读次数:148
基于webmagic的爬虫项目经验小结
分类:Web程序   时间:2015-12-05 17:46:22    阅读次数:1990
《图解HTTP》读书笔记
处于兴趣,最近在学习一个Java的网络爬虫框架webmagic,其实就是用一个程序来把下载任务自动化,比如你想下载一张图片很快,直接右键点击下载就可以了,但如果下载1000张就需要花些时间了。但计算机可以把这一系列步骤自动化,而你只需要制定规则就行了。折腾了几天好不容易入门了,兴冲冲地准备爬取知.....
分类:Web程序   时间:2015-11-21 18:25:10    阅读次数:141
94条   上一页 1 ... 6 7 8 9 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!