最近跟舍友@小疯一起研究爬虫
他写了个小应用-CSDN博客爬虫 有兴趣的朋友可以点进去看看哦~
一起学习。
一起进步。
听到“爬虫”,是不是第一时间想到python/php ? 多少想玩爬虫的java学习者就因为语言不通而止步。Java是真的不能做爬虫吗?
当然不是。
只不过python的3行代码能解决的问题,而Java要30行。这里推荐大家一个大牛做的java爬虫框架...
分类:
Web程序 时间:
2016-05-03 18:07:07
阅读次数:
573
关于一些基本内容可查看上一篇博客:http://blog.csdn.net/u013082989/article/details/51176073
一、首先看一下爬虫的内容:
(1)学科类型、课程、课程对应章节、课程对应参考教材(主要是要将课程章节对应到上一级爬取的课程上,还有就是课程教材的爬取比较麻烦,下面会讲到)
课程章节:
课程教材
教材内容
二、...
分类:
数据库 时间:
2016-04-20 13:45:39
阅读次数:
340
基于Web Magic的一个爬虫框架(https://github.com/code4craft/webmagic)开发的,可以下载github的用户的头像。 使用Apache的HttpClient对页面进行请求,用JSoup对下载来的html文档进行过滤找到合适的图片链接,再发送一次HttpReq ...
分类:
其他好文 时间:
2016-03-31 23:35:09
阅读次数:
369
最近需要爬去网站的一些商品,就开始在网上找方法,本来是想着用Python做的,因为以前用Python写过一个小脚本,爬取一个文献网站上的免费文献. 步骤大概是这样的:1,先获取给定URL的html文件,然后在这个文件中用正则表达式匹配出需要的URL(可能含有分页的URL),然后再获取匹配出的URL的
分类:
编程语言 时间:
2016-02-26 20:43:20
阅读次数:
237
今天有个网友在博客回帖,能不能用注解来写一个爬虫?想了想,因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样),ResultItems的key-value形式难免会有点麻烦,何不将抽取和Model合为一体呢?好了!现在爬osc博客只有这点代码了!而且这个对象本身是可以继续使用的!...
分类:
Web程序 时间:
2016-01-22 03:01:58
阅读次数:
257
一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。但是有些页面是通过js以及ajax动态加载的,例如:花瓣网。这时如果我们直接分析原始页面的html,是得不到有效的信息的。当然,因...
分类:
其他好文 时间:
2016-01-22 02:59:11
阅读次数:
960
在webmagic的多线程抓取中有一个比较麻烦的问题:当Scheduler拿不到url的 时候,不能立即退出,需要等到没抓完的线程都运行完毕,没有新url产生时,才能退出。之前使用Thread.sleep来实现,当拿不到url 时,sleep一段时间再取,确定没有线程执行之后,再退出。但是这种方式始...
分类:
Web程序 时间:
2016-01-21 23:27:51
阅读次数:
233
平时电影看的比较多(记得当时学校内网睿思上的电影都快被我看光了),所以觉得应该为这个兴趣做点什么。首先归纳一下过程中涉及到的相关知识点:linux(ubuntu), mysql, spring, mybatis, webmagic(爬虫), js/html/css/jsp, nginx。大概就这么多...
分类:
其他好文 时间:
2016-01-13 19:33:28
阅读次数:
148
处于兴趣,最近在学习一个Java的网络爬虫框架webmagic,其实就是用一个程序来把下载任务自动化,比如你想下载一张图片很快,直接右键点击下载就可以了,但如果下载1000张就需要花些时间了。但计算机可以把这一系列步骤自动化,而你只需要制定规则就行了。折腾了几天好不容易入门了,兴冲冲地准备爬取知.....
分类:
Web程序 时间:
2015-11-21 18:25:10
阅读次数:
141