前言:设计内容比较繁杂,包括apk反编译,wireshark使用,java爬虫,一次无聊的时候朋友给我推送了一个比较绅士的app然而当我想看第四个的时候这尼玛,(心中仿佛一万只草泥马奔腾而过),而且会员是需要付费的,这。。。果断选择不付费,先上百度看看,确实有官网,但是官网只留了一个下载app的链接...
分类:
Web程序 时间:
2015-11-13 18:34:27
阅读次数:
1236
SeimiCrawler是一个强大的,高效敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上Sei...
分类:
编程语言 时间:
2015-11-10 23:44:17
阅读次数:
242
1.Crawler是什么?crawler4j是一个开源的java爬虫类库,可以用来构建多线程的web爬虫来抓取页面内容。2.如何获取Crawler?crawler4j的官方地址在这里,目前版本为4.1。如果你使用Maven,可以通过下面的pom的方式,如直接下载,点击这里。3.Crawler怎么用?crawler4j的使用分为..
分类:
其他好文 时间:
2015-09-03 11:37:05
阅读次数:
230
JAVA爬虫 WebCollector爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核:WebCollector 致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核...
分类:
编程语言 时间:
2015-08-11 07:07:41
阅读次数:
1484
本来最近任务挺多,但是今天想放松一下,正巧Bill喜欢玩英语配音,而配音都是在配音软件的云上,我想把那些都拿到,于是就写一了一个爬虫,接着就有了这篇爬虫教程~~...
分类:
编程语言 时间:
2015-08-07 14:48:55
阅读次数:
165
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是...
分类:
编程语言 时间:
2015-07-29 22:36:17
阅读次数:
261
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是...
分类:
编程语言 时间:
2015-07-08 09:28:37
阅读次数:
211
到Apache官网下载httpcomponents-client-4.4,在项目中导入jar主要类:HttpClient,HttpGet,HttpResponse,HttpEntitypublic static void getContentFromUrl(String url) { Http...
分类:
编程语言 时间:
2015-06-27 21:19:38
阅读次数:
116
很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放。
下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。
代码中的抽取器可以作为一个插件复用。
WebCollector的jar包可到官网下载:WebCollector官网。进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包。...
分类:
编程语言 时间:
2015-06-25 10:30:17
阅读次数:
179