Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser...
分类:
Web程序 时间:
2014-12-27 22:56:20
阅读次数:
221
public static void main(String[] args) throws IOException { //System.out.println("Hello World!"); /** * 获取 */ Fil...
分类:
Web程序 时间:
2014-12-21 23:32:41
阅读次数:
232
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。 大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。 这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:
其他好文 时间:
2014-12-21 19:29:09
阅读次数:
193
最近一直帮老板写爬虫,写累了就寻思着找点乐子,碰巧平时喜欢逛豆瓣,就打算写一个自动回帖机器人,废话不多说我们进入正题:主要用到2个开源工具:Jsoup和httpclientStep 1:模拟登陆public static boolean login() throws IOException{ ...
分类:
编程语言 时间:
2014-12-21 12:36:59
阅读次数:
232
今天完成了图书的检索功能。相对来说,还是有点复杂,因为图书检索结果页面的Html并不是那么规范,解析时需要很大的耐心。
首先需要根据查询条件获取结果的HTML,查询条件可以有很多种,这里为了实用、方便,我特意限制了查询条件为:keyword、东校区、可借出
获取结果HTML的方法如下:
/**
* 根据关键字检索图书
*
* 检索可以是没有登录的情况,也可以是登录后的情况。 ...
分类:
其他好文 时间:
2014-12-20 17:00:06
阅读次数:
258
在上一篇利用jsoup解析个人信息----图书馆客户端,获得个人基本信息后,便有了进一步的需求:获取当前借阅的详细信息
获取的方法还是一样的,利用jsoup解析借阅信息页面,获得所需数据,封装成LendBookInfo,然后将其加入一个List中。
借阅信息详情页如下:
模拟get请求得到其html字符串,代码较简单
/**
*获取当前借阅信息。 必须在login()调用之后
...
分类:
其他好文 时间:
2014-12-19 09:20:18
阅读次数:
189
上一篇HTTPclient模拟登陆交大图书馆
解决了登陆,登陆之后便可以查看个人信息。个人信息条目较少,如图:
主要就是:姓名、电话、目前借书、积欠金额。
查看其html代码:
下面开始进行解析:
代码
package com.ali.login.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Do...
分类:
Web程序 时间:
2014-12-18 22:24:38
阅读次数:
297
之前做学校软件协会APP的时候,由于自己不会在服务端写接口,所以服务端一直是由另一位Z同学完成的,但是突然Z同学被老师调到泸州帮以前的学长做一个月的临时web开发去了,所以协会APP的接口只做了一部分就没了。我也很是无奈啊,想自己边学边做,但是时间不允许,马上就要做毕业设计了,而且还要帮老师写教.....
分类:
Web程序 时间:
2014-12-15 15:03:01
阅读次数:
236
jsoup下载地址http://www.jsoup.orghttpclient下载地址http://hc.apache.org/downloads.cgi其他jar包见附件Crawler package jsoup; import java.io.File; import java.io.F...
分类:
Web程序 时间:
2014-12-07 23:04:12
阅读次数:
316
爬虫简介:
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
爬虫内核:
WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。
量级:
...
分类:
编程语言 时间:
2014-12-03 23:35:39
阅读次数:
609