码迷,mamicode.com
首页 >  
搜索关键字:jsoup    ( 471个结果
jsoup 简介
Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser...
分类:Web程序   时间:2014-12-27 22:56:20    阅读次数:221
网页解析Jsoup简单使用
public static void main(String[] args) throws IOException { //System.out.println("Hello World!"); /** * 获取 */ Fil...
分类:Web程序   时间:2014-12-21 23:32:41    阅读次数:232
关于开发简易搜索引擎的一些总结和思考
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。  大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。  这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:其他好文   时间:2014-12-21 19:29:09    阅读次数:193
java实现豆瓣回帖机器人
最近一直帮老板写爬虫,写累了就寻思着找点乐子,碰巧平时喜欢逛豆瓣,就打算写一个自动回帖机器人,废话不多说我们进入正题:主要用到2个开源工具:Jsoup和httpclientStep 1:模拟登陆public static boolean login() throws IOException{ ...
分类:编程语言   时间:2014-12-21 12:36:59    阅读次数:232
图书检索功能实现---图书馆客户端
今天完成了图书的检索功能。相对来说,还是有点复杂,因为图书检索结果页面的Html并不是那么规范,解析时需要很大的耐心。 首先需要根据查询条件获取结果的HTML,查询条件可以有很多种,这里为了实用、方便,我特意限制了查询条件为:keyword、东校区、可借出 获取结果HTML的方法如下: /** * 根据关键字检索图书 * * 检索可以是没有登录的情况,也可以是登录后的情况。 ...
分类:其他好文   时间:2014-12-20 17:00:06    阅读次数:258
获取个人借阅信息---图书馆客户端
在上一篇利用jsoup解析个人信息----图书馆客户端,获得个人基本信息后,便有了进一步的需求:获取当前借阅的详细信息 获取的方法还是一样的,利用jsoup解析借阅信息页面,获得所需数据,封装成LendBookInfo,然后将其加入一个List中。 借阅信息详情页如下: 模拟get请求得到其html字符串,代码较简单 /** *获取当前借阅信息。 必须在login()调用之后 ...
分类:其他好文   时间:2014-12-19 09:20:18    阅读次数:189
利用jsoup解析个人信息----图书馆客户端
上一篇HTTPclient模拟登陆交大图书馆 解决了登陆,登陆之后便可以查看个人信息。个人信息条目较少,如图: 主要就是:姓名、电话、目前借书、积欠金额。 查看其html代码: 下面开始进行解析: 代码 package com.ali.login.spider; import org.jsoup.Jsoup; import org.jsoup.nodes.Do...
分类:Web程序   时间:2014-12-18 22:24:38    阅读次数:297
Jsoup 的认识和简单使用
之前做学校软件协会APP的时候,由于自己不会在服务端写接口,所以服务端一直是由另一位Z同学完成的,但是突然Z同学被老师调到泸州帮以前的学长做一个月的临时web开发去了,所以协会APP的接口只做了一部分就没了。我也很是无奈啊,想自己边学边做,但是时间不允许,马上就要做毕业设计了,而且还要帮老师写教.....
分类:Web程序   时间:2014-12-15 15:03:01    阅读次数:236
jsoup httpclient 爬取网页并下载google图标
jsoup下载地址http://www.jsoup.orghttpclient下载地址http://hc.apache.org/downloads.cgi其他jar包见附件Crawler package jsoup; import java.io.File; import java.io.F...
分类:Web程序   时间:2014-12-07 23:04:12    阅读次数:316
JAVA爬虫 WebCollector
爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。 量级: ...
分类:编程语言   时间:2014-12-03 23:35:39    阅读次数:609
471条   上一页 1 ... 39 40 41 42 43 ... 48 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!