jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
1. 从一个URL,文件或字符串中解析HTML;
2. 使用DOM或CSS选择器来查找、取出数据;
3. 可操作HTML元素、属性、文本;...
分类:
编程语言 时间:
2014-10-15 23:01:36
阅读次数:
380
为什么要让VC与JavaScript交互?
1.有时候我们需要让自己的软件打开一个网页,来获取页面上的一些数据。这时,可以用mshtml解析HTML提取出数据,也可以向HTML文档动态写入我们准备好的JS代码,用JS代码获取HTML上的数据,然后用VC调用该JS代码取得数据。
2.有时候我们需要让自己的软件打开一个网页并操控该网页,填写表单,提交等动作。这时,可以用mshtml操作HT...
分类:
编程语言 时间:
2014-10-11 19:12:56
阅读次数:
216
HTML网页Table解析,IHTMLDocument2、IHTMLElement、IHTMLElementCollection、IHTMLTABLE、IHTMLTableSection、IHTMLTableRow,表格body
分类:
Web程序 时间:
2014-10-09 13:22:03
阅读次数:
134
HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解析html文档(在B/S结构的程序中客户端可以用Javascript解析html)。截止到本文发表时,HtmlAgilityPack的最新版本为1.4.0。下载地址:http://htmlagility...
分类:
Web程序 时间:
2014-09-23 19:36:05
阅读次数:
227
理解基本的HTML解析在用HTMLParser模块解析之前,一般需要定义一个子类HTMLParser.HTMLParser,并添加用来处理不同标签的函数。例子:#!/usr/bin/envpython
#-*-coding:utf-8-*-
importsys
fromHTMLParserimportHTMLParser
classTitleParser(HTMLParser):
def__init__(self):..
分类:
Web程序 时间:
2014-09-22 20:43:54
阅读次数:
186
import java.util.HashMap;
import java.util.Map;
public class TagParser {
private Integer index = 0;
private char[] tagChar;
private int position = 0;
/* 解析符号 */
private char symbol = '"';
publi...
分类:
编程语言 时间:
2014-09-21 02:50:50
阅读次数:
379
无意中看到寒冬关于前端的九个问题,细细想来我也只是对第一、二、九问有所了解,正好也趁着这个机会梳理一下自己的知识体系。由于本人对http协议以及dns对url的解析问题并不了解,所以这里之探讨url请求加载到浏览器端时,浏览器对html的解析到呈现过程。该过程主要分为以下步骤:解析HTML构建D.....
分类:
Web程序 时间:
2014-09-20 16:30:39
阅读次数:
210
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。
为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。
由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:
编程语言 时间:
2014-09-19 13:57:15
阅读次数:
284
jsoup 简介 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和?扩展 HTMLParser 对自定义标...
分类:
Web程序 时间:
2014-09-16 16:14:20
阅读次数:
300