标签:
网页展现给用户的是主要内容是它的文本。因此,在获取网页源代码时,针对网页抽取出它的特定的文本内容,是我们做网页爬虫的一个基本功。我们结合HtmlParser和正则表达式来实现这一目的。
第一部分主要为基础教程(HtmlParse),转载自一个哥们的
1、相关资料
官方文档:http://htmlparser.sourceforge.net/samples.html
API:http://htmlparser.sourceforge.net/javadoc/index.html
其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。
2、使用HtmlPaser的关键步骤
(1)通过Parser类创建一个解释器
(2)创建Filter或者Visitor
(3)使用parser根据filter或者visitor来取得所有符合条件的节点
(4)对节点内容进行处理
3、使用Parser的构造函数创建解释器
Parser()
Zero argument constructor. |
Parser(Lexer lexer)
Construct a parser using the provided lexer. |
Parser(Lexer lexer, ParserFeedback fb)
Construct a parser using the provided lexer and feedback object. |
Parser(String resource)
Creates a Parser object with the location of the resource (URL or file). |
Parser(String resource, ParserFeedback feedback)
Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in. |
Parser(URLConnection connection)
Construct a parser using the provided URLConnection. |
Parser(URLConnection connection, ParserFeedback fb)
Constructor for custom HTTP access. |
对于大多数使用者来说,使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单,是针对调试和跟踪分析过程的,一般不需要改变。而使用Lexer则是一个相对比较高级的话题,放到以后再讨论吧。
这里比较有趣的一点是,如果需要设置页面的编码方式的话,不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说,好像这是应该用得比较多的一个方法。
4、HtmlPaser使用Node对象保存各节点信息
(1)访问各个节点的方法
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)
Node getNextSibling ():取得下一个兄弟节点
(2)取得Node内容的函数
String getText ():取得文本
String toPlainTextString():取得纯文本信息。
String toHtml () :取得HTML信息(原始HTML)
String toHtml (boolean verbatim):取得HTML信息(原始HTML)
String toString ():取得字符串信息(原始HTML)
Page getPage ():取得这个Node对应的Page对象
int getStartPosition ():取得这个Node在HTML页面中的起始位置
int getEndPosition ():取得这个Node在HTML页面中的结束位置
5、使用Filter访问Node节点及其内容
(1)Filter的种类
顾名思义,Filter就是对于结果进行过滤,取得需要的内容。
所有的Filter均实现了NodeFilter接口,此接口只有一个方法Boolean accept(Node node),用于确定某个节点是否属于此Filter过滤的范围。
HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。
判断类Filter:
TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter
逻辑运算Filter:
AndFilter
NotFilter
OrFilter
XorFilter
其他Filter:
NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter
除此以外,可以自定义一些Filter,用于完成特殊需求的过滤。
(2)Filter的使用示例
以下示例用于提取HTML文件中的链接
-
package org.ljh.search.html;
-
-
import java.util.HashSet;
-
import java.util.Set;
-
-
import org.htmlparser.Node;
-
import org.htmlparser.NodeFilter;
-
import org.htmlparser.Parser;
-
import org.htmlparser.filters.NodeClassFilter;
-
import org.htmlparser.filters.OrFilter;
-
import org.htmlparser.tags.LinkTag;
-
import org.htmlparser.util.NodeList;
-
import org.htmlparser.util.ParserException;
-
-
-
public class HtmlParserTool {
-
-
-
public static Set<String> extractLinks(String url, LinkFilter filter) {
-
Set<String> links = new HashSet<String>();
-
try {
-
-
Parser parser = new Parser(url);
-
parser.setEncoding("gb2312");
-
-
-
NodeFilter frameNodeFilter = new NodeFilter() {
-
@Override
-
public boolean accept(Node node) {
-
if (node.getText().startsWith("frame src=")) {
-
return true;
-
} else {
-
return false;
-
}
-
}
-
};
-
-
-
NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);
-
-
-
OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);
-
-
-
NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);
-
-
-
for(int i = 0; i<nodeList.size();i++){
-
Node node = nodeList.elementAt(i);
-
String linkURL = "";
-
-
if(node instanceof LinkTag){
-
LinkTag link = (LinkTag)node;
-
linkURL= link.getLink();
-
}else{
-
-
String nodeText = node.getText();
-
int beginPosition = nodeText.indexOf("src=");
-
nodeText = nodeText.substring(beginPosition);
-
int endPosition = nodeText.indexOf(" ");
-
if(endPosition == -1){
-
endPosition = nodeText.indexOf(">");
-
}
-
linkURL = nodeText.substring(5, endPosition - 1);
-
}
-
-
if(filter.accept(linkURL)){
-
links.add(linkURL);
-
}
-
}
-
-
} catch (ParserException e) {
-
e.printStackTrace();
-
}
-
return links;
-
}
-
}
程序中的一些说明:
(1)通过Node#getText()取得节点的String。
(2)node instanceof TagLink,即<a/>节点,其它还有很多的类似节点,如tableTag等,基本上每个常见的html标签均会对应一个tag。官方文档说明如下:
因此可以通过此方法直接判断一个节点是否某个标签内容。
其中用到的LinkFilter接口定义如下:
-
package org.ljh.search.html;
-
-
-
public interface LinkFilter {
-
public boolean accept(String url);
-
}
测试程序如下:
-
package org.ljh.search.html;
-
-
import java.util.Iterator;
-
import java.util.Set;
-
-
import org.junit.Test;
-
-
public class HtmlParserToolTest {
-
-
@Test
-
public void testExtractLinks() {
-
String url = "http://www.baidu.com";
-
LinkFilter linkFilter = new LinkFilter(){
-
@Override
-
public boolean accept(String url) {
-
if(url.contains("baidu")){
-
return true;
-
}else{
-
return false;
-
}
-
}
-
-
};
-
Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);
-
-
Iterator<String> it = urlSet.iterator();
-
while(it.hasNext()){
-
System.out.println(it.next());
-
}
-
}
-
-
}
输出结果如下:
http://www.hao123.com
http://www.baidu.com/
http://www.baidu.com/duty/
http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=
http://music.baidu.com
http://ir.baidu.com
http://www.baidu.com/gaoji/preferences.html
http://news.baidu.com
http://map.baidu.com
http://music.baidu.com/search?fr=ps&key=
http://image.baidu.com
http://zhidao.baidu.com
http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=
http://www.baidu.com/more/
http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w
http://wenku.baidu.com
http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=
https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://www.baidu.com/cache/sethelp/index.html
http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt
http://tieba.baidu.com/f?kw=&fr=wwwt
http://home.baidu.com
https://passport.baidu.com/v2/?reg®Type=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://v.baidu.com
http://e.baidu.com/?refer=888
;
http://tieba.baidu.com
http://baike.baidu.com
http://wenku.baidu.com/search?word=&lm=0&od=0
http://top.baidu.com
http://map.baidu.com/m?word=&fr=ps01000
我们从自己动手抓取网络爬出一书中获得启发,做一个垂直的搜索引擎,定时抓取网站中特定频道或者内容。我们利用一个叫做public List extractHtml(Node nodeP)函数,
该函数主要目的是利用递归的方法定位频道。
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.Html;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.ScriptTag;
import org.htmlparser.tags.SelectTag;
import org.htmlparser.tags.StyleTag;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.NodeList;
import com.newwatch.toolkit.splitwords.SpiderConstant;
import com.newwatch.toolkit.splitwords.SplitManager;
public class TestTabDivSerial {
/**
* A newline.
*/
private static final String NEWLINE = System.getProperty("line.separator");
/**
* The length of the NEWLINE.
*/
private static final int NEWLINE_SIZE = NEWLINE.length();
private String url;
private final String oriEncode = "gb2312,utf-8,gbk,iso-8859-1";
private ArrayList htmlContext = new ArrayList();
private String urlEncode;
private int tableNumber;
private int channelNumber;
private int totalNumber;
// url正则表达
private String domain;
private String urlDomaiPattern;
private String urlPattern;
private Pattern pattern;
private Pattern patternPost;
public void channelParseProcess() {
/** 提取本站信息的正则表达式* */
urlDomaiPattern = "(http://[^/]*?" + domain + "/)(.*?)";
urlPattern = "(http://[^/]*?" + domain
+ "/[^.]*?).(shtml|html|htm|shtm|php|asp#|asp|cgi|jsp|aspx)";
pattern = Pattern.compile(urlDomaiPattern, Pattern.CASE_INSENSITIVE
+ Pattern.DOTALL);
patternPost = Pattern.compile(urlPattern, Pattern.CASE_INSENSITIVE
+ Pattern.DOTALL);
/** 收集表单集合* */
SplitManager splitManager = (SplitManager) ExtractLinkConsole.context
.getBean("splitManager");
urlEncode = dectedEncode(url);
if (urlEncode == null) {
return;
}
singContext(url);
Iterator hi = htmlContext.iterator();
if (htmlContext.size() == 0) {
return;
}
totalNumber = htmlContext.size();
// 分析表单集合
while (hi.hasNext()) {
TableContext tc = (TableContext) hi.next();
this.totalNumber = tc.getTableRow();
if ((tc.getTableRow() == this.channelNumber)
|| (this.channelNumber == -1)) {
System.out.println("*********************表单" + tc.getTableRow()
+ "****************");
List linkList = tc.getLinkList();
// 如果没有任何连接
if ((linkList == null) || (linkList.size() == 0)) {
continue;
}
Iterator hl = linkList.iterator();
/** 分析单个表单* */
while (hl.hasNext()) {
LinkTag lt = (LinkTag) hl.next();
// **过滤非法link*
if (isValidLink(lt.getLink()) == SpiderConstant.OUTDOMAINLINKTYPE) {
continue;
}
if (lt.getLinkText().length() < 8) {
continue;
}
/** 过滤无效link* */
if (splitManager.isChannelLink(lt.getLinkText()) != SpiderConstant.COMMONCHANNEL) {
continue;
}
/** 生成link的hashcode* */
System.out.println("URL:" + lt.getLinkText() + " "
+ lt.getLink());
}
}
}
}
/**
*
* 判断是否有效连接
*/
public int isValidLink(String link) {
Matcher matcher = pattern.matcher(link);
while (matcher.find()) {
int start = matcher.start(2);
int end = matcher.end(2);
String postUrl = link.substring(end).trim();
// 如果是目录型连接
if ((postUrl.length() == 0) || (postUrl.indexOf(".") < 0)) {
return SpiderConstant.CHANNELLINKTYPE;
} else {
Matcher matcherPost = patternPost.matcher(link);
if (matcherPost.find()) {
return SpiderConstant.COMMONLINKTYPE;
} else {
return SpiderConstant.OUTDOMAINLINKTYPE;
}
}
}
return SpiderConstant.OUTDOMAINLINKTYPE;
}
/**
* 收集HTML页面信息
*/
public void singContext(String url) {
try {
Parser parser = new Parser(url);
parser.setEncoding(urlEncode);
tableNumber = 0;
for (NodeIterator e = parser.elements(); e.hasMoreNodes();) {
Node node = (Node) e.nextNode();
if (node instanceof Html) {
extractHtml(node);
}
}
} catch (Exception e) {
}
}
/**
* 递归钻取信息
*/
public List extractHtml(Node nodeP) {
NodeList nodeList = nodeP.getChildren();
boolean bl = false;
if ((nodeList == null) || (nodeList.size() == 0)) {
return null;
}
if ((nodeP instanceof TableTag) || (nodeP instanceof Div)) {
bl = true;
}
ArrayList tableList = new ArrayList();
try {
for (NodeIterator e = nodeList.elements(); e.hasMoreNodes();) {
Node node = (Node) e.nextNode();
if (node instanceof LinkTag) {
tableList.add(node);
} else if (node instanceof ScriptTag
|| node instanceof StyleTag
|| node instanceof SelectTag) {
} else if (node instanceof TextNode) {
if (node.getText().trim().length() > 0) {
tableList.add(node);
}
} else {
List tempList = extractHtml(node);
if ((tempList != null) && (tempList.size() > 0)) {
Iterator ti = tempList.iterator();
while (ti.hasNext()) {
tableList.add(ti.next());
}
}
}
}
} catch (Exception e) {
}
if ((tableList != null) && (tableList.size() > 0)) {
if (bl) {
TableContext tc = new TableContext();
tc.setLinkList(new ArrayList());
tc.setTextBuffer(new StringBuffer());
tableNumber++;
tc.setTableRow(tableNumber);
Iterator ti = tableList.iterator();
while (ti.hasNext()) {
Node node = (Node) ti.next();
if (node instanceof LinkTag) {
tc.getLinkList().add(node);
} else {
tc.getTextBuffer().append(
collapse(node.getText().replaceAll(" ", "")));
}
}
htmlContext.add(tc);
return null;
} else {
return tableList;
}
}
return null;
}
/**
* 去除无效字符
*/
protected String collapse(String string) {
int chars;
int length;
int state;
char character;
StringBuffer buffer = new StringBuffer();
chars = string.length();
if (0 != chars) {
length = buffer.length();
state = ((0 == length) || (buffer.charAt(length - 1) == ‘ ‘) || ((NEWLINE_SIZE <= length) && buffer
.substring(length - NEWLINE_SIZE, length).equals(NEWLINE))) ? 0
: 1;
for (int i = 0; i < chars; i++) {
character = string.charAt(i);
switch (character) {
case ‘\u0020‘:
case ‘\u0009‘:
case ‘\u000C‘:
case ‘\u200B‘:
case ‘\u00a0‘:
case ‘\r‘:
case ‘\n‘:
if (0 != state) {
state = 1;
}
break;
default:
if (1 == state) {
buffer.append(‘ ‘);
}
state = 2;
buffer.append(character);
}
}
}
return buffer.toString();
}
/**
* 检测字符级
*/
private String dectedEncode(String url) {
String[] encodes = oriEncode.split(",");
for (int i = 0; i < encodes.length; i++) {
if (dectedCode(url, encodes)) {
return encodes;
}
}
return null;
}
public boolean dectedCode(String url, String encode) {
try {
Parser parser = new Parser(url);
parser.setEncoding(encode);
for (NodeIterator e = parser.elements(); e.hasMoreNodes();) {
Node node = (Node) e.nextNode();
if (node instanceof Html) {
return true;
}
}
} catch (Exception e) {
}
return false;
}
public String getDomain() {
return domain;
}
public void setDomain(String domain) {
this.domain = domain;
}
public Pattern getPattern() {
return pattern;
}
public void setPattern(Pattern pattern) {
this.pattern = pattern;
}
public Pattern getPatternPost() {
return patternPost;
}
public void setPatternPost(Pattern patternPost) {
this.patternPost = patternPost;
}
public String getUrlDomaiPattern() {
return urlDomaiPattern;
}
public void setUrlDomaiPattern(String urlDomaiPattern) {
this.urlDomaiPattern = urlDomaiPattern;
}
public String getUrlPattern() {
return urlPattern;
}
public void setUrlPattern(String urlPattern) {
this.urlPattern = urlPattern;
}
public int getChannelNumber() {
return channelNumber;
}
public void setChannelNumber(int channelNumber) {
this.channelNumber = channelNumber;
}
public int getTotalNumber() {
return totalNumber;
}
public void setTotalNumber(int totalNumber) {
this.totalNumber = totalNumber;
}
public String getUrlEncode() {
return urlEncode;
}
public void setUrlEncode(String urlEncode) {
this.urlEncode = urlEncode;
}
public String getUrl() {
return url;
}
public void setUrl(String url) {
this.url = url;
}
}
以上的例子主要是对网页内容进行简抽取,以后我们会学习如何相信抽取网页正文哈。
如何抽取HTML正文
标签:
原文地址:http://blog.csdn.net/zhangppmm/article/details/51119658