码迷,mamicode.com
首页 > 编程语言 > 详细

Java之Jsoup库:网络爬虫的基本使用

时间:2016-08-18 09:58:41      阅读:254      评论:0      收藏:0      [点我收藏+]

标签:

下面以http://news.csdn.net/news.html为爬虫示例网站进行分析,F12查看网页布局,效果如下:
技术分享
从图中分析知,待扒的单个数据以unit为标签,即一个unit标签对应一个对象。
下面定义Jsoup帮助类,getRootElements()返回需要解析的对象的根标签,这里需要返回document.getElementsByClass("unit")。
anaylizeRootElement(Element rootElemen)方法中将指定的rootElemen解析成需要的对象。
package com.coca.android_unity_lab.joke;

import com.coca.unity_dev_utils.android.log.UtilsLog;
import com.coca.unity_dev_utils.android.log.UtilsLogFactory;
import com.coca.unity_dev_utils.java.UtilsCollections;

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.util.List;

/**
* Created by Administrator on 2016/6/16.
*/
public abstract class JsoupHelper {
private static final UtilsLog lg = UtilsLogFactory.getLogger(JsoupHelper.class);
private Document document;

public JsoupHelper setDocument(Document document) {
this.document = document;
return this;
}

public void startAnaylizeByJsoup() {
Elements rootElements = getRootElements(document);
lg.e("开始使用Jsoup分析数据:analizeJsoup,共有数据量:" + rootElements.size());
for (Element rootElement : rootElements) {
anaylizeRootElement(rootElement);
}
}

/**
* 获取解析的根目录集合
*
* @param document
* @return
*/
public abstract Elements getRootElements(Document document);

/**
* 根据每个根布局生成对应的java对象
*
* @param rootElement
* @return
*/
public abstract void anaylizeRootElement(Element rootElement);
}
具体使用方式如下:
jsoupHelper = new JsoupHelper() {
@Override
public Elements getRootElements(Document document) {
return document.getElementsByClass("unit");
}

@Override
public void anaylizeRootElement(Element rootElement) {
JokeAdapterEntity entity = new JokeAdapterEntity();
Element contentElement = JsoupHelper.paraseElement(rootElement, UtilsCollections.createListThroughMulitParamters("h1", "a"));
entity.setContent(contentElement.text());

Element imageElement = JsoupHelper.paraseElement(rootElement, UtilsCollections.createListThroughMulitParamters("dl", "dt", "a", "img"));
if (imageElement != null) {
lg.e("捕获到的数据:" + imageElement.attr("src"));
entity.setImgUrl(imageElement.attr("src"));
}
adapter.addDataResource(0, entity);
}
};
调用方式如下,
jsoupHelper.setDocument(Jsoup.parse(response)).startAnaylizeByJsoup();
 下面给出递归搜索至指定标签的方法:
/**
* 递归解析标签
* @param element
* @param tags 标签的依次搜索规则
* @return
*/
public static Element paraseElement(Element element, List<String> tags) {
if (UtilsCollections.isCollectionNotEmpty(tags)) {
String parseTag = tags.get(0);
Elements elements = element.getElementsByTag(parseTag);

boolean isElementsNotEmpty = elements != null && elements.size() > 0;
lg.e("解析标签:" + parseTag + ",Size is " + (isElementsNotEmpty ? elements.size() : 0));
if (isElementsNotEmpty) {
return paraseElement(elements.first(), tags.subList(1, tags.size()));
} else {
lg.e("该标签下的Element集合为空,return null");
return null;
}
} else {
lg.e("找到指定元素");
return element;
}
}








Java之Jsoup库:网络爬虫的基本使用

标签:

原文地址:http://www.cnblogs.com/linux007/p/5782720.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!