码迷,mamicode.com
首页 > 编程语言 > 详细

Java编写网络爬虫笔记(第三部分:Jsoup的强大)

时间:2015-06-02 22:10:44      阅读:155      评论:0      收藏:0      [点我收藏+]

标签:jsoup   网络   爬虫   

基于httpclient下载的页面,接着就是应该提取url了,最开始我用的是htmlpraser,过几天后,我就发现了还有jsoup这个包,非常的好用,接着我就直接用jsoup来抓取页面和提取出里面的url了,在这里跟大家分享一下代码。

import java.io.IOException;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class JSOUP {


    public static Set<String> extractLinks(String url){
        Set<String> urls = new HashSet();
    try {
        Document doc =Jsoup.connect(url).get();
        Elements links=doc.select("a[href]");
    //  System.out.println(links.size());
        for(Element link :links){
            String Url =link.attr("abs:href");
                urls.add(Url);

        }


    } catch (IOException e) {
        // TODO 自动生成的 catch 块
        e.printStackTrace();
    }
    return urls;
}

Java编写网络爬虫笔记(第三部分:Jsoup的强大)

标签:jsoup   网络   爬虫   

原文地址:http://blog.csdn.net/sunyuan_software/article/details/46333619

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!