Jsoup读取东方财富网站数据实例

时间：2015-07-29 21:19:37 阅读：139 评论：0 收藏：0 [点我收藏+]

Jsoup挺好用，可以方便的在java中抓取html的内容，记录一个抓取东方财富网站信息的例子

目标：获取快讯中的标题条目和时间，如果是href需要抓下href信息，保存到本地自己的Message类中

        Document doc = Jsoup.connect("http://kuaixun.eastmoney.com/").get();  //读取要访问的网站
        Element data = doc.getElementById("livenews-list");  //找到要解析的节点
        System.out.println(data);
        List<News> list = new ArrayList<News>();
        Elements newElement = data.getElementsByClass("media-title-box");  //找到节点中要解析的内容条目
        System.out.println(newElement.size());
        for(Element e : newElement){
           Elements contents = e.getElementsByClass("media-title");  //获取标题
           System.out.println(contents.size());
           if(contents.isEmpty()){
               continue;
           }
           Element content = contents.get(0);
           System.out.println(content);
           News message = new News();     
           if(content.hasAttr("href")){
               message.setLink(content.attr("href"));<span style="font-family: Arial, Helvetica, sans-serif;">//获取href link如果存在</span>
              
           }
           message.setTitle(content.text());
           list.add(message);
        }
        newElement = data.getElementsByClass("time");
        System.out.println(newElement.size());
        int i = 0;
        for(Element e : newElement){
            list.get(i).setTime(e.text());  //因为条目和时间节点是一一对应，直接给对应message time字段赋值
            i++;
        }
        for(News message : list){
            System.out.println(message.getTime() + "------" + message.getLink() + "----" + message.getTitle());
        }

Jsoup读取东方财富网站数据实例

标签：java html jsoup 爬虫

原文地址：http://blog.csdn.net/cloud_ll/article/details/46492691

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行