码迷,mamicode.com
首页 > Web开发 > 详细

Jsoup读取东方财富网站数据实例

时间:2015-07-29 21:19:37      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:java   html   jsoup   爬虫   

Jsoup挺好用,可以方便的在java中抓取html的内容,记录一个抓取东方财富网站信息的例子       

        目标:获取快讯中的标题条目和时间,如果是href需要抓下href信息,保存到本地自己的Message类中

        Document doc = Jsoup.connect("http://kuaixun.eastmoney.com/").get();  //读取要访问的网站
        Element data = doc.getElementById("livenews-list");  //找到要解析的节点
        System.out.println(data);
        List<News> list = new ArrayList<News>();
        Elements newElement = data.getElementsByClass("media-title-box");  //找到节点中要解析的内容条目
        System.out.println(newElement.size());
        for(Element e : newElement){
           Elements contents = e.getElementsByClass("media-title");  //获取标题
           System.out.println(contents.size());
           if(contents.isEmpty()){
               continue;
           }
           Element content = contents.get(0);
           System.out.println(content);
           News message = new News();     
           if(content.hasAttr("href")){
               message.setLink(content.attr("href"));<span style="font-family: Arial, Helvetica, sans-serif;">//获取href link如果存在</span>
              
           }
           message.setTitle(content.text());
           list.add(message);
        }
        newElement = data.getElementsByClass("time");
        System.out.println(newElement.size());
        int i = 0;
        for(Element e : newElement){
            list.get(i).setTime(e.text());  //因为条目和时间节点是一一对应,直接给对应message time字段赋值
            i++;
        }
        for(News message : list){
            System.out.println(message.getTime() + "------" + message.getLink() + "----" + message.getTitle());
        }

版权声明:本文为博主原创文章,未经博主允许不得转载。

Jsoup读取东方财富网站数据实例

标签:java   html   jsoup   爬虫   

原文地址:http://blog.csdn.net/cloud_ll/article/details/46492691

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!