标签:
<div class="content">
//eg1:解析百度音乐 Document doc = Jsoup.connect("http://list.mp3.baidu.com/top/singer/A.html").get();//打开链接 Element singerListDiv = doc.getElementsByAttributeValue("class", "content").first(); //这时候该html流文件存在内存中,css selector class=content 类型 Elements links = singerListDiv.getElementsByTag("a");//调用class=content 里面的 a 标签 for (Element link: links) {//使用循环 String linkHref = link.attr("href"); String linkText = link.text().trim(); System.out.println(linkHref); }
//eg2:解析万年历 Document doc = Jsoup.connect("http://www.nongli.com/item4/index.asp?dt=2012-03-03").get(); Element infoTable = doc.getElementsByAttributeValue("class", "table002").first();//获得信息表数据 Elements tableLineInfos = infoTable.select("tr"); //对该信息表继续进行筛选,获得一个tr 集合 数据 for (Element lineInfo : tableLineInfos) { String lineInfoContent = lineInfo.select("td").last().text().trim(); //获得tr集合中的一个td元素 System.out.println("jsoup is :" + lineInfoContent); }
//eg5:查找html元素 File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://www.oschina.net/"); Elements links = doc.select("a[href]"); // 链接 Elements pngs = doc.select("img[src$=.png]"); // 所有 png 的图片 Element masthead = doc.select("div.masthead").first();// div with class=masthead Elements resultLinks = doc.select("h3.r > a"); // direct a after h3
标签:
原文地址:http://my.oschina.net/u/2308739/blog/483871