码迷,mamicode.com
首页 > Web开发 > 详细

用groovy采集网页数据

时间:2016-06-27 17:34:58      阅读:742      评论:0      收藏:0      [点我收藏+]

标签:

首先,用?http://groovyconsole.appspot.com/?测试下面的代码,发现引用总是失败.

下载了GGTS:?https://spring.io/tools/ggts

测试成功:?

技术分享

?

@Grapes( @Grab(group=‘org.ccil.cowan.tagsoup‘, module=‘tagsoup‘, version=‘1.2‘) )
import org.ccil.cowan.tagsoup.Parser;

class TestHtml {

public static void main(String[] args){
String ENCODING = "UTF-8"
def PARSER = new XmlSlurper(new Parser() )

def url = "http://www.nfl.com/stats/categorystats?archive=false&conference=null&statisticCategory=PASSING&season=2010&seasonType=REG&experience=null&tabSeq=0&qualified=true&Submit=Go"

new URL(url).withReader (ENCODING) { reader ->

def document = PARSER.parse(reader)
def data = document.‘**‘.find {it.@class == ‘data-table1‘}.tbody.tr.collect {
[
Rk: it.td[0].text().trim(),
Player: it.td[1].text().trim(),
PlayerUrl: "http://www.nfl.com" + it.td[1].a.@href.text().trim(),
Team: it.td[2].text().trim(),
Pos: it.td[3].text().trim()
]
}

data.each { it -> println it }
}
}
}

用groovy采集网页数据

标签:

原文地址:http://www.cnblogs.com/fengwenit/p/5620484.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!