标签:
偶尔会有需求提取竞争对手的网站数据,而且网站一般会有一些防护程序抓取的方案。
工具:
httpclient:有点笨重的工具,入门还是要些门槛
jsoup:轻量强大
webdriver:谷歌出品的精品,可以抓取网页和执行javascript
Selenium :做测试的朋友推荐的,可以录制脚本
基本jsoup+webdriver就能完成所有浏览器模拟的工作
网抓取工具和技巧
原文地址:http://my.oschina.net/fir01/blog/389345