标签:http java 使用 ar 数据 问题 代码 html sp
最近实验室项目涉及到很多爬虫相关的东西,在此做个整理,爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax,普通爬虫无法获取js生成的内容。
对于普通的静态网页,HttpClient是Java中抓取网页的利器,然而针对像京东商品页面这样的页面却无能为力,例如:http://item.jd.com/10875285.html
主要原因是页面中的一部分信息比如商品评论是通过JavaScript异步加载的,如果直接通过HttpClient直接抓取只会得到其中的js代码,我们需要的信息却没有得到,解决这个问题有一下几个思路
标签:http java 使用 ar 数据 问题 代码 html sp
原文地址:http://www.cnblogs.com/flyingsnail/p/3939833.html