Java抓取利用JS动态加载的网页

时间：2014-08-27 18:05:08 阅读：1308 评论：0 收藏：0 [点我收藏+]

最近实验室项目涉及到很多爬虫相关的东西，在此做个整理，爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax，普通爬虫无法获取js生成的内容。　

对于普通的静态网页，HttpClient是Java中抓取网页的利器，然而针对像京东商品页面这样的页面却无能为力，例如：http://item.jd.com/10875285.html

主要原因是页面中的一部分信息比如商品评论是通过JavaScript异步加载的，如果直接通过HttpClient直接抓取只会得到其中的js代码，我们需要的信息却没有得到，解决这个问题有一下几个思路

方法一：分析浏览器加载页面的过程，找到JS加载数据的URL，用爬虫代码来模拟js代码，js读取页面元素值，我们也读取页面元素值;js发送ajax，我们就拼凑参数、发送ajax并解析返回的json。理论上，这种方法肯定可行，但太麻烦。

原文地址：http://www.cnblogs.com/flyingsnail/p/3939833.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行