爬虫第一步遇到的坑

时间：2018-10-27 00:18:46 阅读：171 评论：0 收藏：0 [点我收藏+]

最近，跟着一个视频来学习，视频上爬取36kr这个网站，我也跟着写了，感觉挺简单的，使用Jsoup很快就拿到页面上的文字。谁知再分析网页获得自己需要的数据的时候，只能获得一个根标签，里面什么也没有，第一次爬虫遇到这样的问题，顿时懵逼了。问了几个人之后，自己明白了这是因为我要抓取的页面数据，它是使用react来实现的，也就是通过javaScript的库渲染完成的。到此我基本知道了原因和接下来怎么抓取。

Jsoup不支持解析javaScript动态渲染的页面，在这里选取了HtmlUnit来解析。

首先到官网(HtmlUnit)上下载jar包。

看下HtmlUnit的解析过程：

final WebClient webClient=new WebClient();
webClient.getOptions().setCssEnabled(false);//关闭css
webClient.getOptions().setJavaScriptEnabled(true);//这个要为true,false依然获取不到
final HtmlPage page=webClient.getPage("https://36kr.com/");

HtmlDivision htmlDiv =page.querySelector("#app");//获取第一个div
System.out.println(htmlDiv.asXml());
webClient.close();

setJavaScriptEnabled(true)设置为true之后，运行的时候会出现一些警告信息。

爬虫第一步遇到的坑

标签：href lun rip tor 上下 ble span net 运行

原文地址：https://www.cnblogs.com/yangms/p/9859042.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行