码迷,mamicode.com
首页 > 编程语言 > 详细

使用Chrome Headless 快速实现java版数据的抓取

时间:2017-07-03 15:04:53      阅读:1237      评论:0      收藏:0      [点我收藏+]

标签:chrome headless   java调webkit   

参考《使用Chrome快速实现数据的抓取(一)——概述》和《使用Chrome快速实现数据的抓取(二)——协议》。

各协议客户端实现参考:https://github.com/ChromeDevTools/awesome-chrome-devtools#chrome-devtools-protocol。

Java: cdp4j - Java library for CDP,使用这个类库实现。

地址:https://github.com/webfolderio/cdp4j

maven引入:

<dependency>
    <groupId>io.webfolder</groupId>
    <artifactId>cdp4j</artifactId>
    <version>1.1.0</version>
</dependency>
官方例子:
import io.webfolder.cdp.Launcher;import io.webfolder.cdp.session.Session;import io.webfolder.cdp.session.SessionFactory;public class HelloWorld {    public static void main(String[] args) {        Launcher launcher = new Launcher();        try (SessionFactory factory = launcher.launch();                            Session session = factory.create()) {

            session.navigate("https://webfolder.io");
            session.waitDocumentReady();            String content = (String) session.getProperty("//body", "outerText");            System.out.println(content);

        }
    }
}
更多例子,如PrintToPDF,请参考https://github.com/webfolderio/cdp4j


使用Chrome Headless 快速实现java版数据的抓取

标签:chrome headless   java调webkit   

原文地址:http://933177.blog.51cto.com/923177/1944018

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!