码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫之Splash使用初体验

时间:2018-02-08 17:51:43      阅读:258      评论:0      收藏:0      [点我收藏+]

标签:twisted   页面   python爬虫   webkit   post   www   ping   轻量级   9.png   

Splash是什么:

  Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,Splash是用Python实现的,同时使用Twisted和QT。Twisted(QT)用来让服务具有异步处理能力,以发挥webkit的并发能力。

为什么要有Splash:

  为了更加有效的制作网页爬虫,由于目前很多的网页通过javascript模式进行交互,简单的爬取网页模式无法胜任javascript页面的生成和ajax网页的爬取,同时通过分析连接请求的方式来落实局部连接数据请求,相对比较复杂,尤其是对带有特定时间戳算法的页面,分析难度较大,效率不高。而通过调用浏览器模拟页面动作模式,需要使用浏览器,无法实现异步和大规模爬取需求。鉴于上述理由Splash也就有了用武之地。一个页面渲染服务器,返回渲染后的页面,便于爬取,便于规模应用。

安装条件:

 

 

安装:

  首先点击下面链接,从docker官网上下载windows下的docker进行安装,不过请注意系统要求是**windows1064位 pro及以上版本或者教育版 

   官网下载:https://store.docker.com/editions/community/docker-ce-desktop-windows

  技术分享图片

  安装包下载完成后以管理员身份运行。

  技术分享图片

  查看信息:

  #docker info

  #docker version

   技术分享图片

  查看启动的容器

  技术分享图片

  在docker中下载安装Splash镜像,并安装

  #docker pull scrapinghub/splash

   启动splash服务

#启动splash服务,并通过http,https,telnet提供服务
#通常一般使用http模式 ,可以只启动一个8050就好  
#Splash 将运行在 0.0.0.0 at ports 8050 (http), 8051 (https) and 5023 (telnet).
docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash

  

  技术分享图片

参考链接:https://www.jianshu.com/p/4052926bc12c

 

python爬虫之Splash使用初体验

标签:twisted   页面   python爬虫   webkit   post   www   ping   轻量级   9.png   

原文地址:https://www.cnblogs.com/lei0213/p/8432031.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!