之前的做法是使用PhantomJS以及一个html+嵌套iframe包含目标网站URL+跨域dom操作的简单性能优化。
PhantomJS实现下面的核心需求:
(1)无头模式,然而PhantomJS内核基于老版本的QtWebKit,与最新版本的Chromium代码相比,版本太老了,很多特性用不了(虽然目前国内网站应该也还没开始用上这些?比如ServiceWorker、CSS
Custo...
分类:
其他好文 时间:
2016-05-13 01:48:06
阅读次数:
247
pip install
beautifulsoup4
pip install requests
pip install selenium
下载 phantomjs
给 firefox 安装 firebug
创建一个目录名为baidupc
cd baidupc
创建虚拟环境
virtualenv macp
将phantomjs-2.1.1-macosx.zip解压...
分类:
编程语言 时间:
2016-05-13 01:46:02
阅读次数:
451
应用背景: phantomjs的一个爬虫,访问https站点,单向认证(只认证服务器身份)的都可以,双向认证(服务器和客户端都需要认证)必须上传本地证书; 开始用一个包含公钥私钥的PEM证书访问,怎么都不行,必须要用拆成两个,把公钥和私钥拆开,用--ssl-certificates-path=<va ...
分类:
Web程序 时间:
2016-05-11 13:18:38
阅读次数:
214
selenium 使用的时候要注意
1,浏览器的版本
2,和对应 jar 包
3,浏览器的环境变量设置
System.setProperties("key","value")
如下(创建浏览器对象):
System.getProperties().setProperty("phantomjs.binary.path", “"phantomjs-2.1.1-windows/bin/ph...
分类:
Web程序 时间:
2016-05-07 08:09:31
阅读次数:
216
全文概述功能:爬取新浪微博的搜索结果,支持高级搜索中对搜索时间的限定
网址:http://s.weibo.com/
实现:采取selenium测试工具,模拟微博登录,结合PhantomJS/Firefox,分析DOM节点后,采用Xpath对节点信息进行获取,实现重要信息的抓取,并存储至Excel中。
获取的微博信息包括:博主昵称, 博主主页, 微博认证, 微博达人, 微博内容, 发布时间, 微...
分类:
其他好文 时间:
2016-05-03 18:44:01
阅读次数:
400
目标:动态网页爬取 说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<div id="test"><span>aaa</span></div>。 这里用了WebCol ...
分类:
Web程序 时间:
2016-04-25 06:46:08
阅读次数:
1308
对于下一代测试工具的思考。
在以往的性能测试工作中,一直以来使用的测试工具框架都是基于请求-响应模型来进行开发的,
该模型是指脚本通过模拟HTTP请求并接收服务器的响应来针对被测对象的响应时间等考评指标来进行考评。
目前主流的性能测试工具都产生于瘦客户端的时代,而..
分类:
其他好文 时间:
2016-04-22 16:51:02
阅读次数:
168
爬取http://bj.58.com/pbdn/0/pn2/中除转转、推广商品以外的产品信息,因为转转和推广的详情信息不规范,需要另外写一个方法存放,后期补上,详情页如下 这周学习了爬虫,但是遇到一些js,requests方法无法渲染,比如浏览量,所以结合selenium+phantomjs渲染网页 ...
分类:
编程语言 时间:
2016-04-16 22:55:18
阅读次数:
285