环境 操作系统:CentOS 6.7 32-bit Python版本:2.6.6 第三方插件 selenium PhantomJS BeautifulSoup 代码 ...
分类:
Web程序 时间:
2016-06-06 16:27:58
阅读次数:
311
用正常的方式(selenium、PhantomJS、BeautifulSoup)爬取淘女郎相册不仅困难,效率很低,而且很容易卡死。 我通过谷歌浏览器的开发者工具找出每个页面的规律,快速获取每张照片的链接,再下载,这样效率就很高了。 过程 首页很简单,没有采用JS渲染,直接用requests就能获取完 ...
分类:
其他好文 时间:
2016-06-06 13:53:55
阅读次数:
336
1. 目的:用yslow测试某个页面的性能 2. 需求:返回yslow测试后的数据,显示在页面 方法一、 node server 官方提供的yslow-server-3.1.2.js 太老,和expressjs4.x不兼容,各种跑不通... 方法二、 phantomjs 步骤: 1. 安装phant ...
分类:
Web程序 时间:
2016-05-25 20:30:45
阅读次数:
342
新建一个文件,命名为test.js,内容如下: 新建一个文件,命名为test.py,内容如下: 执行下列命令: 如果你能看到源代码,就表示没问题了。执行速度可能有点慢,请耐心等待。 ...
分类:
编程语言 时间:
2016-05-20 13:14:56
阅读次数:
1898
在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的source code里拿到的。 但是对于一些Ajax或动态html, 很多时候要提取的内容是在source code找不到的,这种情况就要想办法把异步或动态加载的内容提取出来。 python中可以使用selenium执行ja ...
分类:
编程语言 时间:
2016-05-20 11:22:37
阅读次数:
240
环境 操作系统:CentOS 6.7 32-bit 安装步骤 测试 在终端执行phantomjs命令,如果跟我下图的结果一样就表示安装成功了。 如果你还不放心的话,可以创建一个JS文件测试一下。文件内容如下: 保存为test.js,然后通过phantomjs test.js执行。下图是我执行的结果: ...
分类:
Web程序 时间:
2016-05-20 11:15:08
阅读次数:
222
node install.js Considering PhantomJS found at /usr/local/bin/phantomjs Looks like an `npm install -g` Error checking path, continuing { Error: Cannot ...
分类:
Web程序 时间:
2016-05-20 06:07:32
阅读次数:
1021
在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的sourcecode里拿到的。但是对于一些Ajax或动态html,很多时候要提取的内容是在sourcecode找不到的,这种情况就要想办法把异步或动态加载的内容提取出来。python中可以使用selenium执行javascript,selenium可以..
分类:
编程语言 时间:
2016-05-19 19:39:00
阅读次数:
231
近来研究了下phantomjs,只是初涉,还谈不上深入研究,首先介绍下什么是phantomjs。 官网上的介绍是:”PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast and native supp ...
分类:
Web程序 时间:
2016-05-19 14:55:49
阅读次数:
305
原文地址:http://blog.chinaunix.net/uid-22414998-id-3695673.html 续前文:《数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置》。程序优化:第一步开始: for i in range(startx,total): for ...
分类:
其他好文 时间:
2016-05-15 02:18:21
阅读次数:
197