Selenium基于webkit实现爬虫功能 http://www.cnblogs.com/luxiaojun/p/6144748.html 现在headless chrome替代 PhantomJS https://zhuanlan.zhihu.com/p/27100187 获取的网页内容后,可以 ...
分类:
Web程序 时间:
2018-01-12 20:23:49
阅读次数:
266
前言 成为一名专业程序员的道路上,需要坚持练习、学习与积累,技术方面既要有一定的广度,更要有自己的深度。 Phantomjs(Web自动化测试,服务端渲染等) berserkJS(基于Phantomjs的改进版本) SlimerJS CasperJS selenium HtmlUnit(开源的jav ...
分类:
其他好文 时间:
2018-01-12 14:17:24
阅读次数:
325
搜索到的配置phantomjs环境变量的文章对这一步都是一笔带过,可把我难住了。现在自己写一下过程。 先从淘宝镜像下载:phantomjs 2.1.1-windows.zip 解压后,如下图操作: 解压到D:\phantomjs\ 下。右击计算机(win7)-属性-高级-环境变量-PATH-添加【; ...
想做个利用Python发布豆瓣“说句话”的工具,目前我已知的有两种方法: 用Python驱动一些无界面浏览器phantomjs(因为我没用Chrome),直接模拟发状态的行为。 按F12分析网页发布动态的js行为,直接在Python中post。 对比两种方法,第一种需要安装phantomjs,但是普 ...
分类:
编程语言 时间:
2018-01-06 17:13:01
阅读次数:
138
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ 前文目录: [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上) [Python爬虫] 在Wi ...
分类:
编程语言 时间:
2018-01-04 16:34:21
阅读次数:
335
1)vim /etc/profile2)在文件的最后一行,添加安装路径path语句:(注意路径是phantomjs的安装路径)export PATH=${PATH}:/usr/local/src/phantomjs/bin/3)保存修改后的文件:wq 4)使用命令使环境变量生效source /etc ...
分类:
系统相关 时间:
2018-01-03 19:41:39
阅读次数:
168
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考: "Python学习指南" 期初使用driver = webdriver.PhantomJS(),返回的只是,增加了参数就可以了 参考: 1. "获取不到内容,问题参考" 2. "S ...
分类:
编程语言 时间:
2017-12-26 22:42:39
阅读次数:
312
说到python爬虫,刚开始主要用urllib库,虽然接口比较繁琐,但也能实现基本功能。等见识了requests库的威力后,便放弃urllib库,并且也不打算回去了。但对一些动态加载的网站,经常要先分析请求,再用requests模拟,比较麻烦。直到遇到了selenium库,才发现爬动态网页也可以这么 ...
分类:
Web程序 时间:
2017-12-24 20:19:21
阅读次数:
819
设置ip 方法1: service_args = [ '--proxy=%s' % ip_html, # 代理 IP:prot (eg:192.168.0.28:808) '--proxy-type=http’, # 代理类型:http/https ‘--load-images=no’, # 关闭图 ...
分类:
Web程序 时间:
2017-12-24 20:08:18
阅读次数:
1594