标签:hang pat scripts 验收 data 技术 指令 enter ghost
近期准备深入学习Python相关的爬虫知识了。假设说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正則表達式"就能搞定的话。那么动态生成的信息页面。如Ajax、JavaScript等就须要通过"Phantomjs + CasperJS + Selenium"来实现了。
所以先从安装和功能介绍入门。后面在介绍一些Python相关的爬虫应用。
PhantomJS
PhantomJS是一个server端的 JavaScript API 的WebKit(开源的浏览器引擎)。
其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas 和 SVG。
PhantomJS能够用于页面自己主动化,网络监測,网页截屏,以及无界面測试等。
Selenium
Selenium是一个用于Web应用程序測试的工具。Selenium測试直接执行在浏览器中,就像真正的用户在操作一样。支持的浏览器包含IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。
这个工具的主要功能包含:測试与浏览器的兼容性、測试系统功能。它ThoughtWorks专门为Web应用程序编写的一个验收測试工具。
PIP
在介绍介绍它们之前。须要安装PIP软件。正如xifeijian大神所说:“作为Python爱好者,假设不知道easy_install或者pip中的不论什么一个的话,那么......”。
easy_insall的作用和perl中的cpan。ruby中的gem类似,都提供了在线一键安装模块的傻瓜方便方式。而pip是easy_install的改进版,提供更好的提示信息。删除package等功能。老版本号的python中仅仅有easy_install,没有pip。常见的详细使用方法例如以下:
easy_install的使用方法: 1) 安装一个包 $ easy_install <package_name> $ easy_install "<package_name>==<version>" 2) 升级一个包 $ easy_install -U "<package_name>>=<version>" pip的使用方法 1) 安装一个包 $ pip install <package_name> $ pip install <package_name>==<version> 2) 升级一个包 (假设不提供version号。升级到最新版本号) $ pip install --upgrade <package_name>>=<version> 3)删除一个包 $ pip uninstall <package_name>
PS:你能够使用easy_install pip 直接安装pip软件,这更加方便。
第一步:下载PIP软件
能够在官网http://pypi.python.org/pypi/pip#downloads下载。同一时候cd切换到PIP文件夹,在通过python
setup.py install安装。而我採用的是下载pip-Win_1.7.exe进行安装,下载地址例如以下:
https://sites.google.com/site/pydatalog/python/pip-for-windows
第二步:安装PIP软件
Usage: pip <command> [options] Commands: install 安装软件. uninstall 卸载软件. freeze 按着一定格式输出已安装软件列表 list 列出已安装软件. show 显示软件具体信息. search 搜索软件,相似yum里的search. wheel Build wheels from your requirements. zip 不推荐. Zip individual packages. unzip 不推荐. Unzip individual packages. bundle 不推荐. Create pybundles. help 当前帮助. General Options: -h, --help 显示帮助. -v, --verbose 很多其它的输出,最多能够使用3次 -V, --version 现实版本号信息然后退出. -q, --quiet 最少的输出. --log-file <path> 覆盖的方式记录verbose错误日志,默认文件:/root/.pip/pip.log --log <path> 不覆盖记录verbose输出的日志. --proxy <proxy> Specify a proxy in the form [user:passwd@]proxy.server:port. --timeout <sec> 连接超时时间 (默认15秒). --exists-action <action> 默认活动当一个路径总是存在: (s)witch, (i)gnore, (w)ipe, (b)ackup. --cert <path> 证书.
通过pip命令安装Selenium:
from selenium import webdriver driver = webdriver.PhantomJS(executable_path="F:\Python\phantomjs-1.9.1-windows\phantomjs.exe") driver.get("http://www.baidu.com") data = driver.title print data执行结果例如以下图所看到的:
from selenium import webdriver driver=webdriver.PhantomJS(executable_path="F:\Python\phantomjs-1.9.1-windows\phantomjs.exe") driver.get("http://www.csdn.net") data = driver.title driver.save_screenshot(‘csdn.png‘) print data输出例如以下图所看到的,图片太长只部分:
>>> CSDN.NET - 全球最大中文IT社区。为IT专业技术人员提供最全面的信息传播和服务平台 >>>
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
标签:hang pat scripts 验收 data 技术 指令 enter ghost
原文地址:http://www.cnblogs.com/slgkaifa/p/6938047.html