码迷,mamicode.com
首页 > 其他好文 > 详细

配置开发环境

时间:2018-05-28 00:56:25      阅读:244      评论:0      收藏:0      [点我收藏+]

标签:弹窗   drive   command   接口   出错   python   代码   自动化测试   编码   

python的安装

一、通过Anaconda安装,它提供了python的科学计算环境,自带了python以及常用的库

  • 官方下载地址:
  • hppts://www.continuum.io/downloads
  • 清华大学镜像:
  • https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
  • 使用说明连接:
  • https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/

二、直接通过安装包安装

  • 官方下载地址:
  • https://www.python.org/downloads

 

三、请求库的安装

  • 爬虫可以分为几步:抓取页面、分析页面、存储数据
  • 在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些python库来实现HTTP请求操作:requests、Selenium、aiohttp等

安装requests:

1、pip安装(推荐)

  • pip install requests

2、wheel安装

  • wheel是python的一种安装包,后缀为.whl,网速较差时可以下载wheel文件,直接用pip安装,但是先要安装wheel库
  • pip install wheel
  • 然后到PyPi上下载对应的wheel文件,再从命令行进入wheel文件目录,利用pip安装
  • pip install *******.whl

3、源码安装

  • 首先找到库的源码地址:requests的地址:https://github.com/kennethreitz/requests

通过Git来下载源码:

  • git clone git://github.com/kennethreitz/requests.git

通过curl下载:

  • curl -OL https://github.com/kennethreitz/requests/tarball/master

下载完成后,进入目录,执行命令安装:

  • cd requests
  • python setup.py install
  • 命令执行结束即可完成requests的安装

4、验证安装

为了验证库是否已经安装成功,使用命令行模式测试一下,没有出错即表示成功:

  • import requests

 

安装Selenium:

  • Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,对于JS渲染的页面,这种方式非常有效
  • 推荐pip安装
  • pip install selenium
  • 验证
  • import selenium

 

安装ChromeDriver:

  • 官网:https://sites.google.com/a/chromium.org/chromedriver
  • 下载地址:https://chromedriver.storage.googleapis.com/index.html
  • 注意选择对应的版本
  • 下载完成将其配置到环境变量,windows直接将其放在python的Scripts目录即可,也可以单独配
  • 执行命令技术分享图片

    程序中测试,开启浏览器空白页,证明配置没有问题

  • 技术分享图片

     

 安装GeckoDriver

  • 对于FireFox同Chrome一样
  • 下载地址:https://github.com/mozilla/geckodriver/releaes

 

安装PhantomJS

  • 使用Chrome和firefox进行网页抓取,有个不便之处,由于一直开着浏览器,爬取网页的过程中浏览器可能一直动来动去,目前新版本Chrome支持无界面模式
  • 另一种就是安装一个无界面浏览器PhantomJS,此时抓取程序会在后台运行,不会有窗口
  •   官网:http://phantomjs.org
  •   官方文档:http://phantomjs.org/quick-start.html
  •   下载地址:http://phantomjs.org/download.html
  •   API接口说明:http://phantomjs.org/api/command-line.html
  •   下载完成解压,将bin目录的phantomjs.exe文件加到环境变量中,这里直接拷贝到python的Scripts目录
  •   验证:执行后没有浏览器弹窗,输出百度URL

    技术分享图片

 

 安装aiohttp

  •  requests库是一个阻塞式的http请求库,我们发出请求,程序会一直等待服务器响应,直到得到响应才会进行下一步,其实这个过程比较耗时,如果在等待过程中做一些其他的事情,那么爬取的效率就会大大提高
  • aiohttp就是一个提供异步web服务的库,从python3.5加入了async、await关键字,使得回调写法更直观和人性化
  • aiohttp的异步操作借助于async、await关键字的写法变得更简洁,架构更清晰
  • 使用异步请求库进行数据抓取,大大提高效率

相关连接

  • 官方文档:http://aiohttp.readthedocs.io/en/stable 
  • GitHun:https://github.com/aio-libs/aiohttp
  • PyPi:https://pypi.python.org/pypi/aiohttp

 

pip安装

  •  pip install aiohttp
  • 推荐安装另外两个库:字符编码检测库cchardet、加速DNS的解析库aiodns
  • pip install cchardet aiodns
  • 测试:import aiohttp
  • 技术分享图片

     

 解析库的安装

 抓取网页代码后,就要提取信息,可以使用正则来提取,但是相对繁琐

强大的解析库:lxml、Beautiful Soup、pyquery等

强大的解析方法:Xpath解析、CSS解析器等

 

安装lxml

  • 它是python的一个解析库,支持HTML和XML解析,支持Xpath解析方式,效率非常高
  • pip安装,无报错即成功
  • pip install lxml
  • 验证:imprt lxml
  • 技术分享图片

     

 安装Beautiful Soup

  • pip install beautifulsoup4
  • 验证:
  • 技术分享图片

 

安装pyquery

  • pip install pyquery
  • 验证:import pyquery
  • 技术分享图片

 

 

 

配置开发环境

标签:弹窗   drive   command   接口   出错   python   代码   自动化测试   编码   

原文地址:https://www.cnblogs.com/Mr-chenshuai/p/9096190.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!