Python Selenium框架

时间：2020-02-29 12:56:41 阅读：76 评论：0 收藏：0 [点我收藏+]

标签：标准 lis 谷歌浏览器 htm 遇到 switch write class xpath

1. selenium介绍

# 介绍: 
1.selenium是一个web自动化测试用的框架. 程序员可以通过代码实现对浏览器的控制, 比如打开网页, 点 击网页中的元素, 实现鼠标滚动等操作. 
2.它支持多款浏览器, 如谷歌浏览器, 火狐浏览器等等, 当然也支持无头浏览器. 
# 目的: 
在爬取数据的过程中, 经常遇到动态数据加载, 一般动态数据加载有两种, 一种通过ajax请求加载数据, 另 一种通过js代码加载动态数据. selenium可以模拟人操作真实浏览器, 获取加载完成的页面数据

ajax:
    url有规律且未加密, 直接构建url连接请求 
    url加密过无法破解规律 --> selenium 
js动态数据加载 --> selenium

2. selenium安装

三要素: 浏览器, 驱动程序, selenium框架 
    浏览器: 推荐谷歌浏览器, 标准稳定版本 驱动程序:http://chromedriver.storage.googleapis.com/index.html pip install selenium 
                
# 测试: 
from selenium import webdriver 
browser = webdriver.Chrome('./chromedriver.exe') # 将驱动放在脚本所在的文件夹 
browser.get('https://www.baidu.com')

3. selenium常用操作

# 实例化浏览器对象: 
from selenium import webdriver 
browser = webdriver.Chrome('driverpath') 

# 发送get请求: 
browser.get('https://www.baidu.com')
browser.get('https://image.baidu.com')
# 获取网页的数据: browser.page_source ---> str类型 
# 获取页面元素: 
find_element_by_id:根据元素的id 
find_element_by_name:根据元素的name属性 find_element_by_xpath:根据xpath表达式 find_element_by_class_name:根据class的值 find_element_by_css_selector:根据css选择器
                
# 节点交互操作: 
click(): 点击 
send_keys(): 输入内容 
clear(): 清空操作 
execute_script(js): 执行指定的js代码 
# JS代码: window.scrollTo(0, document.body.scrollHeight)可以模拟鼠标滚动一屏高度 
quit(): 退出浏览器 


# frame 
# 若爬取一个页面，需观察如果有两个HTML（一个父HTML，一个子HTML），所需内容在子HTML中，则需要switch_to.frame('frameid') 转至子页面继续操作

switch_to.frame('frameid')

4. QQ空间模拟登陆

from selenium import webdriver
import time
# 实例化浏览器对象
browser = webdriver.Chrome('./chromedriver.exe')
# 打开qq空间登陆页面
browser.get('https://qzone.qq.com/')
time.sleep(1)
# 转至frame子页面
browser.switch_to.frame('login_frame')
# 获取密码登陆选项并点击
a_tag = browser.find_element_by_id('switcher_plogin')
a_tag.click()
time.sleep(1)
# 获取账号输入框并输入账号
browser.find_element_by_id('u').clear()
user = browser.find_element_by_id('u')
user.send_keys('1816668038')
time.sleep(1)
# 获取密码输入框并输入密码
browser.find_element_by_id('p').clear()
pwd = browser.find_element_by_id('p')
pwd.send_keys('1971628197192liu')
time.sleep(1)
# 获取登陆按钮并单击
button = browser.find_element_by_id('login_button')
button.click()




'''
微博模拟登陆
'''''
# import requests,time
# from selenium import webdriver
# broeser = webdriver.Chrome('./chromedriver.exe')
# broeser.get('https://weibo.com/login.php')
#
# input_tag = broeser.find_element_by_id('loginname')
# input_tag.clear()
# input_tag.send_keys('15135544556')
# time.sleep(3)
# input_tag_pwd = broeser.find_element_by_xpath('//div[@class="info_list password"]/div[@class="input_wrap"]/input')
# input_tag_pwd.clear()
# input_tag_pwd.send_keys('123456789liu')
# time.sleep(3)
# button_tag = broeser.find_element_by_xpath('//div[@class="W_login_form"]/div[@class="info_list login_btn"]/a')
# button_tag.click()

5. 图片懒加载

'''
网址 http://sc.chinaz.com/tupian/   站长素材
图片懒加载
'''''

import requests
from lxml import etree
url = 'http://sc.chinaz.com/tupian/bingxueshijie.html'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
res = requests.get(url=url,headers=headers)
tree = etree.HTML(res.text)
#src2的位置，在必要的时候可以把值赋给src----懒加载核心
ret = tree.xpath('//div[@id="container"]/div/div/a/img/@src2')

for i in ret:
    comment = requests.get(url=i,headers=headers).content
    name = i.split('/')[-1]
    with open('./image/%s'% name,'wb') as f:
        f.write(comment)

Python Selenium框架

标签：标准 lis 谷歌浏览器 htm 遇到 switch write class xpath

原文地址：https://www.cnblogs.com/xinzaiyuan/p/12382235.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

Python Selenium框架

目录

1. selenium介绍

2. selenium安装

3. selenium常用操作

4. QQ空间模拟登陆

5. 图片懒加载