selenium爬取壹共享平台

时间：2019-11-08 12:37:28 阅读：62 评论：0 收藏：0 [点我收藏+]

标签：html exception ext for get set screen requests ber

#!usr/bin/env python
#-*- coding:utf-8 _*-
"""
@author:lenovo
@file: 壹共享.py
@time: 2019/11/08
"""
from selenium import webdriver
import time
from lxml import etree
import requests
import re
driver = webdriver.Chrome(r‘C:\Users\lenovo\AppData\Local\Google\Chrome\Application\chromedriver.exe‘)
# 设置浏览器窗口的位置和大小
driver.set_window_position(200,0)
driver.set_window_size(1500,1000)
driver.get("http://www.igxpt.com/")
driver.save_screenshot(‘abort.png‘)

driver.find_element_by_xpath(‘//div[@class="input-wrap"]/input‘).clear()
driver.find_element_by_xpath(‘//div[@class="input-wrap"]/input‘).send_keys(‘U盘‘)
driver.find_element_by_xpath(‘//div[@class="input-wrap"]/button‘).click()

#得到第二页的链接

# driver.find_element_by_link_text("下一页")

current_url = driver.current_url

result  = requests.get(current_url)

content = result.text
html    = content.encode(‘utf-8‘).decode(‘utf-8‘)


‘‘‘开始爬取‘‘‘

ret        = etree.HTML(html)
total_text = ret.xpath(‘//div[@class="dataTables_paginate paging_simple_numbers"]/span[1]/text()‘)[0]
print(total_text)
number_str = re.findall(‘\d+‘,total_text)
page       = int(number_str[0])

x = 1
for x in range(1,page+1):
	try:

		driver.find_element_by_link_text(‘下一页‘).click()
		print(‘当前页是‘+driver.current_url)
		#。。。。。。。do  something
	except Exception as e:
		print(e)


#退出窗口
driver.quit()

　随笔。。。。。。

selenium爬取壹共享平台

标签：html exception ext for get set screen requests ber

原文地址：https://www.cnblogs.com/wujf-myblog/p/11819207.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行