码迷,mamicode.com
首页 > 编程语言 > 详细

python网页爬虫开发之六-Selenium使用

时间:2018-10-25 17:09:23      阅读:169      评论:0      收藏:0      [点我收藏+]

标签:图片   就是   option   代码   int   code   dea   port   user   

chromedriver禁用图片,禁用js,切换UA
selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。
 
   
 
from selenium import webdriver
 
from fake_useragent import UserAgent
 
   
 
ua = UserAgent().random
 
print(ua)
 
chrome_options = webdriver.ChromeOptions()
 
prefs = {
 
‘profile.default_content_setting_values‘: {
 
# 也可以这样写,两种都正确
 
# ‘profile.default_content_settings‘: {
 
‘images‘: 2, # 不加载图片
 
‘javascript‘: 2, # 不加载JS
 
"User-Agent": ua, # 更换UA
 
}
 
}
 
chrome_options.add_experimental_option("prefs", prefs)
 
browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
 
#这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,
 
url = "https://httpbin.org/get?show_env=1"
 
browser.get(url)

python网页爬虫开发之六-Selenium使用

标签:图片   就是   option   代码   int   code   dea   port   user   

原文地址:https://www.cnblogs.com/joxin/p/9850896.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!