码迷,mamicode.com
首页 > 编程语言 > 详细

python selenium 踩坑

时间:2018-08-13 22:57:43      阅读:251      评论:0      收藏:0      [点我收藏+]

标签:hoc   exception   pen   driver   踩坑   shel   css_   bdr   代码   

想做做信息检索课设,先写个爬虫爬爬微博。

看了一下午微博的api,晚上决定用chromnium。

 

先通过pip安装selenium,官方文档看一眼,

 pip install selenium 

然后需要安装浏览器的driver,浏览器的调试模式一样

通过Choco安装,powershell一句话

 choco install selenium-all-drivers 

完毕。然后开始写代码

 1 from selenium import webdriver
 2 from time import sleep
 3 
 4 
 5 browser = webdriver.Chrome()
 6 try:
 7     print("open the browser...")
 8     browser.get(rhttp://weibo.com)
 9     print(browser.title)
10 except Exception:
11     print(browser open failed...)
12 
13 sleep(5)
14 
15 
16 print("select href_links...")
17 href_li = browser.find_elements_by_css_selector(a)
18 print("total links:",len(href_li))
19 print(not tag named <a>)
20 print(" for all the links")
21 for href_element in href_li:
22     print(href_element.text)

微博首页有js的动态加载,本来打算游客登陆的,结果发现直接访问会卡在一个游客的认证空白页几秒钟,然后针对网页的分析什么都是空的, sleep(5) 之后才能找到想要的东西。

干啥都得等一等,我决定下次用微博的api。。。

python selenium 踩坑

标签:hoc   exception   pen   driver   踩坑   shel   css_   bdr   代码   

原文地址:https://www.cnblogs.com/Liyunkai/p/9471518.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!