码迷,mamicode.com
首页 > 其他好文 > 详细

selenium爬取驾考宝典题目

时间:2020-01-06 22:51:33      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:页面   name   环境   定义   new   close   sele   拼接   find   

要求

  • [x] Python3+

  • [x] Chrome驱动并已配置环境变量

  • [x] Selenium

## 研究页面
发现驾考宝典的科目四页面URL都是以 https://www.jiakaobaodian.com/mnks/exercise/0-car-kemu4-huaibei.html?id=916800,每翻一页最后的id值更新一次

所以,主函数可以写为
python # 1到15题 if __name__ == ‘__main__‘: for i in range(0, 15): getJkbd((i * 100 + 909800))

getJkbd()是我自己定义的函数,对页面进行具体的操作

## 编写getJkbd函数

动态拼接url
python url = ‘https://www.jiakaobaodian.com/mnks/exercise/0-car-kemu4-huaibei.html?id=‘ + str(num)

打开浏览器发出请求

browser = webdriver.Chrome()
browser.get(url)

添加等待函数,直至题目被加载出来,这是动态页面

wait = WebDriverWait(browser, 10)
wait.until(EC.presence_of_element_located((By.ID, 'ComQuestionDetail_qundefined')))

提取解析页面并打印到控制台

timu = browser.find_element_by_class_name('timu-text')
xpath = '/html/body/div[@class=\'container mnks-exercise\']/div[@class=\'layout-article\']/div[@class=\'container news-page\']/div[@class=\'frame-l-r\']/div[@class=\'left\']/div[@class=\'com-mnks-question-detail\']/div[@id=\'ComQuestionDetail_qundefined\']/div[@class=\'answer-w clearfix\']/div[@class=\'options-w left\']'
daan = browser.find_element_by_xpath(xpath)
print(timu.text)

print(daan.text)
browser.delete_all_cookies()
browser.close()

selenium爬取驾考宝典题目

标签:页面   name   环境   定义   new   close   sele   拼接   find   

原文地址:https://www.cnblogs.com/zhangqiuchi/p/12158752.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!