码迷,mamicode.com
首页 > 编程语言 > 详细

11、Python Selenium爬取国家药品监督管理局动态加载数据

时间:2020-06-21 11:37:30      阅读:330      评论:0      收藏:0      [点我收藏+]

标签:get   珠海   股份   动态   click   find   htm   pre   code   

from  selenium import webdriver
from lxml import etree
import time

bro = webdriver.Chrome(executable_path=‘./chromedriver‘)
bro.get(‘http://125.35.6.84:81/xk/‘)

time.sleep(1)

# 获取页面源码内容
page_text = bro.page_source

# 存放每页数据
all_page_text = [page_text,]

# 爬取两页数据
for i in range(1,3):
    # 定位下一页标签属性
    next_page_btn = bro.find_element_by_xpath(‘//*[@id="pageIto_next"]‘)
    # 点击下一页
    next_page_btn.click()
    time.sleep(1)
    # 每页数据存放到列表中
    all_page_text.append(bro.page_source)

for page_text in all_page_text:
    tree = etree.HTML(page_text)
    # 定位标题属性
    li_list = tree.xpath(‘//*[@id="gzlist"]/li‘)
    # 循环拿到标题
    for li in li_list:
        title = li.xpath(‘./dl/@title‘)[0]
        print(title)

#关闭浏览器
bro.quit()

>>>
广东天姿化妆品科技有限公司
惠州市多美日用品有限公司
江苏汉和日用品有限公司
江苏欣怡美生物科技有限公司
扬州市万紫千红酒店用品有限公司
广州她她生物科技有限公司
广州杰奥斯精细化工有限公司
广州市唯纳化妆品有限公司
广州市高维化妆品有限公司
广州智尚生物科技有限公司
广州荣大生物科技有限公司
湖南大三湘茶油股份有限公司
国源国药(广东)科技有限公司
东莞市美雅化妆品有限公司
广州姿采化妆品厂
东莞市伊美化妆品有限公司
广州壹美化妆品有限公司
诺斯贝尔化妆品股份有限公司
福建欧柏亚日化有限公司
浙江清科健康科技有限公司
广州协和高新科技有限公司
广州市禾雅生物科技有限公司
广州茂叶化妆品技术有限公司
广州市名色生物科技有限公司
广州市碧姿化妆品有限公司
广州市派德生物科技有限公司
广州非诚勿扰化妆品有限公司
广州欧慕生物科技有限公司
苏州珍妮健康科技有限公司
浙江源敏科技有限公司
广东省澳洁生物科技有限公司
广东尚柔生物科技有限公司
广东雅玥生物科技有限公司
广东审美生物科技有限公司
安徽乐美达生物科技有限公司
洛塔生物科技(武汉)有限公司
广州源肽生物科技有限公司
珠海市傲诗美化妆品有限公司
广东福克药业科技有限公司
广东尚品汇生物科技有限公司
广州市庆余化妆品有限公司
广州派莎化妆品有限公司
珠海诺氏化妆品有限公司
广州名妆化妆品制造有限公司
广州美颂生物科技有限公司

11、Python Selenium爬取国家药品监督管理局动态加载数据

标签:get   珠海   股份   动态   click   find   htm   pre   code   

原文地址:https://www.cnblogs.com/remixnameless/p/13171598.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!