码迷,mamicode.com
首页 > 其他好文 > 详细

爬取深圳交易所

时间:2017-05-19 22:27:08      阅读:199      评论:0      收藏:0      [点我收藏+]

标签:get   utf8   pil   tail   ant   for   pre   import   drive   

#encoding:utf8
import re
import requests
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
dr = webdriver.PhantomJS()
dr.maximize_window()
dr.get(‘http://www.szse.cn/main/marketdata/jypz/colist/‘)
num = [‘2‘,‘3‘,‘4‘,‘6‘]
for k in num:
WebDriverWait(dr,10).until(lambda the_driver:
the_driver.find_element_by_xpath(‘//*[@id="REPORT_ID_1110"]/table/tbody/tr/td/table[3]/tbody/tr/td[1]/div[‘+k+‘]‘).is_displayed())
dr.find_element_by_xpath(‘//*[@id="REPORT_ID_1110"]/table/tbody/tr/td/table[3]/tbody/tr/td[1]/div[‘+k+‘]‘).click()
time.sleep(2)
thepage = dr.page_source
demo1 = re.compile(‘<td.*?>当前第.*?页 共(.*?)页</td>‘,re.S)
list1 = demo1.findall(thepage)
for j in range(1,int(list1[0])):
for i in range(2,12):
WebDriverWait(dr, 10).until(lambda the_driver:
the_driver.find_element_by_xpath(
‘//*[@id="REPORTID_tab‘+str(k)+‘"]/tbody/tr[‘+str(i)+‘]/td[2]/img‘).is_displayed())
dr.find_element_by_xpath(‘//*[@id="REPORTID_tab‘+str(k)+‘"]/tbody/tr[‘+str(i)+‘]/td[2]/img‘).click()
WebDriverWait(dr, 10).until(lambda the_driver:
the_driver.find_element_by_xpath(
‘//*[@id="1743_detail_smetab1"]/tbody/tr[1]/td[2]‘).is_displayed())
yuan = dr.page_source
demo = re.compile(‘<table.*?><tbody>.*?<tr><td.*?>公司名称</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?>(.*?)</td></tr><tr><td.*?>.*?</td><td.*?><a.*?>(.*?)</a></td></tr><tr></tr>.*?</tbody></table>‘,re.S)
list = demo.findall(yuan)
print(list)
WebDriverWait(dr, 10).until(lambda the_driver:
the_driver.find_element_by_xpath(
‘//*[@id="REPORT_ID_1743_detail_sme"]/div/input‘).is_displayed())
dr.find_element_by_xpath(‘//*[@id="REPORT_ID_1743_detail_sme"]/div/input‘).click()
WebDriverWait(dr, 10).until(lambda the_driver:
the_driver.find_element_by_css_selector(‘.cls-navigate-next‘).is_displayed())
dr.find_element_by_css_selector(‘.cls-navigate-next‘).click()
time.sleep(2)

爬取深圳交易所

标签:get   utf8   pil   tail   ant   for   pre   import   drive   

原文地址:http://www.cnblogs.com/sdfghj/p/6880247.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!