码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫 ,中国商标网

时间:2019-03-12 18:09:10      阅读:558      评论:0      收藏:0      [点我收藏+]

标签:中国   odi   ble   申请人   tag   utf-8   repeat   for   play   

 

from win32com import client
import time
import random
from lxml import etree
dirver = client.DispatchEx("InternetExplorer.Application")
dirver.Navigate(http://sbj.saic.gov.cn/sbcx/)
dirver.Visible = 1
time.sleep(random.randint(2, 8))
dirver.Document.body.getElementsByTagName("p")[3].firstElementChild.click()
dirver.Visible = 1
time.sleep(random.randint(8, 12))
dirver.Document.body.getElementsByTagName("tbody")[1].click()
time.sleep(random.randint(10, 20))
for i in dirver.Document.body.getElementsByTagName("input"):
    if i.name == request:hnc:
        i.value = 百度
# 点击查询
time.sleep(3)
dirver.Visible = 1
for i in dirver.Document.body.getElementsByTagName("input"):
    if i.id == _searchButton:
        i.click()

time.sleep(20)
form_str=dirver.Document.body.getElementsByTagName("form")[2].innerHTML
print(form_str)
html_str = etree.HTML(form_str)
tr_list = html_str.xpath(//tr[@class="ng-repeat"])
for tr in tr_list:
    item = {}
    item[注册号] = tr.xpath(.//td[2]/a/text())
    item[国际分类] = tr.xpath(.//td[3]/text())
    item[申请日期] = tr.xpath(.//td[4]/text())
    item[商标名称] = tr.xpath(.//td[5]/a/text())
    item[申请人名称] = tr.xpath(.//td[6]/a/text())

    print(item)
    with open(item.txt, w, encoding=utf-8) as f:
        f.write(str(item))

 

爬虫 ,中国商标网

标签:中国   odi   ble   申请人   tag   utf-8   repeat   for   play   

原文地址:https://www.cnblogs.com/sea-stream/p/10518276.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!