码迷,mamicode.com
首页 > 编程语言 > 详细

python3 selenium动态获取唯品会商品

时间:2016-06-21 19:08:36      阅读:306      评论:0      收藏:0      [点我收藏+]

标签:

http://list.vip.com/766479.html?q=0|0|0|0|0|2

 

我要获取这个:

技术分享

 

然而数据是AJAX异步加载的:

技术分享

然后我的代码是:

# -*- coding:utf-8 -*-
import re
import urllib.request, urllib.parse, http.cookiejar
import os, time,re
import http.cookies
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

##    说明
##         安装包
##  pip3 install bs4
##  pip3 install -U selenium
## 抓取不会变的网址用getHtml,否则getFirefox()


## 得到原始网页
def getHtml(url,daili=‘‘,postdata={}):
    """
    抓取网页:支持cookie
    第一个参数为网址,第二个为POST的数据
    """
    # COOKIE文件保存路径
    filename = cookie.txt

    # 声明一个MozillaCookieJar对象实例保存在文件中
    cj = http.cookiejar.MozillaCookieJar(filename)
    # cj =http.cookiejar.LWPCookieJar(filename)

    # 从文件中读取cookie内容到变量
    # ignore_discard的意思是即使cookies将被丢弃也将它保存下来
    # ignore_expires的意思是如果在该文件中 cookies已经存在,则覆盖原文件写
    # 如果存在,则读取主要COOKIE
    if os.path.exists(filename):
        cj.load(filename, ignore_discard=True, ignore_expires=True)
    # 建造带有COOKIE处理器的打开专家
    proxy_support = urllib.request.ProxyHandler({http:http://+daili})
    # 开启代理支持
    if daili:
        print(代理:+daili+启动)
        opener = urllib.request.build_opener(proxy_support, urllib.request.HTTPCookieProcessor(cj), urllib.request.HTTPHandler)
    else:
        opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

    # 打开专家加头部
    opener.addheaders = [(User-Agent,
                          Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5),
                        ]

    # 分配专家
    urllib.request.install_opener(opener)
    # 有数据需要POST
    if postdata:
        # 数据URL编码
        postdata = urllib.parse.urlencode(postdata)

        # 抓取网页
        html_bytes = urllib.request.urlopen(url, postdata.encode()).read()
    else:
        html_bytes = urllib.request.urlopen(url).read()

    # 保存COOKIE到文件中
    cj.save(ignore_discard=True, ignore_expires=True)
    return html_bytes


## 从火狐获取动态js,然后根据total得到页面数据,total表示全部,否则只能得到可视化的部分
def getFirefox(url,total=1,times=1):
        data=""
        browser = webdriver.Firefox()
        browser.get(url)
        time.sleep(times) 
        try:
            if total==1:
                data=browser.page_source
            else:
                data=browser.find_element_by_xpath("html").text
        except NoSuchElementException:
            print("神马都没有")
        return browser,data

def parse(data):
    # print(data)
    bai=re.compile(r<script>(.+)</script>)
    data=bai.match(data)
    if data:
        print(m.group())
    else:
        print("神马都没有")
    print(data)
    #var config = {...}
    #</script>
    # soup = BeautifulSoup(data, ‘html.parser‘) 
    # return soup.find_all("h4")



if __name__ == __main__:
    for i in range(246,247):
        url = "http://list.vip.com/766479.html?q=0|0|0|0|0|2"
        browers,data=getFirefox(url,0)
        
        maindata=browers.find_element_by_id("J_wrap_pro_add").text
    
        print(maindata)
        browers.close()
        #browser.quit()
        # url = "http://list.vip.com/766479.html?q=0|0|0|0|0|2"
        # try:
        #     data =getHtml(url)
        #     data = data.decode(‘utf-8‘,"ignore")     
        #     data=parse(data)
        #     print(data)                                                  #解析网站用的
        # except Exception as e:
        #     if hasattr(e, ‘code‘):
        #         print(‘页面不存在或时间太长.‘)
        #         print(‘Error code:‘, e.code)
        #     elif hasattr(e, ‘reason‘):
        #         print("无法到达主机.")
        #         print(‘Reason:  ‘, e.reason)
        #     else:
        #         print(e)
  

    

想直接用getHtml()自己写的函数弄,然后正则得到script里面的东西,麻烦。不要!我们下一步开始,进入正题。

下面是运行方式。好吧,这就结束,自己看上面的代码哈。

pip3 install bs4
pip3 install -U selenium

python3 jiexi.py

 

python3 selenium动态获取唯品会商品

标签:

原文地址:http://www.cnblogs.com/nima/p/5604593.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!