站点分析
- 看了交互,好复杂
- 看了下Ajax,好复杂
- 看了下其他内容,看不懂...
所以,没啥好分析的,直接上selenium吧
源码及遇到的问题
在搜索时,会跳转到登录界面
这个没有办法,是淘宝的反爬虫机制. 因为通过selenium webdriver调用的浏览器会有很多异于正常浏览器的参数,具体生成了啥参数,咱也没看懂.
具体的可以参考下面这个大姐的文章
分析淘宝登陆对selenium爬虫的封杀方案,反爬虫机制的升级
而且阿里不愧是阿里,哪怕webdriver调用的chrome中输入用户名和密码依旧不可以.
网上查了一下,基本是selenium是被封的死死的,基本上比较靠谱的方法就是使用pyppeteer
库.
那么问题来了...
- 我这次就是玩selenium的,临阵换库,不好.
- 懒
- 懒
- 懒
好了,总结了这么多,最终,发现了淘宝的一个bug. 虽然用户名密码登录的方式会由于ua值校验等问题被拒绝. 但是扫码登录不会...
所以我的解决思路很土,先扫码登录,拿到cookie,然后调用chrome之前,先把cookie写进去. (注意!这里有个坑,很大的坑) 如果不出意外的话,应该是可以的.
step1:干起来! 先取cookie
- def get_taobao_cookies():
- url = ‘https://www.taobao.com/‘
- browser.get(‘https://login.taobao.com/‘)
- while True:
- print("please login to Taobao!")
-
- time.sleep(4)
-
- while browser.current_url == url:
- tbCookies = browser.get_cookies()
- browser.quit()
- output_path = open(‘taobaoCookies.pickle‘, ‘wb‘)
- pickle.dump(tbCookies, output_path)
- output_path.close()
- return tbCookies
-
知识补充:pickle模块
python的pickle模块实现了基本的数据序列和反序列化。
通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储。
通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。
基本接口:
pickle.dump(obj, file, [,protocol])
有了 pickle 这个对象, 就能对 file 以读取的形式打开:
x = pickle.load(file)
取cookie倒是没什么问题. 问题是,这是我第一次见到原始的cookie,有点懵. 仔细看了之后才搞懂:
- 取出的cookie是一个数组
- 数组的每个元素是一个cookie
- 每个cookie又是一个字典,其中记录这这个cookie的 domian,key,value,path等等属性.
这里我用pickle.dump()方法把cookie存储下来了. 下次使用的时候,直接load一下就好了.
step2:载入cookie
载入的话分为两部分:
第一部分:从文件中读取cookie
这个很简单,不做过多描述
- def read_taobao_cookies():
- if os.path.exists(‘taobaoCookies.pickle‘):
- read_path = open(‘taobaoCookies.pickle‘, ‘rb‘)
- tbCookies = pickle.load(read_path)
- else:
- tbCookies = get_taobao_cookies()
- return tbCookies
-
第二部分:讲cookie载入chrome
这个可把我坑惨了.
先看代码,在search()方法中定义了如何载入cookie
- cookies = read_taobao_cookies()
-
- browser.get(‘https://www.taobao.com‘)
- for cookie in cookies:
-
- if ‘expiry‘ in cookie:
- del cookie[‘expiry‘]
- browser.add_cookie(cookie)
-
这里需要注意的有两点:
- 在调用add_cookie()方法之前,必须先打开一个网页.不然的话就会报
InvalidCookieDomainException
的错误.
- cookie中的‘expiry‘属性要删除,不然会报
invalid argument: invalid ‘expiry‘
但是看了下API,add_cookie()是支持这个expiry这个参数的
后来查了一下,当前chromedriver对于expiry只支持int64,不支持double. 据说是chromedriver的一个bug,在后续版本中会修复.
详细回答参见这个问题下的高票答案
关于add_cookie时,expiry参数报错的问题
step3:放飞自我
这两个问题解决了之后,基本上剩下的都不是什么大问题了. 这里说一个之前不知道的小技巧,chrome浏览器在源码审查的时候,可以选中页面元素,直接右键复制CSS选择器
这个功能还挺好使的. 表示之前并不知道...
Chrome的CSS选择器
关于phantomJS浏览器的问题
在使用selenium的时候,如果不想看到浏览器界面,可是使用 phantomJS这个无界面的浏览器来代替. 但是看到pycharm报了个warning. 说是phantomJS已经被depressed. 建议使用headless chrome替代.
于是看了一眼headless chrome怎么用. 很简单,在调用chrome的时候传入一个参数即可.
- chrome_options = Options()
- chrome_options.add_argument(‘--headless‘)
- browser = webdriver.Chrome(options=chrome_options)
-
源码
源码已上传github,有需要的请直接下载.
- import os
- import pickle
- import re
- import time
-
- from pyquery import PyQuery as pq
- from selenium import webdriver
- from selenium.common.exceptions import TimeoutException
- from selenium.webdriver.common.by import By
- from selenium.webdriver.support import expected_conditions as EC
- from selenium.webdriver.support.ui import WebDriverWait
- import pymongo
- from config import *
-
-
- client = pymongo.MongoClient(MONGO_URL)
- db = client[MONGO_DB]
-
-
- browser = webdriver.Chrome()
- wait = WebDriverWait(browser, 10)
-
- def get_taobao_cookies():
- url = ‘https://www.taobao.com/‘
- browser.get(‘https://login.taobao.com/‘)
- while True:
- print("please login to Taobao!")
- time.sleep(4)
- while browser.current_url == url:
- tbCookies = browser.get_cookies()
- browser.quit()
- output_path = open(‘taobaoCookies.pickle‘, ‘wb‘)
- pickle.dump(tbCookies, output_path)
- output_path.close()
- return tbCookies
-
- def read_taobao_cookies():
- if os.path.exists(‘taobaoCookies.pickle‘):
- read_path = open(‘taobaoCookies.pickle‘, ‘rb‘)
- tbCookies = pickle.load(read_path)
- else:
- tbCookies = get_taobao_cookies()
- return tbCookies
-
- def search():
- try:
-
-
- cookies = read_taobao_cookies()
-
- browser.get(‘https://www.taobao.com‘)
- for cookie in cookies:
-
- if ‘expiry‘ in cookie:
- del cookie[‘expiry‘]
- browser.add_cookie(cookie)
- browser.get(‘https://www.taobao.com‘)
- input_text = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#q‘)))
- submit = wait.until(
- EC.element_to_be_clickable((By.CSS_SELECTOR, ‘#J_TSearchForm > div.search-button > button‘)))
- input_text.send_keys(KEYWORD)
- submit.click()
- total = wait.until(
- EC.presence_of_element_located((By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.total‘)))
- get_products()
- return total.text
- except TimeoutException:
-
- return search()
-
- def next_page(page_number):
- try:
- input_text = wait.until(
- EC.presence_of_element_located((By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.form > input‘)))
- submit = wait.until(EC.element_to_be_clickable(
- (By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit‘)))
- input_text.clear()
- input_text.send_keys(page_number)
- submit.click()
- wait.until(EC.text_to_be_present_in_element(
- (By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > ul > li.item.active > span‘), str(page_number)))
- get_products()
- except TimeoutException:
- return next_page(page_number)
-
- def get_products():
- wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#mainsrp-itemlist .items .item‘)))
- html = browser.page_source
- doc = pq(html)
- items = doc(‘#mainsrp-itemlist .items .item‘).items()
- for item in items:
- product = {
-
- ‘image‘: item.find(‘.pic .img‘).attr(‘data-src‘),
- ‘price‘: item.find(‘.price‘).text(),
- ‘deal‘: item.find(‘.deal-cnt‘).text()[:-3],
- ‘title‘: item.find(‘.title‘).text(),
- ‘shop‘: item.find(‘.shop‘).text(),
- ‘location‘: item.find(‘.location‘).text()
- }
- save_to_mongo(product)
-
- def save_to_mongo(result):
- try:
- if db[MONGO_TABLE].insert(result):
- print(‘存储到MONGODB成功:‘,result)
- except Exception:
- print(‘存储到MONGODB失败‘,result)
-
- def main():
- try:
- total = search()
- total = int(re.compile(‘(\d+)‘).search(total).group(1))
- for i in range(2, total + 1):
- next_page(i)
- except Exception as exp:
- print(‘出错啦‘,exp)
- finally:
- browser.close()
-
- if __name__ == ‘__main__‘:
- main()
-
吾码2016