码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫-淘宝商品密码(图文教程附源码)

时间:2018-09-02 02:04:12      阅读:152      评论:0      收藏:0      [点我收藏+]

标签:count   ons   规律   实战   nbsp   form   环境   取出   taobao   

今天闲着没事,不想像书上介绍的那样,我相信所有的数据都是有规律可以寻找的,然后去分析了一下淘宝的商品数据的规律和加密方式,用了最简单的知识去解析了需要的数据。

这个也让我学到了,解决问题的方法不止一个,我们要常常学会去思考,学会去学习,相信我们爬虫还是可以拿到我们想要的一切需要的数据。

我也对数据感兴趣,就是感觉,世间万物都是有规律可寻的,就看我们能不能去发现其中的秘密。

当我们去解决一个问题的时候,那一种成就感是别人难以体会的。只有我们去亲身体验才会感到真正的幸福。

所用模块:

re+requests+json

所用环境:

windows10 + pycharm

实战分析:

第一步:根据url来在google chrome中分析数据

技术分享图片

技术分享图片

分析的结果是:数据就是通过json来存储的

第二步:

得到网页的源码

技术分享图片

第三步把得到的数据进行解析

技术分享图片

 

 第四步:对数据进行解密

技术分享图片

第五步:就可以把json的数据拿到并分析得到相应的数据

技术分享图片

 

 以下是源码:

 1 import json
 2 import re
 3 
 4 import requests
 5 
 6 # 在搜索框中输入美食得到的数据q=%E7%BE%8E%E9%A3%9F
 7 url = https://s.taobao.com/search?q=%E7%BE%8E%E9%A3%9F
 8 response = requests.get(url)
 9 # print(response.text)
10 
11 # 用正则对html源码进行解析到一个json数据
12 pattern = re.compile(g_page_config =(.*?});, re.S)
13 result = re.search(pattern, response.text)
14 # print(result.group(1))
15 try:
16     # 发现并不是那么简单而是加密的数据并是有规律可寻的,以下是加密的几个数据段
17     json_data = re.sub((\\\\u003d)|(\\\\u0026)|(\\\\u003c)|(\\\\u003e), ‘‘, result.group(1))
18     print(数据解密成功)
19     # print(json_data)
20 except Exception as e:
21     print(数据解密失败,原因是:,e)
22 
23 
24 # json_dumps = json.dumps(json_data)
25 # print(json_dumps)
26 data_count = 1
27 data = json.loads(json_data)
28 # 分析json的数据并把需要的数据给读取出来
29 for good in data[mods][itemlist][data][auctions]:
30     print(商店名:{},商品标题:{},\n商品图片:{},\n商品产地:{},商品价格:{},付款人数:{},\n.format(good[nick], good[title], good[pic_url], good[item_loc], good[view_price],good[view_sales]))
31     data_count += 1
32 
33 print(data_count)

 

python爬虫-淘宝商品密码(图文教程附源码)

标签:count   ons   规律   实战   nbsp   form   环境   取出   taobao   

原文地址:https://www.cnblogs.com/yunlongaimeng/p/9572082.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!