标签:get cms info exception source time 请求头 title --
这篇文章是我最近刚做的一个项目,会带领大家使用多种技术实现一个非常有趣的项目,该项目是关于苹果机(iphoneX)的销售数据分析,是网络爬虫和数据分析的综合应用项目。本项目会分别从天猫和京东抓取iphoneX的销售数据(利用 Chrome 工具跟踪 Web 数据),并将这些数据保存到 Mysql 数据库中,然后对数据进行清洗,最后通过 SQL 语句、Pandas 和 Matplotlib 对数据进行数据可视化分析。我们从分析结果中可以得出很多有趣的结果,例如,大家最爱买的颜色是,最喜欢的是多少G内存的iphoneX等等,当然本文介绍的只是一个小的应用,时间够的话如果大家刚兴趣可以进一步进行推广。
废话不多说,马上开始。
首先从马云粑粑的天猫“取“点数据,取数据的第一步即使要分析一下 Web 页面中数据是如何来的。也就是说数据,数据是通过何种方式发送到客户端浏览器的。天猫和京东的数据基本上没采用什么有意义的反爬技术,所以抓取数据相对比较容易(针对于复杂的后期会介绍抓包工具以及Scrapy框架自动爬取的方式)。
进到天猫苹果的官方旗舰店后,开始使用 Chrome 浏览器或者火狐都可以,他们都有很方便的调试工具。开始搜索”iphoneX“关键字,然后页面就会弹出iphoneX的商品详情页,浏览商品页面,在页面的右键菜单中点击“检查”菜单项,打开调试窗口,切换到“Network”选项卡,这个选项卡可以实时显示出当前页面向服务端发送的所有请求,以及这些请求的请求头、响应头、响应内容以及其他与调试有关的信息。对于调试和跟踪 Web 应用相当方便。
打开“Network”选项卡后,进到商品评论处,切换到下一页,会看到“Network”选项卡下方出现很多 URL,这就是切换评论页时向服务端新发出的请求。我们要找的东西就在这些 URL 中。至于如何找到具体的 URL,那就要依靠经验了。可以一个一个点击寻找(在右侧的“Preview”选项卡中显示 URL 的响应内容),也可以根据 URL 名判断,一般程序员不会起无意义的名字,这样很不好维护。这里我们找到一个”list_detail_rate.htm?“的URL,点开后,我们发现如图1所示,ratelist中的信息正是一条条的评论信息,所以也正是我们需要的Url。
然后右键选中左边”list_detail_rate.htm?“选择保存URL地址,然后用浏览器打开,可以看到如图2所示的内容。
这个 URL 就是iphoneX的某一页的评论(销售)数据,如果要查询所有的评论数据,就需要动态改变 URL 的参数。下面看一下“Headers”选项卡下面的“Query String Parameters”部分,如图3所示,会清楚地了解该 URL 的具体参数值。
在这些参数中有一部分对我们有用,例如,itemId 表示商品 ID,currentPage 表示当前获取的评论页数,在通过爬虫获取这些评论数据时,需要不断改变这些参数值以获取不同的评论数据。
尽管根据评论数计算(每页20条评论),某些商品的评论页数可能多达数百页,甚至上千页。
因为本项目抓取指定商品销售数据需要使用 JSON 模块中相应的 API 进行分析,因为返回的销售数据是 JSON 格式的,而从搜索页面抓取的商品列表需要分析 HTML 代码,这里我使用urllib模块。在对数据进行分析整理后,需要将数据保存到 Mysql 数据库中,因此,本例还会使用 mysql.connector 模块,本例使用的其他模块还包括 re正则模块和urllib.error异常处理模块,所以需要在 Python 脚本开头使用下面的代码导入相关模块。
1
2
3
4
|
import urllib import mysql.connector import re import urllib.error |
使用 request 方法发送 HTTP 请求时,可以使用 decode() 函数对 GET 字段进行编码。
1
|
data = urllib.request.urlopen(url).read().decode( ‘GB18030‘ ) |
然后,可以利用正则表达式对data数据进行正则匹配,这里就不仔细描述了,代码如下;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
for currentPage in range ( 1 , 100 ): try : commt_url = ‘https://rate.tmall.com/list_detail_rate.htm?itemId=560257961625&spuId=893336129&sellerId=1917047079&order=3¤tPage=‘ + str (currentPage) + ‘&append=0&content=1&tagId=&posi=&picture=&‘ proxy_add = "119.183.220.224:8088" #设置代理服务器,具体的大家可以去西刺免费的IP网站选择一个,“人生苦短,我选代理” #------------备用IP----------- #proxy_add="124.128.39.138:8088" #proxy_add="223.241.78.1064:8010" commt_data = use_proxy_2(commt_url,proxy_add) #爬取网页的评论内容 #正则匹配目标参数:网络类型、机身颜色、存储容量、购买途径、评价、评论日期 pat = ‘"aliMallSeller":.*?auctionSku":"(.*?)","auctionTitle.*?"cmsSource":"(.*?)","displayRatePic.*?"rateContent":"(.*?)","rateDate":"(.*?)","reply.*?":""}‘ list_detail = re. compile (pat).findall(commt_data) except urllib.error.URLError as e: if hasattr (e, "code" ): print (e.code) if hasattr (e, "reason" ): print (e.reason) |
正则匹配后的数据一个list,而且所有的数据都在一起,如下所示:
所以需要对数据进行拆分,生成不同的字段,分别为‘type#网络类型’,‘color#机身颜色’,‘rom #存储容量’,‘source #来源购买途径’,‘discuss #评论’,‘time #评论日期’。
1
2
3
4
5
6
7
8
9
10
11
12
|
for i in range ( len (list_detail)): #i表示每页第i条评论 data = list (list_detail[i]) #print(data) item_data = data[ 0 ] m = re.split( ‘[:;]‘ ,item_data) #print(m) type = m[ 1 ] #网络类型 color = m[ 3 ] #机身颜色 rom = m[ 5 ] #存储容量 source = data[ 1 ] #来源购买途径 discuss = data[ 2 ] #评论 time = data[ 3 ] #评论日期 |
然后就是将数据存入数据库中,利用python将数据存入数据库的方法有很多,这里我用的是mysql.connector模块。这里在插入数据库前,我们可以先在本地的数据库建好表,如下我用的是MySQL-Front可视化操作工作,比较直观反应。
然后开始将爬到的数据插入数据库,代码:
#插入mysql数据库
#连接数据库,这里注意端口号port的值是int类型,不能写成字符型,我第一次的时候就是吃了苦头
conn = mysql.connector.connect(
user=‘root‘,
password=‘111111‘,
host=‘127.0.0.1‘,
port=3306,
database=‘pachong‘
)
#获取游标
cursor = conn.cursor()
#插入数据
cursor.execute("INSERT INTO iphoneX(type,color,rom,source,discuss,time) VALUES (‘"+type+"‘,‘"+color+"‘,‘"+rom+"‘,‘"+source+"‘,‘"+discuss+"‘,‘"+time+"‘)")
print(‘第‘+str(currentPage)+‘页,第‘+str(i)+‘条数据‘)
print(‘************** 数据保存成功 **************‘)
#提交数据
conn.commit()
#关闭连接
cursor.close()
保存成功后,再取数据库中查看,如图所示;
下面看一下完整的实现代码
import urllib import mysql.connector import re import urllib.error #设置请求头headers headers=("user-agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36") opener=urllib.request.build_opener() opener.addheaders=[headers]#添加报头 urllib.request.install_opener(opener)#设置opner全局化 #设置代理服务器 def use_proxy_1(url,proxy_add): proxy=urllib.request.ProxyHandler({‘http‘:proxy_add}) opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler) urllib.request.install_opener(opener) data=urllib.request.urlopen(url).read().decode(‘utf-8‘) return data def use_proxy_2(url,proxy_add): proxy=urllib.request.ProxyHandler({‘http‘:proxy_add}) opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler) urllib.request.install_opener(opener) data=urllib.request.urlopen(url).read().decode(‘GB18030‘)#用GB18030格式转码 return data for currentPage in range(1,30): try: commt_url=‘https://rate.tmall.com/list_detail_rate.htm?itemId=560257961625&spuId=893336129&sellerId=1917047079&order=3¤tPage=‘+str(currentPage)+‘&append=0&content=1&tagId=&posi=&picture=&‘ proxy_add="119.183.220.224:8088"#设置代理服务器,具体的大家可以去西刺免费的IP网站选择一个,“人生苦短,我选代理” #------------备用IP----------- #proxy_add="124.128.39.138:8088" #proxy_add="223.241.78.1064:8010" commt_data=use_proxy_2(commt_url,proxy_add) #爬取网页的评论内容 #正则匹配目标参数:网络类型、机身颜色、存储容量、购买途径、评价、评论日期 pat=‘"aliMallSeller":.*?auctionSku":"(.*?)","auctionTitle.*?"cmsSource":"(.*?)","displayRatePic.*?"rateContent":"(.*?)","rateDate":"(.*?)","reply.*?":""}‘ list_detail=re.compile(pat).findall(commt_data) except urllib.error.URLError as e: if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason) #print(list_detail) #返回的结果是list形式,通过循环进行遍历 #考虑到爬取的数据量比较大,还是来一个异常处理,这个东西是必要的,省很多不必要的麻烦 for i in range(len(list_detail)):#i表示每页第i条评论 data=list(list_detail[i]) #print(data) item_data=data[0] m = re.split(‘[:;]‘,item_data) #print(m) type = m[1]#网络类型 color = m[3]#机身颜色 rom = m[5]#存储容量 source = data[1]#来源购买途径 discuss = data[2]#评论 time = data[3]#评论日期 #print(type,color,rom,source,discuss,time) try: #插入mysql数据库 #连接数据库,这里注意端口号port的值是int类型,不能写成字符型,我第一次的时候就是吃了苦头 conn = mysql.connector.connect( user=‘root‘, password=‘111111‘, host=‘127.0.0.1‘, port=3306, database=‘pachong‘ ) #获取游标 cursor = conn.cursor() #插入数据 cursor.execute("INSERT INTO iphoneX(type,color,rom,source,discuss,time) VALUES (‘"+type+"‘,‘"+color+"‘,‘"+rom+"‘,‘"+source+"‘,‘"+discuss+"‘,‘"+time+"‘)") print(‘第‘+str(currentPage)+‘页,第‘+str(i)+‘条数据‘) print(‘************** 数据保存成功 **************‘) #提交数据 conn.commit() #关闭连接 cursor.close() except Exception as e: print(e) print(‘第‘+str(currentPage)+‘页,第‘+str(i)+‘条数据‘) print(‘*************!!!! 保存失败!!!! **************‘)
如果说抓取数据是数据分析的第1步,那么数据清洗就是数据分析的第2步,至于为什么要进行数据清洗呢?如何进行数据清洗呢?本文就不具体描述了,下面具体对我们抓取的天猫商城iphoneX的销售数据进行分析。
从销售数据可以看出,网络爬虫抓取了‘type#网络类型’,‘color#机身颜色’,‘rom #存储容量’,‘source #来源购买途径’,‘discuss #评论’,‘time #评论日期六类数据,当然还可以抓取更多的数据。这里我们主要是对颜色color和内存rom进行分析,下面利用SQl语句和Pandas库对数据进行基本的分析。
既然销售数据都保存在Mysql数据库中,那么我们不妨先用 SQL 语句做一下统计分析,本节将对iphoneX的销售量做一个销售比例统计分析。我们要统计的是某一个颜色的销售数量占整个销售数量的百分比,这里需要统计和计算如下3类数据。
第1类数据和第2类数据的差值(百分比)
接下来将使用 Pandas 完成与前面相同的数据分析,并使用 Matplotlib 将分析结果以图形化方式展现出来。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
|
# 打开iphoneX数据库 #数据分析 from pandas import * from matplotlib.pyplot import * import mysql.connector import matplotlib import matplotlib.pyplot as plt conn = mysql.connector.connect( user = ‘root‘ , password = ‘111111‘ , host = ‘127.0.0.1‘ , port = 3306 , database = ‘pachong‘ ) cur = conn.cursor() # 对color进行分组,并统计每一组的记录数 # 对color进行分组,并统计每一组的记录数 try : cur.execute( "select count(*) from iphoneX;" ) alldata = cur.fetchall() #color统计 cur.execute( "select count(*) from iphoneX where color=‘银色‘;" ) y_color = cur.fetchall()[ 0 ] cur.execute( "select count(*) from iphoneX where color=‘深空灰色‘;" ) h_color = cur.fetchall()[ 0 ] #rom统计 cur.execute( "select count(*) from iphoneX where rom=‘64GB‘;" ) rom64 = cur.fetchall()[ 0 ] cur.execute( "select count(*) from iphoneX where rom=‘256GB‘;" ) rom256 = cur.fetchall()[ 0 ] except : print ( "Select is failed" ) # 数据可视化 # 饼图要显示的文本 labels1 = [u ‘y_color‘ ,u ‘h_color‘ ] labels2 = [u ‘64_rom‘ ,u ‘256_rom‘ ] # 用饼图绘制销售比例 X1 = [y_color,h_color] X2 = [rom64,rom256] fig = plt.figure() #解决不能显示中文的方法 plt.pie(X1,labels = labels1,autopct = ‘%.2f%%‘ ) #画饼图(数据,数据对应的标签,百分数保留两位小数点) zhfont1 = matplotlib.font_manager.FontProperties(fname = ‘C:\Windows\Fonts\simsun.ttc‘ ) plt.title( "颜色比例图" ,fontproperties = zhfont1) plt.show() plt.pie(X2,labels = labels2,autopct = ‘%.2f%%‘ ) #画饼图(数据,数据对应的标签,百分数保留两位小数点) zhfont1 = matplotlib.font_manager.FontProperties(fname = ‘C:\Windows\Fonts\simsun.ttc‘ ) plt.title( "内存比例图" ,fontproperties = zhfont1) plt.show() |
从上图的分析结果可以看出,iphoneX的“深空灰色”销售比例都很大,同时买256GB内存的要比64GB内存的比例大,基本上和我个人的判断差不多。今天就介绍到这里了,时间有限,后期会不断更新,大家也可以爬取不同商品的不同信息,进行更加具体的分析。
每天学习一点点 编程PDF电子书、视频教程免费下载:
http://www.shitanlife.com/code
标签:get cms info exception source time 请求头 title --
原文地址:https://www.cnblogs.com/scode2/p/8809038.html