码迷,mamicode.com
首页 > 编程语言 > 详细

用Python爬取拉勾网数据分析职位及可视化

时间:2018-04-03 22:08:43      阅读:476      评论:0      收藏:0      [点我收藏+]

标签:计数   book   otl   通过   9.png   b2c   分类   time   dcom   

本来今天打算把以前的爬虫记录复制粘贴过来的,后来想想有点没意思,就想再写一次爬虫,顺便加上之前学的可视化数据分析。

有点糊涂,不知道该从哪里说起,也不知道该怎么讲。所以还是按照我自己的爬虫步骤讲吧

这里建议用jupyter notebook编辑,方便数据的展示

总的步骤就是:①导入模块 ②配置绘图风格 ③反爬 ④开始写爬虫代码 ⑤整合 ⑥绘图

大概就是以上这些步骤。

①导入包。今天想通过爬取数据绘制的图像有:条形图、饼图、地理图

#导入要用到的模块
import requests #网络请求
import re       
import pandas as pd  #数据框操作
import numpy as np 
import matplotlib.pyplot as plt #绘图
import matplotlib as mpl #配置字体
from pyecharts import Geo  #地理图
import time  #增加延时
import random

这里可能会出现的问题:这些模块都要自己下载的哦,具体方法可以自己去网上找,其实挺简单。大部分都是pip install就就解决的事情。

还有一些可能要自己到文件下载网站下载,还会让你选相应的匹配文件,这里的匹配是python版本匹配、位数匹配,如果不知道的话就打开CMD命令窗口进入python,输入以下:

import pip
print(pip.pep425tags.get_supported())

我的话就出现了:

技术分享图片

所以我选的应该是箭头所指的格式的文件。

②设置绘图格式和绘图风格

mpl.rcParams[font.sans-serif] = [SimHei] #这个是绘图格式,不写这个的话横坐标无法变成我们要的内容
#配置绘图风格
plt.rcParams[axes.labelsize] = 8.
plt.rcParams[xtick.labelsize] = 12. 
plt.rcParams[ytick.labelsize] = 12.
plt.rcParams[legend.fontsize] =10.
plt.rcParams[figure.figsize] = [8.,8.]

上面的意思通过英文很容易理解,

③反爬虫

反爬措施可以通过firefox里的请求头里的信息实现,直接把请求头里的信息复制过来就好,用其他浏览器的也行,把cookies注释掉,因为不要登录信息。

我用的是火狐。首先按F12,在网络里找到列表里的postion开头的内容,然后找到请求头(其他浏览器可能是Rrequest什么的)

技术分享图片

将请求头里的内容全部复制下来,需要注意的是,通过火狐浏览器复制的请求头会出现”...“,当我们复制过来发现有省略号时,把那个有省略号的地方打全。只需双击目标内容,请求头那里就会出现完整的句子,我把cookie注释掉了,因为不需要。代码如下

header = {Accept:application/json, text/javascript, */*; q=0.01,
Accept-Encoding:gzip, deflate, br,
Accept-Language:zh-CN,zh;q=0.8,
Connection:keep-alive,
Content-Length:56,
Content-Type:application/x-www-form-urlencoded; charset=UTF-8,
#Cookie:LGUID=20161214153335-9f0eacc2-c1cf-11e6-bd6c-5254005c3644; user_trace_token=20180122030442-efefe00e-fedd-11e7-b2cb-525400f775ce; LG_LOGIN_USER_ID=e619b07cb5d026e017473de3d4ef1bb5a3da9a0ddd6ea0a5; gray=resume; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%227288096%22%2C%22%24device_id%22%3A%221626117eb3016-0703ff024b7ae5-71292b6e-1049088-1626117eb3569%22%2C%22first_id%22%3A%221626117eb3016-0703ff024b7ae5-71292b6e-1049088-1626117eb3569%22%7D; WEBTJ-ID=20180403125347-16289da9860300-0dcabf1bb6b166-71292b6e-1049088-16289da98619b; login=true; unick=%E6%8B%89%E5%8B%BE%E7%94%A8%E6%88%B73739; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=0; gate_login_token=63a7401b950e42d41a03d8ce1db134ac22aeefc46c120c43; index_location_city=%E6%B7%B1%E5%9C%B3; JSESSIONID=ABAAABAAADEAAFIDFE252684FD90098F44851E32F917A9F; TG-TRACK-CODE=search_code; SEARCH_ID=e267bafce9b0431d8f8a867e48f2a7bf; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1522167431,1522215930,1522219100,1522731245; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1522741185; _gat=1; _ga=GA1.2.983742987.1481700649; _gid=GA1.2.1178844706.1522731227; LGSID=20180403154252-9d580c63-3712-11e8-b228-525400f775ce; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist_%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%3Fcity%3D%25E6%25B7%25B1%25E5%259C%25B3%26cl%3Dfalse%26fromSearch%3Dtrue%26labelWords%3D%26suginput%3D; LGRID=20180403154252-9d580e4e-3712-11e8-b228-525400f775ce; _putrc=2C1A435C1A81EDB8
Host:www.lagou.com,
Origin:https://www.lagou.com,
Referer:https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?city=%E6%B7%B1%E5%9C%B3&cl=false&fromSearch=true&labelWords=&suginput=,
User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36,
X-Anit-Forge-Code:0,
X-Anit-Forge-Token:None,
X-Requested-With:XMLHttpRequest}

④开始写爬虫代码
首先,还是得先分析下网页信息
我们翻到第一页,其网页代码是:https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=
              第二页,其网页代码是: https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=

可以发现,不同页数的网址并没有区别,所以可以判断这是一个动态网页,真正的网址其实在消息头(Headers)。用F12打开Network一栏

技术分享图片

 

 然后随便点开一页,比如说第四页,可以看到内容栏的第一个以position开头的东西,自己点击查看下,之后再一层一层打开,在result下面有很多我们想要的信息。

技术分享图片

 

然后可以点开到参数那里,最后一栏有“表单数据”,kd是我们搜索的关键词,pn是页数。first那里我也不知道是什么,不用管它。

技术分享图片

把这个复制下到txt里,因为等等我们还有一些东西需要复制。

但我们现在可以开始写一些代码来测试下了。

dat = {first:false,
       kd:数据分析,
       pn:3}     #这是我们刚刚复制的内容
url = https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false    #真实网址
html = requests.request(POST,url,data=dat,headers=header)
#进行请求

接着来测试下我们有没有翻车!

html.status_code #返回200说明没翻车,对比404,返回的是404代表翻车了,200是服务器返回的正常消息

我的结果截图是:说明没问题,但不一定出现200就一定没问题。

技术分享图片

再测试我们爬的内容↓

html.text   #如果出现”操作频繁“就是是被反爬了,所以一定要实施反爬措施,其实反爬措施有好几种,浏览器代理、IP地址代理都可以

我出现的结果:说明爬取成功

技术分享图片

接着,要思考下,我们需要爬什么内容,我想爬工作经验、地区、福利、待遇、企业名称等内容

在jupyter notebook里,Ctrl+F,输入companyid,然后选取你可能需要的字段

技术分享图片

复制以后,粘贴到文本上,然后对自己需要的内容进行模糊匹配,就是把其变成(.*?),不需要的内容直接写成.*?,就是不用加括号。对这方面不熟的话,就去看看正则表达式

我是这么写的:

技术分享图片

然后写代码进行正则提取:

#用正则表达式来提取数据
#在jupyterF5找出你想要的信息,然后复制你想要的信息,像我的话直接复制到薪水就可以了
data = re.findall("companyId":.*?,"workYear":"(.*?)","education":"(.*?)","city":"(.*?)","positionName":"(.*?)","companyLogo":".*?","companyShortName":"(.*?)","positionLables":.*?,"industryLables":.*?,"businessZones":.*?,"score":.*?,"approve":.*?,"jobNature":".*?","companyLabelList":(.*?),"publisherId":.*?,"district":"(.*?)","companySize":".*?","createTime":".*?","positionAdvantage":".*?","salary":"(.*?)",html.text)

 

⑤整合

到了这里我们可以把我们写的、测试的东西整合到一起了,

我们爬取的内容一共有30页,翻页用for循环来实现。for i in range的时候要慢慢爬,不能一下子就爬到很后面,这样也会被发现的。 可以这样理解:你翻页翻太快很明显就不是人为的,所以很容易被反爬。所以这时候我们要import time,就是增加延时。time.sleep(2),停两秒在翻页。

但是每次都是停两秒才翻页的话,就太准确啦,也容易被反爬。所以再加载一个随机模块,来随机选取秒数,我将秒数设置为2到10秒。最后整合如下:

#数据分析岗位有30页,用for循环实现翻页
for i in range(1,31):
    #写入真实网址,不是网页上的网址,是在消息头那,别的浏览器是Headers
    url = https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false
    
    #提交数据,在参数那一栏,把这个复制过来,然后加上引号和逗号
    dat = {first:false,
           kd:数据分析,
           pn:3,}
    
    time.sleep(random.randint(2,10))
    
    html = requests.request(POST,url,data=dat,headers=header)
    
    #用正则表达式来提取数据
    #在jupyterF5找出你想要的信息,然后复制你想要的信息,像我的话直接复制到薪水就可以了
    data = re.findall("companyId":.*?,"workYear":"(.*?)","education":"(.*?)","city":"(.*?)","positionName":"(.*?)","companyLogo":".*?","companyShortName":"(.*?)","positionLables":.*?,"industryLables":.*?,"businessZones":.*?,"score":.*?,"approve":.*?,"jobNature":".*?","companyLabelList":(.*?),"publisherId":.*?,"district":"(.*?)","companySize":".*?","createTime":".*?","positionAdvantage":".*?","salary":"(.*?)",html.text)

                      
    #转成数据框
    data2 = pd.DataFrame(data)
                      
    #写入本地
    #header、index是行名、列名的意思,让他们等于False的意思是,原来的行名和列名我们都不要,mode=a+就是要追加信息,
    #就是你要继续加信息的时候,他会往下写。而不是把你之前的信息覆盖掉
    #执行完毕后,可在刚刚的文件夹里发现csv文件
    data2.to_csv(C:\\Users\\Administrator\\Desktop\\456\\lagoujob.csv,header=False,index=False,mode=a+)

执行以上代码后可在文件夹里找到一个csv文件,要等一会的,不是马上就能爬好的。↓

技术分享图片

技术分享图片

工作经验学历什么的是我在这个文件里自己加上去的,你也可以自己在代码里写

现在来读取下这个csv文件↓

data3 = pd.read_csv(rC:\\Users\\Administrator\\Desktop\\456\\lagoujob.csv,encoding=gbk) #出现错误的话试试utf8,路径不能出现中文,会出现错误

读取前面的内容

技术分享图片

技术分享图片

技术分享图片

 

⑥绘图

查看学下历分类的状况以及计数

技术分享图片

根据学历状况绘制柱形图↓

data3[学历].value_counts().plot(kind=bar)  #绘制条形图
plt.show   #显示图片

技术分享图片

根据学历状况绘制条形图↓

data3[学历].value_counts().plot(kind=barh)  #绘制倒置的条形图
plt.show   #显示图片

技术分享图片

 

 根据”工作经验“绘制条形图↓

data3[工作经验].value_counts().plot(kind=barh)  #绘制条形图
plt.show   #显示图片

技术分享图片

 

用Python爬取拉勾网数据分析职位及可视化

标签:计数   book   otl   通过   9.png   b2c   分类   time   dcom   

原文地址:https://www.cnblogs.com/annebang/p/8710992.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!