码迷,mamicode.com
首页 > 其他好文 > 详细

爬取拉勾网

时间:2020-04-30 11:50:58      阅读:93      评论:0      收藏:0      [点我收藏+]

标签:label   head   信息   图片   put   size   exce   div   list   

爬取的url:https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=

技术图片

 

 爬取职位名称,薪水,公司,待遇这些

抓包,找到信息加载为一个post请求返回

技术图片

 

查看他携带的数据,里面是关键字(python)和页数(pn),这个sid每次都会改变,经测试,该post请求主要检查的是cookies,这个sid不需要(一次一次试出来的)

 技术图片

 

 既然需要携带cookie,那我们首先建立一个session连接,获得cookie

1 s.get(url, headers=headers, timeout=3)
2 cookie = s.cookies

之后我们再用这个cookie构造post请求

1 response = s.post(url2, data=data, headers=headers, cookies=cookie)
2 html = response.text

成功返回json数据,之后解析json取出我们需要的数据就可以了

 1 json_data = json.loads(html)
 2 resulet = json_data[content][positionResult][result]
 3 for datas in resulet:
 4     positionName = datas[positionName]
 5     companyShortName = datas[companyShortName]
 6     companySize = datas[companySize]
 7     salary = datas[salary]
 8     workYear = datas[workYear]
 9     positionAdvantage = datas[positionAdvantage]
10     city = datas[city]
11     firstType = datas[firstType]
12     secondType = datas[secondType]

最后将数据写入excel

技术图片

 

 取出薪水和公司名称做一个简单的可视化

技术图片

 

 技术图片

 

 可以看到成都的python岗位平均薪资12 - 20k

最低工资2k,最高工资60k

在20 - 30k工资的人数占比最高为30%,0-10k的人数占比还是挺低的,当然都有学历和工作经验的要求(我就懒得分析了)

 

爬取拉勾网

标签:label   head   信息   图片   put   size   exce   div   list   

原文地址:https://www.cnblogs.com/Truedragon/p/12807426.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!