首页 > 编程语言 > 详细

都说Python找不到工作？那这些岗位都是什么？零基础爬智联！

时间：2018-07-20 21:17:45 阅读：157 评论：0 收藏：0 [点我收藏+]

标签：office 检查 stat 搜索结果 aaa img deb 爬虫学习存在

前言

作为一名准备转行数据分析的小白，我先接触到的是网络爬虫学习，每次爬虫运行都有新的bug收获，通过不断debug，终于稍微能爬一些数据了，在此想和大家分享一下~

私信小编007即可获取小编精心准备的PDF十套哦!

技术分享图片

技术分享图片

看看最后一页搜索结果

。

技术分享图片

PS:小技巧，在页面下部跳转页面输入一个很大的数字，比如10000可以跳到最后一页。

右键查看网页源代码，CTRL+F搜索关键要爬取信息，如下图红框内容

技术分享图片

技术分享图片

页面红框上的大数据分析师字样竟然搜不到！！！

技术分享图片

可能藏在json文件里了

那就再试试，搜一下数据分析师

技术分享图片

这下总算有了

技术分享图片

为什么会这样呢，经过检查发现：

技术分享图片

大和后面的数据分析中间有个<b>标签，这是什么意思，吓得我赶紧百度了一下

技术分享图片

设置成粗体？exm？好吧图上确实是显示粗体

技术分享图片

继续观察源代码，发现我想要的信息都在这（下图红框），看来不用抓包分析辣~

技术分享图片

技术分享图片

技术分享图片

技术分享图片

没时间解释了，快上车！

好吧，你根本不是司机，开始写代码。。。

技术分享图片

技术分享图片

以上是设置路径和为最后数据写入excel文件做铺垫

result11=[]

result21=[]

result31=[]

result41=[]

result51=[]

建立五个空的列表放我要抓的最终信息

技术分享图片

技术分享图片

里面没有中文啊，复制出来访问看看。

果然一样！！！

注意到这个url最后有个p=1，这很可能是页码，我换成5试试吧

技术分享图片

技术分享图片

看上图，果然是这样，我试试最后第90页

技术分享图片

技术分享图片

技术分享图片

range（1，91）循环爬取1~90页，p="+str(k)是为了构造循环网址（我要把90页全爬下来）

通过观察网页构造选择正则提取

每次提取一页中的所有信息不断循环存在result11~51的列表里

技术分享图片

结果如下图

技术分享图片

技术分享图片

一共5221条数据，并不是网页搜索的12354条，这活生生被吃了一半不止啊！

技术分享图片

我又运行了一下，果然数量不一样了，好吧。。。这个问题还有待解决，麻烦各位dalao懂的话留言提醒一下小弟

技术分享图片

这个<b></b>标签看着难受，用excel做点后处理

技术分享图片

查找替换

技术分享图片

报错了额

原来我默认的是wps打开，换成office的excel打开之后操作结果如下

技术分享图片

是不是好多了呢，有机会以后继续谢谢针对本数据后续的数据分析~

完整代码如下：

技术分享图片

代码运行大概15~20second

都说Python找不到工作？那这些岗位都是什么？零基础爬智联！

标签：office 检查 stat 搜索结果 aaa img deb 爬虫学习存在

原文地址：https://www.cnblogs.com/PY1780/p/9343433.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！