标签:找工作 微博数据 ip池 数据库 spark 机器 速度 信息检索 linux
百度百科:网络爬虫(又被称为网页,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取信息的程序或者脚本。
最近很多朋友问我,学习爬虫,学到什么程度可以去找工作呢?
这篇文章会说说我自己的心得体验,关于爬虫、关于工作,仅供参考
为什么那么多人选择学习爬虫?
一线城市(北京为例)
96.1%薪资是在10K以上,88.1%的人薪资是在10-30K,所以为什么说薪资非常客观了。
二线城市(成都为例)
暂且把目标定位初级爬虫工程师,简单列一下吧:
(必要部分)
(非必要,建议)
随便看看知乎上的教程就可以入门了,就Python而言,会requests当然是不够的,还需要了解scrapy和pyspider这两个框架,scrapy_redis也是需要理解原理的。
最简单的拿拉钩来举例,搜索关键词,有30页,不要以为把这30页爬完就是全站爬取了,你应该想方法把所有数据全部爬下来。
什么办法,通过筛选缩小范围,慢慢来就OK了。
同时,每个职位还会有推荐职位,再写一个采集推荐的爬虫。
这个过程需要注意的是如何去重,Mongo可以、redis也可以
这个面试中肯定会被人问道,如:
那么怎么找项目呢?比如我要爬微博数据,去Github中搜索下,项目还算少吗?
常见的 UA、Refer等需要了解是什么东西,有些验证的ID如何产生的,是否必要;关于IP池这块我不了解,不多说,需要注意的是如何设计拉黑机制;模拟登陆也是必要的, 可以研究下代码,或者提PR。
模拟登陆其实就是一步步的请求,保存cookie会话
很简单,给个任务,爬取知乎上所有问题。
你会如何思考并设计这个项目?
欢迎留言指出
标签:找工作 微博数据 ip池 数据库 spark 机器 速度 信息检索 linux
原文地址:https://www.cnblogs.com/Python6359/p/9418677.html