码迷,mamicode.com
首页 > 其他好文 > 详细

数据科学行业已被挤爆?4点建议献给准备入行的小白

时间:2019-03-07 23:20:55      阅读:188      评论:0      收藏:0      [点我收藏+]

标签:优化   计算机   query   machine   cot   身体   连接   青少年   科学家   

数据科学家被称为“21世纪最性感的职业”,也被认为是最容易找工作的职业,但如今,真实情况如何呢?

数据科学刚刚度过了它的黄金五年。
自2012年以来,这个行业发展迅速。它几乎完整经历了Gartner技术成熟度曲线的每个阶段。

度过了初期使用阶段、有关AI和偏见的负面新闻、Facebook等公司的第二三轮风投。现在的数据科学正处于高增长使用阶段:即使是银行、医疗保健公司和落后市场五年的其他100强企业,也在招聘机器学习中的数据科学岗位。

但现实正在发生巨大的变化。

来自captech基金的资深数据科学家Vicki Boykis发布了一篇《数据科学不一样了》的文章,引起了广泛讨论。五年前被誉为“最性感“职业的数据科学家,正在进入一个新的阶段。

我们该如何应对?一起看看。

大数据(还记得Hadoop和Pig吗?)已经出局,R语言的采用率急剧上升,Python在《经济学人》杂志中被表扬多次,“云”已经再次改变了一切。

不幸的是,大众媒体在数据科学领域的炒作始终没有改变。

直到今天,在各类不负责任的媒体口中,数据科学家依然是“21世纪最性感最容易找工作的职业”。而事实上,希望进入这个行业的初级数据科学家已经供过于求,他们一旦获得梦寐的“数据科学家”称号后,实际展现出来的能力并不能达到预期的那样。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

01 新数据科学家的供过于求

首先,我们来谈谈初级数据科学家的供过于求。

围绕数据科学的持续媒体炒作极大地提高了过去五年市场上的初级人才数量。

这纯粹是传闻,你大可不必相信。但是,基于我参与筛选简历、做刚入门的数据科学家的导师、做采访者和受访者以及与处于类似职位的朋友和同事们的对话的经历,可以初步感受到,每个数据科学职位而言,特别是入门级的职位,候选人都已经从20个增加到100个或更多。

我最近和一个朋友谈话,他的一个开放职位收到了500份简历。

这并不奇怪。更多的传闻是来自像机器学习教父吴恩达的职位空缺,他的AI创业公司每周要求70-80小时的工作时间。

即便如此,他依然收到了很多人试图免费为他志愿工作。截止到目前,据他所说,他的办公室已经全部坐满。

正确估计市场供需当然不容易,但Wired的一篇文章可以提供一些线索:

对2018年4月份招聘广告的研究发现,美国有超过10000个职位空缺,面向有人工智能或机器学习技能的人。

文章继续表明:

超过10万人开始学习Fast.ai提供的深度学习课程,Fast.ai是一家专注于扩大人工智能应用的创业公司。

让我们做一道简单的数学题。

假设MOOC(慕课)的平均完成率约为7%,那意味着,这一年会有7000人可以填补这10000个工作岗位。这一年如此,但明年又如何呢?我们是否假设数据科学的就业率稳定?如果是这样,数据科学的就业市场看起来就会缩小很多。

我们再来看一项更广泛的研究,LinkedIn表示市场上缺少151717个具有数据科学技能的人才。虽然目前还不清楚这是指数据科学家还是仅具有部分技能的人,但我们假设是前者。那样的话,该国数据科学家有150000个职位空缺。

鉴于有100000人已经开始了数据科学课程,我们假设其中有7000人能完成课程。

但是,这些数字还都没有考虑到所有创造新的数据科学候选人的计划和途径:有像Coursera这样的Fast.ai之外的MOOC,有超过10个像Metis和GA(General Assembly)这样的每季度25人参加的全国性训练营,还有像加州大学洛杉矶分校等地的远程学位——分析和数据科学的学士学位,YouTube等,还有大量无法在极其紧张的就业市场找到工作、正从学术界转向数据科学的博士们。

这里有第三个确凿证据,来自PWC,它指出2015年数据科学家有4万个职位空缺。它还从总体上估计,认为分析技能的市场供应(再次说明,它比数据科学范围更大,但也是一个比较点)到2018年将会使市场过度拥挤。

将此与数百个数据科学课程的训练营相结合,如果有人要进入某个行业,你将看到一场大风暴。

根据我在业内工作并与100多名同事交谈的直觉,这两条推特最终使我确信数据科学行业存在供应泡沫。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

首先,是这个有关入门数据科学课程的推特:

Cal的入门数据科学课程是Data 8,这门课很受欢迎,位于泽勒巴赫教室。开课时间是2018年秋季学期第一天。

和UVA开设数据科学学院的消息:

▲UVA很自豪地宣布计划中的数据科学学院成立,它将满足社会增长最快的需求之一

由于在适应工业界的新趋势上,学术界通常是滞后的,因此这个趋势真的该引起初级数据科学家们的重视,所有人都希望找一个数据科学的职位。考虑到他们在市场上的竞争者数量,刚获得数据科学学位的人很难找到真的入行。

在三、四年前情况还并非如此,然而现在数据科学已经从一个流行词汇转变为硅谷泡沫外更大的公司招聘的职位,相关的职位不仅更加正式化,而且有着更严格的准入要求(即倾向于曾经具备数据科学工作经验的人)。数据科学职位的面试仍然难以把握,并且与工作完全不匹配。

正如许多博客文章指出的那样,你未必在第一次尝试时就能找到理想工作。因此,就业市场相当艰难,对于大量入门者来说更加困难重重。

Hinton对于机器学习领域现状的想法:

我们应该采取全新的想法。我们都知道从长远来看,一个全新的想法将比一个个微小的改进更有效。当我们这个群体只有一些资深人士和一大批青少年时,这就是缺点。

02 数据科学存在有误导性的工作需求

第二个问题是,一旦这些初学者进入市场,他们会对数据科学的工作模式产生不切实际的期望。每个人都认为他们将进行机器学习、深度学习和贝叶斯模拟。

这并不是他们的错,这正是一些数据科学课程和技术媒体们一直以来强调的内容。自从很久之前我第一次过分乐观地浏览Hacker News 上逻辑回归的帖子以来,情况并没有发生多大变化。

现实情况是,“数据科学”从未像机器学习那样关注数据清洗、数据转换以及将数据从一个地方移动到另一个地方。

我最近进行的极其非科学的调查问卷证实了这一点:

作者2019年1月在推特上做的调查问卷:

近一段时间以来对此非常好奇,所以我决定创建一个调查问卷:

“作为2019年被称为‘数据科学家‘的人,我花了大部分时间在(60%以上):”

选择了(“其他”)也欢迎在回复中添加。

调查结果:

6% 选择特性/模型

67% 清理数据/移动数据

4% 在产品中部署模型

23% 分析/呈现数据

许多行业专家发送的推文也是如此:

在我最近的几个机器学习项目中,复杂的地方不再是建模或培训里;二是在在输入预处理中。我发现自己耗尽的是CPU而不是GPU,并且在一个项目中我真的不确定如何进一步优化python(我也正在考虑c ++)。

——mat kelcey

我在初级ML/ CV工程师身上看到的最失败的一面是对构建数据集完全缺乏兴趣。虽然这是一项无聊的工作,但我认为在整理数据集时能够学习到很多东西。这就像是问题的一半。

——Katherine Scott

伴随着数据清洗,当炒作周期继续发挥着它的效应时,更加清晰的是,数据工具和将模型投入生产变得比在一台机器上从头开始构建ML算法更加重要,特别是随着云资源可用性的爆炸式增长。

显而易见的是,在炒作周期的后期阶段,数据科学将逐渐接近工程学,而数据科学家需要的技能不再主要基于可视化和统计学,而是更符合传统的计算机科学课程:像单元测试和持续集成这样的概念,很快就成了术语,并被用作数据科学家和从事ML工程的数值科学家常用的工具集。

这也导致了几件事的发生:首先是“机器学习工程师”这个头衔的崛起,在过去的3-4年里,它带来了更多的声望和更高的收入潜力。

其次,它导致了数据科学家职称的严重缩水。由于数据科学家职称的声望,像Lyft这样的公司会招聘这类职位,但要求拥有数据分析师的技能,这就造成了别扭的情况——数据科学的职位究竟需要做什么,又有多少职位提供给新入职的工作者。

我们作为资深从业者、记者、经理、行业会议发言人、撰写工作要求的人力资源经理,仍然不能很好地解决这个重要的难题。

03 给新数据科学家的建议

因此,本着继续为初学者提供建议的精神,我将给任何在2019年向我咨询如何进入数据科学领域的人发送这封邮件。

这是一个两步计划:

不要一味追求数据科学的工作

为成为数据科学家做好准备,而不是单单为了数据科学。调整你的技能组合。

这些听起来真是令人沮丧!但是,让我来详细说明这两