零基础怎样进行大数据的入门级学习？

时间：2018-06-25 20:17:09 阅读：170 评论：0 收藏：0 [点我收藏+]

大数据是眼下非常时髦的技术名词，与此同时自然也催生出了一些与大数据处理相关的职业，通过对数据的挖掘分析来影响企业的商业决策。

这群人在国外被叫做数据科学家（Data

Scientist），这个头衔最早由D.J.Pati和Jeff

Hammerbacher于2008年提出，他们后来分别成为了领英（LinkedIn）和Facebook数据科学团队的负责人。而数据科学家这个职位目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。

不过在国内，大数据的应用才刚刚萌芽，人才市场还不那么成熟，“你很难期望有一个全才来完成整个链条上的所有环节。更多公司会根据自己已有的资源和短板，招聘能和现有团队互补的人才。”领英（LinkedIn）中国商务分析及战略总监王昱尧对《第一财经周刊》说。

于是每家公司对大数据工作的要求不尽相同：有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此，很多公司会针对自己的业务类型和团队分工，给这群与大数据打交道的人一些新的头衔和定义：数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title，我们将其统称为“大数据工程师”。

我们身处一个“技术爆炸”和“共享、开源”的时代，先进技术的更新迭代速率超过了历史上任何一个时期，而且这些技术也不再闭塞，人人都可以接触并学习。终身学习已经是我们每个人不得不面对的问题，这一点在大数据/人工智能领域体现的尤为明显：层出不穷的新技术，一方面为我们带来了便利，但同时也使我们面临难以高效学习和选择的窘境。因此，在这样的时代背景下学习大数据知识，需要有相适应的逻辑和方法。

本文试图帮助各位读者用好各类“共享、开源”的学习工具以及学习渠道，躲过各类新手容易误入的“深坑”，以最小时间成本和经济成本，优质地完成目标技术的学习和掌握。

本文首先分析了时代背景，继而对目前大数据领域的人才梯队进行了划分，最后给出了大数据/人工智能人才从菜鸟到高手的进阶指南。

在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙：532加上二1八最后147，即可免费领取一整套系统的大数据学习教程
一、背景铺垫

“技术爆炸”以及“共享开源”是这个时代最有特色的标签，笔者认为二者是互为因果且紧密联系的，首先在“技术爆炸”的时代，对于走在技术发展最前沿的研究团队来说，“技术变现”的最好手段就是“共享开源”。反观互联网、移动互联发展成熟之前，信息是十分闭塞的，某项技术创新一旦出现就需要第一时间注册专利，技术需要靠政府来保护，而技术变现的唯一途径就是出卖专利或者组织生产形成产品。

现如今互联网及移动互联已经发展的十分成熟，新的信息会以极低的成本在极短的时间内传遍世界的每个角落，所以处在技术前沿的研究团队仅需要在第一时间将自己的工作成果上传到“arxiv”或者“github”之类中立的共享、开源网站，便会立即得到全球舆论的共同保护，这样的力度要远远强于某个国家的专利保护。

随后，只要新技术确有应用价值或者学术价值，那么各类资本巨头、科技大鳄以及相关的各类组织便会排着队上门送出丰厚的offer，对于前沿团队来说，技术变现的时间点要远远早于技术产品化的时间点。

其次，因为“技术爆炸”总有新的技术等待着前沿团队去研究发现，所以前沿团队保持领先的最好方法不是捂着现有成果不放，而是尽快“共享开源”实现变现，然后投入到新的研究工作中。

最后，“共享开源”也在很大程度上促进了“技术爆炸”，无论任何技术、科技的长足发展都需要一个庞大人才体系来支撑，反观历史上的各个时期，分享知识、培养人才的渠道主要是“学校”，这一渠道不但形式单一而且往往具备相当的门槛，会将相当一部分“有志青年”挡在门外。技术分享图片

而在如今这个时代，知识传播最快速的渠道是互联网，由于“共享开源”，世界上最优质的教育资源以及最先进的学术、技术理念忽然间没有了任何门槛，面向全部个体无差别开放，结果就是只要某一技术、科技领域有了很大的突破并具备广阔的应用前景（如大数据、人工智能），那么相应的人才梯队会在短时间内自动补齐跟上。

站在大数据学术前沿的研究团队只需要一往无前地开拓疆域，其后的人才梯队随即会自动开展“新技术论证”及“技术产品化”等“保障”工作，保障这一技术领域及相关行业的健康发展，来进一步促进资源向金字塔尖的前沿团队汇聚，支撑其开拓工作。

大数据(巨量数据集合)是现代社会非常时髦的一个名词。是数据科学的一个高阶状态。数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。催生出了一些与大数据相关的职业，通过对数据的分析挖掘来影响企业的商业决策。

国内，大数据的应用处于萌芽状态，人才市场还不太成熟，每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此，很多公司会针对自己的业务类型和团队分工，给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title，我们将其统称为"大数据工程师"。

对于一些大公司来说，拥有硕博学历的人是比较好的选择，不过阿里巴巴集团研究员薛贵荣强调，学历并不是最主要的因素，能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。想了解更多编程方面的分享请关注×××工宗号：程序员大牛，里面也有分享这方面的文章和干货资料。

找对好×××，连滚带爬往前走

现在已经不是一个单打独斗，凭着跌落断崖后找到一本秘籍闭关几年就能横扫天下的时代了，无论是像Hinton（推翻了BP算法的BP算法之父）这样的泰斗，还是像何凯明（发best paper像一般人发paper一样容易的神奇学霸）这样的新秀，都处在各自非常靠谱的团队中与小伙伴们共同探索。好×××不需要多，有一两个真正靠谱的就已经足够，至于队友的重要性后文会慢慢阐释。

菜鸟筑基这部分最后要给出的建议就是，千万不要在这个阶段停留太久，不要等“准备好了”再去着手实践，因为这里的“准备好了”往往包含菜鸟的不自信，不去进一步提升自己是永远准备不“好”的。一般情况下，想做“计算机视觉”或者“自然语言处理”等偏AI方向的同学在完成吴恩达的《深度学习》课程后，想做“数据挖掘”的同学在完成吴恩达的《机器学习》课程后，就可以选择相应的实践项目准备进入下一阶段了。技术分享图片

那么我们该选择什么实践手段呢？最佳的情况是有大神带队做真实项目，但是这样的机会往往可遇而不可求，在此不展开讨论。普罗大众型的办法是参加一个大数据比赛项目，现在国内的“阿里天池”以及国外的“Kaggle”都是开放式的大数据比赛平台，平台上会有各种组织发布的各类真实项目供大家实践、比赛。读到这里各位心里可能还存有很大的疑问：“就算学会了基本课程，在没有人带的情况下能上手实践吗？”，下文将陆续回答如何“连滚带爬”的进行实践。

初入江湖

找到一个最高的baseline

这里的“baseline”可以理解为前人已经做出成果，当自己恰好需要去做相同工作时的参照。对于上文提到的情况，如果有大神带队进行实践的话，那么带队大神此前的实践经验就成为了全体小队成员的“baseline”。那对于没有“大神”资源的广大读者是否有更通用的解决办法呢？答案是肯定的。如果读者目前对于一类问题无从下手，例如刚刚学完“深度学习”的课程，但是不知道如何去做“自然语言处理”类的项目，最好的办法是利用好国内的“万方”以及“知网”这样的论文查询平台，去查询相关领域国内普通高校的学位论文，这样的论文绝大部分都是中文并且会在论文中介绍大量的基础背景知识，正好满足了我们的需求。

有那么一句成功学的佳句是“每天叫醒我的不是闹钟而是梦想”，这句话听起来很励志，但对于90%的人来说就是胡扯，我们回首望去发现每天叫醒我们的往往是“上班迟到后被扣的工资”或者是“晚到实验室后老板的杀气”，这就是现实，听起来很残酷但是我们完全可以利用好它。具体到我们的升级以及项目推进中，能让我们不断向前的最大动力往往是“在DDL前无法完成任务后小伙伴们的鄙视”以及“完成quick win后带来的成就感”。

做好这一点除了上一小节提到的要合理划分任务之外，最重要的就是有一个靠谱的teamleader不断的进行推进（push），每到既定节点后雷打不动的推进。最后要啰嗦一句，根据马斯洛需求层次理论，梦想应该属于模型顶层的“自我实现需求”，如果一个人可以被“梦想”叫醒，那么这个人的其他需求应该已经被很好的满足了，所以我在这里真诚的祝福大家终有一天可以在早晨被自己的“梦想”叫醒。

如何成为大数据工程师

由于目前大数据人才匮乏，对于公司来说，很难招聘到合适的人才—既要有高学历，同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。

今年8月，阿里巴巴举办了一个大数据竞赛，把天猫平台上的数据拿出来，去除敏感问题后，放到云计算平台上交予7000多支队伍进行比赛，比赛分为内部赛和外部赛。“通过这个方式来激励内部员工，同时也发现外部人才，让各行业的大数据工程师涌现出来。”

颜莉萍建议，目前长期从事数据库管理、挖掘、编程工作的人，包括传统的量化分析师、Hadoop方面的工程师，以及任何在工作中需要通过数据来进行判断决策的管理者，比如某些领域的运营经理等，都可以尝试该职位，而各个领域的达人只要学会运用数据，也可以成为大数据工程师。

薪酬待遇

作为IT类职业中的“大熊猫”，大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察，国内IT、通讯、行业招聘中，有10％都是和大数据相关的，且比例还在上升。颜莉萍表示，“大数据时代的到来很突然，在国内发展势头激进，而人才却非常有限，现在完全是供不应求的状况。”在美国，大数据工程师平均每年薪酬高达17.5万美元，而据了解，在国内顶尖互联网类公司，同一个级别大数据工程师的薪酬可能要比其他职位高20％至30％，且颇受企业重视。

职业发展路径

由于大数据人才数量较少，因此大多数公司的数据部门一般都是扁平化的层级模式，大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队，而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展，成为重要数据战略人才。”颜莉萍说。另一方面，大数据工程师对商业和产品的理解，并不亚于业务部门员工，因此也可转向产品部或市场部，乃至上升为公司的高级管理层。