标签:机器学习算法 数量级 link 智能 nsf 人工智 社交 它的 深度学习
创业过5家大数据公司,Kaggle竞赛冠军:互联网深度学习误区—花大力气在那些影响力很小的事情上本文作者:Gregory Piatetsky, KDnuggets.
我对有着“摇滚明星”美誉的数据科学家杰里米·霍华德进行了独家采访,他谈到了自己最新出品的深度学习网络课程,Kaggle 因何获得行业领先地位,以及数据科学家的价值所在。
杰里米·霍华德(@jeremyphoward),是数据科学领域的“摇滚明星”。他在年少时成绩出色,还在澳大利亚读书时就多次获得考试最高分,但他觉得在学校里很无聊。于是他在 12 岁时开始“创业”,销售盗版游戏软件,18 岁时作为一名自学成才的数据分析师被麦肯锡雇用。几年后,他创立了 Optimal Decision Group,利用数据分析来帮助保险公司提高利润。
相比之下,他的第二家创业公司 FastMail 更为流行和被人熟知。2000 年底,他卖掉了这两家公司,开始了简单的“退休”生活——学习中文和自己动手制作音响功放。
为了寻找挑战,2010 年,他参加了 Kaggle 举办的一场比赛,并且一鸣惊人得获得第一名。之后他被邀请加入 Kaggle 担任总裁兼首席科学科学家,帮助 Kaggle 一步步占据行业领先地位。
2013 年 12 月他离开 Kaggle 后,又创建了一家公司 Enlitic,通过利用 Deep Learning 来改进医学诊断和临床决策。
笔者是在 KDD-2011 会议上首次结识了杰里米,那次大会上,他就深度学习做了一场令人难忘的演讲。他没有使用任何幻灯片,仅仅是用一支马克笔不断在白板上写写画画,深入浅出得解释他的想法和认识。
fast.ai 是杰里米最新的创业公司,关于这家公司的细节你可以从下文中找到答案。
杰里米·霍华德(Jeremy Howard,下面简称 JH):网上有许多深入学习课程,但是没有一任何个满足我们最重要的需求。我们希望向人们展示如何选择和使用最有效的深入学习技术来解决实际问题。而且我们希望它尽可能得深入浅出,特别是易于没有任何经验的程序员理解和掌握。
以前的教学方法是和数学领域高度相关的,无法直接解决任何问题,比如 Udacity 上的编程问题。
根据对许多深入学习项目或课程的分析,我们意识到最重要的教学方式是传授学习(transfer learning),这是指使用已经在大型数据集上训练过的模型,作为起点或基线。这样可以将训练时间加快若干个数量级,提供更准确的模型,并且不需要依太多数据。
我们也致力于只教授那些从真实的实际问题中获得的研究成果。听说很多学习过我们 MOOC 课程的人已经获益匪浅:大大提高了他们模型的准确度和训练速度!
JH:我不清楚目前最新的进展,毕竟我已经离开几个月了。但是,在我学习深度学习如何应用于医学方面的时候,我发现这方面的机会和潜力十分巨大。最重要的是,通过这项技术得应用,它有机会挽救生命,显著降低医疗费用,特别是在那些发展中国家。
在临床实验中,Enlitic 帮助四名业界顶级的放射科医生,多发现并确诊 7% 的癌症;在广泛病例诊断中,医生错诊率为 66%,而 Enlitic 则为 47%。—— Sydney Morning Herald Reports
JH:最大的障碍之一是缺乏综合全面的数据集。即包含了很长时间周期内的医学测试、干预措施和治疗结果的历史的数据集,并将所有的患者联系起来。只有通过这样的数据集,才可以构建基于实际治疗结果进行诊断检测和治疗建议的有效模型。
另一个障碍是缺少研究这一领域的数据科学家。在互联网行业,你能看到很多聪明、有能力的人从事于那些“影响力”很小的事情上,比如广告系统,推荐系统和浪费时间的社交网络。这是令我很惊讶的。
另一个特别的障碍是,医学从业者,特别是临床专家们,他们知识领域具有非常高的专业性,以至于很难找到其他人可以在“解决医学问题”上为我们提供教学建议的人。
JH:在 Kaggle 我学到了非常多关于机器学习的知识,差不多超过之前二十年的积累。另外一点是在过去几个月里,我一直在为准备我们的课程而学习和研究 Kaggle 的数据集。
对于希望提高排名的人,或者希望提高技能的机器学习从业者,我的建议很简单:
坚持每天提交(比赛代码)
如果你坚持每天提交,那么比赛结束后你将学到很多东西。 在日常工作中,你将很少(如果有的话)有机会围绕这些定义严格的数据集和指标进行工作,你也很难有机会与那些业界知名的数据科学家同场竞技。
JH:希望在未来几年“数据科学家”这个角色将大大减少,相反我们将把数据科学纳入其他工作或领域,如医疗专家、律师、供应链专家等。因此,我认为数据科学家应该了解和学习一个组织是如何创造价值的,不同行业的工作方式,以及组织是如何构建起来的。最重要的是,他们应该与这些组织或团体的领域专家合作,以增加影响力。
我不知道什么技术或技能是在五年后依然重要的。我认为重要的是你的学习能力和适应能力。
JH:首先,很难知道深度学习的局限性,因为目前我们远远没有找到它的极限。
在创造性和技能展示领域,人类将永远无可替代,因为人类只对“观察”其他人的表现感兴趣。例如,在创意和艺术领域,可以看看 Mike Loukides 的这篇文章。
JH:其实我不认为我是最年轻的!我在那里教授数据科学。每年最有意思的就是在 Global Solutions Program 中的交流。这个项目每年从世界范围中选 80 名最聪明和最富有激情的年轻人聚在一起,努力解决一些人类最迫切的问题,我很幸运地在这个项目中教授他们如何使用数据科学来帮助他们解决问题。
JH:离开 Kaggle 并不是一个困难的决定。因为我从没有想成为公司的全职成员,一开始只是作为一个志愿者。令我惊讶的是,我们从风险投资机构那里筹集了很多钱,此时除了全职加入我没有别的选择。之后 Kaggle 作出不明智的决定,它决定将全力投入石油和天然气相关业务上,所以继续留下对我来说没有什么意义了。之后的一年我全身心投入深度学习相关领域,这使得我决定进入医学信息领域。
离开 Enlitic 对我来说非常难。为了处理家中的紧急情况我已经离开公司一年了。在创立 Enlitic 之前,我花了很多时间考虑如何能更好地在医学界产生影响力,是进入学术界还是选择创业。现在看来,初创企业依赖外部投资从事需要大量基础研究的领域,这并不是一个好选择。因为急迫希望公司估值增长的投资者会给公司及员工太大压力。
这就是为什么我和雷切尔·托马斯(Rachel Thomas)一起成立了一个可以自给自足的研究机构 fast.ai。
JH:我最大的乐趣是陪我的小女儿一起玩,我喜欢她对一切的好奇心!我花了很多时间阅读深度学习的论文,所以我没有太多时间去阅读其他书籍。在傍晚我喜欢听有声读物,这阵子我正在“听”《 P. G. Wodehouse》。
本文作者 Gregory Piatetsky,由魏佳翻译,转载请注明出处,技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。
创业过5家大数据公司,Kaggle竞赛冠军:互联网深度学习误区—花大力气在那些影响力很小的事情上
标签:机器学习算法 数量级 link 智能 nsf 人工智 社交 它的 深度学习
原文地址:https://blog.51cto.com/14977574/2547169