标签:会议 site jessica alpha 设置 工业 相关 本质 ons
作者:张峥
上海举办「世界 AI 大会」,找到我作为评委之一,推荐和大会关联的、2017 以来有影响的工作。我把推荐文章和一些补充材料和想法整理一下,在这里抛砖引玉。
0:
这篇文章特意选择在 NIPS2017 会议期间发表,但与会者并没有特别大的反应。相反,在研讨会上这篇文章引起了关于通用智能的一场针锋相对的讨论。
通盘考虑对学界和工业界的影响力,把 AlphaZero 置顶应该没有疑问。这是一个软硬相辅相成、算法和工程结合、顶级学术加顶级广告的完美案例。算法上最吸引人的不是进,而是退,不是做加法,而是做减法,退回到一个更加简洁明快的框架之中。谷歌 TPU 系列硬件也借此脱颖而出,到了大街小巷连门房大爷都要问个明白的程度。
这样的工作,影响力已经远远超出了可以用学术界论文引用指数来衡量的范畴。在大会中我碰到文章的一作 David Silver,问他怎么看中国的几个围棋程序,他笑笑说估计它们「参考」了这个工作,因为文章发表之后不久水平大涨。
这个项目即便提名,对方婉拒的可能不小。所以我正式的提名是以下五个工作。
1:
这是相对小众的理论文章。如果说机器学习是幢楼,那筑楼的砖块是「嵌入式表示」(Embedding Representation)。现实世界中的数据,比如图像、文字、概念,存在于维度极高也极端稀疏的高维空间中,「嵌入」的意义在于把这些数据映射成一个相对稠密的低维空间中的向量,从而把源空间中巨大的空洞挤压掉。深度学习的所有的计算都围绕这相对稠密的对象空间中的向量展开,推演向量之间的关系。
一般情况下我们假设对象空间是个欧式空间。而真实数据、概念之间的关系很复杂,桌子是家具的一类,大猩猩是人的远亲,分别对应分支和层次的关系,等等。这些关系量化到对象空间,其距离和位置是如何的呢?一种可能是把维度遍历成序列,相当于赋予维度以层次的语义,排前维度代表更高的层次。即便如此,那么划分成多少层次,每层用多少维呢?这后面最根本的问题在于嵌入空间是否具有可解释性,这个问题曾经困扰我很久。在追逐实用的浪潮中,如此重要的问题少有工作涉及。
这个工作创造性地把对象空间变成一个球体:离球中心越远的点层次越低,在一个同心壳上的可以粗略地认为层次相当,离中心远的同心壳上可分布的点也越多。其意义相当于把欧式空间拓展到非欧空间,自然表达了层次化,因此是一个极有潜力的好概念,并进一步激发想象力:是不是尺度变化不大的情况下可以认为向量分布在一个近欧式空间,而尺度大了以后是非欧空间?更重要的启发在于,切换视角、做范式转换比死啃现有的框架要有意义地多;能更一般化地扩展已有框架都是极好的工作。
2:
和前两篇相比,这一篇来自华盛顿大学的工作几乎没有多少引用。主要原因是特别新,虽然项目开源已经有一段时间。这篇文章的短文在 2018 年在第一届系统和机器学习的跨界研讨会 SysML 发表,长文最近刚刚被系统研究的顶会 OSDI 2018 录用。
人工智能的打造离不开强大的硬件支撑,TVM 的意义在于建立了一个把算法高效地实现到各类硬件的平台,打破了现阶段主要硬件厂商对底层的垄断。如果说工业界的研究更偏重落地、实用、开发商业价值,学术界的重要使命之一是打破壁垒,把技术民主化和扁平化。
这项工作在学术上打开了另一扇门,使得人工智能算法可以用来优化自身在底层硬件的实现。系统工程和人工智能结合有几个有意义的路径,这个工作将是这方面的先驱,意义重大。此研究团队在这方面的工作(如下)正在 NIPS2018 审稿阶段,我认为非常出色。
相比而言,系统研究是个苦活,一个好工作经常需要一个很强的团队合作至少九个月才能成型。而系统和 AI 两方面都过硬十分难得。这篇文章的一作陈天奇同学和卡内基大学的李沐、纽约大学的王敏捷是开源平台 MXNet 的三大学生领袖,作风踏实、实力雄厚而朴实低调,是难能可贵的青年才俊。
3:
把语言看成一个序列,利用带门控制的循环网络(比如 LSTM 或 GRU)来处理是常用手段。但带来的问题也是显而易见的:序列上的点如果要影响很多步之后的另一个点,需要「穿过」两者之间的每一道门才能抵达。这层层关卡显然是累赘,而且距离越远带来的问题越大。
这个工作在翻译任务中抛弃循环网络的框架,力图在节点间建立一个动态的关联网络,在思路上是非常漂亮的一个突破,实际效果也非常好。
我个人倾向于把这个工作归入动态图和深度网络有机结合的一个大潮流之中。从这个角度来看,这个工作的出现是必然的。关于这个大方向,我在后面另作展开。
4:
这篇高引用文章面世于 2016 年,虽然正式会议发表是在 2017 年。所以,理论上并不符合「2017 年之后」的标准,但也值得提一下。
深度学习中的神经网络一味追求「深」带来至少两个问题:细节的丢失和错误信号的梯度难以回传。ResNet 引入 skip-connection,把浅层的特征可以逐层「快递」,使得图像识别网络的性能上了一个台阶,但随后发展进入停滞。这个工作并没有在本质上改变这个局面,其突破是把浅层特征上报的范围扩大,这也是「密链接」一词的由来。
在实用中,这个网络在控制参数总量的同时效果显著。
5:
我们经常要求一个模型同时胜任多个任务,比如在定位物体的同时预测类别。多任务学习除了实用性,另一个意义是对模型进行约束。但带来一个令人头疼的问题:如何设置每个任务在训练中的比重。这因为任务的难度不一样,标注复杂度和标注中的噪音也不一样。现阶段依靠暴力搜索超参数的方法除了浪费计算资源,更大的问题是对问题缺乏严格的数学表述。
这个工作把单任务预测的不确定性和其在多任务训练中的比重结合起来,给出了一个漂亮的数学形式,实验结果也很不错。虽然是在解决视觉问题中提出,但具有一般性,有被推广的潜力。
其他推荐
从 2014 年开始,对抗网络(GAN)一直大热,原文至今已经被引用超过 4400 次。对其他研究领域来说(比如我之前活动的系统研究领域),这是个天文数字。在图像和自然语言中,有两篇文章没有直接用 GAN,而是取其精髓,用对抗的损失函数对中间层的表达做约束,用迭代翻译的方法建立同一模态但不同表达的数据集(比如英文和德文、马和斑马)之间的联系,从而大大降低昂贵的标注成本。工作非常漂亮。
第一个是 CycleGAN:
第二个自然语言其实有两篇同时在 ICLR 2018 年发表的文章
2017 年还有一篇来自「教父」(之一)Hinton 的明星文章,所谓「胶囊网络」,其在 NIPS 的报告栏前挤满了人。「胶囊」的诞生有点早,在深度学习大热之前的 2011 年,我也很早读到,觉得有趣,也因此坚定了这个信念:除了层次化的卷积网络之外不借鉴大脑的工作机理都是短视和错误的。2011 年的文章提出了模型的粗框架,但更多是提出而不是解决了问题。显然,Hinton 一直没有放弃这个方向。这种坚持之可贵,值得国内的同行认真反思。
我个人的看法,「胶囊」在科学探索比实际应用更重要一些,是把脑科学和 AI 从神经元级别上升到电路层次来衔接的重要一步。在技术上有两个地方值得学习,一个是球形的嵌入式表达,和之前的 Poincaré Embeddings(推荐的第一篇)有异曲同工之处,第二个就是迭代的图计算,正是下面要提到的。
2017 到 2018 年一个暗流涌动的区域是把图理论和深度学习结合起来。或者说,大家开始意识到隐性挖掘数据中内在结构的局限性。在很多问题中,数据本身是由功能块决定的,功能块之间的联系可以看做一个图上节点之间的链接。这些关系在有些场景中是显性的,比如社交网络、分子结构。如果不是显性也有机会学出来的,尤其当节点数并不是特别大的时候,比如 Attention is all you need 这篇文章就是利用了这一点。
以下这篇工作是谷歌 Deepmind 的总结性文章,在网上关注度不小。但我并不推荐,因为其中无太多新意。关于图和深度网络结合,我看到最早的文章在 2007 年。
在谷歌的总结文章中,我认为缺少了对动态图的处理;之前的 attention is all you need 可以看做动态图在自然语言处理中的一个例子。下面这个工作专门做一般性的动态图生成,实验做得很仔细,是这方面开先河的一个工作。但 2017 年以来有不少文章,很难推荐一篇。因为这篇和谷歌的总结性文章互补,在这里提一下。
和上面这个工作相关的来自谷歌的另一篇文章。这篇文章之所以影响不小,是因为拓展了另一个新领域,并顺手把图计算的接口整理了一下。值得参考。
后记
总的来说,以深度学习为代表的人工智能在 2017 年以来依然保持蓬勃发展的势头。因为 各个子领域采纳的基本框架类似,文章都相通可以互鉴,一个严重的后果就是论文成灾,找到含金量高的成果变成科研的一个瓶颈。
而总的来说,含金量在论文大量涌现的背景下按比例快速下降。大家都在吃上一代核心算法的红利。如果新一代核心算法迟迟不能出现,这将是一个很糟糕的未来。我尤其为刚刚进入或将要进入研究生的同学们感到担忧:花大力气打磨出一些微小改进的工作是很无趣的。
但我还是保持谨慎的乐观。其中一个原因是跨界人才的进入,和因此而来的新的应用领域的打开。为大赛推荐的这几篇文章的作者,就有来自物理、材料、化学的高端人才。他们带来不同的问题,不同的理论框架,不同的视野,不同的技术和框架。况且,以上推荐的这些文章启发性还是很大。各方都在憋大招,可以说是暗流涌动不可预测。
要完成自我革命,一个重要的前提是对已有框架要保持高度自觉的警惕和怀疑。我认为某些手段的滥用遮蔽了更正确的道路,卷积网络、循环网络、注意力机制等等,有可能成为前进的绊脚石。不理解环境的暴力强化学习(model-free reinforcement learning)、无层次无结构的执行策略(policy)等等,都应该看成一个阶段性的成果,而不是全部。灵活挖掘数据背后的结构,在有标签的情况下和图计算结合,在无标签的情况下使用信息瓶颈来「挤」出结构来,是我个人看好的方向。
更可能的是,真正可怕也有趣的方向,正在我看不到的某个实验室的角落发酵。
学界另一个不健康的趋势是暴力选参。深度学习最后总要落实到一个优化问题上来。也许这个问题就是需要大容量的模型,就是需要做大批的参数筛选,但盲目预设这样的前提,并为这样的结果叫好,无疑是资源贫乏的学校等研究单位的自我降维。如果不说是自杀性的思路,至少是举械投降的姿态。
最后说一下大家都关注的热点,所谓中国 AI 研究已经世界老二,因为我们论文数已经第二。能发论文,说明了方法的掌握,不代表有影响力。而任何一种竞赛,领先的都有带路的责任,也所谓「一带一路」。
那么,所谓影响力,用论文的被引数是不是能成为一个参考呢?
我曾经听其他学科的教授半开玩笑地说,论文里除了介绍(introduction)那一节的引用算,其他的引用都是充数。假如把实验部分的引用也算上,这话是有些道理的,换句话说,即便被引,也不代表有相同的影响力。
另外,「影响」这个词也相当主观,因每个研究者的领域不同而异。我自己从系统界跨界过来,根基不扎实,而且做得杂。正因为如此,我十分期待大赛其他评委的推荐以及最后的结果——这是一个虽然貌似主观但事实上更客观的标准:到底哪些工作启发了你?
无论如何,我希望大家不要愧对了「世界 AI 大会」这么大的名头。
我的推荐事先征求了不少同行的意见,包括纽约大学 CIRVR 实验室的几位我很看重的老师。结果大家也看见了,主要集中在工业界的几个聚合了很多天才的实验室,也有小部分学校,并不在中国。
我认为中国 AI 不是第二,而是第一——但是是应用转化和落地的第一。在原创性上,我们暂时不需要去比,因为既没有比的必要,也没有比的可能。中国在 AI 发展的道路上,其位置一直处于一个巨大的原创 IP 的市场,而不是产地。为此,我们避免了大量的试错成本。
但有句老话说得好:出来混,早晚要还的。是不是?
作者简介:
张峥:上海纽约大学计算机终身教授,纽约大学库朗数学研究所、计算机系、数据学院兼职教授,美国伊利诺大学香槟大学(UIUC)博士。中组部千人计划专家。《知识分子》88人专家委员会成员。原惠普中央研究院研究员,原微软亚洲研究院系统研究方向创始人、首席研究员、副院长,主要研究领域为深度学习和人工智能、高性能大容量计算和存储系统,在国际会议获多次最佳论文, 在微软和惠普获卓越贡献奖。开源深度学习平台MXNet的共同创始人和顾问。
标签:会议 site jessica alpha 设置 工业 相关 本质 ons
原文地址:https://www.cnblogs.com/alan-blog-TsingHua/p/9767118.html