标签:href size 科学 说明 优化 测试 先后 org 人工智
人工智能棋手 AlphaGo 先后战胜了两位顶尖围棋高手李世乭和柯洁。在这场猛烈风暴席卷了世界后,AlphaGo 宣布不再和人下棋。但它的制造者并没有因此停下脚步,AlphaGo 还在成长,今天 Deepmind 又在《自然》期刊上发表了关于 AlphaGo 的新论文。这篇论文中的 AlphaGo 是全新的、它不是战胜柯洁的那个最强的 Master,但却是它的孪生兄弟。它的名字叫 AlphaGo Zero,是AlphaGo 的最新版本。和以前的 AlphaGo 相比,它:强化学习
强化学习(Reinforcement Learning)是一种模仿人类学习方式的模型,它的基本方法是:要是机器得到了好的结果就能得到奖励,要是得到差的结果就得到惩罚。AlphaGo Zero 并没有像之前的兄弟姐妹一样被教育了人类的围棋知识。它只是和不同版本的自己下棋,然后用胜者的思路来训练新的版本,如此不断重复。通过这一方法,AlphaGo Zero 完全自己摸索出了开局,收官,定式等以前人类已知的围棋知识,也摸索出了新的定势。
算法和性能
如何高效合理得利用计算资源?这是算法要解决的一个重要问题。AlphaGo Lee 使用了 48 个 TPU,更早版本的 AlphaGo Fan 使用了 176 个 GPU,而 Master 和 AlphaGo Zero 仅仅用了 4 个 TPU,也就是说一台计算机足够!AlphaGo Zero 在 72小时内就能超越 AlphaGo Lee 也表明,优秀的算法不仅仅能降低能耗,也能极大提高效率。另外这也说明,围棋问题的复杂度并不需要动用大规模的计算能力,那只是浪费。
Deepmind 的历程
这不是 Deepmind 第一次在《自然》期刊上投稿,他们还发表过《利用深度神经网络和搜索树的围棋 AI》和《AI 计算机游戏大师》等几篇论文。我们可以从中一窥 Deepmind 的思路,他们寻找人类还没有理解原理的游戏,游戏比起现实世界的问题要简单很多。然后他们选择了两条路,一条道路是优化算法,另外一条道路是让机器不受人类先入为主经验的影响。这两条路交汇的终点,是那个超人的 AI。
结语
这是 AlphaGo 的终曲,也是一个全新的开始,相关技术将被用于造福人类,帮助科学家认识蛋白质折迭,制造出治疗疑难杂症的药物,开发新材料,以制造以出更好的产品。
标签:href size 科学 说明 优化 测试 先后 org 人工智
原文地址:http://blog.51cto.com/13373212/2325495