标签:
作者: 龙心尘 && 寒小阳
时间:2016年3月。
出处:http://blog.csdn.net/longxinchen_ml/article/details/50900070
http://blog.csdn.net/han_xiaoyang/article/details/50903562
声明:版权所有,转载请联系作者并注明出处
机器学习的第一步都是先了解业务。围棋的业务特点包括其基本规则、对弈特性和下棋的典型思路。根据这些业务特点,我们可以分阶段实现我们的围棋算法。
基于以上规则,围棋对弈过程中有以下特性:
不像象棋、军棋那样盘面上的棋子越走越少,而是越走越多。所以一局棋从开始到结束,用一张标记好走棋顺序的棋谱就能保存绝大部分下棋的信息,是一个时间序列。如下图就是《Nature》论文中的樊麾与AlphaGo对弈的一个棋谱:
对弈从开局到中局变化都很大,尤其是中局,往往是一着不慎,满盘皆输。用数学的描述叫做估值函数(得分函数)非常不平滑。
而人类不需要搜索这么多状态空间也能够下好围棋,说明还是有规律的,只是这些规律比较抽象。我们机器学习算法就是要尽量找出人类下围棋的一些规律。我们可以简单总结一些人类下围棋典型思路如下:
基于以上这些初步了解,我们可以分阶段实现我们的下棋算法:
现在我们思路大概有了,但仍然不知道模型的最终样子应该是怎样。此时我们建议先动简单手做一个baseline,然后在模型调优的过程中不断地分析问题、解决问题。这样就很有可能更快找到问题的最佳解决方案。设计baseline思路基本如下:
通过以上分析可知,下围棋的过程就是一个不断地决策在哪个位置落子的过程。在落子之前,你已知棋盘上所有已落子的情况。而棋盘上总共就
分类器的输出我们知道了,就是361个标签。那分类器的输入又是哪些特征呢?其实就是当前的棋盘分布。
我们先考虑第一类特征。围棋一共是361个交叉点,每个交叉点有三种状态(白子、黑子、无子):可以用1表示黑子,-1表示白字,0表示无子。于是一个361维度的向量就可以完全表示当前棋盘的情况。理论上说,只输入这些特征就可以了。如下图就是演示用矩阵表示棋局状态的情况,而矩阵拉长就是一个向量了:
但是,因为围棋的极端复杂性,这些棋子(输入特征)的关系是非线性的。虽然理论上采用神经网络的算法可以处理非线性特征,但是计算量和对资源的消耗都太大。相反,如果有依据地增加一些新的特征的维度,使特征间的非线性关系不那么复杂,将使得模型变得更加简单、更加便于训练,优势还是很明显的。
那怎么增加更多的特征呢?这就需要利用部分围棋领域中的知识,比如围棋中的术语:气、目、空等概念都可以作为我们构造新特征的基础。在AlphaGo的论文中就是采用了以下更多的特征:
所以,输入模型的特征是一个361×n维度的向量。基于这些向量来训练模型。
最终,AlphaGo只依靠一个13层的卷积神经网络就能训练出一个比较好的落子分类器。比起图像识别竞赛用到的20、30层的深层神经网络还是比较浅了。这些都是特征工程的功劳。
我们了解到,下围棋的算法本质上就是一个分类器,而最简单的分类器就是逻辑回归。可以预期它的分类效果不一定很好,但是速度非常快,在需要快速迭代的业务场景中可能有优势。所以逻辑回归是我们考虑的一类模型。
但是在复杂的围棋博弈中,需要更多高维度的抽象特征,这些构造起来非常麻烦,而经过我们之前的博文介绍,神经网络具有这样抽象高维特征的能力。但是神经网络有许多种类,什么卷积神经网络、全连接神经网络、反馈神经网络等等,到底用哪一种呢?
我们可以继续研究围棋的业务特点来寻找启发。我们发现,围棋的棋盘本来就是个
标签、特征、模型基本定好了,剩下的就是数据了。从哪里得到数据呢?还是回到我们之前的棋谱,那本质上是个有时间顺序的序列。如果我们能够搜集到大量标记好落子顺序的棋谱,每一步落子之前的局面全都作为特征(s,361×n维度的向量),这一步落子位置作为标签(a,361维度的向量),那不就得到了大量的有标注的数据< s , a >吗?
这还是得感谢网络时代,如今网络上有大量棋牌室,全都记录了人类下棋的过程,每天都产生大量有标注的数据。DeepMind就是直接从围棋对战平台KGS(可以理解成外国的联众围棋游戏大厅)获得16万局6至9段人类选手的围棋对弈棋谱,总共有3000万个的< s , a >位置,训练出来了一个类似人类下棋行为的模型。
DeepMind团队基于卷积神经网络和逻辑回归做了两个模型:一个叫做“监督学习策略网络”
这个两个模型模型的效果如下:
为什么baseline的下棋水平不高呢?猜测可能有以下几个原因:
经过以上的原因分析,我们大致知道猜想到了问题的所在,由此可以进一步确定我们的优化思路:
在之前的模型中,我们是基于标注数据< s , a >进行训练的,也就是以当前局面s作为特征,下一步落子a作为标签。现在我们要基于局面整体的输赢进行训练,就要对原有的标签和特征进行改造。
需要增加新的标签z,表示局面对应的胜负情况:可以用1表示赢棋,-1表示输棋,0表示和棋(博主理解是“多劫循环”,也就是双方可以无休止地走下去的情况)。
而特征就是(s,a),它表示在a处落子之后的新的局面(本质上还是一个局面,可以用s’表示,《Nature》原文就是这样表示的)。
也就是说基于有标注的数据<(s,a),z>(表示当前局面为s,下一步落子为a的新局面下,输赢情况为z的数据)进行训练。
既然要基于历史棋局,可不可以直接以之前的16万局棋谱的输赢情况和落子情况一起进行训练呢?DeepMind团队试了一试,发现结果过拟合。
分析原因,大概就是我们刚才说的赢棋者的落子不一定都是好棋(如两个臭棋篓子下棋),输棋者的落子不一定都是差棋(如两个顶尖高手的精彩对弈)的情况。围棋的落子是相互之间强烈相关(strongly correlated) 的,有时候一两着棋就觉得了整个棋局的输赢。那到底应该学习赢棋过程中的哪一两步落子< s , a >呢?
其实我们可以换一个思路。如果真存在一两着决定胜负的棋,那就说明其他的走法很可能就会演化到输棋,那把演化到输棋的棋局也拿过来进行训练,就可以在这一步棋上训练出赢棋的概率很高的权重。 而之前过拟合的原因很可能就是我们训练数据当做仍未穷尽棋局演化的各种可能,把臭棋也当做好棋来学了。所以需要想一个办法产生更多高质量的棋局演化可能用来训练。
既然靠人类对弈已经满足不了机器的胃口,那就用机器自己与自己对局来增加训练样本数,这就是传说中的左右互搏。比如开局,先用某个落子选择器走n步,由于n是随机的,这就产生出n个局面分支。觉得局面还不够多样化,再完全随机掷m次骰子,就又在每个局面分支上产生m新的局面分支。如此循环往复,就得到了非常丰富的局面s和这些局面对应的结果z。有了这些训练样本< s , z >,再加上卷积神经网络,就可以得到一个函数
按《Nature》原文的说法,他们通过自我博弈(self-play)产生了3000万个标注样本< s , z >,每个样本的局面s都来自不同的一局棋(each sampled from a separate game),以此来防止过拟合(这些挑出来的样本是否可能也是臭棋?)。注意,之前也是3000万个标注样本< s , z >,但它们只来自于16万局人类博弈的棋谱。
而基于此训练出来的函数叫做“估值网络”(value network
我们知道,走棋网络输入的s是361×n维度的向量,下一步落子位置a是361维度的向量。其下棋规则是判断选择p(a|s)取最大值情况下的落子位置a。p(a|s)就是模型的估值函数。
而估值网络输出的只是一个值
所以这两个网络作为落子选择器的差别本质上就是估值函数的算法不一样。
我们继续分析,既然走棋网络p(a|s)可以自己产生数据,那么可否用自己产生的数据来训练走棋网络p(a|s)自己(而不是估值网络
比如我们已经有了一个“走棋网络”
当然,具体的训练过程比较复杂。这里先不展开,仅对其具体效果进行分析。既然
但是增强学习可以提供更多质量更好的样本便于估值网络
实践表明:估值网络
less computation)。
注意这里是对输赢的预测效果,而不是对落子可能性的预测。
以上的方法我们都是基于当下的落子情况来评估落子路径优劣的。但人类的下棋思维是“手下一着子,心想三步棋”(selects actions by lookahead search),要对之后的棋局有个评估。那怎么让机器去思考接下来的发展呢?这就需要传说中的蒙特卡罗树搜索(MCTS)。
我们就先不说蒙特卡罗树搜索(MCTS)的术语吧,什么选择、扩展、模拟、反向传播啥的的。这里直接以下棋的思维方式来解释这个过程,尽量生(shuo)动(ren)些(hua)。
首先,我们有一个“走棋网络”
这已经完成了一步落子选择,但是距离“手下一着子,心想三步棋”的标准还差一些。那就继续假设走了
好了,现在走了3步棋了。是不是就够了呢?未必。如果评估
这需要我们重新理解
network against itself)。而在我们蒙特卡罗树搜索过程中,不是用
此时
这就是蒙特卡罗树搜索的基本过程。可见,这套思路是可以不断演化下去的,越到后面,算出来的
这种算法的一个好处是:可以并行化,因此可以大量提高计算速度。
它还有一个好处,就是:它演化出来的各种状态都可以保存起来,如果对方的落子就在自己的演化路径之中,这些状态就可以直接拿来用了。这就节省了大量运算时间。
需要说明的是,这里只是对蒙特卡罗树搜索做一个原理性的简化解释。真实的搜索过程可以增加许多策略,远比这里复杂。对MCTS感兴趣的读者可以看这篇文章。
其实,我们还有另一种蒙特卡罗树搜索。基本演化过程与上面类似,但是选择落子的方式是基于快速走子
首先,我们还是有一个“走棋网络”
然后,对手从“胜利”的落子选项中用“走棋网络”
此时可以更新
这就体现出
这两种搜索各有优劣,而且在一定程度上互补。所以DeepMind将这两种策略组合到一起,效果就有质的飞跃了。以下是他们对比各种组合方式的结果:
其组合方式非常简单粗暴,就是做一个算术平均:
工程实现上,还对估值函数增加了一个附加值(bonus)。目的是在快速定位比较好的落子方案的同时,又给其他小概率位置一定的探索可能,增加搜索丰富性。
其实蒙特卡罗树搜索是一个很传统的技术,但是如果不用先验的知识随机搜索,这棵树的宽度和深度要非常巨大才能返回一个相对靠谱点的值,这样的计算量是天文数字。但是通过16万局人类对弈训练出来的“走棋网络”
到此为止,AlphaGo的算法原理基本介绍完了。其实也并不复杂,而且这些都不是AlphaGo或者DeepMind团队首创的。但是强大的DeepMind团队将这些结合在一起,再加上Google公司的超级计算资源,成就了超越绝大部分顶尖棋手的人工智能。真令人赞叹不已,向这些背后的工程师致敬。
《Nature》:Mastering the game of Go with deep neural networks and tree search
田渊栋:AlphaGo的分析
How AlphaGo Works
木遥:关于 AlphaGo 论文的阅读笔记
董飞编译How AlphaGo Works
袁行远:左右互搏,青出于蓝而胜于蓝?—阿尔法狗原理解析
Introduction to Monte Carlo Tree Search
机器学习系列(8)_读《Nature》论文,看AlphaGo养成
标签:
原文地址:http://blog.csdn.net/longxinchen_ml/article/details/50900070