机器学习方法的本质是什么？

机器学习方法本质上是人类认知方式的新世界，是人类的未来。

工业革命解放了人类的体力，以机器学习技术逐步解锁的人工智能革命将解放人类的脑力。

这不是技术层面上的进步，而是从根本上改变人类认知世界的方式。

长久以来，人类对事物的认知经由三个步骤：原始数据——专业知识/经验常识——认知。

这里的原始数据指得是可被人类感知到的一切客观存在之总体，既包括理工范畴内的计量数据，亦包括文史范畴内的事件与现象。

面对同样的原始数据（股市数据，仪表指数，社会现象等），拥有不同知识的人将得出不同的认知；同样，拥有相同知识的人，面对没有数据、有少量数据、有大量数据以及有充分数据等不同情况时，也将得出不同的认知（信息均等博弈，信息不对称博弈）。

那么究竟是知识重要还是数据重要？

在人类历史很长一段时间内，无疑是知识的拥有者占据了上风。

而机器学习方法的出现，则将这个趋势彻底扭转。

或许，“知识”未来将一文不值，而“数据”，才是价值连城。

机器学习的本质，就在于建立了（原始数据——认知）之间的直接映射，跳出了“知识”的束缚。

从此，人类的认知方式改天换地。

因为，从此我们或许再也不需要那冗桎的“知识”。

一，什么是“知识”：

事实上，“知识”也产生于“数据”。

因为人类全部“知识”的产生过程如下：

1）最初的人类不具备任何“知识”。

2）人类所取得的任何“新的知识”，都是灵感来源于“数据”、推导基于“已有知识”、验证于“数据”。

所以，所谓“知识”，只是对数据之间客观联系全部总体的系统化、逻辑化、因果化了的描述方式，正如“系统”、“逻辑”、“因果”这三个词背后所代表的哲学意义一样，都是客观上并不存在，只是被我们人类人为地创造出来用于认知的工具而已。

用以凭借人脑这一低效的处理器与存储器去理解这无限复杂的世界而不得不妥协的产物。

更直接地说，“知识”其实并不是客观存在，只不过因为人脑无法存储处理这世间所有的（“数据”——“认知”）关系，而妥协生成的一种中介机制、一种简化机制，以便于人类去理解相关“数据——认知”关系对的模块化的桥梁。例如“标签化”，正因为人脑无法存储也无法分析所有“河南人”“广东人”的数据，所以我们生成了类如“河南小偷多”“广东人吃福建人”这样的标签用于简化我们对河南人与广东人的认知。抛开这两个玩笑性质的“标签”不谈，事实上现实生活中我们对特定职业、特定阶层、特定民族所贴上的一些“标签”，本质上往往是基于最大似然估计的，这样当我们在没有更多后验信息的条件下与一个完全陌生的人打交道时，我们通过这些标签能够高效地以最大概率的获取对此人的最近似的认知。

其实，人类的一切“知识”都只不过是各种形式的“标签”而已，从而通过对某一特定族类数据的特殊化处理，实现高效理解能力的一种简化方式。

当然，这种简化背后所损失掉的，是精确性。因为对事物的本质最好的解释依然是事物本身，或者说，是人类可以感知到的有关该事物的全部数据本身。就好比，要解释什么是苹果，最好的方法就是递过去一个苹果说：“诺，这是个苹果。”。而其它的类似于“苹果就是圆圆的，一般为红色的，酸甜多汁的一种水果”这样的“知识”无论多么精确，都只是人类面对自己有限的认知能力条件下的一种只好挑选出一些“简化特征”的妥协而已。

二，什么是机器学习

人脑处理能力不足因而需要“知识”来简化运算，但电脑不需要，相比于人脑，电脑的运算能力几乎是无限的。

所以，电脑足以也必须担负起抛开“知识”的束缚，直接建立（“数据”——“认知”）关系库，从而以更加深邃、更加贴近世界本来面貌的视角去认知世界的重任。

这便是机器学习的本质。

说完了本质，那么，机器学习具体究竟是怎么样的一种方法呢？

这是一种全新的思维方式。

机器学习的标准范式可以表达如下：

对于一个Task及其Performance的度量方法，给出特定的Algorithm，能够通过利用Experience Data不断提高在该Task上的Performance的方法，就称为机器学习。

其实这个定义就是“学习”的全部含义，这个事情按照机器的思路来做，就是机器学习。

举现在最火的Alpha:GO（也就是计算机围棋学）的例子，不妨设此处的“Task”就是一步棋路，“Performance”就是最后的胜率，“Experience Data”就是以往的棋谱。然后设计出一个Algorithm，使得构建出的“这步棋我该走到哪里呢——模型”能通过利用过往数据而取得“Performance：胜率”的提高。

为了实现每次利用Experience data对Performance的提升，当前最主流的方法就是“误差反向传播法”。这种方法的核心思想就是：让机器自由去试错，然后根据尝试的结果与样本的真实结果之间的误差反向调整试错策略。误差较小的尝试要奖励，误差较大的尝试给予惩罚，然后将这个尝试过程一直循环进行下去，直到多学习到的结果在所有样本上的表现达到我们所定义的最优。通俗来说，这与训练一条狗去服从我们的指令或是训练自己完成题集上的全部习题等过程并没有什么区别。

有了“误差反向传播”算法，Alpha：GO们就可以通过每次利用“Experience data：棋谱”使得自己下棋的胜率提高一点点。这便是一个机器学习方法的实例。

因为这个“下棋机器”从历史的数据中确实学到了点什么。

讲到这里，可能有人会感觉，似乎机器学习很弱鸡啊，随便一个棋手看看以前的棋谱也都可以学到点什么啊。

幸运的是或者（对于柯洁们来说）不幸的是，对于机器而言，“学到点什么”就等价于“学到了全部”。

因为它可以“一直学”。

只要有了：

1）合理的算法保证每次对Experience Data的学习都能使Performance提高一点点，

2）足够的运算能力。

这两点设计，机器的能力必将达到极值，在可获取的Experience Data约束范围内的极值。因为机器可以一夜之间学遍所有棋谱，包括古谱、网络棋谱、以及自己和自己下的棋谱。而且还能神tm能保证每次进步一点点。

而人类棋手穷极一生可能做到这点吗？

所以人类棋手进步的通道更多的转向了听取前辈的教诲，钻研棋理，总结技巧，或者说，转向了“知识”，人类各行各业的佼佼者归根结底都是知识的“富有者”。

其实，在人类的学习中，也有类似于机器学习的学习过程，那便是基于千百次尝试中通过“惩恶扬善”所积累出的个人经验或直觉本能。只可惜，对于人类来说，这部分“学习结果”是无法共享的，一个老司机的开车能力是一个新手通过怎样的言传身教都无法企及的。

而对机器而言，第一不依赖于知识，只要有足够多的病例数据，在完全没有任何医学基础的条件下也可以通过合理的算法对疾病进行诊断，且准群度媲美甚至远超一众经验丰富的“老中医”；第二，学习结果在机器间可以共享，一台机器（或者说一套算法）达到了某一高度，所有的机器便都可以达到这样的高度。（没钱买不起设备？没钱买不起数据？没钱买不起程序？）。

三，人类学习与机器学习

正因为计算与处理能力的差别，导致了人类与机器在学习方法上的差异。

机器计算能力无穷无尽，所以机器学习很粗暴，有多少，学多少。其最终能达到的高度只取决于数据量。

当数据量充足时，机器学习方法所能得到的结果，可无限逼近于事物的本质面貌。

不需要理论，不需要知识。

或者说，机器通过对海量数据进行学习所得到的结果，就是该问题最终极最权威的“理论”与“知识”。只是，“不足为外人道哉”，这是一种隐式的（知其然不知其所以然）“知识”。

就好比，Alpha：GO并不懂棋理，也说不出什么理论基础，它只知道怎么下能赢，至于为什么要这么下，它自己无法解释，谁也无法解释。

但这并不妨碍我们认可Alpha：GO已掌握了围棋的真谛。

而人类计算能力有限，不可能做到对全部数据的充分学习。因而人类转向了一种“分布式”的处理方式，将每个人做为一个独立的处理单元各自做出一点微不足道的小贡献，同时建立起“知识”这一显式的（可阅读，可解释的）抽象表示事物关系的体系作为各个分布单元人之间传输信息的接口。

因此，人类尽管个体能力有限，但人类这个群体却是飞速发展；同时，作为无数个体“知识”的汇总而构成的“科学”，帮助着我们每个人类依靠着自身非常低效的处理能力，也能对客观事物给出相当靠谱的解释。

这真是“我为人人，人人为我”的境界啊。

从这个意义上，虽然人类的自身能力有限，但实际上人类却发明了一种更为先进的认知系统。

用于突破造物主施加于人类之上的桎梏。

体能上的桎梏我们已经通过工业革命突破，智力上的桎梏则要交给人工智能来突破。

四，最后

不要小看机器学习，这必将成为人类世界的一种新的思维方式，渗透入各行各业。

更不要小看人类，因为是人类造出了机器，这是人类“善假于物”特性在当代最完美的演绎。

人类，永远能在自己有限的能力范围内，做出惊天动地的伟业！