码迷,mamicode.com
首页 > 其他好文 > 详细

Introduction

时间:2020-02-03 09:32:26      阅读:87      评论:0      收藏:0      [点我收藏+]

标签:神经网络   初步   数值   math   估计   变量   强化学习   曲线   ora   

  1. 模式识别是利用算法自动挖掘数据中的 Knowledge,进而根据这些知识 采取行动
  2. 无监督学习问题的目标是发现数据中的相似样本组群,或确定输入空间中数据的分布(密度估计),或从高维投影数据。
  3. 强化学习就是要在给定情境下采取合适的措施最大化奖励。强化学习的一般特性就是权衡 explorationexploitation 之间的关系,偏向其中任何一方都会使得结果很差。exploration 就是模型挖掘新的操作,并观察它们的有效性; exploitation 就是模型在已知操作中找到可以使得奖励最大化的操作。

1.1 Example: Polynomial Curve Fitting

问题框架

name function
hypothesis \(y(x, \omega ) = \omega _0 + \omega _1 x + \omega _2 x^2 + ... + \omega _M x^M = \sum_{j=0}^{M} \omega _j x^j\)
loss function / criteria $E(\omega ) = \frac{1}{2} \sum_{i=0}^{N} { y(x_i, \omega ) - t_i } ^2 = \frac{1}{2} \Vert y(x, \omega ) - t \Vert ^2 _2 $
criteria with regularizer \(\tilde{E}(\omega ) = \frac{1}{2} \sum_{i=0}^{N} \{ y(x_i, \omega ) - t_i \} ^2 + \frac{\lambda}{2} \Vert \omega \Vert ^2 = \frac{1}{2} \Vert y(x, \omega ) - t \Vert ^2 _2 + \frac{\lambda}{2} \Vert \omega \Vert ^2 _2\)

均方根差(root mean square error)是一种测量数值之间的差异的度量。其计算公式为 \(E_{RMS} = \sqrt{2E(\omega ^*) / N}\)。除以 N 是为了避免测试集和训练集的数据规模的差异,开根是为了使损失函数值与真实标记值在同一量级上。

一些初步观点

  1. Probability theory 提供了一种精确量化表达这种不确定性的框架。
  2. decision theory使我们能够利用这种概率表示来根据适当的标准进行最佳预测。
  3. 曲线越复杂,即项数 M 越大,则模型对噪声就拟合得越好。
  4. 数据规模越大,过拟合问题越小。
  5. 为避免过拟合,训练集样本数量最好不低于模型参数个数的某倍数。
  6. 根据实际问题的复杂性来确定模型的复杂性,而不是根据数据集规模来确定。
  7. 用于学习模型参数的最小二乘法代表了最大似然的一种特殊情况,并且过拟合问题可以理解为最大似然的一般性质。
  8. 通过采用贝叶斯方法,可以避免过度拟合的问题。从贝叶斯的角度来看,在使用参数数量大大超过数据点数量的模型时,没有任何困难。实际上,在贝叶斯模型中,有效参数数量会自动适应数据集的大小。
  9. 正则化项经常不包括常数项(\(\omega _0\)),因为将其包括在内会导致结果依赖于目标变量值,或者也可能包含但具有自己独立的正则化项。
  10. 加正则化项的技术在统计学里面叫 shrinkage,在神经网络里面叫 weight decay
  11. 如果我们通过最小化损失函数来解决实际问题,则必须找到一种方法来确定合适的模型复杂度。有个简单粗暴的办法就是通过验证集来解决。

1.2 Probability Theory

模式识别的核心概念是 uncertainty ,它由度量过程中的噪声与数据集的不完备性所产生。

核心公式

  1. sum rule
    \[ p(X) = \sum _Y p(X,Y) \]

  2. product rule
    \[ p(X,Y) = p(Y|X)p(X) \]

  3. Bayes‘ theorem
    \[ p(Y \vert X) = \frac{p(X \vert Y)p(Y)}{p(X)} = \frac{p(X \vert Y)p(Y)}{\sum_Y p(X \vert Y) p(Y)} \]

先验概率(prior probability):在被问及所选盒子种类之前,没有被告知最后选出的水果种类。我们称 p(Box) 是先验概率,因为这是我们在观测到抽出水果种类之前就能获得的概率信息。
后验概率(posterior probability):在被问及所选盒子种类之前,已经被告知了最后选出水果的种类。我们称 P(Box|Fruit) 是后验概率,因为这是我们观测到抽出水果种类之后才获得的概率信息。

Introduction

标签:神经网络   初步   数值   math   估计   变量   强化学习   曲线   ora   

原文地址:https://www.cnblogs.com/luyunan/p/12254422.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!