机器学习升级版（VII）——第1课机器学习与数学分析

时间：2018-06-09 22:11:29 阅读：526 评论：0 收藏：0 [点我收藏+]

标签：width ica pca 符号不可高效选择混合数据

参考：邹博《机器学习升级版》

1. 机器学习概论

1. 什么是机器学习
- 定义：对于某给定的任务T，在合理的性能度量方案P的前提下，某计算机程序可以自主学习任务T的经验E；随着提供合适、优质、大量的经验E，该程序对于任务T的性能逐步提高。——by Tom Michael Mitchell
- 通俗理解：机器学习是人工智能的一个分支。我们使用计算机设计一个系统，使它能够根据提供的训练数据按照一定的方式来学习；随着训练次数的增加，该系统可以在性能上不断学习和改进；通过参数优化的学习模型，能够用于预测相关问题的输出。——by 邹博
- 机器学习的对象（最重要）
  - 任务 Task,T ，一个或者多个
  - 经验 Experience,E
  - 性能 Performance,P
- 结论：随着任务的不断执行，经验的累积会带来计算机性能的提升。

2. 机器学习的内涵与外延

- 学习方式：
  - 有监督学习
  - 无监督学习
  - 增强学习
- 可以解决：
  - 数据清洗/特征选择
  - 确定算法模型/参数优化
  - 结果预测

- 不可以解决：
  - 大数据存储/并行计算
  - 做一个机器人
3. 机器学习的一般流程
- 数据挖掘 / 机器学习的流程与西红柿炒鸡蛋
4.机器学习方法

2. 数学分析基础

1.问题分析
2.构造数列{x_n}
3.自然常数
4.导数
5.常用函数的导数
6.应用1
7.求解 x^x
8.积分应用2：
9.Taylor公式–Maclaurin公式
10.Taylor公式的应用1：计算e^x
11.Taylor公式的应用2
12.方向导数
13.梯度
14.Γ函数：
15.凸函数
16.一阶可微
17.二阶可微
18.凸函数举例

3. 术语摘录

频数：也称“次数”，对总数据按某种标准进行分组，统计出各个组内含个体的个数。我们把各个类别及其相应的频数全部列出来就是“频数分布”或称“次数分布”。
- Count(X)
凝固程度：
- X = A.B
- P(A)P(B) vs P(X)
自由程度：
- aXb
- 信息熵 H(a) 、 H(b)
熵：热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。
最大熵模型 ：给定一个概率分布，则熵的定义为：Hp=−p（x）logp(x)
- 自然语言处理解决标记问题
线性回归：线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w‘x+e，e为误差服从均值为0的正态分布。
正态分布：正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）。
- 正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。图像如下所示：
标准正态分布：若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
EM算法：指的是最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法，在统计学中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。
GMM ：高斯混合模型，也可以简写为MOG。
高斯模型：就是用高斯概率密度函数精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型。
卷积：简单定义：卷积是分析数学中一种重要的运算。
- 设:f(x),g(x)是R1上的两个可积函数，作积分：
- 可以证明，关于几乎所有的实数x，上述积分是存在的。这样，随着x的不同取值，这个积分就定义了一个新函数h(x)，称为函数f与g的卷积，记为h(x)=(f*g)(x)。
- 卷积与傅里叶变换有着密切的关系。利用一点性质，即两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换，能使傅里叶分析中许多问题的处理得到简化。
正则化：由卷积得到的函数f*g一般要比f和g都光滑。特别当g为具有紧致集的光滑函数，f为局部可积时，它们的卷积f * g也是光滑函数。利用这一性质，对于任意的可积函数f，都可以简单地构造出一列逼近于f的光滑函数列fs，这种方法称为函数的光滑化或正则化。
- 训练方法：
  - 梯度下降法：
  - 牛顿法：
ICA : ICA是20世纪90年代提出的，起初是神经网络的研究中有一个重要的问题，独立成分分析是一个解决问题的新方法。在许多应用方面，包括特征识别、信号分离。这种方法是用一种解线性方程组的方式的估计方式求解信号源。
SVM：SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。
- 与核技术相结合
HMM : 隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。
马尔可夫过程：马尔可夫过程（Markov process）是一类随机过程。它的原始模型马尔可夫链，由俄国数学家A.A.马尔可夫于1907年提出。马尔可夫过程是研究离散事件动态系统状态空间的重要方法，它的数学基础是随机过程理论。
LDA : 是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。
生成模型：就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。
舆情：是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
- K-means/K-Mediods/密度聚类/谱聚类
K-means：K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。
K-Mediods：K-mediods算法就是基于划分方法的一种聚类算法，确切的说，是对K-means算法的一种改进算法。
降维：通过单幅图像数据的高维化，将单幅图像转化为高维空间中的数据集合，对其进行非线性降维。寻求其高维数据流形本征结构的一维表示向量，将其作为图像数据的特征表达向量。
- PCA/SVD/ICA
PCA : PCA(principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据压缩算法。在PCA中，数据从原来的坐标系转换到新的坐标系，由数据本身决定。转换坐标系时，以方差最大的方向作为坐标轴方向，因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方法，第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程，重复次数为原始数据的特征维数。
SVD：奇异值分解（Singular Value Decomposition）是线性代数中一种重要的矩阵分解，是矩阵分析中正规矩酉对角化的推广。在信号处理、统计学等领域有重要应用。
主题模型pLSA/LDA：主题模型（Topic Model）是用来在一系列文档中发现抽象主题的一种统计模型。
- 与聚类、标签传递算法相结合
标签传递算法：标签传播（LPA）算法是最早的基于标签的一种算法，是所有基于标签的算法的基础。标签传播算法最大的特色是简单、高效，缺点是每次迭代结果不稳定，准确率不高。
条件随机场
- 无向图模型，链式条件随机场解决标记问题
变分推导Variation Inference：
- 与EM、贝叶斯相结合，参数、隐变量的学习
深度学习：
- 大规模神经网络