概率统计与机器学习的关系概率问题是已知整体的情况下判定样本(整体推个体)
统计问题是概率问题的逆向工程(个体推整体)
机器学习监督学习中,首先根据样本及样本标签训练出模型(个体推整体),再根据模型对样本标签进行预测(整体推个体)。 统计估计的是分布,机器学习训练出来的是模型,模型可能包含了很多分布。
训练与预测过程的一个核心评价指标就是模型的误差。
误差本身就可以是概率的形式,与概率紧密...
分类:
其他好文 时间:
2016-05-13 00:04:48
阅读次数:
353
聊完特征,就要说说模型的选择与实现。虽然已经接触了不少机器学习方法和模型,但最近才对监督学习有了一些提纲挈领的认识,在介绍模型的同时对这些零散的知识进行简单的汇总。(谁让我健忘。。)监督学习的基本模式陈天奇大大有一篇将boost tree的文章里提到了监督学习的key concepts,抄来加深一下印象:
监督学习要素:样本(标记) 模型 参数 目标函数 优化方法
i. 模型和参数
模型指给定...
分类:
其他好文 时间:
2016-05-12 20:38:11
阅读次数:
579
原文:http://cos.name/2015/08/some-basic-ideas-and-methods-of-model-selection/ 作者:高涛 编辑:王小宁 0. 引言 有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字 ...
分类:
其他好文 时间:
2016-05-11 21:55:28
阅读次数:
1351
摘自UFLDL教程,链接:http://deeplearning.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B 一. 概述 以监督学习为例,假设我们有训练样本集 ,那么神经网络算法能够提供一种复杂且非线性的假设模型 ,它具有参数 ,可以以此参 ...
分类:
其他好文 时间:
2016-05-08 19:34:26
阅读次数:
461
决策树是一种自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于一类。
决策树学习算法优点是,它可以自学习。在学习过程中,不需要使用者了解过多背景知识,只需要对实例进行较好的标注,就能够进行学习。决策树属于有监督学习。从一类无序、无规则的事物中推理决策树表示的分类规则。
决策树的建立...
分类:
编程语言 时间:
2016-05-06 16:00:12
阅读次数:
180
引子这一期我们讨论机器学习中的回归问题。认真看过上一期的同学应该记得,回归属于监督学习中的一类方法。简单来讲,回归就是通过数据学习数量关系,然后利用这个数量关系去做预测。作为人类,我们能轻而易举地学习并理解现实中的简单数量关系。隔壁老王的SUV每100公里耗油10升,出门往返200公里,老王就知道该给车加至少20升油。why?因为连他8岁的儿子都知道这就是个简单的正比例关系。然而数量关系并不都是那么...
分类:
其他好文 时间:
2016-05-06 15:00:11
阅读次数:
558
第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming)。在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。 监督学习一般使用两种类型的目标变量:标 ...
分类:
其他好文 时间:
2016-04-30 20:50:27
阅读次数:
537
聚类是机器学习中的无监督学习方法的重要一种,近来看了周志华老师的机器学习,专门研究了有关于聚类的一章,收获很多,对于其中的算法也动手实现了一下。主要实现的包括比较常见的k均值聚类、密度聚类和层次聚类,这三种聚类方法上原理都不难,算法过程也很清晰明白。有关于原理可以参阅周志华老师的机器学习第九章,这里只做一下代码的实现。
运行环境是Python2.7+numpy,说实话,numpy坑还是挺多的,其...
分类:
其他好文 时间:
2016-04-29 18:44:40
阅读次数:
239
首先要来了解的一个概念就是聚类,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习),而在...
分类:
编程语言 时间:
2016-04-29 18:33:44
阅读次数:
358
15.1 问题的动机 15.2 高斯分布 15.3 算法 15.4 开发和评价一个异常检测系统 15.5 异常检测与监督学习对比 15.6 选择特征 15.7 多元高斯分布(可选) 15.8 使用多元高斯分布进行异常检测(可选) 15.1 问题的动机 15.2 高斯分布 15.3 算法 15.4 开 ...
分类:
其他好文 时间:
2016-04-28 00:05:33
阅读次数:
287