决策树:非线性有监督分类模型 随机森林:非线性有监督分类模型 决策树:根节点:顶层分类条件。中间节点:中间分类条件。叶子节点:分类号。分支:每个条件输出。二叉树:节点有2个分支。多叉树:节点至少2分支 决策树:根据样本的纯粹度来分类。 将纯粹度进行量化,计算机才能读懂。 信息熵:量化信息量,由香农提 ...
分类:
其他好文 时间:
2018-06-13 15:00:03
阅读次数:
287
信息的度量 信息熵 entropy 用h表示信息的作用在于消除不确定性 互信息两件事相关性的度量,在了解其中一个的前提下,对消除另一个不确定性提供的信息量 香农第一定理 一个信息,任何编码的长度都不小于它的信息熵 pagerank算法核心思想: 如果一个网页被很多其他网页所链接,说明它受到普遍的承认 ...
分类:
其他好文 时间:
2018-05-23 20:27:02
阅读次数:
183
从香农的信息熵谈其起,再聊聊逻辑回归和softmax; ...
分类:
其他好文 时间:
2018-05-07 22:47:01
阅读次数:
147
我们以是否买房为例子给大家介绍一下决策树算法的使用,数据集如下(仅做演示,不代表真实情况)地段近地铁面积单价(万)是否购买三环是608是三环是808否三环否607是三环否807否五环是607是五环是807否五环否606是五环否806是六环是606是六环是805.5是六环否605否六环否805否从上表中我们可以看到,确定可以购买的数量有7个,不购买的数量有5个,共数是12个。按信息熵的计算公式我们可
分类:
系统相关 时间:
2018-05-02 23:11:17
阅读次数:
205
引言 (废话) 我们经常说的“信息量太大了”,其中的”信息量“到底如何度量? Claude Elwood Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”。 这个概念现在看着很简单易懂,但是开创性地提出这样的概念不是容易的事情。 1 Entropy 熵 熵(entr ...
分类:
其他好文 时间:
2018-05-01 17:43:49
阅读次数:
160
1. 欧氏距离(Euclidean Distance) 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: ...
分类:
其他好文 时间:
2018-04-24 17:35:43
阅读次数:
528
数据压缩的性能指标 压缩比: 越大越好 压缩质量 无损压缩 有损压缩 主观评分 客观尺度 均方误差 峰值信噪比 压缩速度和解压缩速度 大多数15 全动态25-30 在电话线上传送视频,因受线路传输的限制,帧率要求没有那么高,但也要求达到每秒5帧以上 数据冗余类型 空间冗余 时间冗余 信息熵冗余 视觉 ...
分类:
其他好文 时间:
2018-04-24 00:24:42
阅读次数:
205
信息熵信息熵是系统有序化程度的一个度量。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。1948 年,香农提出了“信息熵”(shāng) 的概念
分类:
其他好文 时间:
2018-04-20 00:23:10
阅读次数:
253
特征选择 特征选择是从数据集的诸多特征里面选择和目标变量相关的特征,去掉那些不相关的特征。 特征选择分为两个问题:一个是子集搜索问题,另外一个是子集评价问题。比如将前向搜索和信息熵评价这两种策略进行结合就是决策树算法,事实上决策树算法可以进行特征选择。sklearn当中的“树形”算法的feature ...
分类:
其他好文 时间:
2018-04-09 17:20:52
阅读次数:
1002
采用ID3算法 (信息熵:H(X)=?∑i=0np(xi)log2p(xi)) 下载一个决策树可视化软件:Graphviz (注意环境变量Path加:C:\Program Files (x86)\Graphviz2.38\bin) 代码: 导入需要用到的库: 读取表格: 这里一些数据(属性),决定一 ...
分类:
编程语言 时间:
2018-04-09 00:25:07
阅读次数:
226