在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体 ...
分类:
其他好文 时间:
2018-05-26 21:26:57
阅读次数:
163
Softmax交叉熵损失函数(Softmax cross-entropy loss)是作用于非归一化的输出结果只针对单个目标分类的计算损失。通过softmax函数将输出结果转化成概率分布,然后计算真值概率分布的损失: 输出:[ 1.16012561] 稀疏Softmax交叉熵损失函数(Sparse ...
分类:
其他好文 时间:
2018-05-25 21:05:23
阅读次数:
170
numpy.random模块对Python内置的random进行了补充,增加看一些用于高效生成多种概率分布的样本值的函数。 seed 确定随机数生成器的种子 permutation 返回一个序列的随机排列或返回一个随机排列的范围 shuffle 对一个序列随机排列 rand 产生均匀分布的样本值 r ...
分类:
其他好文 时间:
2018-05-24 01:10:42
阅读次数:
209
分布函数(英文Cumulative Distribution Function, 简称CDF),是概率统计中重要的函数,正是通过它,可用数学分析的方法来研究随机变量。分布函数是随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。 ...
分类:
其他好文 时间:
2018-05-20 15:20:51
阅读次数:
164
给定t时刻以及之前的所有观测z和输入u,我们的目标是求得当前状态量x的概率分布(belief),即 $$bel(x_t)=p(x_t|z_{1:t}, u_{1:t})$$ 在实际使用中,一般将求解过程分为两步,首先求解在t时刻观测前的先验分布,即 $$\overline{bel}(x_t)=p(x ...
分类:
其他好文 时间:
2018-05-19 13:53:12
阅读次数:
169
CART树 CART树与上一篇文章提到的ID3、C4.5的区别在于: (1)CART树只能够生成2个结点,即CART树是一棵二叉决策树,而后两者在进行划分时可以根据特征值的种类生成2个以上的结点。 (2)CART分类树的划分依据是基尼指数(Gini index)最小化准则,而后两者是根据熵的最小化准 ...
分类:
其他好文 时间:
2018-05-18 13:57:57
阅读次数:
168
作为刚入门的小白,刚刚以实验出真理的心态抱着大腿完成了一次图像分类达到top1-96的宝贵经历。 以下是对于前辈讲座理解以及这次实践后理解心得: 机器学习是什么? 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验(训练)自 ...
分类:
其他好文 时间:
2018-05-17 11:43:03
阅读次数:
174
1、所谓决策树模型,是通过重要性依次向下绘出的,越重要的越在上面。 决策树有节点和有向边组成。结点有两种类型,内部节点和叶结点,内部节点表示一个属性,叶子节点表示一个类。 决策树的数学意义在于 ,条件概率分布。举一个简单的例子:一个人去银行贷款,他的年龄、收入、房子、车子都能决定他是否能贷到款。我们 ...
分类:
其他好文 时间:
2018-05-16 00:42:42
阅读次数:
189
思路:通过改变训练样本权重,学习多个分类器,并将这些分类器进行线性组合,提高分类器性能。大多数提升方法都是改变训练数据的概率分布(数据的权值) 强可学习:存在一个多项式的学习算法能够学习他,并且正确率很高 弱可学习:存在一个多项式学习算法学习,正确率比随机猜测要好一些 具体问题: (1)在每一轮如何 ...
分类:
编程语言 时间:
2018-05-12 14:22:07
阅读次数:
177
0、思想: 对于给定的待分类项x,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。 关键:为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题,引入了条件独立性假设。用于分类的特征在类确定的条件下都是条件独 ...
分类:
其他好文 时间:
2018-05-04 14:08:02
阅读次数:
138