在scikit-learn中,RandomForest的分类器是RandomForestClassifier,回归器是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。 一、Bagging框架的参数: 1. n_ ...
分类:
其他好文 时间:
2018-07-02 19:23:16
阅读次数:
213
Adaboost(Adaptive Boosting 自适应增强的缩写) 自适应表现及思路:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用到来训练下一个基本分类器,同时,在每一轮中加入一个新的弱分类器,直达到某个预定的足够小的错误率或预先指定的最大迭代次数 算法流程:1)初始化训练数 ...
分类:
其他好文 时间:
2018-07-02 16:12:20
阅读次数:
138
定义:随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定建树过程: ...
分类:
其他好文 时间:
2018-07-02 13:32:52
阅读次数:
197
在机器学习的过程中,我们经常会遇见过拟合的问题。而输入数据或features的维度过高就是导致过拟合的问题之一。。维度越高,你的数据在每个特征维度上的分布就越稀疏,这对机器学习算法基本都是灾难性的。所有出现了很多降维的方法。今天我们要讨论的就是LDA降维。 LDA降维的思路是:如果两类数据线性可分, ...
分类:
编程语言 时间:
2018-06-29 14:17:04
阅读次数:
129
一、原理 Exact and Consistent Interpretation for Piecewise Linear Neural Networks: A Closed Form Solution KDD2018的这篇文章,指出对于采用分段线性激活函数如Relu、最后接softmax的深度学习 ...
分类:
其他好文 时间:
2018-06-28 19:25:05
阅读次数:
504
1.什么是生物信息学,如何理解其含义? 答:生物信息学有三个方面的含义: 1) 生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。 2) 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基 ...
分类:
其他好文 时间:
2018-06-28 14:05:46
阅读次数:
211
回顾上一节课,我们了解视觉识别,特别是图像分类,这确实是一个非常困难的问题,因为我们必须考虑到这些可能的变化,并使得当我们在识别这些类型时,分类器能够在面对这些变化时具有鲁棒性,例如对猫的识别,似乎存在着难解决的问题,我们仅需要知道如何解决这些问题,同时我们还必须能够在成千上万的其他类型中解决这些问 ...
分类:
其他好文 时间:
2018-06-25 22:57:08
阅读次数:
256
机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线 在介绍指标前必须先了解“混淆矩阵”: 混淆矩阵 True Positive(真正,TP):将正类预测为正类数,是正的,也预测正的 True Negative(真负,TN):将负类预测为负 ...
分类:
其他好文 时间:
2018-06-21 17:40:14
阅读次数:
182
如线性回归一样,我们也分成了训练集和测试集. 用训练集进行分类器的学习,用测试集来评估分类错误. 分类错误: 测试集 -> 隐藏类型标签 -> 放到分类器进行处理 -> 得出结果 -> 与定义好的类型标签进行比较 错误率: 分类错误数/总句子数 正确率: 分类正确数/总句子数 那么,什么样的正确率才 ...
分类:
其他好文 时间:
2018-06-20 21:19:17
阅读次数:
148