系统学习机器学习书本知识--每周两章节,列表如下: 1.模式评估与选择 线性模型 2.决策树 神经网络 3.支持向量机 贝叶斯分类器 4.集成学习 聚类 5.降维与度量学习 特征选择与稀疏学习 6.计算学习理论 半监督学习 7.概率图模型 规则学习 8.强化学习 ...
分类:
其他好文 时间:
2019-12-29 18:52:15
阅读次数:
93
前言 前面的文章中介绍了决策树以及其它一些算法,但是,会发现,有时候使用使用这些算法并不能达到特别好的效果。于是乎就有了 (Ensemble Learning),通过构建多个学习器一起结合来完成具体的学习任务。这篇文章将介绍集成学习,以及其中的一种算法 AdaBoost。 集成学习 首先先来介绍下什 ...
分类:
其他好文 时间:
2019-12-27 23:58:53
阅读次数:
177
讲授集成学习的概念,Bootstrap抽样,Bagging算法,随机森林的原理,训练算法,包外误差,计算变量的重要性,实际应用 大纲: 集成学习简介 Boostrap抽样 Bagging算法 随机森林的基本原理 训练算法 包外误差 计算变量的重要性 实验环节 实际应用 随机森林是一种集成学习的算法, ...
分类:
其他好文 时间:
2019-12-15 12:33:49
阅读次数:
100
认识 我觉得决策树+ 随机森林 应该是 ML 中最为重要的算法之一了吧, 反正我是很喜欢用的. 算法难度低, 可解释性很强, 能可视化 能处理非线性, 可扩展为随机森林(集成学习) 建立决策树的判别依据有很多, 比较主流的有经典的 ID3 算法(熵), C4.5 , 基尼系数等. 我是这种基于熵的理 ...
分类:
其他好文 时间:
2019-12-09 01:00:08
阅读次数:
117
认识 Bagging 的全称为 (BootStrap Aggregation), 嗯, 咋翻译比较直观一点呢, 就 有放回抽样 模型训练? 算了, 就这样吧, 它的Paper是这样的: Algorithm Bagging: 1. Let n be the number of bootstrap sa ...
分类:
其他好文 时间:
2019-12-08 01:14:01
阅读次数:
73
介绍Stacking、Bagging和Boosting三种方式。 一、Stacking 思想:由原始的训练集训练出若干个单模型,将单模型的输出结果作为样本特征进行整合,并把原始样本标记作为新数据样本标记,生成新的训练集。再根据训练集训练一个新模型,并对样本进行预测。 注意:模型训练时,如果直接使用一 ...
分类:
其他好文 时间:
2019-11-27 00:38:18
阅读次数:
95
随机森林,顾名思义,是由众多决策树构建而成的算法。其最终输出由众多决策树根据投票决定(得票最多者获胜;或者得票超过一半输出,否则不输出。具体策略根据情况而定)。随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。具体的,集成学习包含Boostin ...
分类:
其他好文 时间:
2019-11-25 11:33:38
阅读次数:
74
集成学习基础 集成学习分类 Boosting 采用串行的方式,各个基学习器之间有依赖 基本思路:将基学习器层层叠加,每一层训练时,对前一层分错的样本,给予更高的权重。测试时,根据各层学习器的结果加权融合 AdaBoost Bagging 各基学习器之间无强依赖,可以并行训练 基于决策树基学习器的Ra ...
分类:
其他好文 时间:
2019-11-24 17:36:26
阅读次数:
93
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:
编程语言 时间:
2019-11-18 15:38:18
阅读次数:
73