标签:字典 森林 过程 不同的 clust ima idf 需要 tf-idf
结巴分词:jieba.cut()
决策树
集成学习
无监督学习
tf-idf文本特征提取
tf 词频
idf 逆向文档频率
tf-idf 思想:一篇文章中出现多次,其他文章很少出现
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
决策树
机器学习基本步骤
数据获取
数据基本处理
缺失值处理
补空
确定特征值,目标值
切割数据
特征工程
特征提取
需要转数据字典,才能转换one hot 编码
建立模型
模型评估
决策树的可视化
export_graphviz(estimator, out_file="./data/tree.dot", feature_names=[‘age‘, ‘pclass=1st‘, ‘pclass=2nd‘, ‘pclass=3rd‘, ‘女性‘, ‘男性‘])
集成学习
bagging 过拟合问题 N个模型 投票 同一个问题,互相遏制变壮
boosting 欠拟合,分段拟合
最终结果
只要单分类器的效果表现不太差,集成学习的结果总要优于单分类器的
所以说 集成学习好
bagging
解决 过拟合问题
集成原理:
采集不同子样本
n个子样本分别构建模型
n个模型对一个问题平权投票
随机森林构造过程
bagging + 决策树
随机森林是一个包含多个决策树的分类器
1.选取m个样本数据(m<<M)
2.随机选取k个特征(k<K)
3.
随机森林api
bagging优点
在原算法的基础上提高2%泛化正确率
简单 方便 实用
通过学习从弱到强的过程,分段拟合
1.Adaboost
2.GBDT
3.XGBoots
实现Adaboost
注意力放到错误的数据上
1.雪莲一个模型
2.更具模型结果放大错误数据,缩小正确数据
3.在训练一个模型
4.然后是迭代很多次
5.加却投票
如何确认投票权重
如何调整数据分布
通过投票权重调整数据分布
预测正确缩小
预测错误 放大
bossting和bagging 的区别
数据方面
bagging 有放回随机采样
boosting 根据前一轮结果调整数据重要性
投票方面
bagging 平权投票
boosting 加权投票
学习顺序
bogging 并行的 独立训练互相没任何关系
bossting 串行 学习有先后顺序
主要作用
bogging 过拟合问题
bossting 欠拟合问题
????????????
????????????
XGBoost= 二阶泰勒展开+boosting+决策树+正则化
聚类算法
认识聚类算法
无监督学习 找到数据内部规律和结构的过程
规则
使用不同的据类准则,产生的聚类结构不同
现实中的应用
推荐系统 用户画像,广告推荐.....
聚类算法的概念
典型 的 无监督学习 主要用于将相似的样本自动归到一个类别
聚类算法和分类算法区别
一个是无监督学习,一个是有监督学习
API:
sklearn.cluster.KMeans(n_clusters=8)
寻找最优初始点
’‘肘’‘方法
轮廓系数法
Canopy算法配合初始聚类
标签:字典 森林 过程 不同的 clust ima idf 需要 tf-idf
原文地址:https://www.cnblogs.com/mujun95/p/11882396.html