一、导入必要的工具包# 导入必要的工具包import xgboost as xgb # 计算分类正确率from sklearn.metrics import accuracy_score二、数据读取XGBoost可以加载libsvm格式的文本数据,libsvm的文件格式(稀疏特征)如下:1 101: ...
分类:
其他好文 时间:
2019-07-09 00:13:14
阅读次数:
569
FM 因子分解 FM算法可以在线性时间内完成模型训练, 是一个非常高效的模型。FM最大特点和优势:FM模型对稀疏数据有更好的学习能力,通过交互项可以学习特征之间的关联关系,并且保证了学习效率和预估能力。 One Hot编码的特点: 大部分样本的特征比较稀疏; 特征空间大。 通过观察大量的样本数据可以 ...
分类:
其他好文 时间:
2019-05-30 11:59:06
阅读次数:
131
XGBOOST使用指南 一、导入必要的工具包 导入必要的工具包import xgboost as xgb 计算分类正确率from sklearn.metrics import accuracy_score二、数据读取XGBoost可以加载libsvm格式的文本数据,libsvm的文件格式(稀疏特征) ...
分类:
其他好文 时间:
2018-08-04 20:18:34
阅读次数:
174
LIBVISO2简介 libviso2 (Library for Visual Odometry 2) 是一个快速跨平台C++库用于计算移动单目/双目相机的6DoF运动。 双目版本基于最小化稀疏特征匹配的重投影误差,比较通用(无需运动模型或安装限制,除了输入图像需为校正后(rectified)的并且... ...
分类:
Windows程序 时间:
2018-04-08 20:16:56
阅读次数:
1466
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式。L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要。但是L1的求解过程,实在是太过蛋疼。所以即使L1能产生稀疏特征,不到万不得已,我们也还是宁可用L2正则,因为L2正则计算起来方便得多。。。 正则化项不应该以正则化的表 ...
分类:
其他好文 时间:
2018-03-12 18:38:36
阅读次数:
241
目录 随机森林原理 随机森林代码(Spark Python) 随机森林原理 待续... 返回目录 随机森林代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG4I 密码:acq1 返回目录 ...
分类:
编程语言 时间:
2017-12-12 17:35:25
阅读次数:
208
本地向量和矩阵 本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵,分别是密度向量(Dense Vector)和稀疏向量(Spasre Vector),密度向量会存储所有的值包括零值,而稀疏向量存 ...
分类:
其他好文 时间:
2017-11-10 13:55:35
阅读次数:
340
本文是python机器学习库User Guide关于广义线性模型的翻译。 ...
分类:
其他好文 时间:
2016-12-03 23:27:14
阅读次数:
381
一、聚类算法简介 聚类是无监督学习的典型算法,不需要标记结果。试图探索和发现一定的模式,用于发现共同的群体。有时候作为监督学习中稀疏特征的预处理。有时候可以作为异常值检测(反欺诈中有用)。 应用场景:新闻聚类、用户购买模式(交叉销售)、图像与基因技术 相似度与距离:这个概念是聚类算法中必须明白的,简 ...
分类:
编程语言 时间:
2016-09-15 00:51:48
阅读次数:
323
你可能不知道的一些机器学习事儿
最近零零碎碎地看了很多机器学习方法的东西,增长了不少新知识。有很多小技巧虽然不会出现在教科书中,但它们真的很实用。
(1)随机森林模型不适合用稀疏特征。
(2)测试集必须使用与训练集相同的方法进行预处理。
(3)L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ;
L2正则(旋转不变)最小样本...
分类:
其他好文 时间:
2015-08-31 21:44:15
阅读次数:
234