一、Mahout简介 查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集 ...
分类:
其他好文 时间:
2016-06-21 10:43:25
阅读次数:
127
七月在线4月机器学习算法班课程笔记——No.8
1. 统计学习基础回顾1.1 先验概率与后验概率 先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为”由因求果”问题中的”因”出现。
后验概率:依据得到”结果”信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是”执果寻因”问题中的”因”。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。
贝叶斯定理:假设...
分类:
编程语言 时间:
2016-06-21 08:04:13
阅读次数:
2226
目录 1 如何更新权值向量?2 最小均方法(LMS)与感知机:低效的民主3 最小二乘法:完美的民主4 支持向量机:现实的民主5 总结6 参考资料 1 如何更新权值向量? 在关于线性模型你可能还不知道的二三事(一、样本)中我已提到如何由线性模型产生样本,在此前提下,使用不同机器学习算法来解决回归问题的 ...
分类:
其他好文 时间:
2016-06-16 19:40:20
阅读次数:
219
七月在线4月机器学习算法班课程笔记——No.7
前言 我们知道,机器学习的过程是非常繁琐的。上一篇介绍了机器学习中特征处理重要而耗时,然而特征处理仅属于机器学习前序的工作内容。特征工程之后,需要选择机器学习模型、交叉验证、寻找最佳超参数等建模步骤。搭建模型之后呢,还需要进行模型的优化,模型调优是实际生产中一个必要的环节,也是不断去改进的一个事情。
这一篇会以小的数据集为例,讲一下机器学习在实...
分类:
其他好文 时间:
2016-06-16 14:49:03
阅读次数:
173
??
阅读目录
?1 什么是随机森林?
?2 随机森林的特点
?3 随机森林的相关基础知识
?4 随机森林的生成
?5 袋外错误率(oob error)
?6 随机森林工作原理解释的一个简单例子
?7 随机森林的Python实现
?8 参考内容
1 什么是随机森林?
作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称R...
分类:
其他好文 时间:
2016-06-16 11:41:40
阅读次数:
276
我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题“在一定成本下,如何使利润最大化”等。最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称。随着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现在学习的机器学习算法...
分类:
编程语言 时间:
2016-06-12 03:11:51
阅读次数:
283
Lasso Regression标签(空格分隔): 监督学习在数据挖掘和机器学习算法的模型建立之初,为了尽量的减少因缺少重要变量而出现的模型偏差问题,我们通常会尽可能的多的选择自变量。但是在实际建模的过程中,通常又需要寻找 对响应变量具有解释能力的自变量子集,以提高模型的解释能力与预测精度,这个过程称为特征选择。...
分类:
其他好文 时间:
2016-06-12 02:56:22
阅读次数:
2307
本章我们简要介绍下机器学习(Machine Learning)的基本概念。主要介绍机器学习算法的应用,监督学习和无监督学习(supervised-unsupervised learning)的应用场景,训练和测试数据的用法,学习效果评估方式。最后,对scikit-learn进行一些简单的介绍。
自计算机问世以来,计算机可以学习和模仿人类智慧的观点,可谓“引无数英雄竞折腰”...
分类:
其他好文 时间:
2016-06-02 14:10:41
阅读次数:
310
一般情况下我们人类大脑可以在没有明确指示的情况下处理绝大部分问题。例如,你做房产经纪时间很长,你对于房产的合适定价、它的最佳营销方式以及哪些客户会感兴趣等等都会有一种本能般的“感觉”。强人工智能(Strong AI)研究的目标就是要让计算机能这样思考。 但是目前的机器学习算法还没有那么好——它们只能 ...
分类:
其他好文 时间:
2016-06-01 22:54:59
阅读次数:
281
机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache?Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能....
分类:
编程语言 时间:
2016-05-30 11:25:52
阅读次数:
289