系列文章:《机器学习实战》学习笔记 本章介绍了《机器学习实战》这本书中的第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握。首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品;其次我们将使用Python从文本文件中导入并解析数据;再次,本文讨论了当存在许多数据来源时,如...
分类:
编程语言 时间:
2015-06-17 00:39:28
阅读次数:
138
一、集成方法(Ensemble Method)...
分类:
编程语言 时间:
2015-06-16 23:02:07
阅读次数:
419
一、集成学习方法的思想
前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中,常常会因为“集体智慧”使得问题被很容易解决,那么问题来了,在机器学习问题中,对于一个复杂的任务来说,能否将很多的机器学习算法组合在一起,这样计算出来的结果会不会比使用单一的算法性能更好?这样的思路就是集成学习方法。
集成学习方法是指组合多...
分类:
编程语言 时间:
2015-06-16 13:07:53
阅读次数:
173
为了保证用户体验和使用效果,推荐系统中的机器学习算法一般都是针对完整的数据集进行的。然而,随着推荐系统输入数据量的飞速增长,传统的集中式机器学习算法越来越难以满足应用需求。因此,分布式机器学习算法被提出用来大规模数据集的分析。作为全球排名第一的社交网站,Facebook就需要利用分布式推荐系统来帮助...
分类:
其他好文 时间:
2015-06-16 12:30:53
阅读次数:
160
一、EM算法简介
EM算法是期望极大(Expectation Maximization)算法的简称,是一种解决存在隐含变量优化问题的有效方法。...
分类:
编程语言 时间:
2015-06-12 14:54:15
阅读次数:
294
Choosing a Machine Learning ClassifierbyEdwin ChenonWed 27 April 2011How do you know what machine learning algorithm to choose for your classification...
分类:
编程语言 时间:
2015-06-10 20:42:34
阅读次数:
131
1 定义2 直观解释信息熵用来衡量信息量的大小若不确定性越大,则信息量越大,熵越大若不确定性越小,则信息量越小,熵越小比如A班对B班,胜率一个为x,另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大,最大值为2也就是说两者势均力敌时,不确定性...
分类:
编程语言 时间:
2015-06-10 19:07:54
阅读次数:
152
这几天在看《统计学习方法》这本书,发现 梯度下降法在 感知机 等机器学习算法中有很重要的应用,所以就特别查了些资料。 一.介绍 梯度下降法(gradient descent)是求解无约束最优化问题的一种常用方法,有实现简单的优点。梯度下降法是迭代算法,每一步需要求解目标函数的梯度向量。二.应用...
分类:
其他好文 时间:
2015-06-06 06:48:06
阅读次数:
124
平台:linux(Shell)软件:Weka,SAS,Spss,R,IBM IM,Mathout语言:Java,Python,PHP,MapReduce编程,Ruby数据库:SQL,MySQL算法:数据挖掘算法,机器学习算法,搜索引擎(推荐算法,反作弊,排序)(备注:回归、决策树、SVM、朴素贝叶斯...
分类:
其他好文 时间:
2015-06-05 00:32:27
阅读次数:
168
引文: 学习一个算法,我们最关心的并不是算法本身,而是一个算法能够干什么,能应用到什么地方。很多的时候,我们都需要从大量数据中提取出有用的信息,从大规模数据中寻找物品间的隐含关系叫做关联分析(association analysis)或者关联规则学习(association rule learning)。比如在平时的购物中,那些商品一起捆绑购买销量会比较好,又比如购物商城中的那些推荐信息,都是根据用...
分类:
编程语言 时间:
2015-06-04 12:03:23
阅读次数:
256