英文原文:4 Self-Study Machine Learning Projects
学习机器学习有很多方法,大多数人选择从理论开始。
如果你是个程序员,那么你已经掌握了把问题拆分成相应组成部分及设计小项目原型的能力,这些能力能帮助你学习新的技术、类库和方法。这些对任何一个职业程序员来说都是重要的能力,现在它们也能用在初学机器学习上。
要想有效地学习机器学习你必须学习相关理论,...
分类:
其他好文 时间:
2014-06-05 11:44:35
阅读次数:
208
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景
接着上一节说,没看到请先看一下上一节关于数据集的划分数据集划分。如今我们得到了每一个特征值得信息熵增益,我们依照信息熵增益的从大到校的顺序,安排排列为二叉树的节点。数据集和二叉树的图见下。(二叉树的图是....
分类:
编程语言 时间:
2014-06-03 07:23:48
阅读次数:
325
一、Mahout简单介绍查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的那个Mahout)步入正文啦:
Mahout是一个非常强大的数据挖掘工具,是一个分布式机器学习算法的集.....
分类:
其他好文 时间:
2014-06-02 08:14:03
阅读次数:
273
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering
算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是
L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。目录...
分类:
其他好文 时间:
2014-06-02 07:31:21
阅读次数:
227
(转载请注明出处:http://blog.csdn.net/buptgshengod)...
分类:
编程语言 时间:
2014-05-18 05:13:44
阅读次数:
434
本文根据Daphne Koller的课程整理。
PDM(ProbabilisticGraphiccal Models)
称为概率图模型。下面分别说明3个词对应的意义。
概率
-给出了不确定性的明确量度。
-给出了根据不确定性进行推断的有力工具。
-利用数据结构,建立了进行学习的方法,解决十分大规模的问题。
图
这里主要用到2种概率图,用于表示依赖关系。如图1所示...
分类:
其他好文 时间:
2014-05-15 13:00:48
阅读次数:
295
然后用不同的方法来优化这个问题,得到尽量好的结果,给人的感觉就像是一个黑盒,实际使用中需要不断地调参实验,但倘若你能理解好算法,至少能让这个盒子透明一点,这也是机器学习算法确实需要使用者去理解算法的原因,举个例子:传统算法比如一些高效的数据结构,我只需要知道一些接口就可以使用,不需要进行太多的理解,了解传统算法更多的是理解算法的思想,开阔思路,增强能力;而机器学习算法,你即使知道接口,也至少要调一些参数来达到实际使用的目的。...
分类:
其他好文 时间:
2014-05-12 06:53:39
阅读次数:
318
(转载请注明出处:http://blog.csdn.net/buptgshengod)
1.背景知识
前面我们提到的数据集都是线性可分的,这样我们可以用SMO等方法找到支持向量的集合。然而当我们遇到线性不可分的数据集时候,是不是svm就不起作用了呢?这里用到了一种方法叫做核函数,它将低维度的数据转换成高纬度的从而实现线性可分。
可能有的人不明白为什么低维度的数据集转换成高...
分类:
编程语言 时间:
2014-05-07 03:39:44
阅读次数:
455
How do you know what machine learning algorithm to
choose for your classification problem? Of course, if you really care about
accuracy, your best bet...
分类:
其他好文 时间:
2014-05-07 00:50:14
阅读次数:
438
简单的以下面曲线拟合例子来讲:直线拟合后,相比原来的点偏差最大,最后一个图完全拟合了数据点偏差最小;但是拿第一个直线模型去预测未知数据,可能会相比最后一个模型更准确,因为最后一个模型过拟合了,即第一个模型的方差比最后一个模型小。一般而言高偏差意味着欠拟合,高方差意味着过拟合。他们之间有如下的关系:
...
分类:
其他好文 时间:
2014-05-07 00:28:40
阅读次数:
946