目前,SPARK在大数据处理领域十分流行。尤其是对于大规模数据集上的机器学习算法,SPARK更具有优势。一下初步介绍SPARK在linux中的部署与使用,以及其中聚类算法的实现。...
分类:
编程语言 时间:
2014-11-12 21:21:04
阅读次数:
264
我喜欢基于web应用来工作。实现一个从任何地方、任何设备都可运行的应用,是十分有吸引力。在过去的几个月,我一直在尝试获取一些在Javascript上运行的基础轻量级机器学习算法,然后用它们构建”智能的”web应用。随着Node的出现,在服务器端训练模型进而用这些模型在客户端做预测已经成为可能。我研究...
分类:
编程语言 时间:
2014-11-10 13:29:55
阅读次数:
254
在这篇文章中,我们一起来讨论一种叫作“神经网络”(Neural Network)的机器学习算法,这也是我硕士阶段的研究方向。我们将首先讨论神经网络的表层结构,在之后再具体讨论神经网络学习算法。 神经网络实际上是一个相对古老的算法,并且沉寂了一段时间,不过到了现在它又成为许多机器学习问题的首选技术。 ...
分类:
Web程序 时间:
2014-11-10 13:25:18
阅读次数:
187
回归1)多元线性回归(1)模型建立多元线性回归讨论的的是变量y与非随机变量x1……xm之间的关系,假设他们具有线性关系,于是有模型:y=b0+b1x1+……+bmxm+e这里的e~N(0,a2),b0,……,bn,a2都是未知数。上式矩阵表达式为:y=xb+e对于一组样本(x00……x0m,y0)……(xn0..
分类:
编程语言 时间:
2014-11-10 01:19:31
阅读次数:
406
机器学习算法 原理、实现与实践 —— 距离的度量声明:本篇文章内容大部分转载于July于CSDN的文章:从K近邻算法、距离度量谈到KD树、SIFT+BBF算法,对内容格式与公式进行了重新整理。同时,文章中会有一些对知识点的个人理解和归纳补充,不代表原文章作者的意图。1. 欧氏距离欧氏距离是最常见的两...
分类:
其他好文 时间:
2014-11-07 14:30:06
阅读次数:
281
AdaBoost算法(AdaptiveBoost)的核心思想是:如果一个弱分类器的分类效果不好,那么就构建多个弱分类器,综合考虑它们的分类结果和权重来决定最终的分类结果。很多人认为AdaBoost是监督学习中最强大的两种算法之一(另一个是支持向量机SVM)。AdaBoost的训练过程如下:为每个..
分类:
编程语言 时间:
2014-11-06 15:09:33
阅读次数:
225
之前写k-近邻算法(http://boytnt.blog.51cto.com/966121/1569629)的时候,没附上测试数据,这回找了一个,测试一下算法的效果。数据来源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,关于乳腺癌的样..
分类:
编程语言 时间:
2014-11-05 17:36:00
阅读次数:
230
机器学习算法 原理、实践与实战 —— 感知机感知机(perceptron)是二分类的线性分类模型,输入为特征向量,输出为实例的类别,取值+1和-1。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,引入了基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。1. 感知机...
分类:
其他好文 时间:
2014-11-03 14:26:40
阅读次数:
270
朴素贝叶斯(NaiveBayesian)算法的核心思想是:分别计算给定样本属于每个分类的概率,然后挑选概率最高的作为猜测结果。假定样本有2个特征x和y,则其属于分类1的概率记作p(C1|x,y),它的值无法直接分析训练样本得出,需要利用公式间接求得。其中p(Ci)表示训练样本中分类为Ci的..
分类:
编程语言 时间:
2014-11-03 10:22:12
阅读次数:
246
机器学习算法 原理、实践与实战 —— 分类、标注与回归1. 分类问题分类问题是监督学习的一个核心问题。在监督学习中,当输出变量$Y$取有限个离散值时,预测问题便成为分类问题。监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输入进行输出的预测,这个过程称...
分类:
其他好文 时间:
2014-10-31 13:36:09
阅读次数:
1179