批量梯度下降的逻辑回归可以参考这篇文章:http://blog.csdn.net/pakko/article/details/37878837 看了一些Scala语法后,打算看看MlLib的机器学习算法的并行化,那就是逻辑回归,找到package org.apache.spark.mllib.cla
分类:
其他好文 时间:
2016-03-05 23:33:26
阅读次数:
321
In this post we take a tour of the most popular machine learning algorithms. It is useful to tour the main algorithms in the field to get a feeling of
分类:
编程语言 时间:
2016-03-04 19:22:05
阅读次数:
322
GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理解机器学习算法:http://blog.csdn.net/dark_scope/article/de
分类:
编程语言 时间:
2016-02-22 22:13:11
阅读次数:
1433
本文我们会概述一些流行的机器学习算法。
机器学习算法很多,并且它们自身又有很多延伸。因此,如何确定解决一个问题的最好算法是很困难的。
下面我们先说基于学习方式对算法的分类和算法之间的相似性,让大家有个整体意识;接着再陈述各类算法。...
分类:
编程语言 时间:
2016-02-20 00:41:42
阅读次数:
179
Weka 1.Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。 MassiveOnlineAnalysis 2.MassiveOnlineAnalysis(MOA)
分类:
移动开发 时间:
2016-02-18 13:54:30
阅读次数:
207
KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近; K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如
分类:
其他好文 时间:
2016-02-05 18:55:34
阅读次数:
169
在使用机器学习算法进行分类预测的过程中,往往最困难的部分在于如何提高模型预测的准确率。有时候当我们辛辛苦苦准备了数据集,进行了繁琐的数据预处理,编码,提交到集群完成了模型训练之后,忽然发现预测的准确率低到让人无语,笔者曾经遇到过进行0,1分类,结果训练出来的模型准确率是51.8%,这和人工随机分类几
分类:
其他好文 时间:
2016-01-30 13:29:53
阅读次数:
170
本文主要是讲了一些自然语言处理的浅层内容。知识点比较零碎,可见业务场景之繁杂。我们希望从机器学习算法的角度去观察这些业务场景,以便有个清晰的认识。文本处理的一些基础内容,如正则表达式、分词断句等是自然语言预处理过程中的常用手段。编辑距离是衡量两个字符串相似性的尺度。...
分类:
编程语言 时间:
2016-01-21 14:00:43
阅读次数:
309
一、为什么要进行机器学习算法诊断? 通过 对 训练得到的机器学习算法 进行测试,可以了解到 这个算法什么情况下工作的很好,什么情况下不好;并对如何最好的改善算法性能 得到指导性的知识。 诊断算法,通常要花时间来实现,但这样做反而会更好的少走弯路,利用时间。二、如何诊断算法? 最简单的是把数据集...
分类:
编程语言 时间:
2016-01-15 14:32:16
阅读次数:
162
一、机器学习中的參数预计问题 在前面的博文中,如“简单易学的机器学习算法——Logistic回归”中,採用了极大似然函数对其模型中的參数进行预计,简单来讲即对于一系列样本,Logistic回归问题属于监督型学习问题,样本中含有训练的特征X_i" title="X_i" alt="">以及标签。在L....
分类:
编程语言 时间:
2016-01-11 20:08:15
阅读次数:
398