作者 Jonathan
Allen ,译者 张晓鹏
Splunk的用户大会已经接近尾声。三天时间的会议里,共进行了160多个主题研讨,涵盖了从安全、运营到商业智能,甚至包括物联网,会议中一遍又一遍出现相同的中心主题:大数据的关键是机器学习。
存储不再是一个问题。从运行Hadoop兼容节点的专用存储硬件,到数百台使用普通硬盘的计算机组成的集群,毫无疑问,我们具备了处理这类存储问...
分类:
其他好文 时间:
2014-11-10 12:04:34
阅读次数:
165
回归1)多元线性回归(1)模型建立多元线性回归讨论的的是变量y与非随机变量x1……xm之间的关系,假设他们具有线性关系,于是有模型:y=b0+b1x1+……+bmxm+e这里的e~N(0,a2),b0,……,bn,a2都是未知数。上式矩阵表达式为:y=xb+e对于一组样本(x00……x0m,y0)……(xn0..
分类:
编程语言 时间:
2014-11-10 01:19:31
阅读次数:
406
阅读导读:
1.什么是PeopleRank?
2.PeopleRank和PageRank有什么区别?
3.PR分析微博数据时,如何对微博单个账号评分?
4.R语言如何递归计算矩阵特征值?
5.如何计算粉丝的关注度?
1.
PeopleRank和PageRank
PageRank让Google成为搜索领域的No.1,也是当今最有影响力的互联网公司之一,用技术创新改变人们...
分类:
其他好文 时间:
2014-11-09 18:05:01
阅读次数:
249
尝试用最简单易懂的描述解释清楚机器学习中会用到的拉格朗日对偶性知识
分类:
其他好文 时间:
2014-11-09 15:14:58
阅读次数:
188
接上一节课,这一节课的主题是如何利用 Regularization 避免 Overfitting。通过给假设集设定一些限制条件从而避免 Overfitting,但是如果限制条件设置的不恰当就会造成 Underfitting。最后讲述了选择 Regularization 的一些启发式方法。...
分类:
其他好文 时间:
2014-11-09 11:18:36
阅读次数:
129
阅读导读:
1.如何设计职位推荐引擎的指标?
2.简述职位推荐引擎所需要的系统架构?
3.如何对推荐结果进行人工比较?
4.职位推荐引擎中什么情况的数据最好做排除?
1.
Mahout推荐系统框架概述
Mahout框架包含了一套完整的推荐系统引擎,标准化的数据结构,多样的算法实现,简单的开发流程。Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模...
分类:
其他好文 时间:
2014-11-08 23:43:08
阅读次数:
501
1.什么是支持向量机(SVM) 所谓支持向量机,顾名思义,分为两部分了解:一,什么是支持向量(简单来说,就是支持或支撑平面上把两类类别划分开来的超平面的向量点);二,这里的“机(machine,机器)”便是一个算法。在机器学习领域,常把一些算法看做是一个机器,如分类机,而支持向量机本身便是一种监督....
分类:
其他好文 时间:
2014-11-08 18:01:47
阅读次数:
287
文本特征提取方法研究一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、...
分类:
其他好文 时间:
2014-11-08 15:11:24
阅读次数:
411
本节课主要介绍了关于机器学习中的过拟化问题。作者指出,区别一个专业级玩家和业余爱好者的方法之一就是他们如何处理过拟化问题。通过该课程,我们可以知道样本数据的拟合并不是越高越好,因为噪声的存在将使得过拟化问题的出现。最后简介了处理过拟合的两种方法。...
分类:
其他好文 时间:
2014-11-07 23:29:28
阅读次数:
273