上一篇博文详细介绍了如何使用Spark Python进行数据处理和特征提取,本系列从本文开始,将陆续介绍用Spark Python对机器学习模型进行详细的探讨。
推荐引擎或许是最为大众所知的一种机器学习模型。人们或许并不知道它确切是什么,但在使用Amazon、Netflix、YouTube、Twitter、LinkedIn和Facebook这些流行站点的时候,可能已经接触过了。推荐是这些网站...
分类:
编程语言 时间:
2016-06-28 20:38:43
阅读次数:
535
一. 最小二乘法建立模型 关于最小二乘法矩阵分解,我们可以参阅: 一、矩阵分解模型。 用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示: 其中,A(i,j)表示用户user i对物品item j的打分。但是,ALS 的核心就是下面这个假设:的打分矩 ...
分类:
其他好文 时间:
2016-06-08 15:23:02
阅读次数:
578
1 环境 R 3.0以上版本 安装机器学习软件包: 说明:此两个包是R机器学习包。RTextTools包含文本处理,e1071包含分类器。 > install.packages("RTextTools") > install.packages("e1071") 2 实验步骤 2 实验步骤 研究对象: ...
分类:
其他好文 时间:
2016-05-30 12:35:01
阅读次数:
222
简介
依赖设置
应用部署
简介在实现基于spark mllib的ALS协同滤波例子:
Spark机器学习_ (南非) 彭特里思 (nick pentreath)(著) 蔡立宇;黄章帅; 周济民(译) 人民邮电出版社 2015-09-01 P72其中使用了jblas包的接口,在我的应用中也使用了这个包的接口
import org.apache.spark.SparkContext
import...
分类:
编程语言 时间:
2016-05-07 08:44:27
阅读次数:
724
5.2.从数据中提取合适的特征 [root@demo1 ch05]# sed 1d train.tsv > train_noheader.tsv[root@demo1 ch05]# lltotal 42920-rw-r--r-- 1 root root 21972457 Jan 31 15:03 t
分类:
其他好文 时间:
2016-01-31 21:08:04
阅读次数:
319
大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向,中国在大数据方面才刚刚起步,但是在美国已经产生了上千亿的市场价值。举个例子,美国通用公司是一个生产飞机发动机的一个公司,这家公司在飞机发动机的每一个零部件上都安装了传感器,这些传感器在飞机发动机运作的同时不断的把发动机状...
分类:
其他好文 时间:
2015-11-25 10:11:34
阅读次数:
210
本节主要内容
IndexedRowMatrix
BlockMatrix
1. IndexedRowMatrix的使用IndexedRowMatrix,顾名思义就是带索引的RowMatrix,它采用case class IndexedRow(index: Long, vector: Vector)类来表示矩阵的一行,index表示的就是它的索引,vector表示其要存储的内容。其使用方式如下:pack...
分类:
系统相关 时间:
2015-09-14 12:19:30
阅读次数:
267
这篇是计算机类的优质预售推荐>>>>《Spark机器学习》
当机器学习遇上最流行的并行计算框架Spark......
编辑推荐
Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache
Spark就是这...
分类:
其他好文 时间:
2015-08-18 10:17:25
阅读次数:
205
我们现在开始训练模型,还输入参数如下:
rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。
iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。
lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将...
分类:
系统相关 时间:
2015-08-14 19:21:13
阅读次数:
368
注:原文中的代码是在spark-shell中编写执行的,本人的是在eclipse中编写执行,所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中,然后输出第一条数据看看效果,代码如下:val sc = new SparkContext("local", "ExtractFeatures")
val rawData = sc.textFile("F:\\...
分类:
系统相关 时间:
2015-08-14 13:54:09
阅读次数:
208