搜索关键字：Spark机器学习，搜索到62个结果！码迷,mamicode.com！

spark机器学习系列：（三）用Spark Python构建推荐系统

上一篇博文详细介绍了如何使用Spark Python进行数据处理和特征提取，本系列从本文开始，将陆续介绍用Spark Python对机器学习模型进行详细的探讨。推荐引擎或许是最为大众所知的一种机器学习模型。人们或许并不知道它确切是什么,但在使用Amazon、Netflix、YouTube、Twitter、LinkedIn和Facebook这些流行站点的时候,可能已经接触过了。推荐是这些网站...

分类：编程语言时间：2016-06-28 20:38:43 阅读次数：535

Spark机器学习之推荐引擎

一. 最小二乘法建立模型关于最小二乘法矩阵分解，我们可以参阅：一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n)，表示m个用户对n各物品的打分情况。如下图所示：其中，A(i,j)表示用户user i对物品item j的打分。但是，ALS 的核心就是下面这个假设：的打分矩 ...

分类：其他好文时间：2016-06-08 15:23:02 阅读次数：578

情感分析-R与spark机器学习库测试分类比较

1 环境 R 3.0以上版本安装机器学习软件包：说明：此两个包是R机器学习包。RTextTools包含文本处理，e1071包含分类器。 > install.packages("RTextTools") > install.packages("e1071") 2 实验步骤 2 实验步骤研究对象： ...

分类：其他好文时间：2016-05-30 12:35:01 阅读次数：222

jblas-1.2.4.jar : spark第三方依赖打包

简介依赖设置应用部署简介在实现基于spark mllib的ALS协同滤波例子： Spark机器学习_ (南非) 彭特里思 (nick pentreath)(著) 蔡立宇;黄章帅; 周济民(译) 人民邮电出版社 2015-09-01 P72其中使用了jblas包的接口，在我的应用中也使用了这个包的接口 import org.apache.spark.SparkContext import...

分类：编程语言时间：2016-05-07 08:44:27 阅读次数：724

Spark机器学习读书笔记-CH05

5.2.从数据中提取合适的特征 [root@demo1 ch05]# sed 1d train.tsv > train_noheader.tsv[root@demo1 ch05]# lltotal 42920-rw-r--r-- 1 root root 21972457 Jan 31 15:03 t

分类：其他好文时间：2016-01-31 21:08:04 阅读次数：319

DT大数据梦工厂Spark机器学习相关视频资料

大数据未来几年发展的重点方向，大数据战略已经在十八届五中全会上作为重点战略方向，中国在大数据方面才刚刚起步，但是在美国已经产生了上千亿的市场价值。举个例子，美国通用公司是一个生产飞机发动机的一个公司，这家公司在飞机发动机的每一个零部件上都安装了传感器，这些传感器在飞机发动机运作的同时不断的把发动机状...

分类：其他好文时间：2015-11-25 10:11:34 阅读次数：210

Machine Learning On Spark——第二节：基础数据结构（二)

本节主要内容 IndexedRowMatrix BlockMatrix 1. IndexedRowMatrix的使用IndexedRowMatrix，顾名思义就是带索引的RowMatrix，它采用case class IndexedRow(index: Long, vector: Vector)类来表示矩阵的一行，index表示的就是它的索引，vector表示其要存储的内容。其使用方式如下：pack...

分类：系统相关时间：2015-09-14 12:19:30 阅读次数：267

Spark机器学习——互动出版网

这篇是计算机类的优质预售推荐>>>>《Spark机器学习》当机器学习遇上最流行的并行计算框架Spark...... 编辑推荐 Apache Spark是一个分布式计算框架，专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中，鲜有能兼顾速度、可扩展性、内存处理以及容错性，同时还能简化编程，提供灵活、表达力丰富的强大API的，Apache Spark就是这...

分类：其他好文时间：2015-08-18 10:17:25 阅读次数：205

Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）

我们现在开始训练模型，还输入参数如下： rank：ALS中因子的个数，通常来说越大越好，但是对内存占用率有直接影响，通常rank在10到200之间。 iterations：迭代次数，每次迭代都会减少ALS的重构误差。在几次迭代之后，ALS模型都会收敛得到一个不错的结果，所以大多情况下不需要太多的迭代（通常是10次）。 lambda：模型的正则化参数，控制着避免过度拟合，值越大，越正则化。我们将...

分类：系统相关时间：2015-08-14 19:21:13 阅读次数：368

Machine Learning With Spark学习笔记（提取10万电影数据特征）

注：原文中的代码是在spark-shell中编写执行的，本人的是在eclipse中编写执行，所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中，然后输出第一条数据看看效果，代码如下：val sc = new SparkContext("local", "ExtractFeatures") val rawData = sc.textFile("F:\\...

分类：系统相关时间：2015-08-14 13:54:09 阅读次数：208

共62条上一页 1 ... 4 5 6 7 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)