2016 年1月1日 王老师课堂笔记和作业笔记:王老师主要讲解了spark的发展前景,spark在未来的几十年里必将一统大数据江湖。graphx,mllib,sparkSQL(1)scala语法的基础知识,重点为函数式编程思想。(2)spark源代码查看。作业描述:移除一个数组中第一个负数后的所有负...
分类:
编程语言 时间:
2016-01-02 14:03:27
阅读次数:
205
Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大提高处理速度,特别是复杂的迭代计算。Spark主要包括SparkSQL,SparkStreaming,Spark MLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集,通过RDD可以执行各.....
分类:
其他好文 时间:
2015-12-28 15:47:25
阅读次数:
245
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法,返...
分类:
其他好文 时间:
2015-12-06 22:41:01
阅读次数:
6301
《Spark快速大数据分析》11.5.4协同过滤与推荐协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术。协同过滤引入的地方就在于它只需要输入一系列用户/产品的交互记录;无论是显式的交互(例如在购物网站上进行评分)还是隐式的(例如用户访问了一个产品的页面但是没有对产品评分)交互皆...
分类:
其他好文 时间:
2015-12-04 00:50:53
阅读次数:
2842
翻译自http://weibo.com/p/1001603913581535062112,作者是CMU邢波教授的高徒。目前有很多开源的分布式机器学习和深度学习系统,例如DMLC,Spark,MLlib,Petuum,parameter server,Caffe,Torch,Theano和Tensor...
分类:
其他好文 时间:
2015-11-30 19:48:46
阅读次数:
257
用户电影评分数据集下载http://grouplens.org/datasets/movielens/1)Item-Based,非个性化的,每个人看到的都一样2)User-Based,个性化的,每个人看到的不一样对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这..
分类:
编程语言 时间:
2015-11-05 19:08:06
阅读次数:
669
1 ? ?Table of Contents spark 总揽 spark core spark sql spark mllib spark graphx spark streaming 2 ? ?spark 总揽 spark官网:https://spark.apache.org/ spark 资料集中营,覆盖各种视频,论文,博客,...
分类:
其他好文 时间:
2015-09-14 21:20:00
阅读次数:
163
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之...
分类:
其他好文 时间:
2015-09-10 09:32:08
阅读次数:
358
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、机器学习概念1.1机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通...
分类:
其他好文 时间:
2015-09-09 07:23:45
阅读次数:
269
Using MLLib in ScalaFollowing code snippets can be executed in spark-shell.Binary ClassificationThe following code snippet illustrates how to load a s...
分类:
编程语言 时间:
2015-09-06 19:49:55
阅读次数:
460