码迷,mamicode.com
首页 >  
搜索关键字:spark集群    ( 317个结果
Hadoop Spark 集群简便安装总结
Hadoop 安装简单说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile参数、配 数据存放目录 / MR要用yarn 及 master是谁 。 本文还提供涉及到的文件下载。...
分类:其他好文   时间:2015-07-05 09:34:59    阅读次数:112
Ubuntu 14.10 下Ganglia监控Spark集群
由于Licene的限制,没有放到默认的build里面,所以在官方网站下载的二进制文件中并不包含Gangla模块,如果需要使用,需要自己编译。在使用Maven编译Spark的时候,我们可以加上-Pspark-ganglia-lgpl选项来将Ganglia相关的类打包进spark-assembl...
分类:系统相关   时间:2015-06-19 16:31:54    阅读次数:202
spark 笔记(一) stand alone 和yarn-cluster的部分区别
公司最近的spark集群由原来的standalone迁移到spark on yarn了,在迁移相关的程序时,发现调整还是有一些的,以下分别是两个版本提交的部分shell命令,从命令可以看出其区别,这个区别主要是spark on yarn的工作方式不太一样,造成提交的方式也不太一样。     standalone方式的脚本为: spark-submit --class com.bg.tools...
分类:其他好文   时间:2015-06-17 21:36:42    阅读次数:393
Spark调研笔记第7篇 - 应用实战: 如何利用Spark集群计算物品相似度
本文是Spark调研笔记的最后一篇,以代码实例说明如何借助Spark平台高效地实现推荐系统CF算法中的物品相似度计算。 在推荐系统中,最经典的推荐算法无疑是协同过滤(Collaborative Filtering, CF),而item-cf又是CF算法中一个实现简单且效果不错的算法。 在item-cf算法中,最关键的步骤是计算物品之间的相似度。本文以代码实例来说明如何利用Spark平台快速计算...
分类:其他好文   时间:2015-06-10 15:47:17    阅读次数:155
Spark调研笔记第6篇 - Spark编程实战FAQ
本文主要记录我使用Spark以来遇到的一些典型问题及其解决办法,希望对遇到同样问题的同学们有所帮助。 1. Spark环境或配置相关 Q: Spark客户端配置文件spark-defaults.conf中,spark.executor.memory和spark.cores.max应该如何合理配置? A: 配置前,需要对spark集群中每个节点机器的core和memory的配置有基本了解。比如...
分类:其他好文   时间:2015-06-10 12:21:16    阅读次数:189
Spark调研笔记第3篇 - Spark集群对应用的调度策略简介
Spark集群的调度分应用间调度和应用内调度两种情况,下文分别进行说明。 1. 应用间调度 1) 调度策略1: 资源静态分区 资源静态分区是指整个集群的资源被预先划分为多个partitions,资源分配时的最小粒度是一个静态的partition。根据应用对资源的申请需求为其分配静态的partition(s)是Spark支持的最简单的调度策略。 我们已经知道,不同的应用有各自的Spark C...
分类:其他好文   时间:2015-06-08 15:07:22    阅读次数:350
在Docker中从头部署自己的Spark集群
由于自己的电脑配置普普通通,在VM虚拟机中搭建的集群规模也就是6个节点左右,再多就会卡的不行 碰巧接触了Docker这种轻量级的容器虚拟化技术,理论上在普通PC机上搭建的集群规模可以达到很高(具体能有多少个也没有实际测试过)于是就准备在Docker上搭建Spark集群 由于是Docker新手,在操作过程中遇到了不少麻烦刚开始在网上找的资料都是直接从DockerHub上拉取别人已经建好的镜像使用...
分类:其他好文   时间:2015-06-04 09:52:27    阅读次数:212
基于Spark Mllib,SparkSQL的电影推荐系统
本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下: 1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据 2.我在一个电影网站上看了几部电影,并都为其做了评分操作(0-5分) 3.该电影网站的推荐系统根据我对那几部电影的评分,要预测出...
分类:数据库   时间:2015-05-27 22:56:56    阅读次数:377
Spark(八) -- 使用Intellij Idea搭建Spark开发环境
Intellij Idea下载地址: 官方下载 选择右下角的Community Edition版本下载安装即可本文中使用的是windows系统 环境为: jdk1.6.0_45 scala2.10.5在网上下载jdk和scala的安装包双击运行安装即可注意:如果之后要将scala文件打包成jar包并在spark集群上运行的话,请确保spark集群和打包操作所在机器 环境保持一致!不然运行j...
分类:其他好文   时间:2015-05-25 10:11:16    阅读次数:392
Spark及其应用场景初探
最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平...
分类:其他好文   时间:2015-04-24 00:48:02    阅读次数:142
317条   上一页 1 ... 19 20 21 22 23 ... 32 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!