图的并行化处理一直是一个非常热门的话题,这里头的重点有两个,一是如何将图的算法并行化,二是找到一个合适的并行化处理框架。Spark作为一个非常优秀的并行处理框架,将一些并行化的算法移到其上面就成了一个很自然的事情。Graphx是一些常见图算法在Spark上的并行化实现,同时提供了丰富的API接口。本...
分类:
其他好文 时间:
2014-06-12 21:33:34
阅读次数:
427
主要包含4个章节:1. Java 领域的即时通信的解决方案2. 搭建 Openfire
服务器3. 使用客户端测试我们搭建的 Openfire 服务器4. Smack 和 ASmack一、Java领域的即时通信的解决方案
Java领域的即时通信的解决方案可以考虑openfire+spark+smac...
分类:
其他好文 时间:
2014-06-12 14:58:35
阅读次数:
405
link:http://blog.csdn.net/uniquechao/article/details/26449761版本信息:
hadoop 2.3.0 hive 0.11.01. Application Master 无法访问 点击application mater 链接,出现
http ....
分类:
其他好文 时间:
2014-06-11 13:08:02
阅读次数:
385
Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及各种灵活的技术方案,对海量不透明的数...
分类:
其他好文 时间:
2014-06-11 06:59:31
阅读次数:
288
共享内存区是可用IPC形式中最快的。一旦内存区映射到共享它的进程的地址空间,进程间数据的传递就不再涉及内核。然而往该共享内存区存放信息或从中取走信息的进程间通常需要某种形式的同步。不再涉及内核是指:进程不再通过执行任何进入内核的系统调用来彼此传递数据。内核必须建立允许各个进程共享该内存区的内存映射关系,然后一直管理内存区。
默认情况下通过fork派生的子进程并不与其父进程共享内存区。
mmap...
分类:
系统相关 时间:
2014-06-11 06:34:25
阅读次数:
439
----资源来自于官网教程
Simple Example Use Cases
MovieLens User Ratings
First, create a table with tab-delimited text file format:
CREATE TABLE u_data (
userid INT,
movieid INT,
rati...
分类:
其他好文 时间:
2014-06-11 06:32:36
阅读次数:
407
如果你指定了\n为sqoop导入的换行符,mysql的某个string字段的值如果包含了\n, 则会导致sqoop导入多出一行记录。有一个选项--hive-drop-import-delimsDrops \n, \r, and \01 from string fields when importing to Hive.这样\n \r 和\01都被自动删除,不会捣乱了。...
分类:
其他好文 时间:
2014-06-11 06:05:59
阅读次数:
310
1:Spark1.0.0属性配置方式
Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。
在Spark1.0.0提供了3种方式的属性配置:
SparkConf方式
SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,...
分类:
其他好文 时间:
2014-06-10 14:47:43
阅读次数:
280
前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。有不明白Spark的原理的话,有另外一位大牛已经写了一个系列的Spark的源码分析了,大家可以去参考他的,他的过程图画得非常好,他写过的我可能就不写了,实在没办法比人家写得更好。下面给出他的地址:
http:...
分类:
其他好文 时间:
2014-06-09 13:25:12
阅读次数:
439