1.Storm是什么:Storm简单来说,就是分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。2.Storm的主要特点:1.简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。2.可以使用各种编程语..
分类:
其他好文 时间:
2014-09-29 20:00:11
阅读次数:
225
关于XMPP的理论介绍在本篇博客中就不做赘述了,如何在我们之前的微信中加入XMPP协议来实现通信呢?下面将会介绍一下XMPP的基本的知识,让我们的微信可以实现互联通信。要做的准备工作是要有服务器支持XMPP协议,然后通过spark注册个测试账号,最后就可以通过XMPP用我们已有的账号和密码进行通.....
分类:
移动开发 时间:
2014-09-29 12:25:47
阅读次数:
175
根据论坛上的信息,在Sparkrelease计划中,在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR.
分类:
其他好文 时间:
2014-09-28 23:55:56
阅读次数:
300
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第13期互动问答分享】Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用; 国内也有公司在使用;Q2:impala和spark sql如何选择呢? Impala已经被官方宣布“安乐死”,被...
分类:
其他好文 时间:
2014-09-28 13:04:02
阅读次数:
267
Spark概述
当前,MapReduce编程模型已经成为主流的分布式编程模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷,如高延迟、不支持DAG模型、Map与Reduce的中间数据落地等。因此在近两年,社区出现了优化改进M...
分类:
其他好文 时间:
2014-09-27 18:23:00
阅读次数:
573
本文是我对分布式计算的算子这层的一些认识和想法。因为最近自己的开发任务也是这方面相关的,公司内部有自研的类流式计算框架需要做一层算子层。我主要分析的是流式系统上实现算子这一点入手,对比现有计算框架和业界正在开展的项目,分析分析这件事的表面和背后深层的含义,以及可想象空间。...
分类:
其他好文 时间:
2014-09-26 19:59:38
阅读次数:
220
第五步:测试Spark IDE开发环境 此时我们直接选择SparkPi并运行的话会出现如下错误提示: 从提示中可以看出是找不到Spark程序运行的Master机器。 此时需要配置SparkPi的执行环境: 选择“Edit Configurations”进...
分类:
其他好文 时间:
2014-09-26 13:32:19
阅读次数:
173
第四步:通过Spark的IDE搭建并测试Spark开发环境Step1:导入Spark-hadoop对应的包,次选择“File”–>“ProjectStructure”–>“Libraries”,选择“+”,将spark-hadoop对应的包导入:点击“OK”确认:点击“OK”:IDEA工作完成后会发现Spark的jar包导入到了我们的工程中..
分类:
其他好文 时间:
2014-09-26 01:10:28
阅读次数:
365
Spark SQL缓存到内存中的数据的存储策略...
分类:
数据库 时间:
2014-09-25 20:24:38
阅读次数:
358
第四步:通过Spark的IDE搭建并测试Spark开发环境 ? Step 1:导入Spark-hadoop对应的包,次选择“File”–> “Project Structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入: 点击“OK”确认:...
分类:
其他好文 时间:
2014-09-25 16:08:29
阅读次数:
155