大数据实战(上) # MapReduce原理介绍 大纲: * Mapreduce介绍 * MapReduce2运行原理 * shuffle及排序 定义 * Mapreduce 最早是由google公司研究提出的一种免息nag大规模数据处理的并行计算模型和方法。是hadoop面向大数据并行处理的计算模 ...
分类:
其他好文 时间:
2016-08-01 08:01:52
阅读次数:
176
对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 支持完善 支持,但不够完善 健壮性 / 容错性 ZooKeeper,Acker,非 ...
分类:
其他好文 时间:
2016-07-25 14:37:57
阅读次数:
166
Spart是什么 Spart是一个用来实现快速而而通用的集群计算平台。 在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理。Spart的一个主要特点是能够在内存中进行计算,因而更快。即使必须在硬盘上进行复杂计算,Spart依然比Ma ...
分类:
其他好文 时间:
2016-07-22 16:09:19
阅读次数:
129
Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。 MongoDB提供的Map-Reduce非常灵活,对于大规模数据分析也相当实用。 以下是MapReduce的基本语法: 使用 MapReduce 要实现两个函数 M ...
分类:
数据库 时间:
2016-07-19 15:31:05
阅读次数:
212
看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了。Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括Zo ...
分类:
其他好文 时间:
2016-07-11 17:08:29
阅读次数:
150
一、MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map()、reduce()、input、output5. 处理的数据放在input中、处理的结果放在output中6. MR程序>八股文7. MR在处理数据 ...
分类:
其他好文 时间:
2016-07-10 23:04:48
阅读次数:
110
??
2.5.4
客户/服务器模型
Windows操作系统服务、受保护子系统和应用程序都采用客户/服务器计算模型构造,客户/服务器模型是分布式计算中的一种常用模型。
客户/服务器结构的优点如下:
简化了执行体。可以在用户态服务器中构造各种各样的API,而不会有任何冲突或重复;可以很容易地加入新的API。
提高了...
分类:
其他好文 时间:
2016-07-10 19:12:34
阅读次数:
245
本系列博客开始介绍进化算法。 知识内容来源于本人在硕士阶段听的课程以及阅读的文献书籍。算是听课笔记或是读书笔记吧。 博主在国外读的书,可能就中英文混杂了。 Outline 1. 什么是进化算法 遗传算法(GA)是模拟生物进化过程的计算模型,是自然遗传学与计算机科学相互结合的新的计算方法。 2. 进化 ...
分类:
编程语言 时间:
2016-07-08 18:20:29
阅读次数:
276
Spark是基于内存的计算模型,但是当compute chain非常长或者某个计算代价非常大时,能将某些计算的结果进行缓存就显得很方便了。Spark提供了两种缓存的方法 Cache 和 checkPoint。本章只关注 Cache (基于spark-core_2.10),在后续的章节中会提到 che ...
分类:
系统相关 时间:
2016-07-07 19:32:49
阅读次数:
322
我没有快速学习的能力,我不得不在时间花费上非常谨慎。我希望尽可能地学习到有持久生命力的技能,即不会在几年内就过时的技术。只要占主导地位的计算模型体系不变,我们如今使用的数据结构与算法在未来也会以另外的形式继续适用,也会成为程序员职业生涯中一笔长期巨大的财富。
我要重新发明轮子:在实现一个简单东西的时候,与其去花时间精力调查有没有能用的轮子,以及哪个轮子最好用,可能还不如自己实现一套,而且...
分类:
其他好文 时间:
2016-06-26 09:12:09
阅读次数:
327