码迷,mamicode.com
首页 >  
搜索关键字:大数据处理    ( 465个结果
Hadoop的基本组成和生态系统
摘自:http://www.tuicool.com/articles/emQZNnN Hadoop系统运行于一个由普通商用服务器组成的计算集群上,该服务器集群在提供大规模分布式数据存储资源的同时,也提供大规模的并行化计算资源。 在大数据处理软件系统上,随着Apache Hadoop系统开源化的发展, ...
分类:其他好文   时间:2016-04-09 18:42:44    阅读次数:185
流式大数据处理的三种框架:Storm,Spark和Samza
流式大数据处理的三种框架:Storm,Spark和Samza 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Ap ...
分类:其他好文   时间:2016-04-06 18:34:33    阅读次数:176
引爆Spark大数据引擎的七大工具
原文名称:7 tools to fire up Spark's big data engine         Spark正在数据处理领域卷起一场风暴。让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具。 Spark生态系统众生相 Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单、功能更强大、更方便。Spark并非只是一...
分类:其他好文   时间:2016-04-05 16:21:07    阅读次数:155
Redis安装
Redis是一个高性能的NOSQL内存数据库,支持各种常见的数据类型,如字符串(string),哈希(hash),列表(list),集合(set),有序集合(sorted set),支持主从复制,发布订阅,是应对目前互联网高并发大数据处理的有效的工具 获取Redis 1.官网获取 打开官网www.r
分类:其他好文   时间:2016-03-23 16:59:07    阅读次数:160
EventWaitHandle
在查资料的过程中,我突然想到一个类:EventWaitHandle,也就是本文的主角。 这个类通过在线程之间设置信号量,可以非常方便的控制线程运行的顺序。具体代码如下: 首先全局申明: 其次在大数据处理的函数开始加上 末尾加上: 具体形式如下: 其中Reset方法可以让本函数进行处理,而让其他在线程
分类:其他好文   时间:2016-03-18 00:20:18    阅读次数:294
大数据技能图谱
下面是 StuQ 发布的大数据技能图谱,比较实用,供参考   大数据处理框架 Spark - RDD - Spark SQL - Spark Streaming - MLLibHadoop - HDFS (分布式文件系统) - Mapreduce(计算框架) - Yarn(资源管理平台) - Pig
分类:其他好文   时间:2016-03-14 09:28:47    阅读次数:173
大数据系统和分析技术综述【程学旗】
本文结构 1 大数据处理与系统 1.1 批量数据处理系统 1.1.1 批量数据的特征与典型应用 1.1.2 代表性的处理系统 1.2 流式数据处理系统 1.2.1 流式数据的特征及典型应用 1.2.2 代表性的处理系统 1.3 交互式数据处理 1.3.1 交互式数据处理的特征与典型应用 1.3.2
分类:其他好文   时间:2016-02-26 13:52:03    阅读次数:839
CacheManager彻底解密:CacheManager运行原理流程图和源码详解(DT大数据梦工厂)
内容:1、CacheManager重大价值;2、CacheManager运行原理图;3、CacheManager源码解析;BlockManager针对Cache这样的行为做了CacheManagerSpark出色的原因:1、Spark基于RDD构成了一体化、多元化的大数据处理中心(不需要再处理多种范式来部署多种框架,只要Spark!!!降低成..
分类:系统相关   时间:2016-02-22 16:11:00    阅读次数:358
大数据处理分析的六大最好工具
来自传感器、购买交易记录、网络日志等的大量数据,通常是万亿或EB的大小,如此庞大的数据,寻找一个合适处理工具非常必要,今天我们为大家分享在大数据处理分析过程中六大最好用的工具。 【编者按】我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一
分类:其他好文   时间:2016-02-19 10:32:05    阅读次数:146
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓...
分类:其他好文   时间:2016-02-17 15:59:54    阅读次数:202
465条   上一页 1 ... 27 28 29 30 31 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!