阿里云画像的能力: 1、对于多种来源的数据,基于业务模型建模,一键数据同步到分析db,屏蔽数据来源的差异2、数据同步,(在分析库上)自定义分析查询和展现方式3、提供如下三种使用方式 暴露成api 内嵌入其他模块的界面 导出数据给其他模块使用,如:营销 关于阿里的分析型数据库(analytic DB ...
分类:
其他好文 时间:
2017-04-08 11:10:09
阅读次数:
202
转发请注明原创地址 http://www.cnblogs.com/dongxiao-yang/p/6381037.html 流式计算中我们经常会遇到需要将数据根据时间窗口进行批量统计的场景,窗口性质一般由两个参数规定:1 Window length: 可以用时间或者数量来定义窗口大小;2 Slidi ...
分类:
其他好文 时间:
2017-02-09 19:03:12
阅读次数:
283
小码哥 于 1 月前 发表在 七嘴八舌 小码哥 于 1 月前 发表在 七嘴八舌 小码哥 于 1 月前 发表在 七嘴八舌 作者:肖飞,于2011年8月份加入京东,曾亲身参与到京东的应用性能监控、统一日志、流式计算、内存缓存、四层防攻击等一些基础技术平台的研发和搭建工作,经历了京东的技术系统从简单粗放向 ...
分类:
其他好文 时间:
2017-02-07 01:05:55
阅读次数:
898
1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不 ...
分类:
其他好文 时间:
2017-02-06 19:40:42
阅读次数:
234
初识Storm 1.storm有一个分支,则这个分支一个事jstorm,这个是阿里巴巴将要开源的2.离线计算:批量获取数据,批量传输数据代表技术:Sqoop批量导入数据,HDFS批量存储数据,MapReduce批量计算数据大量消耗hive,消耗大量SQL语句主要工作量:1.hivesql(工作量较多 ...
分类:
其他好文 时间:
2016-12-20 07:42:09
阅读次数:
121
Spark学习: 简述总结
Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口.
Spark学习 简述总...
分类:
其他好文 时间:
2016-11-03 21:10:07
阅读次数:
704
Hadoop 2.0 产生背景 客户端发送读写请求先要经过NameNode,NameNode的元数据会不断增大,需要将元数据分开存放(内存) MapReduce为离线计算框架,Storm为流式计算框架,Spark为内存计算框架 NNFederation : 将元数据分为两个独立的进行运行,两个互不影 ...
分类:
其他好文 时间:
2016-09-27 00:37:43
阅读次数:
143
Spark Streaming Spark Streaming 是Spark为了用户实现流式计算的模型。 数据源包括Kafka,Flume,HDFS等。 DStream 离散化流(discretized stream), Spark Streaming 使用DStream作为抽象表示。是随时间推移而 ...
分类:
其他好文 时间:
2016-09-17 00:28:16
阅读次数:
229
计算框架: MapReduce:主要用于离线计算 Storm:流式计算框架,更适合做实时计算 stack:内存计算框架,快速计算 MapReduce设计理念: --何为分布式计算 --移动计算,而不是移动数据 4个步骤: 1.Splitting 2.Mapping:Map步骤有可能有多个Map ta ...
分类:
其他好文 时间:
2016-08-24 01:10:11
阅读次数:
138
通过简单快速的学习,了解并学会使用storm及相关组件,在遇到问题时,知道如何解决。
分类:
其他好文 时间:
2016-08-04 00:04:49
阅读次数:
152