码迷,mamicode.com
首页 > 其他好文 > 详细

大数据笔记

时间:2015-11-17 12:32:59      阅读:121      评论:0      收藏:0      [点我收藏+]

标签:

1. 大数据目前代名词spark,是一个快速的集群计算系统,它的功能之一是streaming,支持实时的数据流,把实时数据流按时间变为离散数据流 discretized stream,其中每一个离散集合RDD resilient distributed dataset

2. 计算函数包括:flatMap: 一对多,map: 一对一, reduceByKey: 根据key合并value

3. spark的程序中,先建立计算公式,但不会执行,只有spark streaming context start之后才开始执行

4. D的问题是,如何保证在底层结构化的数据流不被割裂,比如在每个RDD做transform的时候不会失败

5. 一个spark worker/executor 需要一个thread占用一个核,他们的总数不要超过核的数目

6. 每个Dstream对应一个Receiver,每个spark receiver也需要一个thread

7. 像kafka, 可以细分多个topic,这样可以用多个Dstream去receive data stream,从而增加了并发度

大数据笔记

标签:

原文地址:http://www.cnblogs.com/qiangxia/p/4971032.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!