Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark
启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。目前正朝着数据科学的OS发展。
下面我们从以下三个方面,为大家彻底解密What is Spark?
1.Spark生态...
分类:
其他好文 时间:
2016-04-29 16:23:14
阅读次数:
228
讲个笑话: 老板一天给我,你去问下阿里云,看看他们的弹性伸缩组的机子有没有物理机,就是那种一台一台的计算机,不要那种虚拟出来的。 现在的云计算已经算是大家都必须掌握和知道的一个知识点和发展方向。 对于一般公司和个人,基本上用不到云计算。只有需要用到大运算大数据处理量的时候,这个时候云计算才能发挥出强 ...
分类:
其他好文 时间:
2016-04-28 16:45:12
阅读次数:
160
Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)、使用Direct ...
分类:
其他好文 时间:
2016-04-25 14:36:24
阅读次数:
147
这几天开始想学习Python进行大数据处理,但是要对其中库文件要进行扩展出现了一下问题,在此直接展示一下: 1.首先在Python官网上下载python3.5或者python2.7; 2.在这里我用的是Python2.7版本,本来python2.6之下的版本要安装第三方的库文件的时候,要自己安装Pi ...
分类:
编程语言 时间:
2016-04-22 18:37:42
阅读次数:
261
1 Hadoop是当下大数据处理的事实标准之一,具有广泛的应用场景。作为Hadoop生态基础的HDFS分布式文件系统,它具有极高的容错性,适合部署在廉价的机器上,并能提供高吞吐量的数据访问能力,专为大规模数据存取而设计。 请用Java程序来模拟HDFS的三个应用场景:写文件、读文件、Node节点单点 ...
分类:
编程语言 时间:
2016-04-21 13:41:29
阅读次数:
185
一、Oracle中大数据处理 在Oracle中,LOB(Large Object,大型对象)类型的字段现在用得越来越多了。因为这种类型的字段,容量大(最多能容纳4GB的数据),且一个表中可以有多个这种类型的字段,很灵活,适用于数据 量非常大的业务领域(如图象、档案等)。 LOB类型分为BLOB和CL ...
分类:
数据库 时间:
2016-04-19 22:47:35
阅读次数:
234
原文:http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/ 作者:Ilya Katsov 相当长一段时间以来。大数据社区已经普遍认识到了批量数据处理的不足。非常多应用都对实时查询和流式处理产生了迫切 ...
分类:
其他好文 时间:
2016-04-18 21:59:26
阅读次数:
246
本期采访的讲师是来自腾讯高级软件工程师 雷海林,他有着10年以上的Linux后台Server开发经验,目前主要从事分布式Cache、实时大数据处理引擎,分布式MySQL(TDSQL)设计和开发工作。 他将在SDCC 2016 深圳站之数据库峰会上分享的主题是《 腾讯金融云数据库备份恢复原理与实践 》 ...
分类:
数据库 时间:
2016-04-18 10:08:39
阅读次数:
237
这门课程是针对大数据工程师和云计算工程师的基础课程,同时也是所有计算机专业人士必须掌握的一门课程。 如果不掌握数据结构和算法,你将难以掌握高效、专业的数据处理手段,更难以从容应对复杂的大数据处理场景。 请思考以下问题: 1、社交网站(如微博、facebook)中,人与人的关系是海量数据,你如何研究和 ...
分类:
编程语言 时间:
2016-04-12 07:09:37
阅读次数:
427
关于举办大数据处理技术培训的通知 各有关单位: 中国科学院计算技术研究所是国家专门的计算技术研究机构,同时也是中国信息化建设的重要支撑单位,中科院计算所培训中心是致力于高端IT类人才培养及企业内训的专业培训机构。中心凭借科学院的强大师资力量,在总结多年大型软件开发和组织经验的基础上,自主研发出一整套 ...
分类:
其他好文 时间:
2016-04-11 22:15:10
阅读次数:
229