大会地址 上海Spark Meetup第四次聚会将于2015年7月18日在太库科技创业发展有限公司举办,详细地址上海市浦东新区金科路2889弄3号长泰广场 C座12层,太库。本次聚会由七牛和Intel联合举办。大会主题 1. hadoop/spark生态的落地实践 王团结(七牛)七牛云数据平台工程师。主要负责数据平台的设计研发工作。关注大数据处理,高性能系统服务,关注hadoop/flume/k...
分类:
其他好文 时间:
2015-08-27 11:04:36
阅读次数:
189
今天主要想说道说道boost里面的网络通信库如何设计和使用,因为最近一直在和网络一起工作,大数据处理和机器学习都离不开最后使用网络进行上线部署。先看看全部的源代码吧。
#include
#include
#include
#include
#include
#include
#include "data.h"
#include
#include
#include
using ...
分类:
其他好文 时间:
2015-08-19 13:27:21
阅读次数:
262
我们使用 sbt 创建、测试、运行和提交作业。该教程会解释你在我们的课程中将会用到的所有 sbt 命令。工具安装页说明了如何安装
sbt。我们一般将代码和库做成jar包,通过spark-submit 提交到spark 集群上运行。
1)下载安装:
http://www.scala-sbt.org/
2)创建工程:
比如现在的工程名为“sparksample”。那么...
分类:
其他好文 时间:
2015-08-16 12:29:01
阅读次数:
224
HDFS优点:
1. 高容错性。
a) 数据自动保存多个副本
b) 副本丢失后,自动恢复
2. 适合批处理
a) 移动计算而非移动数据
b) 数据位置暴露给计算框架
3. 适合大数据处理
a) GB、TB、甚至PB级数据
b) 百万规模以上的文件数量
c) 10K + 节点...
分类:
其他好文 时间:
2015-08-16 00:42:09
阅读次数:
95
任何一个大数据分析的软件,都需要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎。数据拉取组件和流程...
分类:
其他好文 时间:
2015-08-12 15:06:37
阅读次数:
559
Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。...
分类:
其他好文 时间:
2015-08-05 12:55:28
阅读次数:
250
本文针对统计学学习之离散章节,本科针对离散数学以及概率论学习期间,总是一味觉得软件开发与数学有何联系,根本学其无用。然而走进数据分析,大数据处理才发现其重要性。如何计算和利用概率分布,采用概率树不免增加了计算的复杂度,有没有更好的计算方法?本篇我们介绍一些特殊的概率分布,这些概率分布具有固定的形式,...
分类:
其他好文 时间:
2015-08-04 14:57:53
阅读次数:
348
原文:http://www.36dsj.com/archives/24852本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Jav...
分类:
其他好文 时间:
2015-07-29 13:59:13
阅读次数:
188
原文:http://www.36dsj.com/archives/25042接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统一、Facebo...
分类:
其他好文 时间:
2015-07-29 13:57:55
阅读次数:
135
大数据扫盲 目录 大数据扫盲1 0.1.大数据处理流程1 0.2.大数据处理技术架构2 1.数据分区与路由2 1.1.二级映射机制3 1.1.1.哈希分区3 1.1.2.虚拟桶(virtual bucket)3 1.1.3.一致性哈希(consiste...
分类:
其他好文 时间:
2015-07-29 00:49:34
阅读次数:
248