在飞速发展的云计算大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年.....
分类:
其他好文 时间:
2014-07-03 10:43:37
阅读次数:
181
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询...
分类:
其他好文 时间:
2014-07-03 10:19:26
阅读次数:
208
Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之...
分类:
其他好文 时间:
2014-07-02 13:48:43
阅读次数:
299
背景: 应用程序,在某个时刻或出现超时,一开始以为是dbcc checktable造成,使用了各种手段抓取sql,xevent,profile都没有找到。 之前还写了一篇,[20140117]疑似checkpoint堵塞数据库连接,其实问题不是这个。问题: 出现超时一般是在索引整理的job运行...
分类:
其他好文 时间:
2014-07-02 10:29:30
阅读次数:
150
以前一直做Windows开发,近期的项目中要求使用Linux。作为小菜鸟一枚,赶紧买了一本经典书《鸟哥的Linux私房菜》学习。最近刚好有一个小任务 - 由于产品产生的Log很多,而且增长很快,所以需要用脚本(Bash scripts)删除过期的Log文件。 使用Linux下的Cron Job...
分类:
系统相关 时间:
2014-07-01 19:48:48
阅读次数:
401
微软近期Open的职位:JOB TITLE: Software Design Engineer IIDEPARTMENT: Microsoft Office Division ChinaIMMEDIATE SUPERVISOR: Development LeadLocation: Beijing, ...
分类:
其他好文 时间:
2014-07-01 10:29:30
阅读次数:
299
在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。
企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。
一、环境:
Haoop2.2.0
Hbase版本0.96.2-hadoop2, r158109...
分类:
其他好文 时间:
2014-07-01 09:29:54
阅读次数:
499
为了构建基于Yarn体系的Spark集群,先要安装Hadoop集群,为了以后查阅方便记录了我本次安装的具体步骤。...
分类:
其他好文 时间:
2014-07-01 08:17:24
阅读次数:
576
Spark1.0.0发布一个多月了,那么它有多少行代码(Line of Code, LOC)?...
分类:
其他好文 时间:
2014-07-01 08:08:16
阅读次数:
192
今天一个开发问到一个not exists问题,小小做个实验
实验1
SQL> select * from emp e1 where not exists (select 1 from emp e2 where e1.mgr = e2.empno);
EMPNO ENAME JOB MGR HIREDATE ...
分类:
其他好文 时间:
2014-07-01 06:59:39
阅读次数:
164