自从建了Spark交流的QQ群之后,热情加入的同学不少,大家不仅对Spark很热衷对于Storm也是充满好奇。大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲。尽管自己也陆续对storm的源码走读发表了一些博文,当时写的时候比较匆忙,有时候衔接的不是太好,此番做了一些整...
分类:
其他好文 时间:
2014-05-30 07:25:09
阅读次数:
286
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop
fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:
其他好文 时间:
2014-05-26 20:44:49
阅读次数:
308
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase
二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL
2.3 HBase中的数据导出到mysql
目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。
三、使用Sqoop将Orac...
分类:
数据库 时间:
2014-05-26 05:48:46
阅读次数:
304
1.需求 使用hvie
server一段时间后,业务部门需要自己不定时的查询业务数据,之前这一块都是他们提需求我们来做,后来发现这样重复一样的工作放在我们这边做是在没有效率,遂提出给他们工具或者web
UI自助查询,当然hive有自己的hwi可以通过网页UI进行自助查询,但是这对不懂sql的业务人....
分类:
编程语言 时间:
2014-05-24 14:11:12
阅读次数:
406
Hive中小表与大表关联(join)的性能分析【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到...
分类:
其他好文 时间:
2014-05-24 08:58:53
阅读次数:
531
折腾了好几天,终于可以在CenOS下用eclipse写spark程序了当前环境是CentOS6.5,jdk7,scala2.10.4,spark0.9.1前期因为对linux不熟悉的原因花了不少时间查阅命令。折腾了不少时间,终于把jdk8,scala2.11.0环境变量配置好了。在此环境下可以正常编...
分类:
其他好文 时间:
2014-05-23 06:01:28
阅读次数:
312
Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为meta....
分类:
其他好文 时间:
2014-05-23 05:54:55
阅读次数:
1771
代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门,负责创新性项目的研究和跟进,目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。
在...
分类:
数据库 时间:
2014-05-21 17:04:40
阅读次数:
393
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
课程讲师:迪伦
课程分类:Java
适合人群:高级
课时数量:96课时
用到技术:MapReduce、HDFS、Map-Reduce、Hive、Sqoop
涉及项目:Greenplum Hadoop大数据分析平台
更新程度:完毕
对这个课程有兴趣的朋友可以加我的QQ2059055336和...
分类:
其他好文 时间:
2014-05-21 13:23:22
阅读次数:
363