码迷,mamicode.com
首页 >  
搜索关键字:hive on spark    ( 12366个结果
Spark 1.0.0版本号公布
前言今天Spark最终跨出了里程碑的一步,1.0.0版本号的公布标志着Spark已经进入1.0时代。1.0.0版本号不仅增加了非常多新特性,而且提供了更好的API支持。Spark SQL作为一个新的组件增加,支持在Spark上存储和操作结构化的数据。已有的标准库比方ML、Streaming和Grap...
分类:其他好文   时间:2014-06-18 15:29:22    阅读次数:208
sqoop往hive中导入数据报找不到数据库错误
sqoop版本为1.4.4,hadoop版本为2.2.0,hive版本为0.11.0,hive元数据存放位置为mysql,当使用sqoop 从mysql往hive中导入数据时,总是提示找不到所指定的hive数据库,事实上hive中已存在该数据库,sqoop中也设置了hive路 径,/etc/pro....
分类:数据库   时间:2014-06-18 15:06:57    阅读次数:248
Spark1.0.0 history server 配置
在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history serve...
分类:其他好文   时间:2014-06-18 07:45:40    阅读次数:250
Spark技术内幕:Client,Master和Worker 通信源码解析
本文分析了Spark1.0.0的Client,Master和Worker之间是如何通信的。通过对通信的分析,可以清楚的理解各个角色的作用和责任,和它在集群中扮演的不同角色。 当然了,为了便于源码分析,本文开始分析了akka,一个非常优秀的actor的实现:高性能,易于编程,可扩展和弹性无中心。...
分类:其他好文   时间:2014-06-18 06:59:54    阅读次数:183
Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如何处理的。组成cluster的不同节点,启动时有没有固定的顺序,为什么是这样的顺序,针对这些问题,本文会做一个详尽的分析。
分类:其他好文   时间:2014-06-18 00:10:53    阅读次数:253
Spark编程实现SQL查询的实例
1、Oracle中的SQL select count(1)from a_V_PWYZL_CUSTACCT_PSMIS t where not exists (select 1 from tb_show_multi_question q WHERE q.dqmp_rule_code = '仅比对系统有...
分类:数据库   时间:2014-06-17 23:29:32    阅读次数:309
Setup Spark source code environment
1. Install Java and set JAVA_HOME2. Install IntelliJ IDH and Scala plugin3. Download spark1.0.04. Generate a workspace for IDEA[shaochen@linux spark-1...
分类:其他好文   时间:2014-06-17 19:55:22    阅读次数:262
Hadoop生态系统学习路线
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起云...
分类:其他好文   时间:2014-06-17 16:44:25    阅读次数:310
Spark1.0.0 的监控方式
Spark1.0.0可以通过以下几种方式来对Spark应用程序进行监控: Spark应用程序的WebUI或者Spark Standalone的集群监控指标,然后通过支持指标收集的集群监控系统,如ganglia进行监控辅助监控工具 1:WebUI       Spark应用程序提交后,driver和Executor之间不断的交换运行信息,可以通过driver的4...
分类:其他好文   时间:2014-06-16 20:12:51    阅读次数:325
Hadoop、Spark、HBase与Redis的适用性讨论(全文)
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Re..
分类:其他好文   时间:2014-06-16 17:07:55    阅读次数:402
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!