码迷,mamicode.com
首页 >  
搜索关键字:hive on spark    ( 12366个结果
详细总结 Hive VS 传统关系型数据库
本文思路,看图说话,一张图,清晰总结二者区别 下面对图中的各条做详细总结 1、查询语言 不做赘述 2、数据存储位置 不做赘述 3、数据格式 Hive:Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法(Hive 中默认有三个文件格式...
分类:数据库   时间:2014-06-16 19:54:26    阅读次数:376
简要总结 数据仓库VS数据库
本文简要总结以下两个问题,旨在快速理解“数据仓库” 1、什么是“数据仓库”? 2、“数据仓库”与“数据库”的区别? 下面做详细阐述: 1、什么是“数据仓库”? “一个数据仓库通常是一个面向主题的、集成的、与时间相关且不可修改的(可以添加)数据集合,它用于对管理决策过程的支持。” 此句话包含几个关键点:面向主题的、集成的、与时间相关的、不可修改的,具体含义欢迎留言交流。 2、数据仓...
分类:数据库   时间:2014-06-16 19:05:04    阅读次数:259
Impala与Hive的比较
1. Impala架构        Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS...
分类:其他好文   时间:2014-06-16 14:42:11    阅读次数:251
eclipse 远程操作HIVE
eclipse 远程操作HIVE...
分类:系统相关   时间:2014-06-15 17:09:46    阅读次数:375
如何在Java中执行Hive命令或HiveQL
这里所说的在Java中执行Hive命令或HiveQL并不是指Hive Client通过JDBC的方式连接HiveServer(or HiveServer2)执行查询,而是简单的在部署了HiveServer的服务器上执行Hive命令。当然这是一个简单的事情,平常我们通过Hive做简单的数据分析实验的时候,都是直接进入Hive执行HiveQL,那我们为什么还要在程序中执行呢? 这里涉及到了一个问题,...
分类:编程语言   时间:2014-06-15 16:23:19    阅读次数:301
Hive的Transform功能
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQLSELECT date, count(uid)FROM xxxGROUP BY date但是,如果我想在reduce阶段对每天...
分类:其他好文   时间:2014-06-15 09:03:50    阅读次数:243
十分钟了解分布式计算:Spark
Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD,及其在内存上的容错,内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In...
分类:其他好文   时间:2014-06-14 20:42:37    阅读次数:326
hive学习系列1——Mysql安装
安装mysql (1)执行命令rpm -qa |grep mysql 查看mysql是否安装 删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx(查看的库名,可使用右键复制) --nodeps 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令...
分类:数据库   时间:2014-06-14 12:13:32    阅读次数:284
Spark:大数据的电花火石!
Apache Spark?is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的。 本文将带领你进入Spark的世界,首先阐述了为什么Spark能够在众多的大数据分析平台中脱颖而出:通用,易用,高性能和与Hadoop的有效整合。Spark All in One的解决方案使用一个通用栈解决了流式,交互式,实时查询,迭代...
分类:其他好文   时间:2014-06-14 11:57:03    阅读次数:288
hive学习系列2——环境安装
1、hive的安装 (1)解压缩、重命名、设置环境变量,参考hadoop1学习系列2 (2)在目录$HIVE_HOME/conf/下,执行命令mv hive-default.xml.template hive-site.xml重命名 在目录$HIVE_HOME/conf/下,执行命令mv hive-...
分类:其他好文   时间:2014-06-14 10:58:35    阅读次数:227
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!