Hadoop家族系列文章, 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra...
分类:
其他好文 时间:
2014-11-26 14:09:05
阅读次数:
352
Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等Hadoop的核心是HDFS和mapreduce,两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。mapr...
分类:
其他好文 时间:
2014-11-26 13:48:30
阅读次数:
195
背景:NoSQL运动,NotOnlySQLNewSQL,SQL的逆袭放弃SQL是最大的错误Hive还不算是完整的数据库系统Hive很缓慢应用于即席查询场景Hive:数据仓库工具,可以把Hadoop下的原始结构化数据变为Hive中的表支持一种与SQL几乎完全相同的语言HiveQL.除了不支持更新,索引和事务,几乎SQL的其他特..
分类:
其他好文 时间:
2014-11-26 06:48:30
阅读次数:
249
这两天在研究了hbase,hadoop,hive,spark由于spark.py不支持clust(jar才支持,但是太麻烦了>_<)所以最终决定使用hive在hive中用create external table后可以一同指定partition和location,这样就可以直接在hadoop的原始数...
分类:
其他好文 时间:
2014-11-26 01:17:25
阅读次数:
210
我们可以使用describe extended financial.employee命令来查看这个表的详细表结构信息(如果当前所处的工作数据库就是financial,那可以不佳finanacial)。
如果使用formatted替代关键字extended的话,那可以得到更多的输出信息。
如果用户只想查看某一列的信息,那么只要在表名后增加这个字段的名称即可。这种情况下,使用extended关键字...
分类:
其他好文 时间:
2014-11-24 11:51:06
阅读次数:
177
官方文档:http://sqoop.apache.org/Sqoop(发音:skup)是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型...
分类:
其他好文 时间:
2014-11-23 17:27:10
阅读次数:
198
/** A new configuration where the behavior of reading from the default
* resources can be turned off.
*
* If the parameter {@code loadDefaults} is false, the new instance
* will no...
分类:
其他好文 时间:
2014-11-23 16:10:02
阅读次数:
186
命令行下编译Wordcountubuntu网络设置及遇到问题orcale和hive常用函数对照表(?代表未证实)hive时间函数学习
分类:
其他好文 时间:
2014-11-23 12:56:23
阅读次数:
139
这里是指java中执行hive或者hiveQL。 注意:而不是经常说的通过JDBC的方式连接Hiveserver2来执行查询。是在部署了hiveserver的服务器上执行hive命令。这样就可以将分析得结果写到文件中,不用一定在hive的命令行client下执行。String sql="show.....
分类:
编程语言 时间:
2014-11-22 17:26:54
阅读次数:
314