首先所有的输入格式都继承FileInputFormat,对于TextFile和SequenceFile有对应的TextInputFormat和SequenceFileInputFormat。我们先来看一下TextInputFormat的实现:publicclassTextInputFormatextendsFileInputFormat<LongWritable,Text>
implementsJobConfigurable{
p..
分类:
其他好文 时间:
2014-08-04 18:17:29
阅读次数:
677
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。
本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:
其他好文 时间:
2014-08-03 18:02:06
阅读次数:
267
bin/hive 提示"xxx Illegal Hadoop Version: Unknown (expected A.B.* format)"类似这样的问题,经过查看代码 public static String getMajorVersion() { String vers = Versi...
分类:
其他好文 时间:
2014-08-03 17:46:15
阅读次数:
837
本文主要针对对HBase不了解的人。主要想基于个人的理解回答以下几个问题:
什么是HBase?何时用HBase?与Hive、Pig的区别?HBase的结构为何HBase速度很快?HBase常用的操作有哪些?HBase的一些配置和监控
什么是HBase?
HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉...
分类:
其他好文 时间:
2014-07-31 16:59:07
阅读次数:
271
原文来自于:http://blog.csdn.net/w13770269691/article/details/17353595今天想使用一下Hive的图形化工具HWI,我的Hive是0.12.0版本。该版本已经集成了HWI的JAR包,在$HIVE_HOME/lib下的hive-hwi-0.12.0...
分类:
其他好文 时间:
2014-07-31 12:31:26
阅读次数:
183
最近有个业务建表使用了RegexSerDe,之前虽然也它来解析nginx日志,但是没有做深入的了解。这次看了下其实现方式。建表语句:CREATEexternalTABLEods_cart_log
(
time_localSTRING,
request_jsonSTRING,
trace_id_numSTRING
)
PARTITIONEDBY
(
dtstring,
hourstring
)
ROWFORMA..
分类:
其他好文 时间:
2014-07-31 03:11:15
阅读次数:
226
最近发生了一次因为hdfs的坏块导致的hive计算问题,因此写了个监控脚本用来监控hdfs的坏块,脚本如下:#!/usr/bin/python
#-*-coding:utf8-*-
#editbyericni
#20140724
#monitorhdfscorrupt
importsys
importproperty
importsendmail
importre,os
reload(sys)
sys.setdefaulten..
分类:
其他好文 时间:
2014-07-31 03:11:06
阅读次数:
350
order by,distribute by,sort by,cluster by ?查询使用说明 // 根据年份和气温对气象数据进行排序,以确保所有具有相同年份的行最终都在一个reducer分区中
// 一个reduce(海量数据,速度很慢)
select year, te...
分类:
其他好文 时间:
2014-07-30 21:00:44
阅读次数:
198
一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求...
分类:
其他好文 时间:
2014-07-30 09:59:03
阅读次数:
358
一、问题 hive如何将 a?????? b?????? 1 a?????? b?????? 2 a?????? b?????? 3 c?????? d?????? 4 c?????? d?????? 5 c?????? d??????...
分类:
其他好文 时间:
2014-07-29 22:13:52
阅读次数:
542