码迷,mamicode.com
首页 >  
搜索关键字:HDFS    ( 4980个结果
sbt发布assembly解决jar包冲突问题 deduplicate: different file contents found in the following
一、问题定义最近在用sbt打assembly包时出现问题,在package的时候,发生jar包冲突/文件冲突问题,两个相同的class来自不同的jar包在classpath内引起冲突。具体是:我有一个self4j的jar, 还有一个hadoop-common-hdfs的jar包,其中hadoop-common-hdfs.jar内包含了self4j这个jar包,导致冲突。此类异常一般是由于打包不规范...
分类:编程语言   时间:2014-11-20 22:01:47    阅读次数:314
一个Hadoop集群上搭建多个Hbase集群
即不同的集群在hdfs上建立不同的根目录和Zooeekper的根目录。如图所示:原来的hbase-0.94.14版本中在hdfs上目录是hbase,zookeeper的根目录是zookeeper_data。hbase-0.96.8版本中在hdfs上目录是index,zookeeper的根目录是zoo...
分类:其他好文   时间:2014-11-20 21:46:08    阅读次数:146
Hive/Pig 语法简单比较
一句话,Hive 开发比 Pig快多了...从hdfs读取数据:Hive: CREATE EXTRENAL TABLE IF NOT EXIST (domain string, num int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' loc...
分类:其他好文   时间:2014-11-20 13:27:34    阅读次数:174
Spark RDD与共享变量简介
hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。 弹性分布式数据集(RDD)获得方式:1 并行化驱动程序内的集合; 2 从外部数据集加载。 1 并行化驱动程序内的集合code demo val d...
分类:其他好文   时间:2014-11-20 12:05:17    阅读次数:296
使用hadoop ecipse插件需要注意的问题
1.关于run on hadoop的问题: 在未用hadoop eclipse插件前,我以为通过hadoop eclipse 插件不但可以管理hdfs,还可以自动打包程序,并帮我自动设置Configuration对象的mapred.jar属性值。但用了之后,才发现,这个插件只能管理hdfs,至于打包程序等操作,还得自己手动进行。我用的hadoop 版本为1.2.1,hadoop eclipse插...
分类:其他好文   时间:2014-11-20 12:04:27    阅读次数:204
SVN中branch的合并和打patch
最近要在hadoop2.4上面上线hdfs raid,但是之前hdfs raid是作为svn 的branch开发的,领导希望通过patch的方式将hdfs raid功能打进trunk里面去,这里涉及到svn branch和trunk的合并问题,以下是hdfs raid 打patch的具体过程。...
分类:其他好文   时间:2014-11-20 11:58:52    阅读次数:237
cdh4.6.0到cdh5.2.0 upgrade和rollback问题小结
upgrade小结:1.dfsadmin-upgradeProgressstatus在cdh5.2.0中没有,在4.6.0有(见源码org.apache.hadoop.hdfs.tools.DFSAdmin)升级的时候不能通过这个看到升级状态rollingUpgrade这个参数在4.6.0中不存在,在5.2.0中有,可以用于滚动升级2.在cdh5.2.0中执行upgrade,nn中调用的..
分类:其他好文   时间:2014-11-20 01:40:36    阅读次数:268
Hadoop读书笔记(三)Java API操作HDFS
Hadoop读书笔记(三)Java API操作HDFS 多种方法诠释,注释清晰,史上最全咯!...
分类:编程语言   时间:2014-11-20 00:10:32    阅读次数:245
使用Hadoop的MapReduce与HDFS处理数据
hadoop是一个分布式的基础架构,利用分布式实现高效的计算与储存,最核心的设计在于HDFS与MapReduce,HDFS提供了大量数据的存储,mapReduce提供了大量数据计算的实现,通过Java项目实现hadoop job处理海量数据解决复杂的需求。 一、基本环境及相关软件的配置     详细配置说明:基本环境配置及权限申请 二、hadoop项目开发流程      hadoop主要的...
分类:其他好文   时间:2014-11-19 18:49:25    阅读次数:175
Hive表数据导出
方式一: hadoop命令导出hadoop fs -get hdfs://hadoop000:8020/data/page_views2 pv2方式二:通过insert...directory导出 【spark暂不支持】导出到本地:INSERT OVERWRITE LOCAL directory.....
分类:其他好文   时间:2014-11-19 18:12:24    阅读次数:181
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!