搜索关键字：HDFS，搜索到4980个结果！码迷,mamicode.com！

sbt发布assembly解决jar包冲突问题 deduplicate: different file contents found in the following

一、问题定义最近在用sbt打assembly包时出现问题，在package的时候，发生jar包冲突/文件冲突问题，两个相同的class来自不同的jar包在classpath内引起冲突。具体是：我有一个self4j的jar，还有一个hadoop-common-hdfs的jar包，其中hadoop-common-hdfs.jar内包含了self4j这个jar包，导致冲突。此类异常一般是由于打包不规范...

分类：编程语言时间：2014-11-20 22:01:47 阅读次数：314

一个Hadoop集群上搭建多个Hbase集群

即不同的集群在hdfs上建立不同的根目录和Zooeekper的根目录。如图所示：原来的hbase-0.94.14版本中在hdfs上目录是hbase，zookeeper的根目录是zookeeper_data。hbase-0.96.8版本中在hdfs上目录是index，zookeeper的根目录是zoo...

分类：其他好文时间：2014-11-20 21:46:08 阅读次数：146

Hive/Pig 语法简单比较

一句话，Hive 开发比 Pig快多了...从hdfs读取数据：Hive: CREATE EXTRENAL TABLE IF NOT EXIST (domain string, num int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' loc...

分类：其他好文时间：2014-11-20 13:27:34 阅读次数：174

Spark RDD与共享变量简介

hadoop有两个东东：HDFS（存储）和MapReduce（计算）。MapReduce计算比较慢，于是Spark（速度是MR的10~100倍）出现了。Spark有两个核心的概念：弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。弹性分布式数据集（RDD）获得方式：1 并行化驱动程序内的集合; 2 从外部数据集加载。 1 并行化驱动程序内的集合code demo val d...

分类：其他好文时间：2014-11-20 12:05:17 阅读次数：296

使用hadoop ecipse插件需要注意的问题

1.关于run on hadoop的问题：在未用hadoop eclipse插件前，我以为通过hadoop eclipse 插件不但可以管理hdfs，还可以自动打包程序，并帮我自动设置Configuration对象的mapred.jar属性值。但用了之后，才发现，这个插件只能管理hdfs，至于打包程序等操作，还得自己手动进行。我用的hadoop 版本为1.2.1，hadoop eclipse插...

分类：其他好文时间：2014-11-20 12:04:27 阅读次数：204

SVN中branch的合并和打patch

最近要在hadoop2.4上面上线hdfs raid，但是之前hdfs raid是作为svn 的branch开发的，领导希望通过patch的方式将hdfs raid功能打进trunk里面去，这里涉及到svn branch和trunk的合并问题，以下是hdfs raid 打patch的具体过程。...

分类：其他好文时间：2014-11-20 11:58:52 阅读次数：237

cdh4.6.0到cdh5.2.0 upgrade和rollback问题小结

upgrade小结：1.dfsadmin-upgradeProgressstatus在cdh5.2.0中没有，在4.6.0有（见源码org.apache.hadoop.hdfs.tools.DFSAdmin）升级的时候不能通过这个看到升级状态rollingUpgrade这个参数在4.6.0中不存在，在5.2.0中有，可以用于滚动升级2.在cdh5.2.0中执行upgrade,nn中调用的..

分类：其他好文时间：2014-11-20 01:40:36 阅读次数：268

Hadoop读书笔记（三）Java API操作HDFS

Hadoop读书笔记（三）Java API操作HDFS 多种方法诠释，注释清晰，史上最全咯！...

分类：编程语言时间：2014-11-20 00:10:32 阅读次数：245

使用Hadoop的MapReduce与HDFS处理数据

hadoop是一个分布式的基础架构，利用分布式实现高效的计算与储存，最核心的设计在于HDFS与MapReduce，HDFS提供了大量数据的存储，mapReduce提供了大量数据计算的实现，通过Java项目实现hadoop job处理海量数据解决复杂的需求。一、基本环境及相关软件的配置详细配置说明：基本环境配置及权限申请二、hadoop项目开发流程 hadoop主要的...

分类：其他好文时间：2014-11-19 18:49:25 阅读次数：175

Hive表数据导出

方式一: hadoop命令导出hadoop fs -get hdfs://hadoop000:8020/data/page_views2 pv2方式二:通过insert...directory导出【spark暂不支持】导出到本地：INSERT OVERWRITE LOCAL directory.....

分类：其他好文时间：2014-11-19 18:12:24 阅读次数：181

共4980条上一页 1 ... 451 452 453 454 455 ... 498 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)