搜索关键字：flume hdfs sink lzo 格式压缩，搜索到6349个结果！码迷,mamicode.com！

Rhel6-hadoop分布式部署配置文档

理论基础：Hadoop 分布式文件系统架构HDFS 负责大数据存储MapReduce 负责大数据计算namenode master守护进程datanode slaves上负责存储的进程secondarynamenode master上提供周期检查和清理任务的进程jobtracker maste...

分类：其他好文时间：2014-10-03 01:34:04 阅读次数：451

spark+hadoop+sqoop+hive平台bug解决方法

bug集锦1. hadoop平台datanode无法启动：原因：由于多次hdfs namenode -format导致dfs/data/current/version中的cluserID与当前的cluserID不统一，通过查看hadoop/logs中的datanode日志文件查看到此错误。解决方....

分类：其他好文时间：2014-10-02 23:55:33 阅读次数：205

从本地上传整个目录到hdfs的java程序

首先在网上找了好久没有找到从本地文件系统上传整个目录到hdfs文件系统的程序，权威指南上也没有，都是单个文件上传，所以这里自己编写了一个程序，封装成jar包执行能够复制。先说明一下代码：须要手动输入两个路径，一个本地文件/目录路径，第二个是hdfs目录路径。好直接上代码：import java.io...

分类：编程语言时间：2014-10-02 17:02:53 阅读次数：186

Apache Spark1.1.0部署与开发环境搭建

Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同，Spark并不局限于编写map和reduce两个方法，其提供了更为强大的内存计算(in-memory computing)模型，使得用户可以.....

分类：其他好文时间：2014-10-01 17:33:51 阅读次数：456

etl工具，kettle实现循环

业务模型：在关系型数据库中有张很大的表，被设计成奇偶库存储，每个库100张一模一样的表，每张表存储1000W，字段切换到下一个表。现需要同步这个数据到hive中（hdfs），循环抽取这些数据。如果是抽取增量的带上增量字段（每天增量数据存储在哪个表，奇数库还是偶数库是不知道的）。...

分类：其他好文时间：2014-10-01 09:25:40 阅读次数：367

HBase相关

HBase为可伸缩海量数据存储而设计，实现面向在线业务的实时数据访问延迟。HBase的伸缩性主要依赖其可分裂的HRegion及可伸缩的分布式文件系统HDFS实现。HBase中，数据以HRegion为单位进行管理，也就是说应用程序如果想要访问一个数据，必须先找到HRegion，然后将数据读写操作提..

分类：其他好文时间：2014-10-01 00:39:00 阅读次数：249

MapReduce的一点理解

对于MapReduce编程，大概率的流程用过的人或多或少都清楚，但是归结到细节上，就有的地方不清楚了，下面根据自己的疑问，加上从网上各处，找到的被人的描述，最自己的疑问做出回答。1.　MapReduce 和 HDFS有什么关系？首先，HDFS和MapReduce是Hadoop最核心的设计；对.....

分类：其他好文时间：2014-09-30 18:54:49 阅读次数：871

Flume数据传输事务分析

Flume数据传输事务分析本文基于ThriftSource,MemoryChannel,HdfsSink三个组件，对Flume数据传输的事务进行分析，如果使用的是其他组件，Flume事务具体的处理方式将会不同。一般情况下，用MemoryChannel就好了，我们公司用的就是这个，FileChannel速度慢，虽然提供日志级别的数据恢复，但是一般情况下，不断电MemoryChannel是不会...

分类：其他好文时间：2014-09-30 17:11:59 阅读次数：187

Hadoop HDFS (3) JAVA访问HDFS之二文件分布式读写策略

先把上节未完成的部分补全，再剖析一下HDFS读写文件的内部原理列举文件 FileSystem（org.apache.hadoop.fs.FileSystem）的listStatus()方法可以列出一个目录下的内容。 public FileStatus[] listStatus(Path f) throws FileNotFoundException, IOException; pu...

分类：编程语言时间：2014-09-30 16:47:19 阅读次数：271

Hadoop Shell命令字典（可收藏）

可以带着下面问题来阅读：1.chmod与chown的区别是什麽？2.cat将路径指定文件的内容输出到哪里？3.cp能否是不同之间复制？4.hdfs如何查看文件大小？5.hdfs如何合并文件？6.如何显示当前路径下的所有文件夹和文件7.rm删除文件失败的原因什么？8.如何查看文件的创建时间9.查看文件...

分类：其他好文时间：2014-09-29 11:08:57 阅读次数：334

共6349条上一页 1 ... 592 593 594 595 596 ... 635 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)