本文地址:http://www.cnblogs.com/archimedes/p/hdfs-operations.html,转载请注明源地址。1、HDFS下的文件操作1、列出HDFS文件通过“-ls”命令列出HDFS下的文件wu@ubuntu:~/opt/hadoop-0.20.2$ bin/had...
分类:
其他好文 时间:
2014-12-16 13:09:48
阅读次数:
190
Hadoop权威指南学习笔记一
声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习参考,有什么不到之处还望指出,一起学习一起进步。
转载请注明:http://blog.csdn.net/my_acm
1、
数据的增长远远超过了磁盘的读取速度,传统的数据存储方式和分析方式变得不再适用于大数据的处理。
Hadoop分为两大核心技术,HDFS(HadoopDistri...
分类:
其他好文 时间:
2014-12-16 11:44:32
阅读次数:
189
1 用hbase工具导入 实际上市从hdfs 到hbase 的过程。 hive表的hdfs 路径为 ${hive.metastore.warehouse.dir}hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns...
分类:
其他好文 时间:
2014-12-16 11:34:40
阅读次数:
505
再理解HDFS的存储机制
1. HDFS开创性地设计出一套文件存储方式,即对文件分割后分别存放;
2. HDFS将要存储的大文件进行分割,分割后存放在既定的存储块(Block)中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求;
3. 一个HDFS集群包括两大部分,即NameNode与DataNode。一般来说,一个集群中会有一个NameNode和多个DataNode共同工作;
4. NameNode是集群的主服务器,主要是用于对HDFS中所有的文件及...
分类:
其他好文 时间:
2014-12-15 10:34:06
阅读次数:
149
HDFS中的命令行
本文介绍了HDFS以命令行运行的时候,几个常用的命令行的作用和如何使用~
1. fs
fs是启动命令行动作,该命令用于提供一系列子命令。
使用形式为hadoop fs –cmd
其中,cmd是子命令,args是具体的命令操作。
例如hadoop fs –help
或者说fs是其余子命令的父亲,其余都是在“-cmd”的模式下的!...
分类:
其他好文 时间:
2014-12-15 10:26:53
阅读次数:
195
可通过部署一对主/备NameNode实现NameNode高可用性(HA),主/备NN都能访问edits的WAL,因此将edtis放置在共享存储设备上,使用NFS实现这种共享存储。主/备NN可配置为手动或自动故障切换模式,默认为手动故障切换模式。通常来说,次NN会同时承担备NN的角色,由于NN在内存中的元数据大小限制,可以使用NN联盟,由一组各自独立的NN组成,每个NN负责管理目录结构的不同部分,N...
分类:
其他好文 时间:
2014-12-15 09:01:54
阅读次数:
144
hive在hdfs中的job中间文件是根据当前登陆用户产生的,其默认值为/tmp/hive-${user.name},这就导致实现proxy的功能时会遇到临时文件的权限问题,比如在实现了proxy功能后,以超级用户hdfsproxy到普通用户user时,在hdfs中的临时文件在/tmp/hive-user目录中,而目录的属主是hdf..
分类:
其他好文 时间:
2014-12-15 06:42:31
阅读次数:
445
最初业务需求:将文件从ftp下到本地并上传到hdfs,其中ftp到本地和本地到hdfs皆有文件完整性校验,ftp到本地的逻辑由于和业务耦合度较高,因此本文不再叙述,这里仅说一下从本地到hdfs的并发脚本相关说明及代码实现。测试环境:RHEL6.4x86_64/Hadoop2.4.0.2.1.5.0-695部分需求..
分类:
Web程序 时间:
2014-12-14 18:43:33
阅读次数:
275
本篇是大数据系列的开局篇,主要介绍了Hadoop家族,HDFS和MapReduce的概念;通过以“专利数据集”为测试对象,编写MapReduce Demo,了解Hadoop MapReduce的内部运行机制以及Map和Reduce的输入输出键值对如何生成与相互关联等。
分类:
其他好文 时间:
2014-12-13 17:43:37
阅读次数:
355
这里先写下自己学习RPC的笔记总结,下面将详细介绍学习过程:
RPC(remote procedure call)
不同java进程间的对象方法的调用。
一方称作服务端(server),一方称作客户端(client)。
server端提供对象,供客户端调用的,被调用的对象的方法的执行发生在server端。
RPC是hadoop框架运行的基础。
通...
分类:
其他好文 时间:
2014-12-13 13:33:29
阅读次数:
223