一、hadoop fs 1、创建目录 加 -p 则创建多级目录 2、ls,列出指定目录的所有文件或文件夹 加 -R,列出所有级的目录和文件 3、copeFromLocal,复制本地文件到hdfs的目录,除了限定源路径是一个本地文件外,和put命令相似,如果要强制复制文件 加-f 也可以一次复制多个文 ...
分类:
其他好文 时间:
2018-05-18 23:32:25
阅读次数:
286
安装步骤: 1、安装虚拟机系统,并进行准备工作(可安装一个然后克隆) 2.修改各个虚拟机的hostname和host 3.创建用户组和用户 4、配置虚拟机网络,使虚拟机系统之间以及和host主机之间可以通过相互ping通。 5.安装jdk和配置环境变量,检查是否配置成功 6、配置ssh,实现节点间的 ...
分类:
其他好文 时间:
2018-04-28 14:12:47
阅读次数:
157
一、序列化 1 hadoop自定义了数据类型,在hadoop中,所有的key/value类型必须实现Writable接口。有两个方法,一个是write,一个是readFileds。分别用于读(反序列化操作)和写(序列化操作)。 2 所有的key必须实现Comparable接口,在MapReduce过 ...
分类:
其他好文 时间:
2018-04-28 11:42:18
阅读次数:
231
一、MapReduce编程模型 一种分布式计算框架,解决海量数据的计算问题。 MapReduce将整个并行计算过程抽象到两个函数: Map(映射):对一些独立元素组成的列表的每一个元素进行制定的操作,可以高度并行。 Reduce(化简):对一个列表的元素进行合并。 一个简单的MapReduce程序只 ...
分类:
其他好文 时间:
2018-04-27 12:17:43
阅读次数:
152
一、使用HDFS FileSystem详解 HDFS依赖的第三方包: hadoop 1.x版本: commons-configuration-1.6.jar commons-lang-2.4.jar commons-loggin-1.1.1.jar hadoop-core-1.2.1.jar log ...
分类:
编程语言 时间:
2018-04-26 16:49:53
阅读次数:
215
一、HDFS读取文件流程: 详解读取流程: Client调用FileSystem.open()方法: 1 FileSystem通过RPC与NN通信,NN返回该文件的部分或全部block列表(含有block拷贝的DN地址)。 2 选取举栗客户端最近的DN建立连接,读取block,返回FSDataInp ...
分类:
其他好文 时间:
2018-04-26 12:26:51
阅读次数:
156
一、hadoop的概念 二、hadoop的发展历史 三、hadoop1.x的生态系统 HBase:实时分布式数据库 相当于关系型数据库,数据放在文件中,文件就放在HDFS中。因此HBase是基于HDFS的关系型数据库。实时性:延迟非常低,实时性高。 举栗:在近18亿条数据的表中查询1万条数据仅需1. ...
分类:
其他好文 时间:
2018-04-24 17:47:33
阅读次数:
271
1.键值对 以键值对的形式处理数据并输出结果 具体含义: 对于java map,其内容是指定类型的给定健到相关值的一组映射,健与值的数据类型可能不同 key,value 键必须是唯一的,而值并不一定是唯一的 每个值必须与键相关联,但键可能没有值 对键进行明确的定义非常重要,他决定了计数是否区分大小写 ...
分类:
其他好文 时间:
2018-04-04 18:20:55
阅读次数:
203
1.要看官方文档 http://hadoop.apache.org/docs/current/ 2.start-dfs.sh时提示rcmd: socket: Permission denied 解决方法:在/etc/pdsh下面新建文件rcmd_default,写入ssh,然后回车,记得一定要输入一 ...
分类:
其他好文 时间:
2018-03-31 20:39:55
阅读次数:
279
1.Client上传文件流程 a.Client先和namenode通信,判断上传文件的目录是否存在 b.再将操作日志记录到edits文件中 c.文件拷贝 d.上传完毕后,同步到namenode的元数据 2.mapreduce读取半行数据如何处理: a.后一分片的半行数据给前一分片 b.偏移量不为零, ...
分类:
其他好文 时间:
2018-02-24 16:51:20
阅读次数:
161