炼数成金hadoop视频干货03

时间：2014-10-19 11:31:22 阅读：144 评论：0 收藏：0 [点我收藏+]

标签：style blog http color os java strong sp 文件

视频地址：http://pan.baidu.com/s/1dDEgKwD

着重介绍了HDFS

运行了示例程序wordcount，自己也试了一遍（用的伪分布式）

1.建立数据（和讲师的操作有些不一样，不过我相信自己）

bubuko.com,布布扣

2.运行wordcount程序

bubuko.com,布布扣

3.查看结果

bubuko.com,布布扣

（可以看出来，只要没空格，它都看作是一个单词）

接下来介绍了50030和50070查看任务和HDFS状态

......

其中如果想看日志的话除了命令行也可以直接输入

http://localhost:50070/logs/

http://localhost:50030/logs/

查看堆栈信息

http://localhost:50030/stacks

bubuko.com,布布扣

关闭，再也不能修改，说的很绝对，但是是正确的，因为之后的修改是删除重写

bubuko.com,布布扣

其中机架策略看着比较神奇，我知道机架感知的结果，但是不知道以什么策略感知的，或许是上下文、带宽，讲师也不知道，留着后面探索

回收站，跟windows的机理一样，删除了的文件不会马上完全删除。当到一定的容量的时候会自动删除

快照机制，讲师说0.20.2还没实现，以后会实现，也没讲。

介绍了HDFS文件操作包括命令行和API（API是给如Java代码用的）

几个命令行命令

... ...

查看统计信息 hadoop dfsadmin -report

bubuko.com,布布扣

接下来讲了添加新节点方式，不过我觉得他讲的不对或者不全，我查了一下网上，随后详细实验一把再写出来

负载均衡（hdfs存储）

讲师给的截图有点忽悠人

bubuko.com,布布扣

他是在没运行hadoop的情况下运行的这个脚本，真实的情况应该是这样的

bubuko.com,布布扣

刚开始的时候可以把Log4J的日志级别降到Info或者DEBUG，这样显示的信息更多

bubuko.com,布布扣

为什么日志成了hadoop项目中最多的一种？

一次写入，不再改变，只能用于分析

Linux下统计目录下有多少文件命令

ls|wc -l

shuffle过程的作用

1.压缩文件，提高文件传输效率；

2.分担了reduce的一部分工作。

像split、sort这样的工作很多MR程序都要做，所以hadoop把他们分离出来，封装成了一个组件

不必在每个MR程序中自己编写

MR程序的提交或者说任务的提交可以在任何一台集群机器上，不是非得在namenode上

就是说client端可以是datanode、namenode。

启动JVM很浪费时间和资源，所以有了JVM重用

为什么namenode需要格式?

格式化不同于磁盘文件系统的格式化。是初始化元文件系统信息，在相应目录建立current等目录等

hadoop的数据不修改那还要in_use.lock干什么？

炼数成金hadoop视频干货03

标签：style blog http color os java strong sp 文件

原文地址：http://www.cnblogs.com/admln/p/dataguru3.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行