1. Blocks(块)
硬盘上有块,代表能够读取和写入的最小的data单位,通常是512字节。
基于单硬盘的文件系统也有块的概念,通常是把硬盘上的一组块集合在一起成为一个块,一般有几KB大小。
这些对于文件系统的使用者都是透明的,使用者只知道往硬盘上写了一定大小的文件,或从硬盘上读了一定大小的文件。当然有些维护命令,比如df和fsck,就是在块级上的操作。
HDFS也有块(blo...
分类:
其他好文 时间:
2014-09-10 10:53:00
阅读次数:
312
前面介绍了sparkSQL的运行架构,后面将介绍sparkSQL的使用。在介绍sparkSQL的使用之前,我们需要搭建一个sparkSQL的测试环境。本次测试环境涉及到hadoop之HDFS、hive、spark以及相关的数据文件,相关的信息如下:
hadoop版本为2.2.0hive版本为0.13spark版本为1.1.0-rc3MySQL版本为5.6.12测试数据下载地点:http:...
分类:
数据库 时间:
2014-09-10 09:39:40
阅读次数:
378
HDFS 的可靠性主要有一下几点:冗余副本策略机架策略心跳机制安全模式效验和回收站元数据保护快照机制1.冗余副本策略 可以在hdfs-site.xml中设置复制因子指定副本数量 所有数据块都可副本 DataNode启动时,遍历本地文件系统,产生一份HDFS数据块和本地文件的对应关系列表(blo...
分类:
其他好文 时间:
2014-09-09 19:56:19
阅读次数:
2227
一. 前提和设计目标1. 硬件错误是常态,因此需要冗余,这是深入到HDFS骨头里面去了 HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和...
分类:
其他好文 时间:
2014-09-09 19:47:09
阅读次数:
276
为什么会引入RPC:RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。当我们讨论HDFS的,通信可能发生在:Client-NameNode之间,其中NameNode是服务器Client-DataNode之间,其中DataNode是服务器DataNode-NameNo...
分类:
其他好文 时间:
2014-09-09 19:43:49
阅读次数:
200
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:
其他好文 时间:
2014-09-07 14:46:55
阅读次数:
449
如果topN 设置为1000万 ,不会这1000万都放到QueueFeeder(内存)中,而是从文件系统中(hdfs)中迭代不断填充QueueFeeder。队列中默认存放 threadcount * 50 。 这个类的作用是从文件系统读文件填充队列。/** * This class fee...
分类:
其他好文 时间:
2014-09-06 02:13:22
阅读次数:
291
修改了hadoop/etc/hadoop/core-site.xml文件中的 fs.defaultFS hdfs://master:9000 属性值后,会导致原有的hive数据找不到,需要到hive的metastore数据库中更改SDS表中的LOCATION属性,将对应的hdfs参数值改成新的值.....
分类:
其他好文 时间:
2014-09-05 23:39:42
阅读次数:
228
HDFS是Hadoop Distributed Filesystem,Hadoop分布式文件系统。
当数据大到一台机器无法存储时,就要把它分散到多台机器上去,通过网络管理多台计算机上的存储空间的文件系统,就称为分布式文件系统。网络程序的复杂性使得分布式文件系统比普通的磁盘文件系统复杂得多,例如其中最大的挑战之一就是要容错,要在其中一个或几个节点死掉后,仍能保证数据完整。
HDF...
分类:
其他好文 时间:
2014-09-05 18:13:41
阅读次数:
219
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化 代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人....
分类:
其他好文 时间:
2014-09-05 12:42:31
阅读次数:
307