前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:
其他好文 时间:
2014-09-07 14:46:55
阅读次数:
449
如果topN 设置为1000万 ,不会这1000万都放到QueueFeeder(内存)中,而是从文件系统中(hdfs)中迭代不断填充QueueFeeder。队列中默认存放 threadcount * 50 。 这个类的作用是从文件系统读文件填充队列。/** * This class fee...
分类:
其他好文 时间:
2014-09-06 02:13:22
阅读次数:
291
修改了hadoop/etc/hadoop/core-site.xml文件中的 fs.defaultFS hdfs://master:9000 属性值后,会导致原有的hive数据找不到,需要到hive的metastore数据库中更改SDS表中的LOCATION属性,将对应的hdfs参数值改成新的值.....
分类:
其他好文 时间:
2014-09-05 23:39:42
阅读次数:
228
HDFS是Hadoop Distributed Filesystem,Hadoop分布式文件系统。
当数据大到一台机器无法存储时,就要把它分散到多台机器上去,通过网络管理多台计算机上的存储空间的文件系统,就称为分布式文件系统。网络程序的复杂性使得分布式文件系统比普通的磁盘文件系统复杂得多,例如其中最大的挑战之一就是要容错,要在其中一个或几个节点死掉后,仍能保证数据完整。
HDF...
分类:
其他好文 时间:
2014-09-05 18:13:41
阅读次数:
219
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化 代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人....
分类:
其他好文 时间:
2014-09-05 12:42:31
阅读次数:
307
Configured Capacity: 249915348971520 (227.30 TB)
Present Capacity: 153799153632972 (139.88 TB)
DFS Remaining: 153799146688512 (139.88 TB)
DFS Used: 6944460 (6.62 MB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks...
分类:
其他好文 时间:
2014-09-05 10:03:11
阅读次数:
257
Hadoop1的HDFS和Mapreduce在高可用和拓展性方面存在问题。 HDFS存在的问题: Namenode单点故障,难以应用于在线场景。 Namenode压力过大,且内存受限,影响系统扩展性。 Mapreduce存在问题: Jobtracker单点故障 ...
分类:
其他好文 时间:
2014-09-04 10:40:49
阅读次数:
254
HDFSHDFS设计基础与目标:冗余:硬件错误是常态流式数据访问。即数据比量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理。大规模数据集简单一致性模型。为了降低系统复杂程度,对文件采用一次性写多多次读的逻辑设置,即是文件一经写入,关闭,再也不能修改。程序采..
分类:
其他好文 时间:
2014-09-04 02:58:58
阅读次数:
277
今天在删除一个hive表的时候,发现hdfs的空间没有释放,刚开始一直觉得是自己删除有问题,结果在hdfs上也没有查到,最后发现是CDH的namenode有一个文件系统垃圾间隔设置,默认设置一天,也就是说删除的文件需要一天才能被删掉。配置如图,希望能帮助要有同样疑惑的人。还有这个..
分类:
其他好文 时间:
2014-09-03 02:48:26
阅读次数:
249