标签:范围 text net 分块 延长 记录 输入 tor maps
CPU、内存、磁盘、网络
主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数
数据频率倾斜现象:某一个区域的数据量远远大于其他区域
数据大小倾斜现象:部分记录的大小远远大于平均值
HDFS上每个文件都要在NameNode建立一个索引,如果小文件过多,就会产生很多索引文件,一方面大量占用NameNode的内存空间,另一个方面造成索引速度变慢
标签:范围 text net 分块 延长 记录 输入 tor maps
原文地址:https://www.cnblogs.com/chenshaowei/p/12490722.html