014年,谷歌索引的数据量大约为200TB(1T等于1024 GB)。而且,据估计,谷歌的200TB只占到整个互联网的0.004%。基本上,互联网是一个拥有无限的信息的地方。 因此,为了努力降低搜索和提高发展, Morpheus Data 公布了一份对DevOps工程师和系统管理员有帮助的巨大的免费 ...
分类:
其他好文 时间:
2016-05-04 19:11:20
阅读次数:
887
声明:本文所涉及到的Linux命令均为最常见的用法,未列举之参数,自行查阅man 1.ls 查看文件与目录 -a 打印全部的文件,包括隐藏文件 -l 列表打印,数据项包括文件属性,大小和权限等 -h 容量用人类易读的方式展示(GB,KB等) 示例: ls -alh test/*.txt 查看test ...
分类:
系统相关 时间:
2016-05-04 06:31:52
阅读次数:
194
系统要求 系统支持:Microsoft Windows 8 / 7 / Vista / 2003 / XP(每个系统版本的 32 位和 64 位都可以) JDK 版本:Oracle JDK 1.6 或以上 内存:最低要求 1 GB,推荐 2 GB 以上 硬盘:最低要求 2 GB 显示器:最低要求 1 ...
GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。 1)01-09区为特殊符号。 2)16-55区为一级汉字,按拼音排序。 3)56-87区为二级汉字,按部首/笔画排序。 4)10-15区及88-94区则未有编码。 在使用GB2312的程序中,通常采用 ...
分类:
Web程序 时间:
2016-05-03 17:43:02
阅读次数:
230
昨天使用hadoop跑五一的数据,发现报错: 发现是内存溢出了,遇到这种问题首先要判断是map阶段溢出还是reduce阶段溢出,然后分别设置其内存的大小,比如: 因为默认值都是:1024M,也就是一个G,如果不够就会溢出! ...
分类:
其他好文 时间:
2016-05-03 12:42:48
阅读次数:
1000
最小的基本单位是bit, 按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 它们按照进率1024(2的十次方)来计算: 1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit 1 MB = 1,024 KB = ...
分类:
其他好文 时间:
2016-05-02 09:15:43
阅读次数:
289
摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 随着互联网、移动互联网和物联网的发展,谁也无法否认, ...
分类:
其他好文 时间:
2016-04-30 12:48:20
阅读次数:
222
HDFS写入和读取流程 HDFS写入和读取流程 一、HDFS HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。 ...
分类:
其他好文 时间:
2016-04-30 12:43:28
阅读次数:
234
文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其它一些格式。这些文件一般会很大,达到数十GB,甚至更大。那么 MapReduce 是如何读取这些数据的呢?下面我们来学习 InputFormat 接口
1、InputFormat接口
In...
分类:
其他好文 时间:
2016-04-29 19:42:43
阅读次数:
233
public static string HumanReadableFilesize(double size) { string[] units = new string[] { "B", "KB", "MB", "GB", "TB", "PB" }; double mod = 1024.0; in ...
分类:
其他好文 时间:
2016-04-28 12:11:23
阅读次数:
109