码迷,mamicode.com
首页 >  
搜索关键字:大型数据集    ( 104个结果
大数据简介与大数据分析
大数据概念         "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,...
分类:其他好文   时间:2014-11-22 09:22:45    阅读次数:232
快速排序算法详解与实现
快速排序是一种分治排序算法。广泛认为它是解决一般问题的最佳排序算法。同插入排序一样,快速排序也属于比较排序的一种,而且不需要额外的存储空间。在处理中到大型数据集时,快速排序是一个比较好的选择。 由于快速排序是一种分治算法,因此可以用分治法的思想将排序分为三个步骤 1.分:设定一个分割值将数据分为两部分。 2.治:分别在两部分用递归的方式继续使用快速排序法。 3.合:对分割部分排序排序直至完...
分类:其他好文   时间:2014-07-13 15:35:44    阅读次数:214
Hadoop Pig简介、安装、试用
相比Java的MapReduce api,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作,包括在MapReduce中被忽视的连接Join操作。Hadoop版本:2.2.0Pig...
分类:其他好文   时间:2014-06-05 20:08:13    阅读次数:373
MapReduce编程实战之“高级特性”
本篇介绍MapReduce的一些高级特性,如计数器、数据集的排序和连接。计数器是一种收集作业统计信息的有效手段,排序是MapReduce的核心技术,MapReduce也能够执行大型数据集间的“”连接(join)操作。...
分类:其他好文   时间:2014-05-14 23:53:44    阅读次数:553
104条   上一页 1 ... 9 10 11
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!