Hadoop生态圈 存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统。具有高度容错性、高吞吐量的的特点。 处理数据MapReduce,它是一种编程模型,Map(映射)和Reduce(归约),它极大地方便了分布式并行编程,与hdfs的高 ...
分类:
其他好文 时间:
2018-07-22 17:09:14
阅读次数:
179
在本节中将介绍Stream API支持的许多操作,这些操作可以完成更复杂的数据查询,如筛选、切片、映射、查找、匹配和归约。还有一些特殊的流如:数值流、来自文件和数组等多种来源的流。 筛选和切片 1.用谓词筛选 Streams接口支持filter方法,该操作会接受一个谓词作为参数,并返回一个包含所有符 ...
分类:
编程语言 时间:
2018-07-07 13:40:23
阅读次数:
143
课程链接:Hadoop大数据平台架构与实践--基础篇 1.MapReduce原理 分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce) 问题1:1000副扑克牌少哪一张牌(去掉大小王) 问题2:100GB的网站访问日志文件,找出访问次数最多的IP地址 ...
分类:
其他好文 时间:
2018-06-21 22:31:29
阅读次数:
202
? 照着书上的代码,写了几个一步归约的计算,只计算一步,将原数组归约到不超过 1024 个工作项 ● 代码 ● 输出结果 ...
分类:
其他好文 时间:
2018-06-07 14:27:35
阅读次数:
156
题意略。 思路:构造题。 我们把全部的d[n]+1个点分作3部分来构造。 首先我们把原问题归约成构造d1、dn、和{d2 - d1,d3 - d1,.....,d[n-1] - d1}这样的问题,其中第三部分的构造相当于是原问题的子问题。 1.由本部向P2中每一个点都连接一条边,这样可以补上第三部分 ...
分类:
其他好文 时间:
2018-05-18 14:20:11
阅读次数:
148
(一) 这里先不列出λ项的正式定义,只记住λ表达式语义上的构造方式为: 一个单独的变量名是一个λ项表达式; 该λ表示一个函数。其中 M 是这个函数的函数体,M 本身也是一个 λ项。 除了 x 之外,M 中可能还有其他变量名,λ 这个符号用于指示函数体 M 的参数为 x。 了便于理解,可以将 M 看作 ...
分类:
其他好文 时间:
2018-04-28 10:52:44
阅读次数:
185
各种数据分析技术的对象是数据源中的数据数据源中的数据可能不完整(如某些属性的值不确定或空缺)、含噪声和不一致(如同一个属性在不同表中的名称不同)、量纲不同如果直接在这些未经处理的数据上进行分析,结果不一定准确,效率也可能较低需要使用清理、集成、变换、归约等预处理方法改善数据质量,从而提高数据分析的效率与质量主要介绍数据清理、集成、变换、规约等预处理技术数据清理用于消除噪声、数据不一致及数据不完整噪
分类:
其他好文 时间:
2018-04-11 11:42:31
阅读次数:
185
下载地址:网盘下载 内容简介本书以Java为描述语言,介绍了数据结构与算法的基本知识。书中结合企业界的工程实践提炼教学内容,特别对数据结构中易混淆的问题进行了梳理,对每一个问题提出不同的解决方案。本书是一本优秀的数据结构方面的教材。 内容简介 内容简介 本书以Java为描述语言,介绍了数据结构与算法 ...
分类:
编程语言 时间:
2018-02-05 17:01:30
阅读次数:
201
一.概念 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对 ...
分类:
其他好文 时间:
2018-02-02 21:48:48
阅读次数:
186
STINGY SAT is the following problem: given a set of clauses (each a disjunction of literals) and an interger k, find a satisfying assignment in which ...
分类:
编程语言 时间:
2017-12-31 21:08:01
阅读次数:
211