一:起因
(1)自己学习Linux的历程
自己一直想着在Linux下面练习、学习一下Python,以及C编程;shell编程也顺带;今天突然来了兴趣,就开始安装了。
(2)血泪史
话说,自己第一次安装WMware 、Vbox不记得什么时候了,最近一次是在学习Hadoop 的Map/Reduce时候,又安装了一次,由于前面几次,安装版本的不同(Ubuntu),可能每一次遇到的问题也不同,可惜...
分类:
系统相关 时间:
2015-05-05 12:35:06
阅读次数:
449
一个MapReduce任务很可能访问和处理两个甚至多个数据集,在关系型数据库中,这将是两个或者多个表的连接,但是Hadoop系统没有关系型数据库中那样强大的连接处理功能,因此处理复杂一些。一般来讲,hadoop可以采用这几种数据连接方式:
1采用DataJoin类库实现Reduce端连接的方法
2 用全局文件复制实现Map端连接方法
3 带Ma...
分类:
其他好文 时间:
2015-05-03 13:27:35
阅读次数:
154
喵~不知不觉到了CUDA系列学习第五讲,前几讲中我们主要介绍了基础GPU中的软硬件结构,内存管理,task类型等;这一讲中我们将介绍3个基础的GPU算法:reduce,scan,histogram,它们在并行算法中非常常用,我们在本文中分别就其功能用处,串行与并行实现进行阐述。1. Task complexitytask complexity包括step complexity(可以并行成几个操作)...
分类:
编程语言 时间:
2015-05-01 16:11:12
阅读次数:
263
MultipleOutputs: write data to multiple files with customized name, can be used for both map and reduce phase.http://www.lichun.cc/blog/2013/11/how-t....
分类:
其他好文 时间:
2015-05-01 13:16:48
阅读次数:
90
Python内置了一些非常有趣但非常有用的函数,充分体现了Python的语言魅力!filter(function, sequence):对sequence中的item依次执行function(item),将执行结果为True的item组成一个List/String/Tuple(取决于sequence...
分类:
编程语言 时间:
2015-04-29 21:30:14
阅读次数:
172
spark.shuffle.consolidateFiles=false 默认是false,shuffle阶段不进行文件的合并,1000个map和1000个reduce将产生1000 000个文件。设置为true减少shuffle阶段产生的文件数量。storageLevel的选择,根据自己的业务进行...
分类:
其他好文 时间:
2015-04-29 16:26:25
阅读次数:
128
#include
using namespace std;
class Fract
{
int n;
int d;
public:
Fract():n(0),d(1){};
Fract(int an,int ad):n(an),d(ad)
{
reduce();
}
void reduce()
{
if(n<0){d=-d;n=-n;}
if(d==0){cout<<...
分类:
编程语言 时间:
2015-04-28 18:38:29
阅读次数:
295
可参考Array.reduce用法1. 请编写getMissingElement函数,返回给定数组中缺少的元素(数组里的元素为0~9,只会缺失一个)。Example:getMissingElement( [0, 5, 1, 3, 2, 9, 7, 6, 4] ) // returns 8 getMi...
分类:
编程语言 时间:
2015-04-28 15:39:13
阅读次数:
152
1. Combinercombiner is between map and reduce, similar to reducer, combine some data before reducer.http://hadooptutorial.wikispaces.com/Custom+combin...
分类:
其他好文 时间:
2015-04-28 13:42:33
阅读次数:
192
《NoSQL精粹》读书笔记,转载请注明出处《jiq?钦's technical Blog》
面向聚合的数据库能够兴起,很大程度上是由于集群的增长。集群不仅改变了数据存储的规则,还改变了数据计算的方式。
集中式数据库通常两种方式处理计算逻辑:一种是在数据库服务器上执行数据计算、一种是在客户端计算机上执行数据计算。把数据库放到集群之后,采用的计算方式是将计...
分类:
数据库 时间:
2015-04-27 00:34:08
阅读次数:
160