在讨论我们是否真的需要Map-Reduce这一分布式计算技术之前,我们先面对一个问题,这可以为我们讨论这个问题提供一个直观的背景。问题我们先从最直接和直观的方式出发,来尝试解决这个问题:
先伪一下这个问题:SELECT COUNT(DISTINCT surname)
FROM big_name_file我们用一个指针来关联这个文件.接着考察每一行的数据,解析出里面的姓氏,这里我们可能需要一个姓氏...
分类:
其他好文 时间:
2015-04-26 09:17:54
阅读次数:
172
前言由于最近开始涉及MR程序的编写,之前会一点HIVE,对MR接触不多,不论从原理还是实际操作上,都有些障碍,终于在今天柳暗花明,将这一过程记录下,与大家分享~环境准备在VM上搭建好LINUX虚拟机,并安装配置好HADOOP2.2.0,我这里是单节点的伪分布式在eclipse中安装hadoop插..
分类:
其他好文 时间:
2015-04-26 01:43:47
阅读次数:
161
最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平...
分类:
其他好文 时间:
2015-04-24 00:48:02
阅读次数:
142
主要是先看MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作Map/Reduce,这本身就很奇怪,也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在h...
分类:
其他好文 时间:
2015-04-23 01:52:15
阅读次数:
249
在对数值进行格式化的时候,一个常见的问题是按照千分位格式化,网上对这个问题已经有很多种解决方法了,还可以利用Array.prototype.reduce方法来实现千分位格式化。function formatNumber(num) { if (isNaN(num)) { throw new Type....
分类:
编程语言 时间:
2015-04-20 16:17:42
阅读次数:
357
leetcode中有几个求sum的问题,思路基本上一样,在这里一并列出。这几道题主要思路是在使用双指针解决2SUM的基础上,将kSUM逐步reduce到2SUM。 大致框架如下:1) sort2) repeatedly reduce kSUM to k-1SUM, until 2SUM3) solv...
分类:
其他好文 时间:
2015-04-18 01:07:09
阅读次数:
216
1 #比较时间差,判断执行有时。 2 3 import time 4 def panduan(x): 5 if x%5==0 and x%7==0: 6 return True 7 else: 8 return False 9 start_tim...
分类:
其他好文 时间:
2015-04-17 15:13:35
阅读次数:
124
1、How to reduce AlertDialog.Builder title font size and positive button size? 参考:http://stackoverflow.com/questions/8881710/how-to-reduce-alertdialog-builder-title-font-size-and-positive-butto...
分类:
移动开发 时间:
2015-04-16 18:01:13
阅读次数:
134
hadoop编程程序员需要完成三个类。map类,reduce类和主类。map和reduce类自然是分别完成map和reduce。而主类则负责对这两个类设置job。完成这三个类之后,我们生成一个jar文件。利用这个jar文件完成剩下的工作。首先,执行 bin/hdfs dfs -put /home/h...
分类:
其他好文 时间:
2015-04-15 16:23:34
阅读次数:
81