《NoSQL精粹》读书笔记,转载请注明出处《jiq?钦's technical Blog》
面向聚合的数据库能够兴起,很大程度上是由于集群的增长。集群不仅改变了数据存储的规则,还改变了数据计算的方式。
集中式数据库通常两种方式处理计算逻辑:一种是在数据库服务器上执行数据计算、一种是在客户端计算机上执行数据计算。把数据库放到集群之后,采用的计算方式是将计...
分类:
数据库 时间:
2015-04-27 00:34:08
阅读次数:
160
在讨论我们是否真的需要Map-Reduce这一分布式计算技术之前,我们先面对一个问题,这可以为我们讨论这个问题提供一个直观的背景。问题我们先从最直接和直观的方式出发,来尝试解决这个问题:
先伪一下这个问题:SELECT COUNT(DISTINCT surname)
FROM big_name_file我们用一个指针来关联这个文件.接着考察每一行的数据,解析出里面的姓氏,这里我们可能需要一个姓氏...
分类:
其他好文 时间:
2015-04-26 09:17:54
阅读次数:
172
前言由于最近开始涉及MR程序的编写,之前会一点HIVE,对MR接触不多,不论从原理还是实际操作上,都有些障碍,终于在今天柳暗花明,将这一过程记录下,与大家分享~环境准备在VM上搭建好LINUX虚拟机,并安装配置好HADOOP2.2.0,我这里是单节点的伪分布式在eclipse中安装hadoop插..
分类:
其他好文 时间:
2015-04-26 01:43:47
阅读次数:
161
最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平...
分类:
其他好文 时间:
2015-04-24 00:48:02
阅读次数:
142
主要是先看MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作Map/Reduce,这本身就很奇怪,也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在h...
分类:
其他好文 时间:
2015-04-23 01:52:15
阅读次数:
249
简介:本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。 读者通过本文中...
分类:
其他好文 时间:
2015-04-14 19:27:36
阅读次数:
158
最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了。 其实WordCount并不难,只是一下子接触到了很多的API,有一些陌生,还有就是很传统的开发相比,map-r...
分类:
其他好文 时间:
2015-04-12 13:21:42
阅读次数:
161
一、Eclipse 新建Other-》Map/Reduce Project工程工程自动包含了相关hadoop的jar包,另外还需分别导入以下hive和连接mysql的jar包:hive/lib/*.jarmysql-connector-java-5.1.24-bin.jar二、启运HiveServe...
分类:
数据库 时间:
2015-04-08 18:00:36
阅读次数:
285
Python内置函数 lambda、filter、map、reduce Python内置了一些比较特殊且实用的函数,使用这些能使你的代码简洁而易读。 下面对 Python的 lambda、filter、map、reduce 进行初步的学习。 lambda 匿名函数 lambda语句中,冒...
分类:
编程语言 时间:
2015-04-05 20:18:06
阅读次数:
136