Tez
http://www.infoq.com/cn/articles/apache-tez-saha-murthy
http://hortonworks.com/blog/apache-tez-a-new-chapter-in-hadoop-data-processing/
http://www.cnblogs.com/fxjwind/p/3377695.html
http:/...
分类:
其他好文 时间:
2015-01-27 18:32:26
阅读次数:
300
Setup
$ wget -O ~/data/gutenberg/hamlet.txt http://www.gutenberg.org/cache/epub/1787/pg1787.txt
$ cd ~/soft/flink-0.7.0-incubating
$ bin/start-local.sh
$ jps -m
18689 JobManager -executionMode lo...
分类:
其他好文 时间:
2015-01-27 18:31:43
阅读次数:
398
小编写在前面的话“天下武功,唯快不破”,但是如果不清楚原理,快也是徒劳。在这物欲横行,数据爆炸的年代,BigData时代到了,如果熟悉了整个hadoop的搭建过程,我们是否也能从中攫取一桶金?!前期准备l 两台linux虚拟机(本文使用redhat5,IP分别为 192.168.1.210、192....
分类:
系统相关 时间:
2015-01-12 11:31:31
阅读次数:
296
今天是圣诞节,2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴,总结如下三个方面:
一、大数据研发技术路线
目前,存在太多的大数据技术,商业软件,如Teradata、Oracle、SAP、IBM等。开源的,如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域,Hadoop呈一支独大势。经过这段时间的学习和了解,发现Hadoop技术复杂,架构复杂,社区版成熟度可能也就80%左右。要想把Hadoop玩转起来,可能需要投入巨大的成本来完善。Cloudera的
CDH也仅...
分类:
其他好文 时间:
2014-12-25 11:25:53
阅读次数:
719
一:为什么要预处理数据?
(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)
(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)
(3)原始数据中存在的问题:
不一致 —— 数据内含出现不一致情况
重复
不完整 —— 感兴趣的属性没有
含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据
高维度...
分类:
其他好文 时间:
2014-12-23 12:31:19
阅读次数:
193
Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。...
分类:
数据库 时间:
2014-12-20 14:17:05
阅读次数:
304
由于官方版本的Hadoop是32位,若在64位Linux上安装,则必须先重新在64位环境下编译Hadoop源代码。本环境采用编译后的hadoop2.5.1 。
安装参考博客:
1 http://www.micmiu.com/bigdata/hadoop/hadoop2x-cluster-setup/...
分类:
系统相关 时间:
2014-12-11 22:16:02
阅读次数:
430
preFace APP scenario description:当你未能合理的规划存储时,在后期的维护工作中可能会涉及的存储的 再规划(eg,某一个 or 数个App 对某一个lv 即挂载点写BigData,你的那个lv的挂载点便会很快就没空间了,但是值得注意的是,你的另外的一个lv的挂载点的存....
分类:
系统相关 时间:
2014-12-11 20:46:58
阅读次数:
221
Scala编程问题集(01)By高焕堂洞庭国际智能硬件检测基地Q-01:如何使用Scala的Singleton机制来表达Class-level的数据。Answer:在面向对象编程(OOP,Object-OrientedProgramming)概念里,属性(Attribute)和函数(Function)都分为两个不同级别(Level)。例如,厦门的科技谷(厦门)公..
分类:
其他好文 时间:
2014-12-11 19:21:41
阅读次数:
199
写作目的最近由于研究需要,使用R语言对文本进行了主题发现,下面对具体过程进行记录。步骤一:读取文本并进行预处理本实验中主要对从SCI引文数据库中关于bigdata的索引记录进行分析,文件名为download_2.txt 目录为c:\\data\\,具体代码为:#文件路径textfile<-"C:\\...
分类:
编程语言 时间:
2014-11-22 11:49:12
阅读次数:
752