Scala语言中,如果方法的参数不确定个数,则可以使用变长参数,例如:def sum(args:Int*): Int ={ var result = 0 for(arg <- args) result += arg result }调用方法如下:sum(1,2,3,4,5,6)s...
分类:
其他好文 时间:
2014-12-10 15:58:38
阅读次数:
395
spark在很多时候由于配置的原因造成缺少jar包的情况,本文介绍了两种缺少jar包情况,并介绍了如何使用spark-submit的--jars和--driver-class-path参数将jar包动态调用。...
分类:
编程语言 时间:
2014-12-09 17:54:48
阅读次数:
318
Hadoop,HBase,Storm,Spark到底是什么?
Hadoop=HDFS+Hive+Pig+......
分类:
其他好文 时间:
2014-12-09 17:45:22
阅读次数:
183
Tachyon是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。从软件栈的层次来看,Tachyon是位于现有大数据计算框架和大数据存储系统之间的独立的一层。它利用底层文件系统作为备份,对于上层应用来说,Tachyon就是一个分布式文件系统。本文讲述了Tachyon的重要概念、使用方法以及基本原理。...
分类:
其他好文 时间:
2014-12-09 09:26:53
阅读次数:
243
前两篇文章写了Shuffle Read的一些实现细节。但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的;本篇开始,将按照Job的执行顺序,来讲解Shuffle。即,结果数据(ShuffleMapTask的结果和ResultTask的结果)是如何产生的;结果是如何处理的;结果是如何读取的。...
分类:
其他好文 时间:
2014-12-07 21:48:53
阅读次数:
224
英文原名:Stuff Goes Bad: Erlang In Anger
英文作者:FRED HEBERT
下载地址:http://vdisk.weibo.com/s/iGQ-rFuJU0-4
译者序
在我近20年的软件开发工作中,除了Erlang,还使用过许多其他编程语言。有工作需要的C/C++、Java,也有作为业余爱好使用的Lisp、Haskell、Scala等,其中...
分类:
其他好文 时间:
2014-12-07 21:46:08
阅读次数:
304
好久没更新博客了,之前学了一些R语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2马上就要出来了,不知道变动会不会很大,据说添加了很多的新功能呢,期待中...首先声明一下这个版本...
分类:
数据库 时间:
2014-12-07 01:20:23
阅读次数:
585
mahout入门指南之mahout单机版推荐算法
鄙人最近在研究mahout,网上找了一些入门资料来看,发现都整理的比较乱。折腾了一番,终于搞清楚了。为了让新手们较快入门,决定总结分享一下,写此入门指南。
mahout是什么?
mahout是一个机器学习库,里面实现了一些算法,比如推荐算法,聚类算法。
实现方式有单机内存版,也有分布式(hadoop和spark)。...
分类:
编程语言 时间:
2014-12-06 15:26:15
阅读次数:
368
从Erlang进程看协程思想多核慢慢火了以后,协程类编程也开始越来越火了。比较有代表性的有Go的goroutine、Erlang的Erlang进程、Scala的actor、windows下的fibre(纤程)等,一些动态语言像Python、Ruby、Lua也慢慢支持协程。其实我们听过协程相关很多名词...
分类:
系统相关 时间:
2014-12-06 15:22:17
阅读次数:
234
最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。...
分类:
其他好文 时间:
2014-12-05 17:27:05
阅读次数:
151