原地址:http://www.cnblogs.com/spork/archive/2009/12/29/1634766.html 来自原小站,曾经迷糊过的东西,表上来,希望对正在迷糊或即将迷糊的人有帮助。 谈到系统的可伸缩性,Scale-up(纵向扩展)和Scale-out(横向扩展)是两个常见的术 ...
分类:
其他好文 时间:
2017-07-22 21:04:47
阅读次数:
249
本文是Pig系统分析系列中的最后一篇了,主要讨论怎样扩展Pig功能。不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性。 补充说明:前些天同事发现twitter推动的Pig On Spark项目:Spork,准备研究下。 UDFs 通过UDFs(用户自己定义函数),能够自己定义 ...
分类:
其他好文 时间:
2017-05-04 09:39:06
阅读次数:
249
http://www.cnblogs.com/spork/archive/2009/12/29/1634766.html来自原小站,曾经迷糊过的东西,表上来,希望对正在迷糊或即将迷糊的人有帮助。 谈到系统的可伸缩性,Scale-up(纵向扩展)和Scale-out(横向扩展)是两个常见的术语,对于....
分类:
其他好文 时间:
2015-01-07 16:40:06
阅读次数:
165
介绍
Spork是Pig on Spark的highly experimental版本,依赖的版本也比较久,如之前文章里所说,目前我把Spork维护在自己的github上:flare-spork。
本文分析的是Spork的实现方式和具体内容。
Spark Launcher
在hadoop executionengine包路径下,写了一个Spark启动器,同MapReduceLauncher类似,会在launchPig的时候,把传入的物理执行计划进行翻译。
MR启动器翻译的是MR的操作,以及进一步的MR...
分类:
其他好文 时间:
2014-05-09 02:08:17
阅读次数:
358
本文是Pig系统分析系列中的最后一篇了,主要讨论如何扩展Pig功能,不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性。
补充说明:前两天同事发现twitter推动的Pig On Spark项目:Spork,准备研究下。
UDFs
通过UDFs(用户自定义函数),可以自定义数据处理方法,扩展Pig功能。实际上,UDFS除了使用之前需要register/define外,和...
分类:
其他好文 时间:
2014-05-07 05:10:44
阅读次数:
567
很早以前有个Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。
flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。
目前项目在Github上,地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。
Github...
分类:
其他好文 时间:
2014-04-30 22:15:39
阅读次数:
360