码迷,mamicode.com
首页 >  
搜索关键字:pig    ( 634个结果
使用Pig对手机上网日志进行分析
在成功安装Pig的基础上,本文将使用Pig对手机上网日志进行分析,具体步骤如下: 写在前面: 手机上网日志文件phone_log.txt,文件内容 及 字段说明部分截图如下 需求分析 显示每个手机号的上网流量情况。 依次完成以下步骤: 1、将Linux本地文件phone_log.txt上传到HDFS 执行命令dump C; 查看经过以上步骤处理后的...
分类:移动开发   时间:2014-05-25 13:00:50    阅读次数:318
Hadoop家族学习路线图
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr,...
分类:其他好文   时间:2014-05-21 05:55:45    阅读次数:280
Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job
从Physical plan到Map-Reduce Plan 注:因为我们重点关注的是Pig On Spark针对RDD的执行计划,所以Pig物理执行计划之后的后端参考意义不大,这些部分主要分析流程,忽略实现细节。 入口类MRCompiler,MRCompilier按照拓扑顺序遍历物理执行计划中的节点,将其转换为MROperator,每个MROperator都代表一个map-reduce j...
分类:其他好文   时间:2014-05-10 08:46:07    阅读次数:366
Spork: Pig on Spark实现分析
介绍 Spork是Pig on Spark的highly experimental版本,依赖的版本也比较久,如之前文章里所说,目前我把Spork维护在自己的github上:flare-spork。 本文分析的是Spork的实现方式和具体内容。 Spark Launcher 在hadoop executionengine包路径下,写了一个Spark启动器,同MapReduceLauncher类似,会在launchPig的时候,把传入的物理执行计划进行翻译。 MR启动器翻译的是MR的操作,以及进一步的MR...
分类:其他好文   时间:2014-05-09 02:08:17    阅读次数:358
Apache DataFu: LinkedIn开源的Pig UDF库
Apache DataFu分两部分,本文介绍的是其Pig UDF的部分。代码在Github上开源。 DataFu里面是一些Pig的UDF,主要包括这些方面的函数: bags、geo、hash、linkanalysis、random、sampling、sessions、sets、stats、urls 每方面都对应一个package。 我把所有的函数源码都浏览了一遍。其实本身对这些UDF的使用,官方的文档上都有介绍,而且源码的注释里也些的很清晰。所以使用本身是很简单的。 从实现角度看,继承自Pig Ev...
分类:其他好文   时间:2014-05-09 01:14:25    阅读次数:436
Pig源码分析: 简析执行计划的生成
本文通过跟代码的方式,分析从输入一批Pig-latin到输出物理执行计划(与launcher引擎有关,一般是MR执行计划,也可以是Spark RDD的执行算子)的整体流程。 不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job,而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤(方法和类)。...
分类:其他好文   时间:2014-05-08 04:00:42    阅读次数:407
Pig系统分析(7)-Pig实用工具类
Explain Explain是Pig提供的调试工具,使用explain可以输出Pig Lation的执行计划。值得一提的是,explain支持-dot选项,将执行计划以DOT格式输出, (DOT是一种图形描述语言,请参考http://zh.wikipedia.org/zh/DOT%E8%AF%AD%E8%A8%80) 代码实现详见org.apache.pig.impl.plan.DotPla...
分类:其他好文   时间:2014-05-07 06:03:35    阅读次数:350
Pig系统分析(8)-Pig可扩展性
本文是Pig系统分析系列中的最后一篇了,主要讨论如何扩展Pig功能,不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性。 补充说明:前两天同事发现twitter推动的Pig On Spark项目:Spork,准备研究下。 UDFs 通过UDFs(用户自定义函数),可以自定义数据处理方法,扩展Pig功能。实际上,UDFS除了使用之前需要register/define外,和...
分类:其他好文   时间:2014-05-07 05:10:44    阅读次数:567
pig—WordCount analysis
pig wordcount analysis...
分类:其他好文   时间:2014-05-07 04:39:27    阅读次数:270
Pig —Multi-Query Execution
Multi-Query Execution With multi-query execution Pig processes an entire script or a batch of statements at once....
分类:其他好文   时间:2014-05-04 17:52:35    阅读次数:336
634条   上一页 1 ... 61 62 63 64 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!