pig---用户自定义函数（UDF）

时间：2015-05-27 19:18:13 阅读：182 评论：0 收藏：0 [点我收藏+]

用户自定义函数（UDF）
public abstract class EvalFunc<T> {
  public abstract T exec(Tuple input) throws IOException;
  public List<FuncSpec> getAvgToFuncMapping() throws FrontendException;
  public FuncSpec outputSchema() throws FrontendException;  }
输入元组的字段包含传递给函数的表达式，输出是泛型；对于过滤函数输出就是Boolean类型。建议尽量在
getAvgToFuncMapping()/outputSchema()申明输入和输出数据的类型，以便Pig进行类型转换或过滤不匹配类型的错误值。
Grunt>REGISTER pig-examples.jar;
      DEFINE isGood org.hadoopbook.pig.IsGoodQuality();
加载UDF
public LoadFunc {
public void setLocation(String location, Job job);
public InputFormat getInputFormat();
public void prepareToRead(RecordReader reader, PigSplit split);
public Tuple next() throws IOException;  }
类似Hadoop，Pig的数据加载先于mapper的运行，所以保证数据可以被分割成能被各个mapper独立处理的部分非常重要。从Pig 0.7开始，
加载和存储函数接口已经进行了大幅修改，以便与Hadoop的InputFormat和OutputFormat类基本一致。
Grunt>Register loadfunc.jar
      Define customLoad org.hadoopbook.pig.loadfunc()
      records = load ‘input/sample.txt’ using customLoad(‘16-19, 88-92, 93-93’)

as (year:int, temperature:int, quality:int);

更多精彩内容请关注：http://bbs.superwu.cn

关注超人学院微信二维码：技术分享

pig---用户自定义函数（UDF）

标签：pig hadoop 超人学院

原文地址：http://crxy2013.blog.51cto.com/9922445/1655740

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行