标签:基本 term page distinct imp 有序 == tor agent
bags、geo、hash、linkanalysis、random、sampling、sessions、sets、stats、urls
DataFu实现了一个SimpleEvalFunc抽象类,继承自EvalFunc,包装了EvalFunc。为简单的UDF简化了实现过程(省略了一些异常检查情况,仅仅需注重处理逻辑)。
通过反射的方式,在exec()方法里做好參数null检查,个数检查,最后把參数传给子类实现的call()方法,返回结果。
对Bag的基本操作,涉及append、concat、group、left-join、split、count等等
经纬度距离计算
对输入的String进行MD5和SHA的转换
一个PageRank的实现
仅仅有一个RandInt。输入两个值,输出两值之间的一个random值
SimpleRandomSample和ReservoirSample,后者的Reservoir是一个PriorityQueue,存的是ScoredTuple。前后者差别在于无界和有界的sample结果。
按一段time window来group
Set之间的差、交、并。
处理的bag内的tuples必须是有序的。
统计相关方法:
计算Quantile的两种方式。一种是流式的。Quantile包括了Median。
方差。
用于区分user agent来源(电脑还是手机。什么系统的手机)
Apache DataFu: LinkedIn开源的Pig UDF库
标签:基本 term page distinct imp 有序 == tor agent
原文地址:http://www.cnblogs.com/zhchoutai/p/7367892.html