码迷,mamicode.com
首页 > 其他好文 > 详细

内置的聚合函数

时间:2015-06-05 17:39:48      阅读:151      评论:0      收藏:0      [点我收藏+]

标签:超人学院   hadoop   hive   

  
返回类型
  
函数
说明
bigint
count(*) , count(expr), count(DISTINCT expr[,  expr_., expr_.])
返回记录条数。
double
sum(col), sum(DISTINCT col)
求和
double
avg(col), avg(DISTINCT col)
求平均值
double
min(col)
返回指定列中最小值
double
max(col)
返回指定列中最大值
double
var_pop(col)
返回指定列的方差
double
var_samp(col)
返回指定列的样本方差
double
stddev_pop(col)
返回指定列的偏差
double
stddev_samp(col)
返回指定列的样本偏差
double
covar_pop(col1, col2)
两列数值协方差
double
covar_samp(col1, col2)
两列数值样本协方差
double
corr(col1, col2)
返回两列数值的相关系数
double
percentile(col, p)
返回数值区域的百分比数值点。0<=P<=1,否则返回NULL,不支持浮点型数值。
array<double>
percentile(col, array(p~1,,\ [, p,,2,,]…))
返回数值区域的一组百分比值分别对应的数值点。0<=P<=1,否则返回NULL,不支持浮点型数值。
double
percentile_approx(col, p[, B])
Returns an approximate p^th^ percentile of a  numeric column (including floating point types) in the group. The B parameter  controls approximation accuracy at the cost of memory. Higher values yield  better approximations, and the default is 10,000. When the number of distinct  values in col is smaller than B, this gives an exact percentile value.
array<double>
percentile_approx(col, array(p~1,, [, p,,2_]…)  [, B])
Same as above, but accepts and returns an array  of percentile values instead of a single one.
array<struct\{‘x’,‘y’\}>
histogram_numeric(col, b)
Computes a histogram of a numeric column in the  group using b non-uniformly spaced bins. The output is an array of size b of  double-valued (x,y) coordinates that represent the bin centers and heights
array
collect_set(col)
返回无重复记录


更多精彩内容请关注:http://bbs.superwu.cn

关注超人学院微信二维码:技术分享

关注超人学院java免费学习交流群:技术分享

内置的聚合函数

标签:超人学院   hadoop   hive   

原文地址:http://blog.csdn.net/crxy2014/article/details/46378327

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!