有时会碰到一些需求,查询分组后的最大值,最小值所在的整行记录或者分组后的top n行的记录,但是mysql只支持聚合函数,而不支持分函数。 准备工作 测试表结构如下: root:test> show create table test1\G *************************** 1 ...
分类:
数据库 时间:
2018-04-10 19:41:01
阅读次数:
199
Storm的单词统计设计 一:Storm的wordCount和Hadoop的wordCount实例对比 二:Storm的wordCount的方案实例设计 三:建立maven项目,添加maven相关依赖包(1)输入:search.maven.org网址,在其中找到storm的核心依赖(2)将核心依赖添 ...
分类:
其他好文 时间:
2018-02-11 12:35:02
阅读次数:
112
一、前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数。 开窗函数一般分组取topn时常用。 二、UDF和UDAF函数 1、UDF函数 java代码: 这些参数需要对应,UDF2就是表示传两个参数,UDF3就是传三个参数。 scala代码: 2、UDAF:用户 ...
分类:
数据库 时间:
2018-02-09 20:29:51
阅读次数:
520
1.补充算子 transformations Ø mapPartitionWithIndex 类似于mapPartitions,除此之外还会携带分区的索引值。 Ø repartition 增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle) 多用于增多分区. 底层调用 ...
分类:
编程语言 时间:
2018-01-05 20:50:15
阅读次数:
355
package com.profile.mainimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._import com.profile.tools.{DateTools, Jdbc ...
分类:
编程语言 时间:
2017-11-21 17:40:44
阅读次数:
288
Part I:词频统计并返回topN 统计的文本数据: Part II:调用排序算法并返回topN 样本数据 numbers_data.txt: 注:若出现并列时,返回多个并列的数 ...
分类:
其他好文 时间:
2017-10-31 18:49:11
阅读次数:
197
Part1.乐视网视频推荐系统 推荐系统:和传统的推荐系统架构无异(基础建模+规则) 数据模块特点:用户反馈服务数据-》kv 缓存-》log存储 行为日志-》解析/聚合-》session log-》cf/用户模型 系统推荐流程: 召回:聚类算法;tensorflow(topN);分类,top个性化标 ...
分类:
其他好文 时间:
2017-10-23 18:05:05
阅读次数:
192
package com.zjl.tool.sort; /** * 求前面的最大K个 解决方案:小根堆 (数据量比较大(特别是大到内存不可以容纳)时,偏向于采用堆) * @author 张恩备 * @date 2016-11-25 下午12:15:36 */ public class TopNByHe... ...
分类:
编程语言 时间:
2017-10-02 22:17:37
阅读次数:
211
题目: 有一个很大的文件,这文件中的内容全部都是数字,要求尝试从这个文件中找出最大的10个数字。 分析: 看起来像是一个比较简单的问题。不用大数据框架的话,也能比较轻易的实现:就是逐个读取文件中的每个数字,放到一个大顶堆结构中;将大顶堆放满以后,每读取一个数字就将之和大顶堆中的最小值进行比较,如果其... ...
分类:
其他好文 时间:
2017-09-27 22:32:52
阅读次数:
116
大数据算法系列,这个系列会有一些大数据计算比较常用的设计模式。 topN算法,spark实现 ...
分类:
编程语言 时间:
2017-08-27 01:05:13
阅读次数:
357