1. UV、PV、TopN概念 1.1 UV(unique visitor) 即独立访客数 指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全 ...
分类:
其他好文 时间:
2019-10-01 09:14:38
阅读次数:
397
1.在本地安装jdk环境和scala环境 2.读取本地文件: 3.词频topN计算 ...
分类:
其他好文 时间:
2019-06-09 00:22:34
阅读次数:
137
一,简介 二,自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现 三,RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式 正文 一,简介 在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位。对于RDD来说, ...
分类:
其他好文 时间:
2019-06-07 21:22:15
阅读次数:
111
在图片分类的中经常可以看到Top-1,Top-5等TopN准确率(或者时错误率)。
那这个TopN是什么意思呢?首先Top-1准确率最好理解,就是我们用argmax从网络输出取到的预测index与真实index的准确率。
Top-5准确率就是指从网络输出取到的预测概率最大5个index与真实的i... ...
分类:
其他好文 时间:
2019-05-13 20:11:23
阅读次数:
147
准备三份数据 定义Mapper类 定义Reducer类 编写Driver类 输出结果part r 00000 ...
分类:
其他好文 时间:
2019-04-06 20:24:55
阅读次数:
159
第6章 Hadoop企业优化(重中之重)6.1 MapReduce 跑的慢的原因6.2 MapReduce优化方法6.2.1 数据输入6.2.2 Map阶段6.2.3 Reduce阶段6.2.4 I/O传输6.2.5 数据倾斜问题6.2.6 常用的调优参数6.3 HDFS小文件优化方法6.3.1 H ...
分类:
其他好文 时间:
2019-02-21 00:11:15
阅读次数:
172
分组自研的审计平台最近推出慢SQL优化的功能,topN慢SQL可以通过mysqldumpslow拿到,但由于mysqldumpslow输出的信息不包含数据库,这让程序后续的自动优化变得有些棘手。在观察了MySQL慢日志结构后,决定自己写一个python解析程序,返回的结果比mysqldumpslow解析结果上多出数据库名称这一列:Count:15Time=0.002961s(0.034505s)L
分类:
数据库 时间:
2019-01-24 13:25:58
阅读次数:
191
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 最应该推荐的好友TopN,如何排名? ...
分类:
其他好文 时间:
2019-01-23 14:00:18
阅读次数:
145
遇到的问题 在处理数据过程中,遇到需要取(n)个数的问题,而当样本量过大的时候,就不能简单的take(n),这类问题一般有两种情况: 有序取 TopN 无序取 N 先来讨论 无序取N 的情况: sample 函数 sample(boolean, fraction,seed) : 按比例抽取 返回一个 ...
分类:
其他好文 时间:
2019-01-16 15:00:06
阅读次数:
241