码迷,mamicode.com
首页 >  
搜索关键字:shuff    ( 242个结果
reduce连接是怎么按组合键分组聚合功能原理详解
1.reduce连接实现目标 气象站数据集,气象站id和名称数据表 StationId StationName 1~hangzhou 2~shanghai 3~beijing 温度记录数据集 StationId TimeStamp Temperature 3~20200216~6 3~2020021 ...
分类:其他好文   时间:2020-02-22 09:51:58    阅读次数:93
RDD依赖关系
概述 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 示例代码如下: def m ...
分类:其他好文   时间:2020-02-20 17:05:54    阅读次数:81
任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量
1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会 ...
分类:其他好文   时间:2020-02-12 16:16:22    阅读次数:199
Hadoop 安装(单机版)
1. 下载安装 官网下载链接 1.1 这里选择安装的是2.9.2,使用下面命令进行下载: 1 # cd ~/software 2 wget http://apache.communilink.net/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz 1.2 ...
分类:其他好文   时间:2020-01-26 16:00:24    阅读次数:128
常用模块
1. time 和时间相关的 1. time模块的三大对象 时间戳 字符串 时间对象 2. 封装了获取时间戳和字符串形式的时间的一些方法 time.time(): 获取时间戳 time.gmtime():获取格式化的时间对象,是由九个字段组成的 time.localtime():获取当地时间对象,是 ...
分类:其他好文   时间:2020-01-13 21:44:07    阅读次数:103
003random随机数模块
random模块 随机 1. ...
分类:其他好文   时间:2020-01-10 17:16:13    阅读次数:78
spark-调节executor堆外内存
什么时候需要调节Executor的堆外内存大小? 当出现一下异常时: shuffle file cannot find,executor lost、task lost,out of memory 出现这种问题的现象大致有这么两种情况: 上述情况下,就可以去考虑调节一下executor的堆外内存。也许 ...
分类:其他好文   时间:2020-01-10 12:34:38    阅读次数:91
优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
在机器学习、深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下:https://arxiv.org/pdf/1609.0 ...
分类:编程语言   时间:2020-01-06 19:30:38    阅读次数:136
tensorflow 2.0 学习 (九) tensorboard可视化功能认识
代码如下: # encoding :utf-8 import io # 文件数据流 import datetime import matplotlib.pyplot as plt import tensorflow as tf from tensorflow import keras # 导入常见网 ...
分类:其他好文   时间:2020-01-03 15:38:58    阅读次数:318
吴裕雄--天生自然TensorFlow2教程:数据加载
import tensorflow as tf from tensorflow import keras # train: 60k | test: 10k (x, y), (x_test, y_test) = keras.datasets.mnist.load_data() x.shape y.sh... ...
分类:其他好文   时间:2020-01-02 22:17:18    阅读次数:86
242条   上一页 1 ... 4 5 6 7 8 ... 25 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!