1.reduce连接实现目标 气象站数据集,气象站id和名称数据表 StationId StationName 1~hangzhou 2~shanghai 3~beijing 温度记录数据集 StationId TimeStamp Temperature 3~20200216~6 3~2020021 ...
分类:
其他好文 时间:
2020-02-22 09:51:58
阅读次数:
93
概述 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 示例代码如下: def m ...
分类:
其他好文 时间:
2020-02-20 17:05:54
阅读次数:
81
1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会 ...
分类:
其他好文 时间:
2020-02-12 16:16:22
阅读次数:
199
1. 下载安装 官网下载链接 1.1 这里选择安装的是2.9.2,使用下面命令进行下载: 1 # cd ~/software 2 wget http://apache.communilink.net/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz 1.2 ...
分类:
其他好文 时间:
2020-01-26 16:00:24
阅读次数:
128
1. time 和时间相关的 1. time模块的三大对象 时间戳 字符串 时间对象 2. 封装了获取时间戳和字符串形式的时间的一些方法 time.time(): 获取时间戳 time.gmtime():获取格式化的时间对象,是由九个字段组成的 time.localtime():获取当地时间对象,是 ...
分类:
其他好文 时间:
2020-01-13 21:44:07
阅读次数:
103
什么时候需要调节Executor的堆外内存大小? 当出现一下异常时: shuffle file cannot find,executor lost、task lost,out of memory 出现这种问题的现象大致有这么两种情况: 上述情况下,就可以去考虑调节一下executor的堆外内存。也许 ...
分类:
其他好文 时间:
2020-01-10 12:34:38
阅读次数:
91
在机器学习、深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下:https://arxiv.org/pdf/1609.0 ...
分类:
编程语言 时间:
2020-01-06 19:30:38
阅读次数:
136
代码如下: # encoding :utf-8 import io # 文件数据流 import datetime import matplotlib.pyplot as plt import tensorflow as tf from tensorflow import keras # 导入常见网 ...
分类:
其他好文 时间:
2020-01-03 15:38:58
阅读次数:
318
import tensorflow as tf from tensorflow import keras # train: 60k | test: 10k (x, y), (x_test, y_test) = keras.datasets.mnist.load_data() x.shape y.sh... ...
分类:
其他好文 时间:
2020-01-02 22:17:18
阅读次数:
86