Broadcast Join 适合情况,小表和大表,小表非常小,适合传播到各个节点。 当大表小表连接时,为了避免Shuffle,我们可以将小表广播到各个节点内存,供大表连接。一定程度上牺牲了空间,避免了Shuffle。这种Join在Spark中称作Broadcast Join。(需要注意的点是广播的 ...
分类:
其他好文 时间:
2020-06-24 16:28:44
阅读次数:
53
将word2vec思想拓展到序列item的2vec方法并运用到推荐系统中,实质上可以认为是一种cf 在word2vec中,doc中的word是具有序列关系的,优化目标类似在max对数似然函数 应用在item2vec上,可以有两种看待方式: (1)如果item是强时序关系的,那么对某一次序列中的ite ...
分类:
其他好文 时间:
2020-06-12 20:28:30
阅读次数:
95
建立一个逻辑回归模型来预测一个学生是否被大学录取 # 三大件 import numpy as np import pandas as pd import matplotlib.pyplot as plt import os path = 'data' + os.sep + 'LogiReg_data ...
分类:
编程语言 时间:
2020-06-08 10:46:48
阅读次数:
86
Codeforces Round #646 (Div. 2) - E. Tree Shuffling ...
分类:
其他好文 时间:
2020-06-01 09:17:28
阅读次数:
98
准备数据 数据集读入 数据集乱序 生成训练集和测试集 特征和标签配对,每次读入一小撮(batch) 搭建网络 定义神经网络中所有可训练参数 参数优化 嵌套循环迭代,with结构更新参数,显示当前loss 测试效果 计算当前参数前向传播后的准确率,显示当前acc acc/loss可视化 from sk ...
分类:
其他好文 时间:
2020-05-31 12:59:53
阅读次数:
134
错误思想 举个列子,当我们想要比较 一个 类型为 RDD[(Long, (String, Int))] 的RDD,让它先按Long分组,然后按int的值进行倒序排序,最容易想到的思维就是先分组,然后把Iterable 转换为 list,然后sortby,但是这样却有一个致命的缺点,就是Iterabl ...
分类:
编程语言 时间:
2020-05-18 20:48:21
阅读次数:
83
常用模块 什么是模块 ? 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码会越来越长,越来越不容易维护。 为了编写可维护的代码,我们把很多的函数分组,分别放到不同的文件里,这样每个文件包含的代码就相对较少了,很多编程语言都采用了这种组织代码的方式。在Python中,一个.py文件就可 ...
分类:
其他好文 时间:
2020-05-18 14:18:06
阅读次数:
53
Job的划分 1、Application : 应用,创建一个SparkContext可以认为创建了一个Application 2、Job 在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage 阶段,每碰到一个shuffle算子,会产生一个新的 ...
分类:
其他好文 时间:
2020-05-11 23:56:54
阅读次数:
213
多元线性回归问题求解使用的数据集是经典的boston房价数据。一共506个数据,后面56个数据我将其划了出来作为测试集。比较的简单,主要是学习步骤与算法。该数据集每一个样本包括12个特征变量和该地区的平均房价。 1 import tensorflow as tf 2 import matplotli ...
分类:
其他好文 时间:
2020-05-04 15:34:02
阅读次数:
82