码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
spark上的深度学习——按照雅虎的做法,本质上就是rdd.pipe,推理部分直接代理给tensorflow
from:https://juejin.im/post/5ad4b620f265da23a04a0ad0 看原文代码即可知道本质 Deep Learning On Spark 经过刚才的介绍,我们知道spark是一个分布式的通用计算框架,而以tensorflow为代表的deep learning是一 ...
分类:其他好文   时间:2020-06-28 13:38:28    阅读次数:60
Mongo Spark Connector中的分区器(一)
MongoSpark为入口类,调用MongoSpark.load,该方法返回一个MongoRDD类对象,Mongo Spark Connector框架本质上就是一个大号的自定义RDD,加了些自定义配置、适配几种分区器规则、Sql的数据封装等等,个人认为相对核心的也就是分区器的规则实现;弄清楚了其分析 ...
分类:其他好文   时间:2020-06-27 21:35:59    阅读次数:66
入门大数据---SparkSQL外部数据源
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 ...
分类:数据库   时间:2020-06-26 18:39:56    阅读次数:61
大数据分析技术与应用一站式学习(值得收藏)_v20200418
?所谓大数据(Big Data),就是需要处理的数据量非常巨大,已经达到了 TB、PB 甚至 EB、ZB 级别,需要成千上万块硬盘才能存储。传统的技术手段在大数据面前不堪一击,只能探索一套新的解决方案。 这套《大数据技术与应用教程》对大数据处理过程中涉及的各种关键技术做了详细的介绍,包括大数据思维、 ...
分类:其他好文   时间:2020-06-26 01:29:48    阅读次数:95
入门大数据---Spark_RDD
一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R ...
分类:其他好文   时间:2020-06-25 21:27:05    阅读次数:66
spark数据分区数量的原理
原始RDD或数据集中的每一个分区都映射一个或多个数据文件, 该映射是在文件的一部分或者整个文件上完成的。 Spark Job RDD/datasets在执行管道中,通过根据分区到数据文件的映射读取数据输入到RDD/dataset。 如何根据某些参数确定spark的分区数? 影响数据分区数的参数: ( ...
分类:其他好文   时间:2020-06-18 13:16:01    阅读次数:66
[DB] Spark Core (3)
高级算子 mapPartitionWithIndex:对RDD中每个分区(有下标)进行操作,通过自己定义的一个函数来处理 def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ? Iterator[U]) f 是函数参数,接收两个参数 Int:分区号 ...
分类:数据库   时间:2020-06-12 00:32:18    阅读次数:96
阿里云【名师课堂】Java面向对象开发40:引用传递实际应用
(阿里云【名师课堂】Java面向对象开发40:引用传递实际应用) 回顾: 复习《阿里云【名师课堂】Java面向对象开发3 ~ 6:类与对象》中的引用传递初次分析部分,链接如下:https://www.cnblogs.com/playerone/p/13059971.html。 复习《阿里云【名师课堂 ...
分类:编程语言   时间:2020-06-11 00:29:51    阅读次数:52
spark考试
第0章-课程介绍 第1章-大数据技术概述 第2章-Scala语言基础 第3章-Spark的设计与运行原理 第4章-Spark环境搭建和使用方法 第5章-RDD编程 第6章-Spark-SQL 第7章-Spark-Streaming 第8章-Spark-MLlib ...
分类:其他好文   时间:2020-06-10 23:09:12    阅读次数:145
RDD转换算子--双value
双value 1) intersection 函数签名 def intersection(other: RDD[T]): RDD[T] 函数说明 对源RDD和参数RDD求交集后返回一个新的RDD 保留分区中中较大分区数 val dataRDD1 = sparkContext.makeRDD(List ...
分类:其他好文   时间:2020-06-07 15:12:37    阅读次数:65
1327条   上一页 1 ... 9 10 11 12 13 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!