码迷,mamicode.com
首页 >  
搜索关键字:spark sort-based shuffle内幕彻底解密    ( 7004个结果
spark-submit提交任务到yarn错误
1.Error initializing SparkContext. 20/06/29 05:52:43 INFO yarn.Client: Deleted staging directory hdfs://master:9000/user/hadoop/.sparkStaging/applicat ...
分类:其他好文   时间:2020-06-29 15:02:48    阅读次数:96
spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析
用户文件users.dat的格式描述如下: 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码 评级文件ratings.dat的格式描述如下: 1. userid::movieid::rating::timestamp ...
分类:数据库   时间:2020-06-29 00:44:59    阅读次数:129
spark上的深度学习——按照雅虎的做法,本质上就是rdd.pipe,推理部分直接代理给tensorflow
from:https://juejin.im/post/5ad4b620f265da23a04a0ad0 看原文代码即可知道本质 Deep Learning On Spark 经过刚才的介绍,我们知道spark是一个分布式的通用计算框架,而以tensorflow为代表的deep learning是一 ...
分类:其他好文   时间:2020-06-28 13:38:28    阅读次数:60
Mongo Spark Connector中的分区器(一)
MongoSpark为入口类,调用MongoSpark.load,该方法返回一个MongoRDD类对象,Mongo Spark Connector框架本质上就是一个大号的自定义RDD,加了些自定义配置、适配几种分区器规则、Sql的数据封装等等,个人认为相对核心的也就是分区器的规则实现;弄清楚了其分析 ...
分类:其他好文   时间:2020-06-27 21:35:59    阅读次数:66
入门大数据---Spark_Streaming整合Flume
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based ...
分类:Web程序   时间:2020-06-27 00:19:37    阅读次数:77
sparksql系列(九) spark多job提交,spark多目录处理
在生产环境中遇到了这种情况:spark程序需要处理输入是多个目录,输出也是多个目录。但是处理的逻辑都是相同的。使用方法经历多次修改,最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理,在此记录一下。 程序中所有异常处理,建议都在函数里面处理好,不要直接写一些处理代码。这样 ...
分类:数据库   时间:2020-06-27 00:17:57    阅读次数:80
入门大数据---Spark_Streaming基本操作
一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI ...
分类:其他好文   时间:2020-06-27 00:14:44    阅读次数:62
Arctern Spark单机可视化入门
Arctern基于开源大数据生态,构建灵活、强大、高性能的时空数据分析平台,帮助用户应对5G/IoT带来的新型数据挑战,加速时空数据的处理、分析、模型预测与呈现。本文中将会介绍Arctern Spark单机可视化安装和简单使用 安装和验证 参考单机安装arctern和在线安装单机spark 一:要注 ...
分类:其他好文   时间:2020-06-26 22:01:05    阅读次数:47
入门大数据---Spark_Streaming与流处理
一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 1.2 流 ...
分类:其他好文   时间:2020-06-26 20:02:43    阅读次数:49
入门大数据---SparkSQL外部数据源
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 ...
分类:数据库   时间:2020-06-26 18:39:56    阅读次数:61
7004条   上一页 1 ... 23 24 25 26 27 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!