搜索关键字：spark streaming事务处理，搜索到7001个结果！码迷,mamicode.com！

PySpark基于Python的Spark企业级大数据分析，以实际数据分析为驱动讲解

PySpark基于Python的Spark企业级大数据分析，以实际数据分析为驱动讲解 ...

分类：编程语言时间：2020-09-18 00:55:02 阅读次数：44

介绍不论MapReduce还是RDD，shuffle都是非常重要的一环，也是影响整个程序执行效率的主要环节，但是在这两个编程模型里面shuffle却有很大的异同。 shuffle的目的是对数据进行混洗，将各个节点的同一类数据汇集到某一个节点进行计算，为了就是分布式计算的可扩展性。可能大家多MR的 ...

分类：其他好文时间：2020-09-17 19:31:45 阅读次数：30

Spark ML之高级数据源

一.图像数据源图像数据源用于从目录加载图像文件，它可以通过ImageIO Java库将压缩图像（jpeg，png等）加载为原始图像表示形式。加载的DataFrame具有一StructType列：“ image”，其中包含存储为图像架构的图像数据。该image列的架构为： origin ：（Stri ...

分类：其他好文时间：2020-09-17 17:38:02 阅读次数：52

Spring Cloud Flow与Apache Spark集成

SpringCloudFlow与ApacheSpark集成点击左上角，关注：“锅外的大佬”专注分享国外最新技术内容帮助每位开发者更优秀地成长1.简介SpringCloudDataFlow是用于构建数据集成和实时数据处理管道的工具包。在这种情况下，管道(Pipelines)是使用SpringCloudStream或SpringCloudTask框架构建的SpringBoot应用程序。在本教程中，我们

分类：编程语言时间：2020-09-07 19:17:49 阅读次数：55

spark源码分析, 任务提交及序列化

org.apache.spark.scheduler.DAGScheduler#submitMissingTasks => org.apache.spark.scheduler.TaskSchedulerImpl#submitTasks // First figure out the indexes ...

分类：其他好文时间：2020-08-28 14:42:00 阅读次数：47

A machine learning system on spark

简介 https://github.com/fanqingsong/machine_learning_system_on_spark a simple machine learning system demo, for ML study. Based on machine_learning_syst ...

分类：系统相关时间：2020-08-27 11:48:09 阅读次数：63

10个优秀的数据挖掘工具，一定不要错过

在机器学习的流程中数据挖掘是重要的一环。数据挖掘是从大量数据中提取隐藏的或未知，但可能有用信息的过程。今天给大家介绍10个最强的数据挖掘工具，欢迎小伙伴们收藏起来。1.KNIMEKNIME可以完成常规的数据分析，进行数据挖掘，常见的数据挖掘算法，如回归、分类、聚类等等都有。而且它引入很多大数据组件，如Hive，Spark等等。它还通过模块化的数据流水线概念，集成了机器学习和数据挖掘的各种组件，能够

分类：其他好文时间：2020-08-24 16:32:14 阅读次数：59

知识汇总之大数据（1）

1.mapReduce 的shuffle 过程： https://www.iteye.com/blog/langyu-992916 2.spark streaming : https://www.jianshu.com/p/0691204282ab CAS的理解? https://www.jian ...

分类：其他好文时间：2020-08-13 12:10:50 阅读次数：53

CDH开启kerberos后在第三方机器上部署Spark程序问题解决

一、概述当CDH平台开启kerberos后，需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上，直接在生成keytab并使用principal登录kerberos即可。如果当spark应用程序部署在第三方机器上时，还需要处理krb5.conf注册 ...

分类：其他好文时间：2020-08-13 12:07:11 阅读次数：88

Spark-RDD-基本介绍

1.定义 RDD是只读的记录分区的集合，是一种基于工作集的应用抽象创建RDD的方式有两种：从驱动程序中的集合中并行创建从外部数据集创建 2.底层存储原理每个RDD的数据以Block的形式存储在多个机器上，对于每个Executor都会启动一个BlockManagerSlave，并且管理一部分B ...

分类：其他好文时间：2020-08-08 00:33:32 阅读次数：73

共7001条上一页 1 ... 16 17 18 19 20 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)