PySpark基于Python的Spark企业级大数据分析,以实际数据分析为驱动讲解 ...
分类:
编程语言 时间:
2020-09-18 00:55:02
阅读次数:
44
CSDN:程序员小羊 微信公众号:程序员小羊 1、Kafka 是什么 Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统,最初由 LinkedIn 公司开发,使用Scala 语言编写,目前是 Apache 的开源项目。 broker: Kafka 服务器,负责消息存储和转发 topic:消 ...
分类:
其他好文 时间:
2020-09-17 21:42:29
阅读次数:
32
介绍 不论MapReduce还是RDD,shuffle都是非常重要的一环,也是影响整个程序执行效率的主要环节,但是在这两个编程模型里面shuffle却有很大的异同。 shuffle的目的是对数据进行混洗,将各个节点的同一类数据汇集到某一个节点进行计算,为了就是分布式计算的可扩展性。 可能大家多MR的 ...
分类:
其他好文 时间:
2020-09-17 19:31:45
阅读次数:
30
一.图像数据源 图像数据源用于从目录加载图像文件,它可以通过ImageIO Java库将压缩图像(jpeg,png等)加载为原始图像表示形式。加载的DataFrame具有一StructType列:“ image”,其中包含存储为图像架构的图像数据。该image列的架构为: origin :(Stri ...
分类:
其他好文 时间:
2020-09-17 17:38:02
阅读次数:
52
Flink常用算子代码实现 (Scala版本和Java版本) ...
分类:
编程语言 时间:
2020-09-11 16:15:56
阅读次数:
71
Pandas数据处理——盘点那些常用的函数(下)原创易执Python读财1月20日点击上方“Python读数”,选择“星标”公众号重磅干货,第一时间送达继上一篇文章Pandas数据处理——盘点那些常用的函数(上)后,这篇文章整理了剩下的一些Pandas常见方法,整体难度会比上一篇文章中的大一点,但还是比较容易理解的。话不多说,直接进入正题。用于演示的数据如下:In[11]:dataOut[11]:
分类:
其他好文 时间:
2020-09-11 15:52:21
阅读次数:
28
昨天有朋友在公众号发消息说看不懂await,async执行流,其实看不懂太正常了,因为你没经过社会的毒打,没吃过牢饭就不知道自由有多重要,没生过病就不知道健康有多重要,没用过ContinueWith就不知道await,async有多重要,下面我举两个案例佐证一下?一:案例一【嵌套下的异步】写了这么多年的程序,相信大家都知道连接数据库少不了这几个对象,DbConnection,DbCommand,D
分类:
其他好文 时间:
2020-09-11 14:18:33
阅读次数:
29
SpringCloudFlow与ApacheSpark集成点击左上角,关注:“锅外的大佬”专注分享国外最新技术内容帮助每位开发者更优秀地成长1.简介SpringCloudDataFlow是用于构建数据集成和实时数据处理管道的工具包。在这种情况下,管道(Pipelines)是使用SpringCloudStream或SpringCloudTask框架构建的SpringBoot应用程序。在本教程中,我们
分类:
编程语言 时间:
2020-09-07 19:17:49
阅读次数:
55
先抄个雪花ID介绍,雪花算法: (提高聚集索引的性能) 雪花ID是用一个64位的整形数字来做ID,对应.net中的long,数据库中的bigint,雪花算法的原始版本是scala版,用于生成分布式ID(纯数字,时间顺序),订单编号等。 自增ID:对于数据敏感场景不宜使用,且不适合于分布式场景。GUI ...
分类:
Web程序 时间:
2020-08-31 13:22:30
阅读次数:
56