码迷,mamicode.com
首页 >  
搜索关键字:大数据 spark 数据分析 数据画像    ( 23297个结果
Redis五大数据类型
Redis五大数据类型 一、Redis-key相关命令 二、String 1、基本操作 2、值的增减 3、字符串范围和替换 4、设置过期时间 5、不存在时创建 6、同时设置、读取多个值 7、对象 这里的key是一个巧妙的设计:user:{id}:{field,...},这样的设计在 Redis 中是 ...
分类:其他好文   时间:2021-04-12 11:51:17    阅读次数:0
Python数据分析入门(十二):数据聚合与分组
什么是分组聚合? 如图: groupby:(by=None,as_index=True) by:根据什么进行分组,用于确定groupby的组 as_index:对于聚合输出,返回以组便签为索引的对象,仅对DataFrame df1 = pd.DataFrame({'fruit':['apple',' ...
分类:编程语言   时间:2021-04-10 13:05:19    阅读次数:0
大数据框架exactly-once底层实现原理,看这篇文章就够了
一、大数据框架三种语义???? 在分布式系统中,如kafka、spark、flink等构成系统的任何节点都是被定义为可以彼此独立失败的。比如在 Kafka 中,broker 可能会 crash,在 producer 推送数据至 topic 的过程中也可能会遇到网络问题。根据 producer 处理此 ...
分类:其他好文   时间:2021-04-09 13:27:18    阅读次数:0
debian10下miniconda环境配置
概述 环境安装 设置是否自动启动 基本使用 创建环境 进入/退出环境 安装 python package 概述 使用 python 做数据分析,目前最方便和最流行的环境就是 Anaconda。 Anaconda 太重,刚开始学习使用 python 数据分析,还是觉得 Miniconda 更好一些。 ...
分类:其他好文   时间:2021-04-07 11:41:41    阅读次数:0
Laxcus集群操作系统-智能时代的信息基础设施
本文是我司在工信部信息通信研究院“2021算网融合产业发展论坛暨CCSA TC610 WG4技术年会”上的主题演讲,介绍了Laxcus集群操作系统的产品定位、功能组成、生态建设,大数据、人工智能在系统的角色,其中部分内容略有删减。 ...
分类:其他好文   时间:2021-04-07 11:12:35    阅读次数:0
OLAP引擎:基于Druid组件进行数据统计分析
与现在相对热门的Clickhouse引擎相比,Druid对高并发的支持相对较好和稳定,但是Clickhouse在任务队列模式中的数据查询能力十分出色,但是对高并发支持不够友好,需要做好很多服务监控和预警。大数据组件中OLAP引擎的选型有很多,在数据的查询引擎层通常都具有两种或者以上的OLAP引擎,选... ...
分类:其他好文   时间:2021-04-07 10:30:18    阅读次数:0
RDD练习:词频统计
一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() lines=sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt") words = lines.flatMa ...
分类:其他好文   时间:2021-04-06 15:08:22    阅读次数:0
PySpark第一篇.PySpark简介
1.Spark概述 Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。 除了实 ...
分类:其他好文   时间:2021-04-06 15:01:09    阅读次数:0
spark中的持久化(cache()、persist()、checkpoint())
RDD持久化级别 | 持久化级别 | 含义解释 | | | | | MEMORY_ONLY | 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执行算子操作时,那些没有被持久化的数据,需要从源头处重新计算一遍。这是默认的 ...
分类:系统相关   时间:2021-04-06 14:53:55    阅读次数:0
大数据总结
学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、 存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库 半结构 ...
分类:其他好文   时间:2021-04-05 12:37:34    阅读次数:0
23297条   上一页 1 ... 18 19 20 21 22 ... 2330 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!