Kafka是什么 Kafka最初是由LinkedIn公司采用Scala语言开发的一个分布式、多分区、多副本且基于ZooKeeper协调的内部基础设置,现已捐献给Apache基金会。Kafka是一个流平台,主要用来发布和订阅数据流,是流式数据处理的利器。Kafka用于构建实时数据管道和流应用程序,具有 ...
分类:
其他好文 时间:
2020-05-18 20:50:54
阅读次数:
67
MongoDB / ElasticSearch: 文档数据库一般用类JSON格式存储数据,存储的内容是文档型的 HBase: 按列存储数据的。最大特点是方便存储结构化和半结构化数据,方便做数据压缩,针对某一列或某几列的查询有非常大的I/O优势,适合于批量数据处理和即时查询。 Redis: 通过key ...
分类:
其他好文 时间:
2020-05-18 18:31:48
阅读次数:
59
Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
Click 是 Flask 的团队 pallets 开发的开源项目,它使命令行数据处理变得更简单。 方法功能 command:用于装饰一个函数,使得该函数作为命令行的接口 option:用于装饰一个函数,主要功能是为命令行添加选项 echo:用于输出结果,由于print函数在2.x和3.x之间存在不 ...
分类:
编程语言 时间:
2020-05-18 14:17:42
阅读次数:
127
1、概述 “Group By”从字面意义上理解就是根据“By”指定的规则对数据进行分组,所谓的分组就是将一个“数据集”划分成若干个“小区域”,然后针对若干个“小区域”进行数据处理。 2、原始表 3、简单Group By 示例1 select 类别, sum(数量) as 数量之和 from A gr ...
分类:
数据库 时间:
2020-05-17 09:18:36
阅读次数:
68
hive是如何将HQL转换成MapReduce程序的呢,通过对hive架构的学习,您将全面了解hive的工作流程以及数据处理过程
分类:
其他好文 时间:
2020-05-17 09:15:54
阅读次数:
85
JavaScript是一种广泛使用网页编程语言,在浏览器中运用JavaScript技术处理统计数据具有最佳的推广传播效果 对象(Object)在编程语言中是一个比较抽象、牵涉内容非常多的概念。对于JavaScript来说,对象可以是一个变量、一个数据结构、或是一个函数。对象既表示客观世界问题空间中的 ...
分类:
编程语言 时间:
2020-05-17 00:57:16
阅读次数:
78
题目链接 题意: 问满足一系列形如ab可以相互看到的约束的所有奶牛的最大身高(最高的编号和高度已给出) 分析: 首先,这个可以互相看到指的是中间的人比两头的都矮,一条斜线看到的不行,那么其实我们就可以直接默认每个牛都是最高的,然后有一个约束给中间的牛矮一些,最后找到处理后的数据就好了,数据处理方式: ...
分类:
其他好文 时间:
2020-05-15 20:12:19
阅读次数:
70
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库 ...
分类:
其他好文 时间:
2020-05-15 13:42:59
阅读次数:
62
项目和集合 1. 项目go on 1.1 任务目标 1.2 使用接口完成按照条件过滤展示数据的方式 1.3 完成数据的字符串处理过程 1.3.1 对于数据处理的基本理念 1.3.2 程序数据== 字符串 1.3.3 字符串 == 程序数据 2. 集合【重点】 2.1 集合概述 2.2 集合架构 【重 ...
分类:
其他好文 时间:
2020-05-14 23:54:21
阅读次数:
130