什么是druid druid是一个为OLAP查询需求而设计的开源大数据系统,druid提供低延时的数据插入,实时的数据查询 druid使用Java开发,基于Jetty提供http rest服务,也提供了Java/Python等语言的工具包 druid是一个集群系统,使用zookeeper做节点管理和 ...
分类:
其他好文 时间:
2021-01-08 10:28:10
阅读次数:
0
Atlas 作用: 记录并展示Hive表字段含义,以及表和字段之间的数据血缘关系。 局限: 依赖HBase和solr。 Azkaban 作用: 实现任务流执行,满足任务间依赖关系。 局限: 任务能添加依赖的任务,但是不能传参数,任务流中任意一条路线断了,不能这条路线重启执行。 ...
分类:
其他好文 时间:
2021-01-07 12:23:38
阅读次数:
0
1.为什么安装Impala一定要先安装Hive? Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。 2.Impala与Hive的关系? Impala 与Hive都是构建在Hadoop之上的 ...
分类:
其他好文 时间:
2021-01-06 11:58:32
阅读次数:
0
所学时间(包括上课) 9个小时 代码量(行) 1300 博客量 1篇 了解到的知识点 centos虚拟机的安装以及 大数据相应所用的软件安装 以及环境的配置 ...
分类:
其他好文 时间:
2021-01-02 11:40:57
阅读次数:
0
根据前面的卷积过程,我们可以达到特征提取的作用。基本上已经判断出谁是C谁是D。底下可以再进一步做一次池化。数据库连接池记得吧?把很多数据库连接放在一个池子里,想用时挑一个来用。这里做完卷积得到这么多数据,就像池子一样,对于这池子里的数据,我们可以继续做各种各样的操作,比如最大池化或平均池化。最大池化 ...
分类:
其他好文 时间:
2021-01-02 11:29:48
阅读次数:
0
Kafka概述 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 传统消息队列的应用场景 使用消息队列的好处 1:解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2:可恢复性 系统的一部分组件失效时 ...
分类:
其他好文 时间:
2021-01-02 10:52:13
阅读次数:
0
kudu计算公式:假设:tabletserver32台master5台最大数据存储量为,复制和压缩后,每个tabletserver9.6TB。每个tabletserver管理的tablet为3000,包含tablet的副本。基于以上限制,可以推测出一下内容:分区=每行大小*总条数<=3.2Gtablet(限制每一台tablet-server1500个分区),目前现在总kudu表为1546张表
分类:
其他好文 时间:
2020-12-30 10:41:55
阅读次数:
0
大数据量在MySQL中查询分页排序,数据量就会很大 我们可以把limit与order by拆分为两个步骤 先根据条件 把limit、ordey by相关的数据的索引查出来,然后再根据索引查询具体的字段信息(也就是两层嵌套) 例: select id, user_name, id, user_name ...
分类:
数据库 时间:
2020-12-25 13:04:20
阅读次数:
0
1.dubbo 协议 (默认) 1、采用单一长连接和NIO异步通讯,适合于小数据量大并发的服务调用,以及服务消费者机器数远大于服务提供者机器数的情况 2、不适合传送大数据量的服务,比如传文件,传视频等,除非请求量很低。 用场景:常规远程服务方法调用 特性 连接个数:单连接 连接方式:长连接 传输协议 ...
分类:
其他好文 时间:
2020-12-23 12:18:52
阅读次数:
0
最近项目上因为遇到数据量过大导致查询统计性能问题(oracle数据库、单表每月1亿多条车辆定位记录,由一个windows环境下的链路服务程序来接收车辆上传的定位数据写入oracle),急需使用大数据架构来解决。前期同事已经提出整体解决思路(修改链路服务程序,在写oracle的基础上同时写入kafka ...