【2020】 DBus，一个更能满足企业需求的大数据采集平

时间：2020-03-05 19:28:19 阅读：110 评论：0 收藏：0 [点我收藏+]

功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具

技术图片

深知其他组件的局限性，才能彰显DBus的优越感

当前有很多数据采集工具（Sqoop、DataX、Flume、Logatash、Filebeat等），他们或多或少都存在一些局限性。
技术图片
一个共性问题是缺乏统一的数据源端管控，所以也就无法找到统一的数据入口，那后续处理元数据或者血缘分析会异常困难。
除此之外，现有各种数据采集工具的数据同步方法也有一定的局限性。比如：
（1）各个数据使用方在业务低峰期各种抽取所需数据（缺点是存在重复抽取而且数据不一致）
（2）由统一的数仓平台通过sqoop到各个系统中抽取数据（缺点是sqoop抽取方法时效性差，一般都是T+1的时效性）
（3）基于trigger或时间戳的方式获得增量的变更（缺点是对业务方侵入性大，带来性能损失等）
这些方案都不能算完美，要想同时解决数据一致性和实时性，比较合理的方法应该是基于日志的解决方案，同时能够提供消息订阅的方式给下游系统使用。在这个背景下DBus就诞生了。

DBus到底是什么？给我一个完美的解释

DBus（数据总线）项目为了统一数据采集需求而生，专注于数据的收集及实时数据流计算，通过简单灵活的配置，以无侵入的方式对源端数据进行采集，采用高可用的流式计算框架，对公司各个IT系统在业务流程中产生的数据进行汇聚，经过转换处理后成为统一JSON的数据格式（UMS），提供给不同数据使用方订阅和消费，充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。支持多租户管理，提供租户级资源、数据隔离机制。

看DBus官网，了解更多更新一手资料

https://github.com/BriData/DBus

看DBus架构，聚焦DBus两大核心功能

技术图片
DBUS主要分为两个部分：
（1）贴源数据采集
（2）多租户数据分发
两个部分之间以Kafka为媒介进行衔接。无多租户资源、数据隔离需求的用户，可以直接消费源端数据采集这一级输出到kafka的数据，无需再配置多租户数据分发

继续深入贴源数据采集功能模块

DBUS源端数据采集大体来说分为两部分：
读取RDBMS增量日志的方式来实时获取增量数据日志，并支持全量拉取；基于logtash，flume，filebeat等抓取工具来实时获得数据，以可视化的方式对数据进行结构化输出；
以下为具体实现原理：
技术图片
主要模块如下：
（1）日志抓取模块：从RDBMS的备库中读取增量日志，并实时同步到kafka中；
（2）增量转换模块：将增量数据实时转换为UMS数据，处理schema变更，脱敏等；
（3）全量抽取程序：将全量数据从RDBMS备库拉取并转换为UMS数据；
（4）日志算子处理模块：将来自不同抓取端的日志数据按照算子规则进行结构化处理；
（5）心跳监控模块：对于RDMS类源，定时向源端发送心跳数据，并在末端进行监控，发送预警通知；对于日志类，直接在末端监控预警。
（6）web管理模块：管理所有相关模块。

继续深入多租户数据分发功能模块

对于不同租户对不同源端数据有不同访问权限、脱敏需求的情形，需要引入Router分发模块，将源端貼源数据，根据配置好的权限、用户有权获取的源端表、不同脱敏规则等，分发到分配给租户的Topic。这一级的引入，在DBUS管理系统中，涉及到用户管理、Sink管理、资源分配、脱敏配置等。不同项目消费分配给他的topic。
技术图片

【2020】 DBus，一个更能满足企业需求的大数据采集平

标签：规则架构时间 filebeat 企业数据采集 web 数据源数据分析

原文地址：https://blog.51cto.com/13735753/2475676

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行