数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 ...
分类:
其他好文 时间:
2020-06-22 00:56:04
阅读次数:
83
1,kafka包含3个组件:source、channel、sink source:1.7以上的版本提供了 TaildirSource,支持断点续传,1.6前的版本,需要自己开发程序,存储flume读取的文件位置,以便后续接着读取数据。 channel: FileChannel:数据存储在磁盘上,稳定 ...
分类:
Web程序 时间:
2020-06-17 11:20:34
阅读次数:
72
scribe_百度百科 https://baike.baidu.com/item/scribe flume(日志收集系统)_百度百科 https://baike.baidu.com/item/flume/6250098 Kafka(科技术语)_百度百科 https://baike.baidu.com ...
分类:
其他好文 时间:
2020-06-16 20:48:33
阅读次数:
58
不同的视频APP可能和不同公司的ADX有股份关系,甚至,有的视频APP做大了,可以用自己的ADX,那从app到ADX的数据可以直接对接,否则就要有合作,然后ADX对接广告投放引擎 广告投放引擎(也就是媒体服务器)对接多个媒体的数据, (从广告投放引擎,怎么将数据Flume到hdfs,这个不清楚) 这 ...
分类:
其他好文 时间:
2020-06-14 23:24:11
阅读次数:
133
Hadoop权威指南 第四版 大数据越来越热。Hadoop技术是大数据技术的基础。 掌握了大数据技术,就意味着可以轻松找到高薪工作。 人工智能、机器学习都是基于大数据。 There are new chapters covering YARN (Chapter 4), Parquet (Chapte ...
分类:
其他好文 时间:
2020-06-13 10:25:14
阅读次数:
618
SinkProcessor共 有 三 种 类 型 , 分 别 是DefaultSinkProcessor 、LoadBalancingSinkProcessor 和 FailoverSinkProcessor。DefaultSinkProcessor 对 应 的 是 单 个 的 Sink , Loa ...
分类:
Web程序 时间:
2020-06-08 18:47:07
阅读次数:
80
概念 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 模型 a)Source:采集组件,用于跟数据源对接,以获取数据 b)Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据 c)Channel:传输通道组件,用于从source将数据传递到sink ...
分类:
Web程序 时间:
2020-06-07 21:04:35
阅读次数:
67
这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过 ...
分类:
Web程序 时间:
2020-06-04 10:26:08
阅读次数:
83
第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flum ...
分类:
Web程序 时间:
2020-05-30 19:56:36
阅读次数:
89
Dataway介绍 Dataway 是基于 DataQL 服务聚合能力,为应用提供的一个接口配置工具。使得使用者无需开发任何代码就配置一个满足需求的接口。 整个接口配置、测试、冒烟、发布。一站式都通过 Dataway 提供的 UI 界面完成。UI 会以 Jar 包方式提供并集成到应用中并和应用共享同 ...