背景:利用kafka+flume+morphline+solr做实时统计。 solr从12月23号开始一直没有数据。查看日志发现,因为有一个同事加了一条格式错误的埋点数据,导致大量error。 据推断,是因为使用mem channel占满,消息来不及处理,导致新来的数据都丢失了。 修改flume使用 ...
分类:
Web程序 时间:
2016-12-28 19:40:54
阅读次数:
207
Spark机器学习 1 在线学习 模型随着接收的新消息,不断更新自己;而不是像离线训练一次次重新训练。 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors、消息队列、Flume、Kafka、…… http://spark.apache.org/docs/l ...
分类:
其他好文 时间:
2016-12-27 14:23:03
阅读次数:
245
Flume作为日志采集系统,有着独特的应用和优势,那么Flume在实际的应用和实践中到底是怎样的呢?让我们一起踏上Flume之路。1、什么是ApacheFlume(1)ApacheFlume简单来讲是高性能、分布式的日志采集系统,和sqoop同属于数据采集系统组件,但是sqoop用来采集关系型数据库数据,..
分类:
Web程序 时间:
2016-12-22 20:51:32
阅读次数:
210
最近Hue+Solr 方案原型验证有了一些进展。正好也收到了Google的大数据专家Sam的来件询问进展,我答复如下: Sam, 你好。 已经把Kafka+flume+solr的实时索引搭建起来了, 现在用实时事件统计的场景在测试数据(当前方案为kafka storm mysql),solr现在数据... ...
分类:
其他好文 时间:
2016-12-19 21:36:08
阅读次数:
383
[root@dtpweb data]#tar -zxvf apache-flume-1.7.0-bin.tar.gz[root@dtpweb conf]# cp flume-env.sh.template flume-env.sh 修改java_home[root@dtpweb conf]# cp ...
分类:
Web程序 时间:
2016-12-19 21:13:01
阅读次数:
219
基于ThriftSource,MemoryChannel,HdfsSink三个组件,对Flume数据传输的事务进行分析,如果使用的是其他组件,Flume事务具体的处理方式将会不同。 Flume的事务处理原理: Flume在对Channel进行Put和Take操作的时候,必须要用事物包住,比如: Ch ...
分类:
Web程序 时间:
2016-12-16 14:13:18
阅读次数:
2141
1. hbase sink介绍 1.1 HbaseSink 1.2 AsyncHbaseSink 2. 配置flume 3. 运行测试flume 4. 使用RegexHbaseEventSerializer来处理些HBASE的值 5. 效率测试 1. hbase sink介绍 1.1 HbaseSi ...
分类:
Web程序 时间:
2016-12-16 14:07:02
阅读次数:
413
Flume和Sqoop是Hadoop数据集成和收集系统,两者的定位不一样,下面根据个人的经验与理解和大家做一个介绍:Flume由cloudera开发出来,有两大产品:Flume-og和Flume-ng,Flume-og的架构过于复杂,在寻问当中会有数据丢失,所以放弃了。现在我们使用的是Flume-ng,主要是日志采集..
分类:
Web程序 时间:
2016-12-13 00:31:08
阅读次数:
344
Technorati Tags: Solr,Hue,Flume,Morphline,大数据1.Flume和Morphline添加日志打印 log4j.logger.org.apache.flume.sink.solr=DEBUG log4j.logger.org.kitesdk.morphline=... ...
分类:
Web程序 时间:
2016-12-12 22:14:49
阅读次数:
236
背景:Kafka消息总线的建成,使各个系统的数据得以在kafka节点中汇聚,接下来面临的任务是最大化数据的价值,让数据“慧”说话。 环境准备: Kafka服务器*3。 CDH 5.8.3服务器*3,安装Flume,Solr,Hue,HDFS,Zookeeper服务。 Flume提供了可扩展的实时数据 ...
分类:
Web程序 时间:
2016-12-11 03:14:50
阅读次数:
517