Spooling Directory Source使用技巧

时间：2015-06-08 16:41:40 阅读：146 评论：0 收藏：0 [点我收藏+]

标签：

1、使用文件原来的名字

a1.sources=r1
 
a1.sinks=k1
 
a1.sources.r1.type=spooldir
 
....
 
a1.sources.r1.basenameHeader=true
 
a1.sources.r1.basenameHeaderKey=basename
 
.....
 
a1.sinks.k1.type=hdfs
 
a1.sinks.k1.hdfs.path=hdfs://xxx:8020?/a/b/%{basename}

在source里设置basnameHeader为true，这样在解析出来的event在header上将添加一个属性，名字是basenameHeaderKey定义，值是文件原来的名字。

2、将整个文件作为一个event

在默认情况下，deserializer是LINE，它的效果是，将文件里的每一行解析成一个event。改成BlobDeserializer，则将整个文件解析成一个event。不过，这种方式对大文件不适合，因为整个文件将放入内存中。

a1.sources=r1
...
a1.sources.r1.type=spooldir
a1.sources.r1.deserializer=BlobDeserializer
...

3、在传输新文件到监控的文件夹时，需要让Spooing Directory Source忽略这个正在传输的文件，等传输完毕后在触发。

可以使用ignorePattern属性来避免。

1	`a1.sources.r1.ignorePattern=^(.)*\\.tmp$`

来自为知笔记(Wiz)

Spooling Directory Source使用技巧

标签：

原文地址：http://www.cnblogs.com/lishouguang/p/4560892.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行