Glusterfs目录ls性能优化方案分析

目的和优化思路

讨论了glusterfs对文件系统爬虫rsync／ls目录性能的现有优化措施和可能的进一步优化方案。优化思路是减少本地文件系统的元数据操作，减少fuse client的负载，减少req的网络轮询次数，减少一次网络通信时间，缓存预抓取，并发，异步，bulk 传输

fuse readdirplus

centos 6.4最新内核，支持fuse readdirplus。微调mount timeout参数。

FUSE: Adaptive NFS-like readdirplus support http://lwn.net/Articles/532705/?format=printable
http://sourceforge.net/p/fuse/mailman/message/29562240/

readdir-ahead

这个已经合并到3.5release以后了。主要进行了单线程ls顺序目录读的优化。通过在opendir时（在执行回调时）去提前抓取目录项作为缓存，同时也会在glusterfs readdirplus支持（内核和glusterfs fuse都支持）的情况下，抓取目录项的inode属性和扩展属性，readdir（p）时可以直接返回或者此时抓取目录项缓存。基于fuse readdirplus性能会更加优化。基于fd生命周期进行的缓存。功能还很不强大，需要强化。

FUSE_AUTO_INVAL_DATA

根据内核FUSE_AUTO_INVAL_DATA支持，启用--fopen-keep-cache mount选项。新内核版本支持。glusterfs fuse默认行为是写操作是同步的，读文件操作从page cache中读。当打开一个文件时，失效原来file的page cache。启用此选项后，就可以根据需要，如果原来file page cache 内容没变，就不进行失效操作。

quick-read

glusterfs3.4把quick-read（3.3就这一个translaotr）分解为openbehind和quick-read。原来设计不管操作文件的目的是什么，都要获取真正的fd。重构后，可以根据文件操作目的，如果是修改文件内容，就在背景打开文件并进行操作。如果仅仅是fstat等类似操作，就利用匿名fd来进行，不会等待真正的fd。这样根据操作目的，优化了性能。在lookup时根据需要，设置xdata key，在posix translator层就抓取文件内容。read操作执行到quick-read层时就返回文件内容。

md-cache

主要是inode attr和xattr在readdir （p）时抓取;lookup只抓取当时操作的目录或文件的inode属性，而不是所有目录项。这个translator可以对ls时候对stat和扩展属性抓取导致的延迟进行优化。但目前我们一般关闭selinux和acl扩展属性支持，所以扩展属性的ls优化暂时不起作用。

其他可能影响的translator，有待分析

io-threads 服务器和客户端设置
libaio
scatter-gather IO

进一步的优化方向

fuse内核当前支持4k readdir buffer大小。可以修改内核代码支持较大chunk的buffer。readdir-ahead就是用一个glusterfs rpc 128k buffer进行了bulk获取，但也仅仅是在用户空间进行了预抓取。Brian Foster进行了这方面的优化实验。
强化readdir-ahead,做成一个强大的client缓存架构，先做目录项缓存，后面再考虑其他的。
- 多线程，非顺序目录读的情况
- 缓存基于inode，进行持久缓存
- Xavier Hernandez提出了取代inodelk／entrylk的一种无锁架构，有助于在client实现一个强大的缓存。目前社区已经进行了一次讨论缓存架构的头脑风暴。正在跟进。
- dht读目录本来就是顺序（一个一个brick进行读取），应该分析是否可以放宽这样的限制
小文件合并为大文件的transtlaotr。这个可以参考hystack和tfs的实现。
参考hdfs的中央缓存架构，不在client做真正的缓存，而在brick端缓存，client只做路由。或者client和brick都做缓存。
分层存储。这个glusters 已经在开始做了。

参考资料

gluster maillist，irc，code，review。