标签:
MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器).
目前使用 MogileFS 的公司非常多,比如国外的一些公司,日本前几名的公司基本都在使用这个.
国内所知道的使用 MogileFS 的公司有图片托管网站 yupoo又拍, digg, 土豆, YOUKU, 豆瓣, 1 号店, 大众点评, 搜狗, 安居客等等网站. 基本很多网站容量,图片都超过 30T 以上。目前我自己都使用了 200T 以上了.
MogileFS 是 51.com 的存储设计的大师碧轩非常推荐的, 51 的集群文件系统也是基于这个原理实现的. 简单来讲 MogileFS 是基于 Google File System 第一个实作出来的, 论文发布没多久就出了这个.
官方的介绍网站:
http://www.danga.com/mogilefs/
Google Code 上的信息
http://code.google.com/p/mogilefs/
这个地址有很多值得读读的信息,还有那些用户在使用 MogileFS ,以级使用多大的量,详细内容见 http://code.google.com/p/mogilefs/wiki/Users.
在使用前,我们需要对 MogileFS 有个基本的了解,就是他的三个大的部分,Tracker(Database) , Storage Nodes 和 Client 组成.有二个服务进程 MogileFSd 和 mogstored .
工作原理如图:
客户端.连接到一个域,然后在域中拿着文件的 key 来查文件的位置,然后通过查到集群中的位置来打开这个文件.
下面的部分的详细介绍
前面提到 Tracker(Database) , Storage Nodes 和 Client 组成,我们这先不讲
Client.因为Client实际上是一个 Perl 的模块,可以写程序调用该模块来操作 MogileFS
系统,对整个系统进行读写操作.另外,象 nginx 之类有相关的客户端模块.另外也有做成象文件系统一样采用 fuse
方式挂载看起来象一个本地文件系统.其它语言的客户端也非常多.
这个是 MogileFS 的核心部分,通俗点讲,就他是一个调度器.MogileFSd 进程就是 trackers 进程程序,类似
MogileFS 的 wiki 上介绍的,trackers 做了很多工作,Replication
,Deletion,Query,Reaper,Monitor 等等.这个是基于事件的( event-based )
父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed),
包括将请求负载平衡到多个"query workers"中,然后让 MogileFSd 的子进程去处理.
mogadm,mogtool 的所有操作都要跟 trackers 打交道,Client 的一些操作也需要定义好
trackers,因此最好同时运行多个 trackers 来做负载均衡.trackers 也可以只运行在一台机器
上,也可以跟其他程序运行在一起(不建议).
tracker 配置文件: /etc/mogilefs/mogilefsd.conf
如上图所显示的,数据库用来存放 MogileFS 的元数据 (命名空间, 和文件在哪里). 是 Trackers 来操作和管理它.你可以用 mogdbsetup 程序来初始化数据库.因为数据库保存了MogileFS的所有元数据,如果这儿挂了,那么整个 MogileFS 将处于不可用状态.因此最好是HA结构.
实际文件存放的地方. 存储节点是一个 HTTP 服务器,用来做删除,存放,重命名等事情.任何 WebDAV 服务器都可以, 不过推荐使用
mogstored . MogileFSd 可以配置到两个机器上使用不同端口… mogstored 来进行所有的 DAV 操作和流量,IO监测,
并且你自己选择的 HTTP 服务器(默认为 perlbal)用来做 GET 操作给客户端提供文件.
典型的应用是一个挂载点有一个大容量的 SATA 磁盘,它们被挂载到 /var/mogdata/devNN. 只要配置完配置文件后
mogstored 程序的启动将会使本机成为一个存储节点.当然还需要 mogadm 这个工具增加这台机器到 Cluster 中.
mogstored 的配置文件: /etc/mogilefs/mogstored.conf
这二个程序分别对应上面的部分
mogilefsd — MogileFS 的主守护进程:
就是上面指的 trackers(跟踪器 ),由 /etc/MogileFS/MogileFSd.conf 这个配置文件控制, 查询和主控制机器需要这个.
mogstored — MogileFS 存储守护进程
这个就是上面指的存储节点(Storage Nodes ),由 /etc/MogileFS/mogstored.conf 这个配置文件控制. 每个存储数据的节点都是需要启动.
有几个小工具,主要就是 mogadm,mogtool 这两个工具了,用来在命令行下控制整个 MogileFS 系统以及查看状态等等.我后面会针对这个进行详细的讲解.
MogileFS 复制策略
在 MogileFS 中,默认的 MogileFS::ReplicationPolicy::MultipleHosts 会试着
put 文件到不同主机的硬盘中.如果只有一个主机和2个硬盘,很明现这个是不行的,但它还是会勉强的 put 到相同的主机.
如果你有三个硬盘,设置的最小的复制份数为 2,它会 put 2 个复本到不同的主机.如果你有 2 个主机 4 个硬盘设置的最小复制份数为 3,你会得到 3 个复本在不同的硬盘设备上,但是会有二份在同一个主机上.这认为是没问题的.
High-level 流程:
MogileFS 的介绍(MogileFS 系列1)[分布式文件系统]
标签:
原文地址:http://www.cnblogs.com/itcomputer/p/4890989.html