标签:超出 ace 机房 nbsp 资源 开发 dump resize otn
Ceph是一个分布式存储系统, 具有高扩展性, 高可靠性, 高性能的存储集群, 它目前提供对象存储, 块设备存储, 文件系统存储三种存储应用
目前Inktank公司掌控Ceph的开发,但Ceph是开源的,遵循LGPL协议。Inktank还积极整合Ceph和其他云计算和大数据平台,目前Ceph支持OpenStack、CloudStack、OpenNebula、Hadoop等。
当前Ceph的最新稳定版本0.80.5(Firefly),它的对象存储和块设备存储已经足够稳定,而且Ceph社区还在继续开发新功能,包括跨机房部署和容灾、支持Erasure encoding等。Ceph具有完善的社区设施和发布流程(每三个月发布一个稳定版本) 。
Ceph的部署始于Ceph节点的部署, 1个Ceph存储集群至少需要一个Monitor节点和至少两个OSD节点, 如果需要文件系统存储则需要部署MDS
Ceph以对象的方式来存储客户端的数据, 使用CRUSH算法, Ceph将计算出数据对象将存放在哪个PG, 并继续计算该PG在哪个OSD下面, CRUSH算法使得Ceph存储集群变得可扩展, 自动均衡, 动态自恢复
Ceph官方推荐使用专门的节点来运行Ceph, 并使用专门的节点来使用Ceph数据集群(如OpenStack, CloudStack)
MDS, Mon需要大内存 (如每实例分配1GB), OSD只需要(每实例分配500MB, 但在数据恢复期间每1TB数据大概需要1GB的内存占用), 内存越多越好
Ceph官方推荐采用更大的磁盘来降低成本, 至少1TB起, 不要在同个磁盘上开多个OSD, 这样可以避免资源竞争, 同时在同个磁盘上存储日志和数据, 会降低效率(ceph先写日志,再返回ACK), btrfs能并发的写日志与数据, xfs和ext4则做不到, 建议OSD数据与OSD日志分离
SSD的高性能, 适合用于Ceph的日志, 不会占用太多空间, 日志是写密集型的应用, 所以需要慎用廉价SSD, 市面上部分高性能磁盘比这些SSD的写性能更好
如果你在同个SSD上存储多个日志, 你需要考虑顺序写性能
默认Ceph日志的配置位置: /var/lib/ceph/osd/cluster?id/journal
在同台机上运行多个OSD, 你需要考虑网络是否会成为瓶颈, 同时还要考虑特定机器上存储的数据是否平均, 过大的比率会导致这台机在故障时导致问题
推荐每台机有2路千兆网络接入, 1路处理外部数据, 1路处理集群数据, 考虑直接上10Gbps, 用1Gbps同步1TB数据需要3小时, 3TB需要9小时, 如果是万兆则只需要20分钟和1小时, 在PB级的集群中, 磁盘故障是可预测的, 而非不可预测, 所以更好的网络可以加快故障的恢复, 同样的, 到了汇聚层需要40Gbps到100Gbps
在每台机上运行多个OSD, 需要确保内核最新, glibc和syncfs
同台机上多于20个OSD时, 会在recovery和rebalancing时导致很多的线程, 有可能超出内核的默认限制(32k), 需要设置kernel.pid_max, 最大值为4,194,303
kernel.pid_max = 4194303
Ceph内核要求
如果使用以下旧内核, 需要保证
标签:超出 ace 机房 nbsp 资源 开发 dump resize otn
原文地址:https://www.cnblogs.com/lifei02/p/9894793.html