重复数据删除指的是在数据中查找和删除重复内容,而不会影响其保真度或完整性。其目标是通过将文件分割成大小可以改变 (32-128 KB) 的小区块、确定重复的区块,然后为每个区块保留一个副本,从而在更小的空间中存储更多的数据。区块的冗余副本由对单个副本的引用所取代。区块会进行压缩,然后以特殊的容器文件形式组织到 System Volume Information 文件夹中。
Windows Server 2012/R2开始集成重复数据删除技术,通过使用Windows Server 2012/R2内置的重复数据删除功能,企业可以极大的改善存储空间的使用效率问题。对于大部分企业 IT 部门,存储效率都是个真正的大问题,因为存储成本的下降速度远远不能抵消数据量的增长速度。为降低增加存储空间的需求,需要对数据存储效率进行改善,无论数据保存在数据存储中,或者通过广域网络(WAN)进行移动,都是一个大问题。为了对这种增长做出响应,企业 IT 部门会对文件服务器进行整合。与此同时,还会将存储的扩展与优化作为其存储整合平台的一个主要目标。
Windows Server 2012/R2 的重复数据删除技术主要提供下列功能:
1. 容量优化。重复数据删除技术使得您能够用较少的物理空间存储更多数据。您可以获得比以往的单实例存储(SIS)或 NTFS 压缩更高的存储效率。重复数据删除技术使用了尺寸可变的块与压缩技术,通过配合即可对常规文件服务器实现最高 2:1 的优化率,虚拟化 VHD 库的优化率更可高达 20:1。
2. 改善可扩展性与性能。重复数据删除是一项高扩展性,资源高效率型,并且非侵入式的技术。该技术可同时运行于多个主要的大型数据卷上,但不会影响服务器的其他负载。对 CPU 与内存资源的使用进行限制,则可将对服务器负载的影响降到最低。此外,您还可获得足够的灵活性,设置重复数据删除技术的运行时间,指定可被该功能使用的资源数量,并针对要进行重复数据删除的文件类型建立策略。
3. 可靠性与数据完整性。在应用重复数据删除技术时,还必须保证维持数据完整性。对于数据完整性,Windows Server 2012/R2 会利用校验、一致性以及身份验证等机制。此外,为了能够在出错后恢复数据,Windows Server 2012/R2还会对所有元数据以及最常被引用的数据创建冗余。
4. 通过 BranchCache 提高带宽效率。通过与 BranchCache 的集成,这种优化磁盘上存储空间效率的技术还可用于对通过 WAN 将数据传往分支办公室的效率有所提高。这种集成可提供更快的文件下载速度,同时可降低带宽消耗。
为了提供更优化的重复数据删除技术,Windows Server 2012/R2 实施子文件数据块与压缩功能。因此对每个文件都可进行磁盘上转换,具体过程请参考上图。文件不再作为独立的数据流加以存储,而是被指向通用块存储中数据块的子文件所代替。副本消除技术可应用给很多负载,通常可节约 50-90% 的存储空间,如下图所示。具体的实施对于服务器上的主要负载都是透明的。这是通过调度与选择性优化,使其对 I/O 的影响降到最低实现的,此外通过较低的资源(CPU/内存)占用,还可将对服务器的影响降到最低。另外,该技术还针对更高数据完整性进行了优化. 这是通过对所有数据以及原数据进行数据完整性验证实现的,并且对于所有原数据以及“受欢迎”的数据块,还会创建冗余。运行 Windows Server 2012/R2 的服务器上通过启用重复数据删除技术,并配合 BranchCache 一起使用,即可对磁盘上以及传输中的文件应用算法,获得节约,最终可获得更快的下载速度,同时减少广域网络带宽的占用。
随着数据量以及对存储和基础架构预算影响力的持续增长,Windows Server 2012 中的重复数据删除技术可提供更清晰,可度量的投资收益。
以上信息来源于TechNet官网
http://technet.microsoft.com/zh-cn/library/hh831602.aspx
以下演示安装并配置重复数据删除功能
1. 登陆服务器“BJ-VMHost-01”,打开服务器管理器,点击添加功能与角色
2. 选择服务器角色页面,展开文件和存储服务,展开文件和iSCSI服务,勾选“数据删除重复”
3. 确认安装所选内容无误后点击安装,等待重复数据删除功能晚装完成
4. 安装完成后在服务器管理器页面点击文件文件和存储服务,点击卷,此时能看见仪表盘中以列出重复数据删除相关信息
5. 右键卷,选择配置重复数据删除
6. 重复数据删除设置向导将出现,这里可以选择已禁用、一般用途文件服务器或者VDI服务器,这里选择一般用途文件服务器
7. 如果不想对特定文件扩展名进行重复数据删除,例如.doc文件,则选择要排除的文件扩展名
8. 可以设定多长时间的文件执行重复数据删除
9. 点击“添加”选择要从重复数据删除中排除所选定的文件夹及其子文件
10.点击设置删除重复计划,以设置删除作业,可根据实际场景设置作业时间
11.开始执行重复数据删除前,设定开始时间
12.等待开始执行重复数据删除
13.使用重复数据删除这一功能只能在非系统分区之下执行
使用Windows PowerShell安装并配置重复数据删除则分别键入以下命令
1) 以管理员权限打开Windows PowerShell
2) Import-Module ServerManager
3) Add-WindowsFeature -name FS-Data-Deduplication
4) 启用重复数据删除
Enable-DedupVolume D:
5) 设置文件进行重复数据删除前,应保留的最少天数
Set-Dedupvolume D: -MinimumFileAgeDays 20
6) 使用 Start-DedupJob按照需要在 Windows PowerShell 中触发优化作业
Start-DedupJob –Volume D: –Type Optimization
7) 使用 Get-DedupJob查询作业的进度
8) Get-DedupJob
本文出自 “徐庭的博客” 博客,请务必保留此出处http://ericxuting.blog.51cto.com/8995534/1591188
原文地址:http://ericxuting.blog.51cto.com/8995534/1591188