标签:没有 交流 创建 童鞋 字符 产生 tool sql init
一、场景
在SQL Server 2005中,有一个表TestDatetime,其中Dates这个字段的数据类型是datetime,如果你看到表的记录如下图所示,你最先想到的是什么呢?
(图1:数据列表)
你看到这些数据,是不是觉得这样的设计既浪费了存储空间,又使得这个列的索引增大,查询起来更慢,你也想使用一些其它的数据类型来代替这个datetime吧?
其实大家都是这么想的,这个方向是100%正确的,但是在写这篇文章以前,我进入了两个误区:(如果你中了下面的两个误区,那么请你看看这篇文章吧。)
误区一: 把Dates字段的datetime数据类型换成smalldatetime,这样数据就由:‘2009-04-09 00:00:00.000’变为‘2009-04-09 00:00:00’,这个看起来没有减少多少存储空间哦。
误区二:把Dates字段的datetime数据类型换成char(10),这样数据就由:‘2009-04-09 00:00:00.000’变为‘2009-04-09’,这好像能减少很多存储空间哦。
二、分析
在SQL Server 2005版本中保存日期的数据类型只有两种:datetime、smalldatetime,但是在SQL Server 2008版本中新增了一些日期数据类型:time、date、smalldatetime、datetime、datetime2、datetimeoffset,其中的date类型就能满足我们场景中的需求了,如果你幸运的在使用SQL Server 2008的话,那么恭喜你,请使用date数据类型吧。
但是我就比较可悲一点了,在使用SQL Server 2005的前提下,我进入了误区一、误区二。其实这也是因为自己忽略了一下基础性的东西,如果知道不同数据类型的存储空间大小,也许就很轻易的避免这样低级的错误了。
其实你查看表TestDatetime中的Dates字段的时候,看到查询结果中的:“-”、“:”只是用于显示的,并不是真实保存的时候就这样格式的。
datetime占用8个字节,前4个字节存储base date(即1900年1月1日)之前或之后的天数,后4个字节存储午夜后的毫秒数。值范围:1753-01-01 到 9999-12-31。
smalldatetime占用4个字节,前2个字节存储base date(1900年1月1日)之后的天数。后2个字节存储午夜后的分钟数。值范围:1900-01-01 到 2079-06-06。
date占用3个字节,它比smalldatetime的前2个字节多了1字节,所以值的范围更广了。值范围:0001-01-01 到 9999-12-31。
所以,如果你使用char(10)来保存截断的日期,那么你的存储空间反而更大了。
结论: 如果是SQL Server 2005,那么请你使用smalldatetime吧,数据能节约一半,虽然查询的时候看起来没什么改变;如果你是SQL Server 2008,那么请你使用date吧,
虽然3个字节跟4个字节没有多大的差距,但是从设计上和逻辑清晰度上都有很大的提升,而且差距有些时候并不是1个字节的问题,比如当表数据量达到几个亿的时候,还是有差别的,又或者一条记录可能因为差1个字节就刚刚好给8060字节的页瓜分,这些都不容忽视的。
三、测试
下面我们就从数据存储的大小、索引存储的大小、索引使用时候的速度这几个方面进行测试:(这里只测试数据类型:,,数据的内容都是一样的)
(一) 测试前奏:
CREATE TABLE [dbo].[TestDatetime]( [Id] [int] IDENTITY(1,1) NOT NULL, [Dates] [datetime] NULL, CONSTRAINT [PK_TestDatetime] PRIMARY KEY CLUSTERED ( [Id] ASC )WITH (IGNORE_DUP_KEY = OFF) ON [PRIMARY] ) ON [PRIMARY]
(二) 测试结果:
(图2:数据空间对比)
(图3:char(10))
(图4:datetime)
(图5:smalldatetime)
多次执行,SQL Server执行时间为:[char(10)] 大部分在43~59徘徊,偶尔出现小于10的;[datetime]平均在1~2毫秒;[smalldatetime]均在1毫秒;而且大家会发现[smalldatetime]有其它的9次逻辑读取变为8次了。
--[TestChar10]
SQL Server 分析和编译时间:
CPU 时间= 0 毫秒,占用时间= 1 毫秒。
(2200 行受影响)
表‘TestChar10‘。扫描计数1,逻辑读取9 次,物理读取0 次,预读0 次,lob 逻辑读取0 次,lob 物理读取0 次,lob 预读0 次。
SQL Server 执行时间:
CPU 时间= 0 毫秒,占用时间= 59 毫秒。
SQL Server 执行时间:
CPU 时间= 0 毫秒,占用时间= 1 毫秒。
--[TestDatetime]
SQL Server 分析和编译时间:
CPU 时间= 0 毫秒,占用时间= 1 毫秒。
(2200 行受影响)
表‘TestDatetime‘。扫描计数1,逻辑读取9 次,物理读取0 次,预读0 次,lob 逻辑读取0 次,lob 物理读取0 次,lob 预读0 次。
SQL Server 执行时间:
CPU 时间= 0 毫秒,占用时间= 2 毫秒。
SQL Server 执行时间:
CPU 时间= 0 毫秒,占用时间= 1 毫秒。
--[TestSmalldatetime]
SQL Server 分析和编译时间:
CPU 时间= 0 毫秒,占用时间= 1 毫秒。
(2200 行受影响)
表‘TestSmalldatetime‘。扫描计数1,逻辑读取8 次,物理读取0 次,预读0 次,lob 逻辑读取0 次,lob 物理读取0 次,lob 预读0 次。
SQL Server 执行时间:
CPU 时间= 0 毫秒,占用时间= 1 毫秒。
SQL Server 执行时间:
CPU 时间= 0 毫秒,占用时间= 1 毫秒。
--SQL Server 2008新数据类型 SELECT CAST(‘2007-05-08 12:35:29. 1234567 +12:15‘ AS time(7)) AS ‘time‘ ,CAST(‘2007-05-08 12:35:29. 1234567 +12:15‘ AS date) AS ‘date‘ ,CAST(‘2007-05-08 12:35:29.123‘ AS smalldatetime) AS‘smalldatetime‘ ,CAST(‘2007-05-08 12:35:29.123‘ AS datetime) AS ‘datetime‘ ,CAST(‘2007-05-08 12:35:29. 1234567 +12:15‘ AS datetime2(7)) AS ‘datetime2‘ ,CAST(‘2007-05-08 12:35:29.1234567 +12:15‘ AS datetimeoffset(7)) AS ‘datetimeoffset‘;
四、参考文献
我们的系统中很常会用到SMS、Email等的发送,在我们的设计中通常会创建一个Tb_outbox表,当产生数据时,插入到Tb_outbox表,由定时器去读取Tb_outbox的数据进行发送,发送完了再修改Tb_outbox的发送状态。是的,这就是通常的做法,但是当我们的SMS、Email的发送频率和数量足够大的时候,我们的系统就会出现性能、表被锁等问题。那我们如何是好呢?
下面的设计的一个思想就是如标题所述:空间换时间。就个人而言,我感觉这个描述更加贴切:对象的职责分离,把Insert、Update、Delete等分离在不同的表中。废话不多说,下面就来看看这个设计图:
Tb_NotSent_buffer:待发送短信缓存表(即时清理).
Tb_NotSent:待发送的短信(会被定时清理)
Tb_outbox:存储历史记录的主表,该表需建立在独立的数据库。
Tb_Sent:一个参照表,为删除Tb_NotSent表做基表
数据库服务器在为表分配初始值的时候很慢,分配初始值40GB的数据文件,花了30多分钟,一开始的时候一直认为是服务器磁盘的写入速度太慢造成的,后来经过北京-宋沄剑的提醒:即时文件初始化(Instant File Initialization),设置这一选项之后,速度提升到了19秒,下面将描述这个优化的设置过程。
就数据库而言,以下几种情况需要对文件初始化:
1. 创建数据库;
2. 向现有数据库中添加文件、日志或数据;
3. 增大现有文件的大小(包括自动增长操作);
4. 还原数据库或文件组;
执行上面的操作,操作系统需要用零来填充文件进行初始化。在 SQL Server 中,可以在瞬间对数据文件进行初始化。即时文件初始化将回收已使用的磁盘空间而不使用零来填充该空间。而在向文件中写入新数据时,磁盘内容将被覆盖。日志文件不能立即初始化。
即时文件初始化功能仅在向 SQL Server (MSSQLSERVER) 服务帐户授予了 SE_MANAGE_VOLUME_NAME 之后才可用。Windows Administrator 组的成员拥有此权限,并可以通过将其他用户添加到【执行卷维护任务】安全策略中来为其授予此权限。
首先运行gpedit.msc,按照Figure1的路径,找到【执行卷维护任务】,如Figure2所示,默认的情况下它已经设置了Administrators组的;
(Figure1:gpedit.msc)
(Figure2:执行卷维护任务)
接着运行services.msc进入服务设置,查看到SQL Server (MSSQLSERVER)的登陆用户是【网络服务】(如Figure3所示),这就是造成初始化40GB文件花费了30多分钟的原因了,因为【网络服务】不具备SE_MANAGE_VOLUME_NAME的权限(可查看Administrators组成员);
(Figure3:SQL Server (MSSQLSERVER))
双击SQL Server (MSSQLSERVER)服务进入设置,在登陆的选项卡中可以看到帐号是:NT AUTHORITY\NETWORKSERVICE,如Figure4所示。
(Figure4:NT AUTHORITY\NETWORKSERVICE)
直接勾选【本地系统帐号】,在重启SQL Server (MSSQLSERVER)时遇到了下图的错误:
(Figure5:重启服务报错)
查看了相关的系统事件日志,在SQL Server服务无法使用管理员身份启动 中解决了(禁用掉SQL Server的协议Shared Memory),设置完之后重启服务SQL Server (MSSQLSERVER)。
而另外一种思路就是把NT AUTHORITY\NETWORKSERVICE加入到Administrators组中,如Figure6所示。注意:这种方式一样需要重启SQL Server (MSSQLSERVER)服务。
(Figure6:Administrators组)
下面我们就来测试下创建40GB文件的性能对比:
--测试即时文件初始化 CREATE DATABASE [TestFileInit] ON PRIMARY ( NAME = N‘TestFileInit‘, FILENAME = N‘F:\DBBackup\TestFileInit.mdf‘ , SIZE = 41943040KB , FILEGROWTH = 1024KB ) LOG ON ( NAME = N‘TestFileInit_log‘, FILENAME = N‘F:\DBBackup\TestFileInit_log.ldf‘ , SIZE = 1024KB , FILEGROWTH = 10%) GO
(Figure7:之前创建时间)
(Figure8:之后创建时间)
注意:禁用即时文件初始化功能,要想让这个禁用生效,一样需要重启SQL Server (MSSQLSERVER)服务。
1. 在安装SQL Server的时候,如何设置会使得SQL Server服务是以【网络服务】登陆的?
2. 禁用掉SQL Server的协议Shared Memory,这个协议是用来干嘛的?有什么作用?
3. 如果把NT AUTHORITY\NETWORKSERVICE加入到Windows组里面有什么不安全隐患嘛?
4. 当启用 TDE 时,即时文件初始化功能不可用。什么是TDE?
为SQL Server 2005配置Windows即时初始化
Local System/Network Service/Local Service权限详解
开文之前首先要讲讲几个概念
【覆盖查询】
当索引包含查询引用的所有列时,它通常称为“覆盖查询”。
【索引覆盖】
如果返回的数据列就包含于索引的键值中,或者包含于索引的键值+聚集索引的键值中,那么就不会发生Bookup Lookup,因为找到索引项,就已经找到所需的数据了,没有必要再到数据行去找了。这种情况,叫做索引覆盖;
【复合索引】
和复合索引相对的就是单一索引了,就是索引只包含一个字段,所以复合索引就是包含两个或者多个字段的索引;
【非键列】
键列就是在索引中所包含的列,当然非键列就是该索引之外的列了;
下面就开始今天的主题
【摘要1】
说明:第一:只能是针对非聚集索引;第二:比起复合索引是有性能上的提升的,因为索引的大小变小了;
【摘要2】
说明:这就表现为包含与不包含的关系了。有关索引级别的详细信息,请参阅表组织和索引组织。
【摘要3】
说明:当你把一个nvarchar(500)的字段设置为主键的时候,你就可以看到不能超出900字节的提示了。一般来说我们是不太会做这些操作的,所以那个错误提示也是不常见的,也许你可能还见过。
一个数据页的大小才8k,所以我们合理的设置每个字段的大小,不要浪费太多的空间,这样对查询也是有好处的,这个include就比较好的的解决了索引和空间的问题,虽然那些include的数据也会占用空间。
虽然可以设置include,但是也尽量不要使用太多的字段作为索引包含的非键列。
【摘要4】
说明:include不能使用在聚集索引中。后面的两点,这个在实际中很难想象会有这样的需求要把重复列放到一个索引中。如果有朋友遇到过这样的需求可以告知一些,不胜感激。那如果有是否可以通过不同的列名(其实保存是同样的值)来解决这个问题呢??
【摘要5】
说明:varchar(max)这样的定义是在2005之后才有的,所以这些数值也是对2005后的版本才生效的。
最大的表列数为:1024
最大非键列数为:1023
【摘要6】
说明:这些细小的东西一直没有注意过。所以要记录下来,用来“防身”,呵呵。
【摘要7】
说明:也就是说把常用的where后面的条件查询的字段作为索引的键列,而需要返回的字段就作为索引包含的非键列。
如果where的是两个或两个以上的谓词的话,这个索引就可以创建为复合索引了。以前天真的认为要返回的字段只能通过在复合索引中入这些字段,不管它是否会用来做谓词。看到这篇文章,才有了豁然开朗的感觉。
【摘要8】
说明:这个是使用include的语法,在表的设计中的索引设计中是没有办法选择的;
【摘要9】
说明:“这是因为列值被复制到了索引叶级别”这句很好的说明了物理上的存储结构和原理。
【图片解析】
上图也说明了为什么不能在聚集索引中建立具有包含性列的索引,因为非聚集索引的叶层是由索引页而不是由数据页组成,这就得说到聚集和非聚集索引的的物理存储了,聚集索引的顺序排序和存储就是基表的顺序和存储结构。
【一个例子】
SELECT UserName,Password,RealName,Mobile,Age FROM bw_Users WHERE UserName = XXX AND Age = XX
说明:
前段时间在忙数据库的表分区,经常会去上网找资料,但是在找到都是测试表分区的文章,没有实战经验的,所以在我把表分区运用到实际项目中的时候遇到了很多问题。
比如:如何确认分区字段?分区字段与聚集索引的区别与联系?如何存储分区索引?MSDN说交换分区是以秒计算,但执行40G交换分区超时?如何解决分区不断增长的问题?自动化交换分区的陷阱?
这些问题都只能自己在实战中摸索答案,后来我写了几篇关于这些问题的博文,希望对那些需要实战帮助的童鞋有一点提示和帮助。希望大家拍砖。
某生产数据库大小已经有800G了,每天进库数据量大概有150W条记录(数据空间大概为7G),而服务器现在已经没有太多的磁盘空间了,面对这样的问题,我决定对这个数据库的一个大表做表分区,每个分区的ndf文件为40G,一个分区存储1千万条记录。总的记录数保持在1.2亿的数据量。
当需要新的空间来存储新的数据的时候,我们就通过交换表分区来快速删除一个分区的数据,并使用这个分区来存放新进库的数据。
如果每次都人工来执行交换分区的话就太麻烦了,所以我对这个如何进行交换分区删除数据来清理磁盘空间做成自动化。
在执行自动化的作业却也发现了很多问题,在分区文件达到40G的情况,执行交换分区的时间会很长(在正常进数据的情况下执行作业),而对8G的数据文件进行交换分区时速度非常快, 只能先禁用掉MSSQLSERVER网络协议中的TCP/IP的协议;重启SQLServer服务;执行Job进行交换分区;
Step4:SQL Server 2005 自动化删除表分区设计方案
Step6:SQL Server 自动化管理分区设计方案(图解)
Step10:SQL Server 解读【已分区索引的特殊指导原则】(1)- 索引对齐
我会继续了解和深入表分区的一些知识,并继续写一些关于表分区实际应用的文章。但是一个人的能力和视野是比较有限,所以大家如果有更好的分区实战经验的话,欢迎拿出来分享和交流。看到一些好的博文也欢迎把地址贴出来。
标签:没有 交流 创建 童鞋 字符 产生 tool sql init
原文地址:https://www.cnblogs.com/Alex80/p/10070426.html