您的位置：首页 > 大数据

第十三章——表和索引分区（2）——使用拆分删除和加载大数据

2013-04-03 23:37 309 查看

前言：

很多时候需要对大数据量进行归档或者删除，并周期性加载大数据量到一个大表中，现在来做个简单的例子，你经常需要删除大数据量表中的大量数据。同时，你想加载大量数据到这个表中，当表中数据有数十亿时，这个操作可能消耗几个小时，但是如果你的表有分区，那么执行起来会很有效。本文将模拟删除一个季度的数据，并加载整个季度到现有表，其中使用了拆分（splitting）、合并（merging）和切换分区（switching）。假设我们需要存储季度数据，并且每个季度存放在一个分区。现在需要清除最久的季度和加载最新的季度数据，比如分区中包含：1、季度1：2011年1月到2011年3月2、季度2：2011年4月到2011年6月3、季度3：2011年7月到2011年9月4、季度4：2011年10月到2011年12月现在需要删除季度1并加载2012年第一季度的数据到一个新的分区中。为了实现这个功能，可以使用在date和time列上针对每个季度创建分区。可以合并两个分区或者拆分现有有分区。本文将演示使用滑动窗口实现，在滑动窗口中，可以清除最久的分区。

步骤：

1、打开SQLServer2、执行下面脚本，创建一个分区函数，并使用RANGE RIGHT，然后创建一个分区架构：

USE Sample_DBUSE master
GO

IF DB_ID('Sample_DB') IS NOT NULL 
    DROP DATABASE Sample_DB
	
CREATE DATABASE Sample_DB ON PRIMARY
(
	NAME=N'Sample_DB',FILENAME=N'C:\SQLData\Sample_DB.mdf',
	SIZE=3072KB,FILEGROWTH=1024KB
) LOG ON
(
	NAME =N'Sample_DB_log',FILENAME=N'C:\SQLData\Sample_DB_log.ldf',
	SIZE=1024KB ,FILEGROWTH=10%
)
GO

USE Sample_DB
GO
CREATE PARTITION FUNCTION pf_Quaterly_RangeRight(DATETIME)
AS RANGE RIGHT FOR VALUES
('20110101','20110401','20110701','20111001','20120101')
GO

CREATE PARTITION SCHEME ps_Quaterly_RangeRight
AS PARTITION pf_Quaterly_RangeRight ALL TO ([PRIMARY])
GO

注意：当分区列是datetime类型时，应该总是尝试使用RANGE RIGHT，这样会使得分区更好，如果使用RANGE LEFT，你必须考虑特定的time部分，包含毫秒。

3、创建一个表tbl_MyData并插入275000行数据：

USE Sample_DBGOCREATE TABLE tbl_MyData    (      RecordDateTime DATETIME NOT NULL ,      RecordID INT NOT NULL ,      RecordData VARCHAR(40) NOT NULL    )GOCREATE CLUSTERED INDEX idx_tbl_MyData_RecordDateTimeON tbl_MyData(RecordDateTime,RecordID) ON ps_Quaterly_RangeRight(RecordDateTime)INSERT  INTO tbl_MyData        SELECT  '2011' + RIGHT('0' + CAST(( CASE WHEN ID % 12 = 0 THEN 12                                                 ELSE ID % 12                                            END ) AS VARCHAR), 2) + RIGHT('0'                                                              + CAST(( CASE                                                              WHEN ID % 28 = 0                                                              THEN 28                                                              ELSE ID % 28                                                              END ) AS VARCHAR),                                                              2) AS RecordDateTime ,                ID ,                RecordData        FROM    ( SELECT TOP 275000                            ID = ROW_NUMBER() OVER ( ORDER BY c1.name ) ,                            RecordData = NEWID()                  FROM      sys.columns AS C1                            CROSS JOIN sys.columns AS C2                            CROSS JOIN sys.columns AS C3                ) AS TGO

4、执行下面语句，检验分区数量：

USE Sample_DBGOSELECT  partition_number ,        rowsFROM    sys.partitionsWHERE   object_id = OBJECT_ID('tbl_MyData')ORDER BY partition_number

5、结果如下：

6、现在先移除2011年第一个季度也就是分区1的数据：

USE Sample_DBGOIF OBJECT_ID('tbl_MyStagingData') IS NOT NULL     DROP TABLE tbl_MyStagingDataCREATE TABLE tbl_MyStagingData    (      RecordDateTime DATETIME NOT NULL ,      RecordID INT NOT NULL ,      RecordData VARCHAR(40) NOT NULL    )GOCREATE CLUSTERED INDEX idx_tbl_MyStagingData_RecordDateTime ON tbl_MyStagingData(RecordDateTime,RecordID)GO

7、现在，切换tbl_MyData的分区2到分期表tbl_MyStagingData并清空分期表。在清空以后，检查分区数据：

USE Sample_DBGOALTER TABLE tbl_MyDataSWITCH PARTITION 2 TO tbl_MyStagingData PARTITION 1GOTRUNCATE TABLE tbl_MyStagingDataGOSELECT  partition_number ,        rowsFROM    sys.partitionsWHERE   object_id = OBJECT_ID('tbl_MyData')ORDER BY partition_number

8、结果可见，分区已经清空：

9、现在，把分区2与分区1合并，设置下一个使用分区架构的文件组到PRIMARY并验证数据：

 USE Sample_DBGOALTER PARTITION FUNCTION pf_Quaterly_RangeRight()MERGE RANGE ('20110101')GOALTER PARTITION SCHEME ps_Quaterly_RangeRightNEXT USED [PRIMARY]SELECT  partition_number ,        rowsFROM    sys.partitionsWHERE   object_id = OBJECT_ID('tbl_MyData')ORDER BY partition_number

10、结果如下：

11、现在加载数据到tbl_MyData，为了实现这个步骤，需要生成一些数据并插入到分期表tbl_MyStagingData：

USE Sample_DBGOALTER TABLE tbl_MyStagingDataADD CONSTRAINT ck_tbl_MyStagingData_RecordDateTimeCHECK (RecordDateTime>='20120101' AND RecordDateTime<'20120401')INSERT  INTO tbl_MyStagingData        SELECT  '2012' + RIGHT('0' + CAST(( CASE WHEN ID % 3 = 0 THEN 3                                                 ELSE ID % 3                                            END ) AS VARCHAR), 2) + RIGHT('0'                                                              + CAST(( CASE                                                              WHEN ID % 28 = 0                                                              THEN 28                                                              ELSE ID % 28                                                              END ) AS VARCHAR),                                                              2) AS RecordDateTime ,                ID ,                RecordData        FROM    ( SELECT TOP 275000                            ID = ROW_NUMBER() OVER ( ORDER BY c1.name ) ,                            RecordData = NEWID()                  FROM      sys.columns AS C1                            CROSS JOIN sys.columns AS C2                            CROSS JOIN sys.columns AS C3                ) AS TGO

12、现在通过拆分最后一个空的分区来创建一个新的分区，拆分后，把分区tbl_MyStagingData切换到tbl_MyData的分区5中，并设置下一个分区架构使用Primary：

USE Sample_DBGOALTER PARTITION FUNCTION pf_Quaterly_RangeRight()SPLIT RANGE ('20120401')GOALTER TABLE tbl_MyStagingDataSWITCH PARTITION 1 TO tbl_MyData PARTITION 5ALTER PARTITION SCHEME ps_Quaterly_RangeRightNEXT USED [PRIMARY]GO

13、现在来验证一下数据：

USE Sample_DBGOSELECT  partition_number ,        rowsFROM    sys.partitionsWHERE   object_id = OBJECT_ID('tbl_MyData')ORDER BY partition_number

14、结果如下：

分析：

本文使用了CREATEPARTITION FUNCTION命令，首先创建了一个分区函数pf_Quaterly_RangeRight，通过定义RecordDateTime来做分区列，使得20110101~20120101进行分区。然后使用CREATE PARTITION SCHEME命令创建分区架构ps_Quaterly_RangeRight，映射所有分区到PRIMARY文件组。通过一些列的操作处理分区中的数据。

扩展知识：

本文显示了一个简单的例子，可以在生产环境中配置周期性实现。重点是脚本要足够智能化和动态化。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航