您的位置：首页 > 数据库 > Redis

Redis持久化

2014-12-24 13:54 267 查看

redis的持久化：

快照（snapshot）：特定时间、特定命令、特定条件来触发，把某一时刻在内存中的数据全部写出到硬盘当中去。
快照的时间不是实时的，可能会有数据的丢失。
在宕机之后，会把全部dump文件中的数据读入到内存中，会I/O密集。

AOF（appendonlyfile）：每一次更新都会记录日志。日志文件是在快照的基础上来写的。
（在AOF这里的“快照”跟上面的“快照”不是一个东西。）

redis的rdb和aof持久化的区别：

参考：http://ptc.35.com/?p=275

aof，rdb是两种redis持久化的机制。用于crash后，redis的恢复。

rdb的特性如下：

Code:
fork一个进程，遍历hashtable，利用copyonwrite，把整个dbdump保存下来。
save,shutdown,slave命令会触发这个操作。
粒度比较大，如果save,shutdown,slave之前crash了，则中间的操作没办法恢复。

aof有如下特性：

Code:
把写操作指令，持续的写到一个类似日志文件里。（类似于从postgresql等数据库导出sql一样，只记录写操作）
粒度较小，crash之后，只有crash之前没有来得及做日志的操作没办法恢复。

两种区别就是，一个是持续的用日志记录写操作，crash后利用日志恢复；一个是平时写操作的时候不触发写，只有手动提交save命令，或者是关闭命令时，才触发备份操作。

选择的标准，就是看系统是愿意牺牲一些性能，换取更高的缓存一致性（aof），还是愿意写操作频繁的时候，不启用备份来换取更高的性能，待手动运行save的时候，再做备份（rdb）。rdb这个就更有些eventuallyconsistent的意思了。

Redis持久化实践及灾难恢复模拟：

参考：http://heylinux.com/archives/1932.html

一、对Redis持久化的探讨与理解

目前Redis持久化的方式有两种：RDB和AOF

首先，我们应该明确持久化的数据有什么用，答案是用于重启后的数据恢复。
Redis是一个内存数据库，无论是RDB还是AOF，都只是其保证数据恢复的措施。
所以Redis在利用RDB和AOF进行恢复的时候，都会读取RDB或AOF文件，重新加载到内存中。

RDB就是Snapshot快照存储，是默认的持久化方式。
可理解为半持久化模式，即按照一定的策略周期性的将数据保存到磁盘。
对应产生的数据文件为dump.rdb，通过配置文件中的save参数来定义快照的周期。
下面是默认的快照设置：

1	save9001 #当有一条Keys数据被改变时，900秒刷新到Disk一次

2	save30010 #当有10条Keys数据被改变时，300秒刷新到Disk一次

3	save6010000 #当有10000条Keys数据被改变时，60秒刷新到Disk一次

Redis的RDB文件不会坏掉，因为其写操作是在一个新进程中进行的。
当生成一个新的RDB文件时，Redis生成的子进程会先将数据写到一个临时文件中，然后通过原子性rename系统调用将临时文件重命名为RDB文件。
这样在任何时候出现故障，Redis的RDB文件都总是可用的。

同时，Redis的RDB文件也是Redis主从同步内部实现中的一环。
第一次Slave向Master同步的实现是：
Slave向Master发出同步请求，Master先dump出rdb文件，然后将rdb文件全量传输给slave，然后Master把缓存的命令转发给Slave，初次同步完成。
第二次以及以后的同步实现是：
Master将变量的快照直接实时依次发送给各个Slave。
但不管什么原因导致Slave和Master断开重连都会重复以上两个步骤的过程。
Redis的主从复制是建立在内存快照的持久化基础上的，只要有Slave就一定会有内存快照发生。

可以很明显的看到，RDB有它的不足，就是一旦数据库出现问题，那么我们的RDB文件中保存的数据并不是全新的。
从上次RDB文件生成到Redis停机这段时间的数据全部丢掉了。

AOF(Append-OnlyFile)比RDB方式有更好的持久化性。
由于在使用AOF持久化方式时，Redis会将每一个收到的写命令都通过Write函数追加到文件中，类似于MySQL的binlog。
当Redis重启是会通过重新执行文件中保存的写命令来在内存中重建整个数据库的内容。
对应的设置参数为：
$vim/opt/redis/etc/redis_6379.conf

1	appendonly yes #启用AOF持久化方式

2	appendfilenameappendonly.aof #AOF文件的名称，默认为appendonly.aof

3	#appendfsyncalways#每次收到写命令就立即强制写入磁盘，是最有保证的完全的持久化，但速度也是最慢的，一般不推荐使用。

4	appendfsynceverysec #每秒钟强制写入磁盘一次，在性能和持久化方面做了很好的折中，是受推荐的方式。

5	#appendfsyncno#完全依赖OS的写入，一般为30秒左右一次，性能最好但是持久化最没有保证，不被推荐。

AOF的完全持久化方式同时也带来了另一个问题，持久化文件会变得越来越大。
比如我们调用INCRtest命令100次，文件中就必须保存全部的100条命令，但其实99条都是多余的。
因为要恢复数据库的状态其实文件中保存一条SETtest100就够了。
为了压缩AOF的持久化文件，Redis提供了bgrewriteaof命令。
收到此命令后Redis将使用与快照类似的方式将内存中的数据以命令的方式保存到临时文件中，最后替换原来的文件，以此来实现控制AOF文件的增长。
由于是模拟快照的过程，因此在重写AOF文件时并没有读取旧的AOF文件，而是将整个内存中的数据库内容用命令的方式重写了一个新的AOF文件。
对应的设置参数为:
$vim/opt/redis/etc/redis_6379.conf

1	no-appendfsync-on-rewrite yes #在日志重写时，不进行命令追加操作，而只是将其放在缓冲区里，避免与命令的追加造成DISKIO上的冲突。

2	auto-aof-rewrite-percentage100 #当前AOF文件大小是上次日志重写得到AOF文件大小的二倍时，自动启动新的日志重写过程。

3	auto-aof-rewrite-min-size64mb #当前AOF文件启动新的日志重写过程的最小值，避免刚刚启动Reids时由于文件尺寸较小导致频繁的重写。

到底选择什么呢？下面是来自官方的建议：
通常，如果你要想提供很高的数据保障性，那么建议你同时使用两种持久化方式。
如果你可以接受灾难带来的几分钟的数据丢失，那么你可以仅使用RDB。
很多用户仅使用了AOF，但是我们建议，既然RDB可以时不时的给数据做个完整的快照，并且提供更快的重启，所以最好还是也使用RDB。
因此，我们希望可以在未来（长远计划）统一AOF和RDB成一种持久化模式。

在数据恢复方面：
RDB的启动时间会更短，原因有两个：
一是RDB文件中每一条数据只有一条记录，不会像AOF日志那样可能有一条数据的多次操作记录。所以每条数据只需要写一次就行了。
另一个原因是RDB文件的存储格式和Redis数据在内存中的编码格式是一致的，不需要再进行数据编码工作，所以在CPU消耗上要远小于AOF日志的加载。

二、灾难恢复模拟

既然持久化的数据的作用是用于重启后的数据恢复，那么我们就非常有必要进行一次这样的灾难恢复模拟了。
据称如果数据要做持久化又想保证稳定性，则建议留空一半的物理内存。因为在进行快照的时候，fork出来进行dump操作的子进程会占用与父进程一样的内存，真正的copy-on-write，对性能的影响和内存的耗用都是比较大的。
目前，通常的设计思路是利用Replication机制来弥补aof、snapshot性能上的不足，达到了数据可持久化。
即Master上Snapshot和AOF都不做，来保证Master的读写性能，而Slave上则同时开启Snapshot和AOF来进行持久化，保证数据的安全性。

首先，修改Master上的如下配置：
$sudovim/opt/redis/etc/redis_6379.conf

1	#save9001#禁用Snapshot

2	#save30010

3	#save6010000

5	appendonlyno #禁用AOF

接着，修改Slave上的如下配置：
$sudovim/opt/redis/etc/redis_6379.conf

01	save9001 #启用Snapshot

save30010

03	save6010000

05	appendonly yes #启用AOF

06	appendfilenameappendonly.aof #AOF文件的名称

07	#appendfsyncalways

08	appendfsynceverysec #每秒钟强制写入磁盘一次

09	#appendfsyncno

11	no-appendfsync-on-rewrite yes #在日志重写时，不进行命令追加操作

12	auto-aof-rewrite-percentage100 #自动启动新的日志重写过程

13	auto-aof-rewrite-min-size64mb #启动新的日志重写过程的最小值

分别启动Master与Slave
$/etc/init.d/redisstart

启动完成后在Master中确认未启动Snapshot参数
redis127.0.0.1:6379>CONFIGGETsave
1)"save"
2)""

然后通过以下脚本在Master中生成25万条数据：
dongguo@redis:/opt/redis/data/6379$catredis-cli-generate.temp.sh

01	#!/bin/bash

03	REDISCLI= "redis-cli-aslavepass-n1SET"

ID=1

06	while (($ID<50001))

do

08	INSTANCE_NAME= "i-2-$ID-VM"

09	UUID=` cat /proc/sys/kernel/random/uuid`

10	PRIVATE_IP_ADDRESS=10.` echo "$RANDOM%255+1" \| bc `.` echo "$RANDOM%255+1" \| bc `.` echo "$RANDOM%255+1" \| bc `\

11	CREATED=` date "+%Y-%m-%d%H:%M:%S" `

13	$REDISCLIvm_instance:$ID:instance_name "$INSTANCE_NAME"

14	$REDISCLIvm_instance:$ID:uuid "$UUID"

15	$REDISCLIvm_instance:$ID:private_ip_address "$PRIVATE_IP_ADDRESS"

16	$REDISCLIvm_instance:$ID:created "$CREATED"

18	$REDISCLIvm_instance:$INSTANCE_NAME: id "$ID"

20	ID=$(($ID+1))

done

dongguo@redis:/opt/redis/data/6379$./redis-cli-generate.temp.sh

在数据的生成过程中，可以很清楚的看到Master上仅在第一次做Slave同步时创建了dump.rdb文件，之后就通过增量传输命令的方式给Slave了。
dump.rdb文件没有再增大。
dongguo@redis:/opt/redis/data/6379$ls-lh
total4.0K
-rw-r--r--1rootroot10Sep2700:40dump.rdb

而Slave上则可以看到dump.rdb文件和AOF文件在不断的增大，并且AOF文件的增长速度明显大于dump.rdb文件。
dongguo@redis-slave:/opt/redis/data/6379$ls-lh
total24M
-rw-r--r--1rootroot15MSep2712:06appendonly.aof
-rw-r--r--1rootroot9.2MSep2712:06dump.rdb

等待数据插入完成以后，首先确认当前的数据量。
redis127.0.0.1:6379>info

01	redis_version:2.4.17

02	redis_git_sha1:00000000

03	redis_git_dirty:0

04	arch_bits:64

05	multiplexing_api:epoll

06	gcc_version:4.4.5

07	process_id:27623

08	run_id:e00757f7b2d6885fa9811540df9dfed39430b642

09	uptime_in_seconds:1541

10	uptime_in_days:0

11	lru_clock:650187

12	used_cpu_sys:69.28

13	used_cpu_user:7.67

14	used_cpu_sys_children:0.00

15	used_cpu_user_children:0.00

16	connected_clients:1

17	connected_slaves:1

18	client_longest_output_list:0

19	client_biggest_input_buf:0

20	blocked_clients:0

21	used_memory:33055824

22	used_memory_human:31.52M

23	used_memory_rss:34717696

24	used_memory_peak:33055800

25	used_memory_peak_human:31.52M

26	mem_fragmentation_ratio:1.05

27	mem_allocator:jemalloc-3.0.0

loading:0

29	aof_enabled:0

30	changes_since_last_save:250000

31	bgsave_in_progress:0

32	last_save_time:1348677645

33	bgrewriteaof_in_progress:0

34	total_connections_received:250007

35	total_commands_processed:750019

36	expired_keys:0

37	evicted_keys:0

38	keyspace_hits:0

39	keyspace_misses:0

40	pubsub_channels:0

41	pubsub_patterns:0

42	latest_fork_usec:246

43	vm_enabled:0

44	role:master

45	slave0:10.6.1.144,6379,online

46	db1:keys=250000,expires=0

当前的数据量为25万条key，占用内存31.52M。

然后我们直接Kill掉Master的Redis进程，模拟灾难。
dongguo@redis:/opt/redis/data/6379$sudokillall-9redis-server

我们到Slave中查看状态：
redis127.0.0.1:6379>info

01	redis_version:2.4.17

02	redis_git_sha1:00000000

03	redis_git_dirty:0

04	arch_bits:64

05	multiplexing_api:epoll

06	gcc_version:4.4.5

07	process_id:13003

08	run_id:9b8b398fc63a26d160bf58df90cf437acce1d364

09	uptime_in_seconds:1627

10	uptime_in_days:0

11	lru_clock:654181

12	used_cpu_sys:29.69

13	used_cpu_user:1.21

14	used_cpu_sys_children:1.70

15	used_cpu_user_children:1.23

16	connected_clients:1

17	connected_slaves:0

18	client_longest_output_list:0

19	client_biggest_input_buf:0

20	blocked_clients:0

21	used_memory:33047696

22	used_memory_human:31.52M

23	used_memory_rss:34775040

24	used_memory_peak:33064400

25	used_memory_peak_human:31.53M

26	mem_fragmentation_ratio:1.05

27	mem_allocator:jemalloc-3.0.0

loading:0

29	aof_enabled:1

30	changes_since_last_save:3308

31	bgsave_in_progress:0

32	last_save_time:1348718951

33	bgrewriteaof_in_progress:0

34	total_connections_received:4

35	total_commands_processed:250308

36	expired_keys:0

37	evicted_keys:0

38	keyspace_hits:0

39	keyspace_misses:0

40	pubsub_channels:0

41	pubsub_patterns:0

42	latest_fork_usec:694

43	vm_enabled:0

44	role:slave

45	aof_current_size:17908619

46	aof_base_size:16787337

47	aof_pending_rewrite:0

48	aof_buffer_length:0

49	aof_pending_bio_fsync:0

50	master_host:10.6.1.143

51	master_port:6379

52	master_link_status:down

53	master_last_io_seconds_ago:-1

54	master_sync_in_progress:0

55	master_link_down_since_seconds:25

56	slave_priority:100

57	db1:keys=250000,expires=0

可以看到master_link_status的状态已经是down了，Master已经不可访问了。
而此时，Slave依然运行良好，并且保留有AOF与RDB文件。

下面我们将通过Slave上保存好的AOF与RDB文件来恢复Master上的数据。

首先，将Slave上的同步状态取消，避免主库在未完成数据恢复前就重启，进而直接覆盖掉从库上的数据，导致所有的数据丢失。
redis127.0.0.1:6379>SLAVEOFNOONE
OK

确认一下已经没有了master相关的配置信息：
redis127.0.0.1:6379>INFO

01	redis_version:2.4.17

02	redis_git_sha1:00000000

03	redis_git_dirty:0

04	arch_bits:64

05	multiplexing_api:epoll

06	gcc_version:4.4.5

07	process_id:13003

08	run_id:9b8b398fc63a26d160bf58df90cf437acce1d364

09	uptime_in_seconds:1961

10	uptime_in_days:0

11	lru_clock:654215

12	used_cpu_sys:29.98

13	used_cpu_user:1.22

14	used_cpu_sys_children:1.76

15	used_cpu_user_children:1.42

16	connected_clients:1

17	connected_slaves:0

18	client_longest_output_list:0

19	client_biggest_input_buf:0

20	blocked_clients:0

21	used_memory:33047696

22	used_memory_human:31.52M

23	used_memory_rss:34779136

24	used_memory_peak:33064400

25	used_memory_peak_human:31.53M

26	mem_fragmentation_ratio:1.05

27	mem_allocator:jemalloc-3.0.0

loading:0

29	aof_enabled:1

30	changes_since_last_save:0

31	bgsave_in_progress:0

32	last_save_time:1348719252

33	bgrewriteaof_in_progress:0

34	total_connections_received:4

35	total_commands_processed:250311

36	expired_keys:0

37	evicted_keys:0

38	keyspace_hits:0

39	keyspace_misses:0

40	pubsub_channels:0

41	pubsub_patterns:0

42	latest_fork_usec:1119

43	vm_enabled:0

44	role:master

45	aof_current_size:17908619

46	aof_base_size:16787337

47	aof_pending_rewrite:0

48	aof_buffer_length:0

49	aof_pending_bio_fsync:0

50	db1:keys=250000,expires=0

在Slave上复制数据文件：
dongguo@redis-slave:/opt/redis/data/6379$tarcvf/home/dongguo/data.tar*
appendonly.aof
dump.rdb

将data.tar上传到Master上，尝试恢复数据:
可以看到Master目录下有一个初始化Slave的数据文件，很小，将其删除。
dongguo@redis:/opt/redis/data/6379$ls-l
total4
-rw-r--r--1rootroot10Sep2700:40dump.rdb
dongguo@redis:/opt/redis/data/6379$sudorm-fdump.rdb

然后解压缩数据文件：
dongguo@redis:/opt/redis/data/6379$sudotarxf/home/dongguo/data.tar
dongguo@redis:/opt/redis/data/6379$ls-lh
total29M
-rw-r--r--1rootroot18MSep2701:22appendonly.aof
-rw-r--r--1rootroot12MSep2701:22dump.rdb

启动Master上的Redis；
dongguo@redis:/opt/redis/data/6379$sudo/etc/init.d/redisstart
StartingRedisserver...

查看数据是否恢复：
redis127.0.0.1:6379>INFO

01	redis_version:2.4.17

02	redis_git_sha1:00000000

03	redis_git_dirty:0

04	arch_bits:64

05	multiplexing_api:epoll

06	gcc_version:4.4.5

07	process_id:16959

08	run_id:6e5ba6c053583414e75353b283597ea404494926

09	uptime_in_seconds:22

10	uptime_in_days:0

11	lru_clock:650292

12	used_cpu_sys:0.18

13	used_cpu_user:0.20

14	used_cpu_sys_children:0.00

15	used_cpu_user_children:0.00

16	connected_clients:1

17	connected_slaves:0

18	client_longest_output_list:0

19	client_biggest_input_buf:0

20	blocked_clients:0

21	used_memory:33047216

22	used_memory_human:31.52M

23	used_memory_rss:34623488

24	used_memory_peak:33047192

25	used_memory_peak_human:31.52M

26	mem_fragmentation_ratio:1.05

27	mem_allocator:jemalloc-3.0.0

loading:0

29	aof_enabled:0

30	changes_since_last_save:0

31	bgsave_in_progress:0

32	last_save_time:1348680180

33	bgrewriteaof_in_progress:0

34	total_connections_received:1

35	total_commands_processed:1

36	expired_keys:0

37	evicted_keys:0

38	keyspace_hits:0

39	keyspace_misses:0

40	pubsub_channels:0

41	pubsub_patterns:0

42	latest_fork_usec:0

43	vm_enabled:0

44	role:master

45	db1:keys=250000,expires=0

可以看到25万条数据已经完整恢复到了Master上。

此时，可以放心的恢复Slave的同步设置了。
redis127.0.0.1:6379>SLAVEOF10.6.1.1436379
OK

查看同步状态：
redis127.0.0.1:6379>INFO

01	redis_version:2.4.17

02	redis_git_sha1:00000000

03	redis_git_dirty:0

04	arch_bits:64

05	multiplexing_api:epoll

06	gcc_version:4.4.5

07	process_id:13003

08	run_id:9b8b398fc63a26d160bf58df90cf437acce1d364

09	uptime_in_seconds:2652

10	uptime_in_days:0

11	lru_clock:654284

12	used_cpu_sys:30.01

13	used_cpu_user:2.12

14	used_cpu_sys_children:1.76

15	used_cpu_user_children:1.42

16	connected_clients:2

17	connected_slaves:0

18	client_longest_output_list:0

19	client_biggest_input_buf:0

20	blocked_clients:0

21	used_memory:33056288

22	used_memory_human:31.52M

23	used_memory_rss:34766848

24	used_memory_peak:33064400

25	used_memory_peak_human:31.53M

26	mem_fragmentation_ratio:1.05

27	mem_allocator:jemalloc-3.0.0

loading:0

29	aof_enabled:1

30	changes_since_last_save:0

31	bgsave_in_progress:0

32	last_save_time:1348719252

33	bgrewriteaof_in_progress:1

34	total_connections_received:6

35	total_commands_processed:250313

36	expired_keys:0

37	evicted_keys:0

38	keyspace_hits:0

39	keyspace_misses:0

40	pubsub_channels:0

41	pubsub_patterns:0

42	latest_fork_usec:12217

43	vm_enabled:0

44	role:slave

45	aof_current_size:17908619

46	aof_base_size:16787337

47	aof_pending_rewrite:0

48	aof_buffer_length:0

49	aof_pending_bio_fsync:0

50	master_host:10.6.1.143

51	master_port:6379

52	master_link_status:up

53	master_last_io_seconds_ago:0

54	master_sync_in_progress:0

55	slave_priority:100

56	db1:keys=250000,expires=0

master_link_status显示为up，同步状态正常。

在此次恢复的过程中，我们同时复制了AOF与RDB文件，那么到底是哪一个文件完成了数据的恢复呢？
实际上，当Redis服务器挂掉时，重启时将按照以下优先级恢复数据到内存：
1.如果只配置AOF,重启时加载AOF文件恢复数据；
2.如果同时配置了RDB和AOF,启动是只加载AOF文件恢复数据;
3.如果只配置RDB,启动是将加载dump文件恢复数据。

也就是说，AOF的优先级要高于RDB，这也很好理解，因为AOF本身对数据的完整性保障要高于RDB。

在此次的案例中，我们通过在Slave上启用了AOF与RDB来保障了数据，并恢复了Master。

但在我们目前的线上环境中，由于数据都设置有过期时间，采用AOF的方式会不太实用，过于频繁的写操作会使AOF文件增长到异常的庞大，大大超过了我们实际的数据量，这也会导致在进行数据恢复时耗用大量的时间。
因此，可以在Slave上仅开启Snapshot来进行本地化，同时可以考虑将save中的频率调高一些或者调用一个计划任务来进行定期bgsave的快照存储，来尽可能的保障本地化数据的完整性。
在这样的架构下，如果仅仅是Master挂掉，Slave完整，数据恢复可达到100%。
如果Master与Slave同时挂掉的话，数据的恢复也可以达到一个可接受的程度。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航