您的位置:首页 > 编程语言

BCache源码浅析之一基本使用与代码模块

2016-01-02 17:46 591 查看
BCache源码浅析

BCache可用于云平台加速磁盘的读写性能;但目前该技术由于较新还不够稳定。不过由于它已经移入到了Linux内核源码中,所以稳定性应会得到不断的提升。本系类文章将尝试分析Linux Kernel/Driver/Md/Bcache的工作原理与架构, 但由于个人能力与时间原因可能存在很多不足; 另一个想法是和大家交流bcache((其中bset部分的一些代码还未理解); 所以这里只能是浅析, 可能有些地方的理解存在错误, 希望能与大家交流讨论。

1.作用与架构

1.1 简介

bcache是按照SSD特性来设计的,只按擦除桶大小进行分配,使用b+tree和日志混合方法来跟踪缓存数据,缓存数据可以是桶上的任意一个扇区。bcache最大程度上减少了随机写的代价,它按顺序填充一个桶,重新使用时只需将桶设置为无效。bcache支持写直达和回写策略。回写默认情况下是关闭的,可以在运行时改变。bcache还在最大程度上保护你的数据,在系统异常关机时数据仍然是可靠的。因为它被设计为只有在数据完全写回存储设备才确认写成功。回写策略能够缓存绝大多数的写请求,然后再按照索引将脏数据按次序写回到后端存储设备。SSD的特点就是随机IO速度很快,而对于大块顺序IO的提升却并不大。bcache会检测顺序IO并忽略;还会对每一个任务记录动态的平均IO大小,当平均IO大小超过截止值时该任务后面的IO将会被忽略,这样就可以透传备份或者大文件拷贝。

在flash上发现数据IO错误时,首先会尝试读以恢复数据或者将该缓存项置为无效。对于不可恢复的错误,例如元数据或脏数据,bcache将会自动关闭缓存。如果有脏数据在缓存中,这时会首先关闭回写策略然后再等待脏数据刷回。

1.2 基本使用:

1.编译安装

# git clone http://evilpiepirate.org/git/bcache-tools.git
安装前需要两个依赖包pkg-config和libblkid-dev

# apt-get install pkg-config libblkid-dev

然后编译

# make

# make install

2.使用方式

2.1 创建bcache设备

命令:make-bcache -C [cache-device] -B [backing-device]

以vde作为缓存盘,vdb和vdc作为后端设备创建bcache设备,有几个后端设备就会生成几个bcache设备。

# make-bcache -C /dev/vde -B /dev/vdb /dev/vdc

UUID: 8941a5d1-074e-4cc6-a6dd-56cb1f65aed3

Set UUID: 7681dbb3-6558-4e60-b062-5fbb648f6665

version: 0

nbuckets: 20480

block_size: 1

bucket_size: 1024

nr_in_set: 1

nr_this_dev: 0

first_bucket: 1

UUID: 9e28d09b-942d-487e-be22-9132063da572

Set UUID: 7681dbb3-6558-4e60-b062-5fbb648f6665

version: 1

block_size: 1

data_offset: 16

UUID: 1bacf83e-2754-4d6a-a964-09e53e6e679f

Set UUID: 7681dbb3-6558-4e60-b062-5fbb648f6665

version: 1

block_size: 1

data_offset: 16

# ls /dev/bcache* -la

brw-rw—T 1 root disk 250, 0 5月22 17:23 /dev/bcache0

brw-rw—T 1 root disk 250, 1 5月22 17:23 /dev/bcache1

然后可以使用lsblk查看这些设备的对应关系

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT

vda 254:0 0 20G 0 disk

└─vda1 254:1 0 20G 0 part /

vdb 254:16 0 50G 0 disk

└─bcache1 250:1 0 50G 0 disk

vdc 254:32 0 50G 0 disk

└─bcache0 250:0 0 50G 0 disk

vdd 254:48 0 50G 0 disk

└─bcache2 250:2 0 50G 0 disk

vde 254:64 0 10G 0 disk

├─bcache0 250:0 0 50G 0 disk

└─bcache1 250:1 0 50G 0 disk

2.2 添加一块后端设备(backing device)

命令:make-bcache -B [backing-device]

# make-bcache -B /dev/vdh

UUID: bd1bc116-6f39-401e-a328-3bc0af4ac8d1

Set UUID: cd86812e-d24c-46da-b949-683969b59575

version: 1

block_size: 1

data_offset: 16

接着看到对应的设备是/dev/bcache3

查看cache set uuid

# ls -la /sys/fs/bcache/

total 0

drwxr-xr-x 3 root root 0 May 22 17:23 .

drwxr-xr-x 6 root root 0 May 22 17:21 ..

drwxr-xr-x 7 root root 0 May 22 17:26 7681dbb3-6558-4e60-b062-5fbb648f6665

–w——- 1 root root 4096 May 2217:57 register

–w——- 1 root root 4096 May 2220:44 register_quiet

“attach”后端设备

命令:echo [cache set uuid] >/sys/block/bcache
/bcache/attach

attach之后,缓存设备就能够对新加的后端设备缓存数据了。

# echo 7681dbb3-6558-4e60-b062-5fbb648f6665 >/sys/block/bcache3/bcache/attach

2.3 删除一块后端设备

1)detach backing device

命令:echo [cache set uuid] >/sys/block/bcache
/bcache/detach

detach后端设备后,对应的bcache设备还是存在的,只不过这个bcache设备是无缓存的,查看其状态可以看到是no cache

比如删除bcache3

# echo 7681dbb3-6558-4e60-b062-5fbb648f6665 >/sys/block/bcache3/bcache/detach

# cat /sys/block/bcache3/bcache/state

no cache

2)stop backing device

命令:echo 1 > /sys/block/bcache
/bcache/stop

detach后端设备后,对应的bcache设备还存在,如果要删除,还需要stop该设备

# echo 1 > /sys/block/bcache3/bcache/stop

# ls /dev/bcache* -la

brw-rw—T 1 root disk 250, 0 May 22 17:51 /dev/bcache0

brw-rw—T 1 root disk 250, 1 May 22 17:54 /dev/bcache1

brw-rw—T 1 root disk 250, 2 May 22 20:42 /dev/bcache2

2.4 新增一块缓存设备(caching device)

1)创建cache设备

命令:make-bcache -C [cache device]

有可能对应的设备已经有一些元数据,需要使用wipefs清理掉

# make-bcache -C /dev/vdf

Device /dev/vdf already has a non-bcache superblock, remove it using wipefs andwipefs -a

# wipefs -a /dev/vdf

4 bytes were erased at offset 0x27fff0000 (linux_raid_member)

they were: fc 4e 2b a9

# make-bcache -C /dev/vdf

UUID: 1f8bc71f-0106-4da5-b781-5de7b1517706

Set UUID: 7bfb0d17-b6d0-4fe9-942b-a1c75a0893ab

version: 0

nbuckets: 20480

block_size: 1

bucket_size: 1024

nr_in_set: 1

nr_this_dev: 0

first_bucket: 1

2)与bcache设备关联

命令:echo [cache set uuid] >/sys/block/bcache
/bcache/attach

缓存设备需要与bcache设备关联后,才能作为对应bcache设备缓存。

# echo 7bfb0d17-b6d0-4fe9-942b-a1c75a0893ab >/sys/block/bcache3/bcache/attach

2.5 删除cache设备

首先确保没有backing device在使用它,上述的“删除一块后端设备”有说明如何设置取消后端设备对缓存设备的使用。

然后可以使用lsblk来查看是否有盘在引用它。

在在/sys/fs/bcache目录下还有对应的cacheset uuid,unregister该set uuid后这个cache设备就被视为删除了。

命令:echo 1 > /sys/fs/bcache/[cache setuuid]/unregister

比如vde已经不作为任何设备的缓存盘了,在/sys/fs/bcache目录下有对应的cache set uuid

# ls /sys/fs/bcache/ -la

total 0

drwxr-xr-x 4 root root 0 5月 26 09:07 .

drwxr-xr-x 6 root root 0 5月 26 09:06 ..

drwxr-xr-x 7 root root 0 5月 26 09:077681dbb3-6558-4e60-b062-5fbb648f6665

drwxr-xr-x 7 root root 0 5月 26 09:077bfb0d17-b6d0-4fe9-942b-a1c75a0893ab

–w——- 1 root root 4096 5月 26 09:07 register

1.3 源码模块与接口说明

文件

作用

重要接口函数

函数说明

注释

Super.c

驱动注册 与bache初始化

bcache_init

bcache_exit

驱动注册与卸载

register_bcache

Make-bcache的内核态实现

Bcache_init调用sysfs_create_files(bcache_kobj, files)注册

register_bdev

注册对block层的设备,该设备作为最终的/dev/bcache

register_cache

注册缓存设备

Request.c

实现对block层的访问接口

cached_dev_make_request

处理block层的request

Bcache_init==>

bch_cached_dev_request_init

cached_dev_write

cached_dev_read

处理设备的读写

Sysfs.c

对用户层的sys文件接口

bch_cached_dev_files

bch_cache_set_files

bch_cache_files

Closure.c

Closure用于维护对象的引用计数和回调完成

该模块为底层机制

Stats.c

包含一个timer用于时间统计

用于参数统计

Util.c

1. CRC

2.uuid

3.
bch_bio_map

4.字符串处理

辅助函数

Util.h

Heap,

Fifo,

array

封装了这3种数据结构

Alloc.c

Bucket的分配与回收管理

bch_bucket_alloc

bch_allocator_thread

桶分配,当剩余量不足时启动线程来分配

bch_bucket_free

回收桶,但不直接回收而是标记为GC。由GC统一回收

bch_alloc_sectors

为bkey分配新的桶,并更新bkey相关字段

Beset.c

Bkey的集合管理

bch_btree_iter_init

bch_btree_iter_next

bch_btree_iter_next_filte

Btreez结构中的bkey集合的访问迭代器

该模块实现了t->tree binary search点相关代码目前还没读懂

bch_btree_sort_partial

Btreez结构中的bkey的排序

Extents.c

对btree的key的访问

bch_extent_keys_ops

页节点操作集合

mca_alloc中赋值,操作包含合法性判断,合并与排序

bch_btree_keys_ops

非页节点操作结合

Io.c

对缓存设备与主设备的操作封装

Bch_bio 开头函数操作主设备

Bch_bbio开头操作cache设备

该模块为底层机制,建立在bio机制上

Movinggc.c

Bucket回收管理

bch_moving_gc

根据bucket的标志位做实际回收

Writeback.c

缓存写回机制

bch_cached_dev_writeback_init

初始化, super.c调用

bch_writeback_thread

Writeback线程

bcache_dev_sectors_dirty_add

标记缓存设备的sector为dirty

Extents调用该函数

Btree.c

Btree的建立,插入与替换操作,以及btree的垃圾标记

btree_gc_开头函数为gc相关

bch_gc_thread为gc线程

bch_btree_insert_check_key

bch_btree_insert

节点插入操作

没有直接的 delete操作,通过replace来实现key的替换

bch_btree_node_alloc

bch_btree_set_root

btree_node_free

Btree节点的分配与回收

bch_btree_map_keys

按bkey查找,并执行响应操作

Journal.c

对btree页节点的操作做 journal管理用于减少插入时的非顺序读写

bch_journal

向btree添加时,调用该函数建立journal

bch_journal_replay

下次打开时对未处理的btree insert做重新提交操作

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: