RBD与Cephfs

rbd,cephfs · 浏览次数 : 3

小编点评

**cephfs_data** 创建了两个数据池，分别用于 **metadata** 和 **data**。 * **metadata** 数据池用于存储cephfs元数据，如配置、存储路径等信息。 * **data** 数据池用于存储 actual data，如文件、目录等。 ** 创建 mds 进程：** 1. 指定元数据池。 2. 指定数据池。 3. 创建 mds 进程，并指定 placement 参数，设置 mds 的位置。 4. 监控 mds 的状态。 ** 用户管理：** 1. 创建用户密钥文件。 2. 将密钥文件写入 `cephfs.key` 文件中。 3. 创建用户并授权其访问数据池。 ** 文件系统状态：** 1. 使用 `ceph fs statusmycephfs` 命令检查文件系统状态。 2. 查看文件系统类型、可用空间等信息。

正文

1. RBD

rbd是Rados Block Device的简称，是ceph集群中常用的存储类型，rbd是通过linux内核模块或librbd库与osd之间完成交互，一般只有在为物理主机提供设备的时候才会使用内核rbd模块，虚拟机一般使用librbd库，当rbd使用基于内核模块驱动时，可以使用linux自带的页缓存来提高性能，当使用librbd库时，使用rbd缓存来提高性能。

1. RBD特性

支持完整和增量快照
自动精简置备
写时复制
动态调整大小
内存内缓存

rbd工作流程：

创建一个pool，创建rbd设备并挂载
用户写入数据，ceph对数据切块，每个块的大小默认为4M，每个块的名字时object+序号
将每个object通过hash算法分配给对应的pg
pg根据crush算法会寻找3个osd，把这个object保存在这3个osd上
osd实际把硬盘格式化成xfs文件系统，object存储在这个文件系统就相当于存储了一个文件 rbd0.object1.file

2. 创建rbd池并使用

2.1 创建rbd

[root@ceph01 ~]# ceph osd pool create rbd
pool 'rbd' created
[root@ceph01 ~]# ceph osd pool application enable rbd rbd
enabled application 'rbd' on pool 'rbd'
# 执行初始化rbd池
[root@ceph01 ~]# rbd pool init rbd

2.2 创建用户

[root@ceph01 ~]# ceph auth get-or-create client.rbd mon 'profile rbd' osd ' profile rbd' 
[client.rbd]
	key = AQBYmVJmdzLLEBAAAuxze+16sFzNAUsTontr8Q==
[root@ceph01 ~]# ceph auth get client.rbd > ceph.client.rbd.keyring
exported keyring for client.rbd

这里的权限就是给的profile rbd 意思就是这个用户只能对rbd进行操作，当然，是所有的rbd，如果想指定特定的rbd可以 ,allow rw pool=xxx这样就是操作特定池的rbd

2.3 下发用户key与ceph.conf

[root@ceph01 ~]# scp ceph.client.rbd.keyring /etc/ceph/ceph.conf 10.104.45.244:/etc/ceph/

2.4 客户端查看pool

来到客户端

[root@client ~]# ceph osd pool ls --name client.rbd --keyring /etc/ceph/ceph.client.rbd.keyring
device_health_metrics
test_pool
test02
rbd

权限正常

2.5 创建rbd块

这一步操作也可以在客户端上执行

[root@ceph01 ~]# rbd create rbd/test --name client.rbd --size 5G --image-format 2 --image
-feature layering

查看rbd块

[root@ceph01 ~]# rados -p rbd ls --name client.rbd
rbd_header.fd7dc75c9ce3
rbd_id.test
rbd_directory
rbd_info

目前我们看到的rbd块里面有4个对象，后期往里面写入文件的时候这里面的对象会越来越多

2.6 映射rbd并挂载

在客户端操作

# 1. 加载rbd模块
[root@client ~]# modprobe rbd
# 2. 让rbd模块开机自动加载
[root@client ~]# echo "rbd" >> /etc/modules-load.d/rbd.conf

先看一下块设备

[root@client ~]# fdisk -l
Disk /dev/sda: 50 GiB, 53687091200 bytes, 104857600 sectors
Disk model: Virtual disk    
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: gpt
Disk identifier: A41913C9-11D3-4136-9C7A-4FF37D0A02D0

Device       Start       End   Sectors  Size Type
/dev/sda1     2048   1230847   1228800  600M EFI System
/dev/sda2  1230848   3327999   2097152    1G Linux filesystem
/dev/sda3  3328000 104855551 101527552 48.4G Linux LVM


Disk /dev/mapper/openeuler-root: 44.48 GiB, 47760539648 bytes, 93282304 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/mapper/openeuler-swap: 3.93 GiB, 4219469824 bytes, 8241152 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes

目前机器上只有一个sda，并且是50G的

# 3. 映射rbd
[root@client ~]# rbd map --name client.rbd rbd/test
/dev/rbd0
# 4. 查看rbd
[root@client ~]# fdisk -l |grep /dev/rbd0
Disk /dev/rbd0: 5 GiB, 5368709120 bytes, 10485760 sectors
# 5. 格式化块设备
[root@client ~]# mkfs.xfs /dev/rbd0 
meta-data=/dev/rbd0              isize=512    agcount=8, agsize=163840 blks
         =                       sectsz=512   attr=2, projid32bit=1
         =                       crc=1        finobt=1, sparse=1, rmapbt=0
         =                       reflink=1    bigtime=0 inobtcount=0
data     =                       bsize=4096   blocks=1310720, imaxpct=25
         =                       sunit=16     swidth=16 blks
naming   =version 2              bsize=4096   ascii-ci=0, ftype=1
log      =internal log           bsize=4096   blocks=2560, version=2
         =                       sectsz=512   sunit=16 blks, lazy-count=1
realtime =none                   extsz=4096   blocks=0, rtextents=0
Discarding blocks...Done.
# 6. 挂载使用
[root@client ~]# mkdir /rbd
[root@client ~]# mount /dev/rbd0 /rbd/
[root@client ~]# echo 111 > /rbd/test

2.7 开机自动映射

这个地方是开机自动映射，并不是自动挂载，因为在挂载之前如果没有映射的话本地是没有这块磁盘的，所以也不存在能够挂载

# 1. 编写配置文件
[root@client ~]# vim /etc/ceph/rbdmap
#poolname/imagename     id=client,keyring=/etc/ceph/ceph.client.keyring
rbd/test                id=rbd
# 2. 开机自启动服务
[root@client ~]# systemctl enable --now rbdmap
Created symlink /etc/systemd/system/multi-user.target.wants/rbdmap.service → /usr/lib/systemd/system/rbdmap.service.
# 3. 开机自动挂载
[root@client ~]# tail -1 /etc/fstab 
/dev/rbd0	/rbd	xfs	defaults,_netdev 0 0

这里的id=rbd是用户名是rbd，并不是pool的名字

2.8 rbd create参数

--name：指定用哪个用户创建
--size：指定创建的块大小
--image-format：指定镜像文件格式，有1和2，1已经被废弃
--image-feature：指定镜像文件的特性，可以指定多个
--stripe-unit：指定rbd存储池中最小文件块的大小，不得小于4k，不得大于32M，默认4M
--stripe-count：如果指定了stripe-unit，则这个也需要指定，其表示一个数据可以并行写入到多少个数据块中，默认为1

Name	描述	ID
layering	支持分层快照特性，用于快照及写时复制，可以对image创建快照并保护，然后从快照克隆出新的image，父子image之间采用COW技术，共享对象数据	1
striping	支持条带化v2，类似于raid0，只不过ceph环境中的数据被分散到不同的对象中，可改善顺序读写场景较多情况的性能	2
exclusive-lock	支持独占锁，限制一个镜像只能被一个客户端使用	4
object-map	支持对象映射(依赖exclusive-lock)，加速数据导入导出及已用空间统计等，此特性开启的时候，会记录image所有对象的一个位图，用于标记对象是否真的存在，在一些场景下可以加速IO	8
fast-diff	加速计算镜像与快照快照数据差异对比(依赖object-map)	16
deep-flatten	支持快照扁平化操作，用于快照管理时解决快照依赖关系等	32
journaling	修改数据是否记录日志，该特性可以通过记录日志回复数据(依赖独占锁)，开启此特性会增加系统IO使用	64
data-pool	EC data pool support	128

在创建时，指定多个rbd特性

[root@ceph01 ~]# rbd create rbd/test --name client.rbd --size 5G --image-format 2 --image
-feature layering,exclusive-lock,object-map

也可以直接指定默认的特性，可以直接使用id，如果我想要 layering+deep-flatten，那么id就是1+32=33

[root@ceph01 ~]# ceph config set client rbd_default_features 33
[root@ceph01 ~]# rbd create rbd/test01 --size 1G
[root@ceph01 ~]# rbd info rbd/test01
rbd image 'test01':
	size 1 GiB in 256 objects
	order 22 (4 MiB objects)
	snapshot_count: 0
	id: fdb9d96db2f9
	block_name_prefix: rbd_data.fdb9d96db2f9
	format: 2
	features: layering, deep-flatten
	op_features: 
	flags:
	create_timestamp: Sun May 26 11:37:08 2024
	access_timestamp: Sun May 26 11:37:08 2024
	modify_timestamp: Sun May 26 11:37:08 2024

看，这样设置默认之后创建出来的rbd就都是layering, deep-flatten 这两个特性了

2.9 rbd映射基本操作

# 查看已映射设备
[root@client ~]# rbd showmapped
id  pool  namespace  image  snap  device   
0   rbd              test   -     /dev/rbd0
# 取消映射，必须先取消挂载
[root@client ~]# umount /rbd 
[root@client ~]# rbd unmap rbd/test

3. 块设备操作

3.1 调整rbd大小

# 调大
[root@ceph01 ~]# rbd resize rbd/test --size 10G
Resizing image: 100% complete...done.
# 调小，慎重操作
[root@ceph01 ~]# rbd resize rbd/test --size 8G --allow-shrink
Resizing image: 100% complete...done.
[root@client ~]# fdisk -l |grep rbd
Disk /dev/rbd0: 8 GiB, 8589934592 bytes, 16777216 sectors

3.2 复制块设备

[root@ceph01 ~]# rbd ls rbd
test
test01
[root@ceph01 ~]# rbd cp rbd/test01 rbd/copy01
Image copy: 100% complete...done.

3.3 移动到其他pool

移动到其他的池也就是将rbd复制到其他的池里去

# 创建一个池
[root@ceph01 ~]# ceph osd pool ls
device_health_metrics
test_pool
test02
rbd
[root@ceph01 ~]# ceph osd pool create mv_rbd 
pool 'mv_rbd' created
[root@ceph01 ~]# ceph osd pool application enable mv_rbd rbd
enabled application 'rbd' on pool 'mv_rbd'
[root@ceph01 ~]# rbd pool init mv_rbd

# 将copy01移动到 mv_rbd
[root@ceph01 ~]# rbd cp rbd/copy01 mv_rbd/mv_copy
Image copy: 100% complete...done.

当客户端挂载了一个rbd(已经格式化完成的)，并且想挂载这个rbd复制过来的另一个rbd时，这时候系统是会报错的，原因是因为这两个rbd是完全一样的，系统识别是有点问题的，想要挂载的话必须取消之前的rbd映射，也就是说同一时间只能挂载一个，不管你是挂载的复制的还是被复制的，这俩只能有一个存在于系统上

4. rbd快照管理

4.1 创建快照

[root@ceph01 ~]# rbd snap create rbd/test@snapshot01
Creating snap: 100% complete...done.
[root@ceph01 ~]# rbd snap ls rbd/test
SNAPID  NAME        SIZE   PROTECTED  TIMESTAMP               
     4  snapshot01  8 GiB             Sun May 26 12:34:03 2024

4.2 回滚快照

# 到客户端删除rbd上的所有文件
[root@client ~]# cd /rbd/
[root@client rbd]# ls
test
[root@client rbd]# rm test -f

# 卸载rbd
[root@client ~]# umount /rbd
# 回滚
[root@client ~]# rbd snap rollback rbd/test@snapshot01 --name client.rbd
Rolling back to snapshot: 100% complete...done
# 重新挂载查看文件
[root@client ~]# mount -a
[root@client ~]# cd /rbd/
[root@client rbd]# ls
test

4.3 保护快照

开启了这个功能之后快照无法被删除

[root@ceph01 ~]# rbd snap protect rbd/test@snapshot01
[root@ceph01 ~]# rbd info rbd/test@snapshot01
rbd image 'test':
	size 8 GiB in 2048 objects
	order 22 (4 MiB objects)
	snapshot_count: 1
	id: fd7dc75c9ce3
	block_name_prefix: rbd_data.fd7dc75c9ce3
	format: 2
	features: layering
	op_features: 
	flags: 
	create_timestamp: Sun May 26 10:22:11 2024
	access_timestamp: Sun May 26 10:22:11 2024
	modify_timestamp: Sun May 26 10:22:11 2024
	protected: True

4.4 删除快照

[root@ceph01 ~]# rbd snap rm rbd/test@snapshot01
Removing snap: 0% complete...failed.
rbd: snapshot 'snapshot01' is protected from removal.
2024-05-26T12:44:29.788+0800 7fa5126fc1c0 -1 librbd::Operations: snapshot is protected

现在是删不掉的，因为被保护了，我们需要取消保护

[root@ceph01 ~]# rbd snap unprotect rbd/test@snapshot01
[root@ceph01 ~]# rbd snap rm rbd/test@snapshot01
Removing snap: 100% complete...done.

4.5 克隆快照

克隆之前需要对被克隆的快照进行保护，原因是因为克隆出来的新快照是完全依赖于原先的快照的，如果原先的快照被删除，那么克隆出来的快照也将无法使用

# 先创建一个快照
[root@ceph01 ~]# rbd snap create rbd/test@snapshot01
Creating snap: 100% complete...done.
# 保护快照
[root@ceph01 ~]# rbd snap protect rbd/test@snapshot01
# 克隆新快照
[root@ceph01 ~]# rbd  clone rbd/test@snapshot01 rbd/clone_snap
[root@ceph01 ~]# rbd ls rbd/
clone_snap
copy01
test
test01

查看信息

[root@ceph01 ~]# rbd info rbd/clone_snap
rbd image 'clone_snap':
	size 8 GiB in 2048 objects
	order 22 (4 MiB objects)
	snapshot_count: 0
	id: fe76c24b54cf
	block_name_prefix: rbd_data.fe76c24b54cf
	format: 2
	features: layering
	op_features: 
	flags: 
	create_timestamp: Sun May 26 12:51:40 2024
	access_timestamp: Sun May 26 12:51:40 2024
	modify_timestamp: Sun May 26 12:51:40 2024
	parent: rbd/test@snapshot01
	overlap: 8 GiB

注意对比这个克隆出来的与其他的差异，这个rbd他有一个

parent: rbd/test@snapshot01，也就是说他是基于这个的，如果这个快照被删除那么这个克隆出来的也将无法使用，前面提到了

如果说我我就要让他独立存在呢？不受其他快照的影响，可以做到吗？是可以的

# 合并父镜像/快照拉平
[root@ceph01 ~]# rbd flatten rbd/clone_snap
Image flatten: 100% complete...done.
[root@ceph01 ~]# rbd info rbd/clone_snap
rbd image 'clone_snap':
	size 8 GiB in 2048 objects
	order 22 (4 MiB objects)
	snapshot_count: 0
	id: fe76c24b54cf
	block_name_prefix: rbd_data.fe76c24b54cf
	format: 2
	features: layering
	op_features: 
	flags: 
	create_timestamp: Sun May 26 12:51:40 2024
	access_timestamp: Sun May 26 12:51:40 2024
	modify_timestamp: Sun May 26 12:51:40 2024

这个时候再去看，他就没有parent这个条目了，也就是说他可以独立存在了

4.6 客户端配置rbd缓存

[root@client rbd]# vim /etc/ceph/ceph.conf
# 加入下列这些配置
[clienti.rbd]
rbd_cache = true
rbd_cache_size = 33554432 # 32M
rbd_cache_max_dirty = 25165824
rbd_cache_target_dirty = 16777216
rbd_cache_max_dirty_age = 1
rbd_cache_writethrough_until_flush = true

rbd缓存：开启之后想往磁盘写数据会先内存，然后再从内存里写入到磁盘，加速写入速度，开启之后也会面临风险，因为数据是先到内存，万一断电那么就会丢失32M数据，因为缓存大小是32M

2. CephFS

cephfs提供就是一个文件系统，不像rbd一样需要自己格式化

文件系统(cephfs)与块存储(rbd)不同的是，块存储只需要一个存储池就可以，而文件系统需要2个存储池，一个用来存放元数据，存放元数据的存储池需要有一个mds来读取。一个用来存放数据

1. mds是什么

mds：matadata server

文件系统需要存放元数据和数据，但是存储池里面存储的是对象，并不是元数据，那么需要使用文件系统的话就必须具备将对象转换成元素据的能力，这个就是mds的活，也就是转换元素据的，他还能够充当元数据的缓存，他的内存是可以缓存一部分元数据的。

2. 创建文件系统

2.1 创建2个存储池

# 1. 创建2个存储池 data_cephfs,metadata_cephfs
# 存储池名字可以随便起
[root@ceph01 ~]# ceph osd pool create cephfs_data
pool 'cephfs_data' created
[root@ceph01 ~]# ceph osd pool create cephfs_metadata
pool 'cephfs_metadata' created
# 2. 绑定文件系统类型
[root@ceph01 ~]# ceph osd pool application enable cephfs_metadata cephfs
enabled application 'cephfs' on pool 'cephfs_metadata'
[root@ceph01 ~]# ceph osd pool application enable cephfs_data cephfs
enabled application 'cephfs' on pool 'cephfs_data'

2.2 创建cephfs

# 先指定元数据池，再指定数据池
[root@ceph01 ~]# ceph fs new mycephfs cephfs_metadata cephfs_data
new fs with metadata pool 13 and data pool 12

2.3 创建mds

如果不创建mds的话集群过一会的健康状态就会变成 HEALTH_ERR

[root@ceph01 ~]# ceph orch apply mds mycephfs --placement="3"
Scheduled mds.mycephfs update...

2.4 查看文件系统信息

[root@ceph01 ~]# ceph fs dump
e8
enable_multiple, ever_enabled_multiple: 1,1
default compat: compat={},rocompat={},incompat={1=base v0.20,2=client writeable ranges,3=default file layouts on dirs,4=dir inode in separate object,5=mds uses versioned encoding,6=dirfrag is stored in omap,8=no anchor table,9=file layout v2,10=snaprealm v2}
legacy client fscid: 1
 
Filesystem 'mycephfs' (1)
fs_name	mycephfs
epoch	5
flags	12
created	2024-05-26T06:36:24.540439+0000
modified	2024-05-26T06:38:54.292138+0000
tableserver	0
root	0
session_timeout	60
session_autoclose	300
max_file_size	1099511627776
required_client_features	{}
last_failure	0
last_failure_osd_epoch	0
compat	compat={},rocompat={},incompat={1=base v0.20,2=client writeable ranges,3=default file layouts on dirs,4=dir inode in separate object,5=mds uses versioned encoding,6=dirfrag is stored in omap,7=mds uses inline data,8=no anchor table,9=file layout v2,10=snaprealm v2}
max_mds	1
in	0
up	{0=65215}
failed	
damaged	
stopped	
data_pools	[12]
metadata_pool	13
inline_data	disabled
balancer	
standby_count_wanted	1
[mds.mycephfs.ceph03.hgvfpj{0:65215} state up:active seq 2 join_fscid=1 addr [v2:10.104.45.243:6824/75731152,v1:10.104.45.243:6825/75731152] compat {c=[1],r=[1],i=[7ff]}]
 
 
Standby daemons:
 
[mds.mycephfs.ceph02.dhucfo{-1:65221} state up:standby seq 1 join_fscid=1 addr [v2:10.104.45.241:6826/3559035759,v1:10.104.45.241:6827/3559035759] compat {c=[1],r=[1],i=[7ff]}]
[mds.mycephfs.ceph01.fkwkdc{-1:65469} state up:standby seq 1 join_fscid=1 addr [v2:192.168.101.10:6824/2486210203,v1:192.168.101.10:6825/2486210203] compat {c=[1],r=[1],i=[7ff]}]
dumped fsmap epoch 8

2.5 创建用户，并发放keyring

[root@ceph01 ~]# ceph auth get-or-create client.cephfs mon 'allow r' mds 'allow *' osd 'allow rw pool=cephfs_metadata,allow rw pool=cephfs_data' -o ceph.client.cephfs.keyring
[root@ceph01 ~]# scp ceph.client.cephfs.keyring 10.104.45.244:/etc/ceph/

Authorized users only. All activities may be monitored and reported.
root@10.104.45.244's password: 
ceph.client.cephfs.keyring                             100%   64   120.7KB/s   00:00

2.6 客户端执行挂载

挂载有2种方式

1. 基于ceph-fuse的方式
1. 基于系统内核的方式（推荐这种）

# 需要安装ceph客户端，如果不安装mount -t ceph 会报错没有这个类型

# 1. 将用户密钥保存到一个文件。 只要密钥，其他任何东西都不用写
[root@client ~]# cat /etc/ceph/ceph.client.cephfs.keyring 
[client.cephfs]
	key = AQAP2lJm1BGICRAAblGZADS8xWfDsWl2keqzQw==
[root@client ~]# echo "AQAP2lJm1BGICRAAblGZADS8xWfDsWl2keqzQw==" > cephfs.key
[root@client ~]# mkdir /cephfs
[root@client ~]# mount -t ceph -o name=cephfs,secretfile=./cephfs.key  192.168.101.10,192.168.101.20,192.168.101.30:/ /cephfs

2.7 永久挂载

[root@client ~]# vim /etc/fstab
192.168.101.10,192.168.101.20,192.168.101.30:/ /cephfs ceph defaults,_netdev,name=cephfs,secretfile=/etc/ceph/cephfs.key

2.8 权限补充

刚刚我们所给的权限是可以直接挂载cephfs的根目录的，如果我们只想给这个用户挂载根目录下的某个目录，那么就需要做进一步的权限控制了

[root@ceph01 ~]# ceph fs authorize mycephfs client.user01 /nas rwps
[client.user01]
	key = AQCz4FJmZc+JAxAAtPPefz1dXPnwfoHH4LUXPw==

这里的mycephfs就是这个用户可以操作的文件系统名， /nas 就是它能够挂载的目录权限是rwps也就是全部权限 rw很好理解，p是管理权限，s就是文件系统(fs中的s)

2.9 查看文件系统状态

[root@ceph01 ~]# ceph fs status
mycephfs - 1 clients
========
RANK  STATE            MDS               ACTIVITY     DNS    INOS   DIRS   CAPS  
 0    active  mycephfs.ceph03.hgvfpj  Reqs:    0 /s    11     13     12      1   
      POOL         TYPE     USED  AVAIL  
cephfs_metadata  metadata   300k   142G  
  cephfs_data      data       0    142G  
     STANDBY MDS        
mycephfs.ceph02.dhucfo  
mycephfs.ceph01.fkwkdc  
MDS version: ceph version 16.2.13 (5378749ba6be3a0868b51803968ee9cde4833a3e) pacific (stable)

RBD与Cephfs

小编点评

正文

1. RBD

1. RBD特性

2. 创建rbd池并使用

2.1 创建rbd

2.2 创建用户

2.3 下发用户key与ceph.conf

2.4 客户端查看pool

2.5 创建rbd块

2.6 映射rbd并挂载

先看一下块设备

2.7 开机自动映射

2.8 rbd create参数

2.9 rbd映射基本操作

3. 块设备操作

3.1 调整rbd大小

3.2 复制块设备

3.3 移动到其他pool

4. rbd快照管理

4.1 创建快照

4.2 回滚快照

4.3 保护快照

4.4 删除快照

4.5 克隆快照

4.6 客户端配置rbd缓存

2. CephFS

1. mds是什么

2. 创建文件系统

2.1 创建2个存储池

2.2 创建cephfs

2.3 创建mds

2.4 查看文件系统信息

2.5 创建用户，并发放keyring

2.6 客户端执行挂载

2.7 永久挂载

2.8 权限补充

2.9 查看文件系统状态

与RBD与Cephfs相似的内容：

RBD与Cephfs

k8s使用rbd作为存储

[转帖]Redis持久化文件RDB的格式解析

# 热门排行