Ceph是什么?为什么用到Ceph?
集中式存储
集中式存储的优点:
管理简单,因为所有数据都存放在同一个节点上,所以数据的管理与维护相对简单
安全性高,集中式存储中只有一个数据中心,因此更容易实现安全控制
数据统一管理
常见的的集中式存储有:
分布式存储
分布式存储是一种数据存储技术。在分布式存储架构中,信息被存储于多个独立且互不干扰的设备中。不同于传统的集中式存储,分布式存储采用可扩展的存储结构,这在一定程度上提高了存储系统的可靠性,可用性和访问效率。
现在常用的存储服务有NFS,那么为什么不采用NFS呢?
我们不妨这样设想一下,NFS如果节点挂掉了,那么我们把这个节点上的硬盘拔出来,换到其他节点上,在其他节点上起一个NFS,那么数据依旧是存在的,但是,如果坏的不是节点而是硬盘呢?可能你想到了给硬盘做RAID,好,保留这个问题,继续往后看。
Moosefs就是一个分布式存储,他的技术架构就是提供一个Mater节点,来管理整个集群,client只需要通过挂载Master节点就可以往集群内存储文件
大家都知道,一个文件是由文件元数据以及文件数据组成的,文件元数据保存的就是一些简单的概要,比如这个文件多大,文件的拥有人,所属组以及访问权限这些东西,元数据一般都不大,所以会直接保存在Master节点上,而文件本身的数据则会保存在存储节点上,并且是有多副本机制的。完全不怕某个节点挂掉而导致数据丢失。
虽然文件的元数据占用的空间并不大,但是在现在这个时代,也奈何不了他多啊,当元数据过多时,Master就成了Moosefs的瓶颈,因为所有的请求都是需要经过Master的,并且Moosefs(到写这篇文章的时间)是没办法做Master高可用的,想给他做高可用的方式就是2个Master,使用Keepalive提供一个VIP(虚拟IP),访问这个VIP就可以访问到2个Master节点,但是,在同一时间内,只有一个Master在工作,所以瓶颈依旧存在
看到了MooseFS的瓶颈之后,GlusterFS采取了去Master,即不需要Master节点,每个存储节点上都内嵌一个可以代替Master工作的组件,这样操作下来,所有的元数据并不是都放在同一个节点上,每个节点都只需要保存部分元数据,好像这个架构没什么问题了哈,但是我们回想一下MooseFS是如何使用的?是不是客户端挂载Master就可以使用集群了?但是现在没有Master了,或者说每个节点都是Master,那怎么办呢?
GlusterFS就要求使用GlusterFS的客户端安装一个软件,Gluster-client,并且给这个软件写一个配置文件,把所有的存储节点IP地址写进去,这样操作。但是如果后期节点需要更换,改动起来就比较麻烦。我们再来看看Ceph是怎么做的
Ceph的做法就跟前两者不同了,Moose FS不是说Master上的元数据会成为瓶颈吗?GlusterFS不是说客户端操作不易吗?那我来折中一下呢?Ceph他保留了Master节点,但是,这个Master保存的不是文件的元数据,是集群的元数据,也就是保存的集群的信息,那么既然Master保存的是集群元数据,那么文件元数据保存到哪了呢?他有专门的文件元数据节点,所有的文件元数据都保存在这个节点上,记住,这个节点只保存元数据,其他一概不管。这样说来,既解决了客户端配置维护困难,也解决了Master节点的瓶颈。
这就是Ceph的架构,他兼顾了 易维护、性能,这就是他流行的原因
现在再回头去想NFS的问题,为什么不做RAID呢?因为做RAID成本就比用Ceph的成本高了
Ceph的版本命名跟OpenStack一样,采取英文字母命令A-Z,目前最新版是R版
ceph的部署方式有:
主机名 | IP | 系统 |
---|---|---|
ceph01 | 192.168.101.10 | 欧拉 22.03 |
ceph02 | 192.168.101.20 | 欧拉 22.03 |
ceph03 | 192.168.101.30 | 欧拉 22.03 |
每个节点都要做
[root@localhost ~]# hostnamectl set-hostname ceph01
[root@ceph01 ~]# systemctl disable --now firewalld
[root@ceph01 ~]# setenforce 0
[root@ceph01 ~]# cat /etc/selinux/config
# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
# enforcing - SELinux security policy is enforced.
# permissive - SELinux prints warnings instead of enforcing.
# disabled - No SELinux policy is loaded.
SELINUX=disabled
[root@ceph01 ~]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ceph01
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.101.10 ceph01
192.168.101.20 ceph02
192.168.101.30 ceph03
[root@ceph01 ~]# yum install chrony -y
[root@ceph01 ~]# systemctl enable --now chronyd
安装git是因为需要拉取cephadm,因为欧拉操作系统暂时用不了官方的cephadm,需要下载另一个版本
[root@ceph01 ~]# yum install git -y
[root@ceph01 ~]# git clone https://gitee.com/yftyxa/openeuler-cephadm.git
[root@ceph01 ~]# cd openeuler-cephadm/
[root@ceph01 openeuler-cephadm]# ls
cephadm
[root@ceph01 openeuler-cephadm]# mv cephadm /usr/sbin/
[root@ceph01 ~]# wget-O /etc/yum.repos.d/huawei.repo https://repo.huaweicloud.com/repository/conf/CentOS-8-reg.repo
# 一定要指定版本安装
[root@ceph01 ~]# yum install podman-3.3.1*
不要使用cephadm add-repo 因为在欧拉上是不支持的
[root@ceph01 ~]# cephadm version
ceph version 16.2.13 (5378749ba6be3a0868b51803968ee9cde4833a3e) pacific (stable)
[root@ceph01 ~]# vim /etc/yum.repos.d/ceph.repo
[ceph]
name=ceph
baseurl=https://mirrors.huaweicloud.com/ceph/rpm-pacific/el8/x86_64/
gpgcheck=0
enabled=1
[root@ceph01 ~]# scp /etc/yum.repos.d/ceph.repo ceph02:/etc/yum.repos.d/
Authorized users only. All activities may be monitored and reported.
ceph.repo 100% 107 209.4KB/s 00:00
[root@ceph01 ~]# scp /etc/yum.repos.d/ceph.repo ceph03:/etc/yum.repos.d/
Authorized users only. All activities may be monitored and reported.
ceph.repo 100% 107 203.1KB/s 00:00
[root@ceph01 ~]# cephadm bootstrap --mon-ip 192.168.101.10 --initial-dashboard-user admin --initial-dashboard-password 123 --dashboard-password-noupdate
--mon-ip指定monitor,指定一个就行,后期可以添加
--initial-dashboard-user admin 指定dashboard的用户名是admin,不指定也行
--initial-dashboard-password 123 指定dashboard的用户名是123,不指定也行
--dashboard-password-noupdate 第一次登录dashboard无需修改密码
安装完之后会有一个回显
Ceph Dashboard is now available at:
URL: https://localhost.localdomain:8443/
User: admin
Password: 123
Enabling client.admin keyring and conf on hosts with "admin" label
You can access the Ceph CLI with:
sudo /usr/sbin/cephadm shell --fsid dc6d1544-17ef-11ef-9393-000c297dea16 -c /etc/ceph/ceph.conf -k /etc/ceph/ceph.client.admin.keyring
Please consider enabling telemetry to help improve Ceph:
ceph telemetry on
For more information see:
https://docs.ceph.com/docs/pacific/mgr/telemetry/
Bootstrap complete.
[root@ceph01 ~]# yum install ceph-common --nobest
如果不加上nobest的话,他会报错,因为我们的版本是16.2.13,而仓库里的是common是16.2.15,不是最佳匹配
加上nobest的话他就不会报错了
装完之后我们可以使用ceph -s 来查看集群状态
[root@ceph01 ~]# ceph -s
cluster:
id: dc6d1544-17ef-11ef-9393-000c297dea16
health: HEALTH_WARN
OSD count 0 < osd_pool_default_size 3
services:
mon: 1 daemons, quorum ceph01 (age 30m)
mgr: ceph01.luyssm(active, since 27m)
osd: 0 osds: 0 up, 0 in
data:
pools: 0 pools, 0 pgs
objects: 0 objects, 0 B
usage: 0 B used, 0 B / 0 B avail
pgs:
1. health: HEALTH_OK 这个代表集群是OK的
2. health: HEALTH_WARN 这个代表的是有警告
3. health: HEALTH_ERR 这个代表集群出现错误,无法提供服务
mon: 1 daemons, quorum ceph01 (age 30m)
mgr: ceph01.luyssm(active, since 27m)
osd: 0 osds: 0 up, 0 in
这里可以看到有一个mon,没有osd,没有osd是up
osd的状态:
up且in: 代表osd运行正常且至少承载了一个PG
up且out:代表osd运行正常,但是没有承载PG,新加入集群的osd为这个状态
down且in:表示osd运行异常,但承载了一个PG
down且out:表示osd运行异常,且没有承载PG
[root@ceph01 ~]# ceph health detail
HEALTH_WARN OSD count 0 < osd_pool_default_size 3
[WRN] TOO_FEW_OSDS: OSD count 0 < osd_pool_default_size 3
这里会详细的说明为什么不健康
有一个命令 ceph orch 他是用来管理节点以及 orch 信息的c
[root@ceph01 ~]# ceph orch ls
NAME PORTS RUNNING REFRESHED AGE PLACEMENT
alertmanager ?:9093,9094 1/1 2m ago 45m count:1
crash 1/1 2m ago 45m *
grafana ?:3000 1/1 2m ago 45m count:1
mgr 1/2 2m ago 45m count:2
mon 1/5 2m ago 45m count:5
node-exporter ?:9100 1/1 2m ago 45m *
prometheus ?:9095 1/1 2m ago 45m count:1
[root@ceph01 ~]# ceph orch ps
NAME HOST PORTS STATUS REFRESHED AGE MEM USE MEM LIM VERSION IMAGE ID CONTAINER ID
alertmanager.ceph01 ceph01 *:9093,9094 running (52m) 48s ago 53m 23.8M - 0.23.0 ba2b418f427c 922cc9da5d93
crash.ceph01 ceph01 running (53m) 48s ago 53m 6665k - 16.2.13 e08a45948779 beb27dd23017
grafana.ceph01 ceph01 *:3000 running (51m) 48s ago 52m 52.8M - 8.3.5 dad864ee21e9 8040b45413ea
mgr.ceph01.luyssm ceph01 *:9283 running (54m) 48s ago 54m 430M - 16.2.13 e08a45948779 46795e2d6fd4
mon.ceph01 ceph01 running (54m) 48s ago 55m 127M 2048M 16.2.13 e08a45948779 40063aa2ec52
node-exporter.ceph01 ceph01 *:9100 running (52m) 48s ago 52m 20.3M - 1.3.1 1dbe0e931976 526975c5960b
prometheus.ceph01 ceph01 *:9095 running (52m) 48s ago 52m 68.7M - 2.33.4 514e6a882f6e 7c8ef8a42751
通过ps可以看到ceph具体的进程,运行在哪个机器上,内存占用是多少,允许最大占用内存是多少,这里的image id就是容器使用的镜像ID,cephadm部署出来的集群就是基于容器的
需要将/etc/ceph/ceph.pub这个公钥传到被添加的节点上
[root@ceph01 ceph]# ssh-copy-id -f -i /etc/ceph/ceph.pub ceph02
[root@ceph01 ceph]# ssh-copy-id -f -i /etc/ceph/ceph.pub ceph03
# 先移除本来就存在的podman1版本
[root@ceph02 ~]# yum remove podman* -y
# 安装podman3
[root@ceph02 ~]# yum install podman-3* -y
[root@ceph03 ~]# yum install podman-3* -y
[root@ceph01 ceph]# ceph orch host add ceph02 192.168.101.20
Added host 'ceph02' with addr '192.168.101.20'
[root@ceph01 ceph]# ceph orch host add ceph03 192.168.101.30
Added host 'ceph03' with addr '192.168.101.30'
[root@ceph01 ceph]# ceph orch host ls
HOST ADDR LABELS STATUS
ceph01 192.168.101.10 _admin
ceph02 192.168.101.20
ceph03 192.168.101.30
3 hosts in cluster
Lables 就是标签,当某个节点拥有_admin标签时,集群就会把连接客户端连接ceph集群的认证文件发放到该节点上
目前是只有ceph01拥有admin标签,在/etc/ceph 下有一些其他节点没有的文件
[root@ceph01 ceph]# ls /etc/ceph/
ceph.client.admin.keyring ceph.conf ceph.pub rbdmap
# ceph03查看
[root@ceph03 ~]# ls /etc/ceph/
rbdmap
# 给ceph03打标签
[root@ceph01 ceph]# ceph orch host label add ceph03 _admin
Added label _admin to host ceph0
# 重新查看ceph03
[root@ceph03 ~]# ls /etc/ceph/
ceph.client.admin.keyring ceph.conf rbdmap
[root@ceph01 ceph]# ceph orch host ls
HOST ADDR LABELS STATUS
ceph01 192.168.101.10 _admin
ceph02 192.168.101.20
ceph03 192.168.101.30 _admin
这个时候,ceph03就可以使用ceph客户端来操作ceph集群了
[root@ceph01 ceph]# ceph orch host label rm ceph03 _admin
Removed label _admin from host ceph03
[root@ceph01 ceph]# ceph orch host ls
HOST ADDR LABELS STATUS
ceph01 192.168.101.10 _admin
ceph02 192.168.101.20
ceph03 192.168.101.30
[root@ceph01 ~]# ceph orch apply mon --unmanaged
Scheduled mon update...
[root@ceph01 ~]# ceph orch apply mon 3
Scheduled mon update...
[root@ceph01 ~]# ceph orch ls
NAME PORTS RUNNING REFRESHED AGE PLACEMENT
alertmanager ?:9093,9094 1/1 97s ago 100m count:1
crash 3/3 99s ago 100m *
grafana ?:3000 1/1 97s ago 100m count:1
mgr 2/2 99s ago 100m count:2
mon 3/3 99s ago 52s count:3
node-exporter ?:9100 3/3 99s ago 100m *
prometheus ?:9095 1/1 97s ago 100m count:1
如果有一个mon节点挂掉了,而此时又添加了一台新的节点,那么按照ceph集群的控制,可能会在新的节点上启动一个mon,但我们并不想他更换mon节点,此时可以这么做
# 1. 先给节点打标签
[root@ceph01 ~]# ceph orch host label add ceph01 mon
Added label mon to host ceph01
[root@ceph01 ~]# ceph orch host label add ceph02 mon
Added label mon to host ceph02
[root@ceph01 ~]# ceph orch host label add ceph03 mon
Added label mon to host ceph03
# 2. 开启标签匹配
[root@ceph01 ~]# ceph orch apply mon label:mon
Scheduled mon update...
这样操作之后,mon就只会在有mon标签的节点上去启动
首先需要ceph节点上有空闲的盘,然后将空闲的盘添加进来,必须是一块裸盘,在一千的版本是允许是一个目录的
[root@ceph01 ~]# ceph orch daemon add osd ceph01:/dev/sdb
Created osd(s) 0 on host 'ceph01'
[root@ceph01 ~]# ceph orch daemon add osd ceph01:/dev/sdc
Created osd(s) 1 on host 'ceph01'
[root@ceph01 ~]# ceph orch daemon add osd ceph01:/dev/sdd
Created osd(s) 2 on host 'ceph01'
在添加节点之后ceph会将这块盘做成一个lvm,可以使用lvs去查看
[root@ceph01 ~]# lvs
LV VG Attr LSize Pool Origin Data% Meta% Move Log Cpy%Sync Convert
osd-block-92842562-ddd9-4703-a406-0c5608943e67 ceph-4b36ac72-7807-4e01-97d6-a47974ff5819 -wi-ao---- <50.00g
osd-block-ca2d6b54-650f-41bc-9519-08eeb5d405fb ceph-615825c2-3c13-4367-98e3-7b9197eda340 -wi-ao---- <50.00g
osd-block-2e02f3ac-9768-48d7-8d7b-591d1f5badd5 ceph-bc484b43-f83f-43b2-b49e-a838c8d07e75 -wi-ao---- <50.00g
home openeuler -wi-ao---- <29.90g
root openeuler -wi-ao---- <61.24g
swap openeuler -wi-ao---- <7.86g
添加完之后我们使用命令来查看
[root@ceph01 ~]# ceph -s
cluster:
id: dc6d1544-17ef-11ef-9393-000c297dea16
health: HEALTH_OK
services:
mon: 3 daemons, quorum ceph01,ceph02,ceph03 (age 18m)
mgr: ceph02.oxmsfu(active, since 19m), standbys: ceph01.luyssm
osd: 9 osds: 9 up (since 4m), 9 in (since 4m)
data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 53 MiB used, 450 GiB / 450 GiB avail
pgs: 1 active+clean
这里显示有9个osd,并且状态是up且in,说明没问题
# ceph df命令
[root@ceph01 ~]# ceph df
--- RAW STORAGE ---
CLASS SIZE AVAIL USED RAW USED %RAW USED
hdd 450 GiB 450 GiB 53 MiB 53 MiB 0.01
TOTAL 450 GiB 450 GiB 53 MiB 53 MiB 0.01
--- POOLS ---
POOL ID PGS STORED OBJECTS USED %USED MAX AVAIL
device_health_metrics 1 1 0 B 0 0 B 0 142 GiB
# ceph osd df
[root@ceph01 ~]# ceph osd df
ID CLASS WEIGHT REWEIGHT SIZE RAW USE DATA OMAP META AVAIL %USE VAR PGS STATUS
0 hdd 0.04880 1.00000 50 GiB 6.0 MiB 552 KiB 0 B 5.5 MiB 50 GiB 0.01 1.02 0 up
1 hdd 0.04880 1.00000 50 GiB 6.0 MiB 552 KiB 0 B 5.5 MiB 50 GiB 0.01 1.02 0 up
2 hdd 0.04880 1.00000 50 GiB 6.0 MiB 552 KiB 0 B 5.4 MiB 50 GiB 0.01 1.01 1 up
3 hdd 0.04880 1.00000 50 GiB 6.0 MiB 552 KiB 0 B 5.4 MiB 50 GiB 0.01 1.01 1 up
4 hdd 0.04880 1.00000 50 GiB 5.9 MiB 552 KiB 0 B 5.3 MiB 50 GiB 0.01 0.99 0 up
5 hdd 0.04880 1.00000 50 GiB 6.1 MiB 552 KiB 0 B 5.6 MiB 50 GiB 0.01 1.03 0 up
6 hdd 0.04880 1.00000 50 GiB 5.9 MiB 552 KiB 0 B 5.3 MiB 50 GiB 0.01 0.99 0 up
7 hdd 0.04880 1.00000 50 GiB 5.7 MiB 552 KiB 0 B 5.2 MiB 50 GiB 0.01 0.97 1 up
8 hdd 0.04880 1.00000 50 GiB 5.7 MiB 552 KiB 0 B 5.2 MiB 50 GiB 0.01 0.97 0 up
TOTAL 450 GiB 53 MiB 4.9 MiB 0 B 48 MiB 450 GiB 0.01
MIN/MAX VAR: 0.97/1.03 STDDEV: 0
[root@ceph01 ~]# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 0.43918 root default
-3 0.14639 host ceph01
0 hdd 0.04880 osd.0 up 1.00000 1.00000
1 hdd 0.04880 osd.1 up 1.00000 1.00000
2 hdd 0.04880 osd.2 up 1.00000 1.00000
-5 0.14639 host ceph02
3 hdd 0.04880 osd.3 up 1.00000 1.00000
4 hdd 0.04880 osd.4 up 1.00000 1.00000
5 hdd 0.04880 osd.5 up 1.00000 1.00000
-7 0.14639 host ceph03
6 hdd 0.04880 osd.6 up 1.00000 1.00000
7 hdd 0.04880 osd.7 up 1.00000 1.00000
8 hdd 0.04880 osd.8 up 1.00000 1.00000
到这里ceph的部署就结束了