目錄
一、存儲基礎(chǔ):
?1.單機存儲設(shè)備:
?2.?單機存儲的問題:
?3.?商業(yè)存儲解決方案:
?4.?分布式存儲:
?5. 分布式存儲的類型:
二、Ceph 簡介:
三、Ceph 優(yōu)勢:
四、Ceph 架構(gòu):
?1.?RADOS 基礎(chǔ)存儲系統(tǒng):
?2.?LIBRADOS 基礎(chǔ)庫:
?3. 高層應(yīng)用接口:包括了三個部分:
? 3.1?對象存儲接口 RGW(RADOS Gateway):
? 3.2 塊存儲接口 RBD(Reliable Block Device):
? 3.3 文件存儲接口 CephFS(Ceph File System):
?4.?應(yīng)用層:
五、?Ceph 核心組件:
?1. OSD(Object Storage Daemon,守護進程 ceph-osd)
?2.?PG(Placement Group 歸置組)
?3.?Pool:
? 3.1?Pool中數(shù)據(jù)保存方式支持兩種類型:
?4.?Monitor(守護進程 ceph-mon)
?5.?Manager(守護進程 ceph-mgr)
?6.?MDS(Metadata Server,守護進程 ceph-mds)
六、OSD 存儲后端:
?6.1?Filestore:
?6.2?Bluestore:
?6.3?BlueStore 的主要功能包括:
七、Ceph 數(shù)據(jù)的存儲過程:
八、基于 ceph-deploy 部署 Ceph 集群:
?1.?Ceph 生產(chǎn)環(huán)境推薦:
?2.?Ceph 環(huán)境規(guī)劃:
?3. 環(huán)境準(zhǔn)備:
? 3.1. 關(guān)閉 selinux 與防火墻:
? 3.2. 根據(jù)規(guī)劃設(shè)置主機名:
? 3.3. 配置 hosts 解析:
? 3.4. 安裝常用軟件和依賴包:
? 3.5.?在 admin 管理節(jié)點配置 ssh 免密登錄所有節(jié)點:
? 3.6.?配置時間同步:
? 3.7.?重啟依賴于系統(tǒng)時間的服務(wù)&關(guān)閉無關(guān)服務(wù):
? 3.8. 所有節(jié)點配置 Ceph yum源:
?4.?部署 Ceph 集群:
? 4.1?為所有節(jié)點都創(chuàng)建一個 Ceph 工作目錄:
? 4.2 管理節(jié)點安裝 ceph-deploy 部署工具:
? 4.3?在管理節(jié)點為其它節(jié)點安裝 Ceph 軟件包:
? 4.4?生成初始配置:
? 4.5?在管理節(jié)點初始化 mon 節(jié)點:
? 4.6?在管理節(jié)點查看 Ceph 集群狀態(tài):
? 4.7?部署能夠管理 Ceph 集群的節(jié)點(可選):
? 4.8?部署 osd 存儲節(jié)點:
? 4.9 查看狀態(tài):
? 4.10?部署 mgr 節(jié)點:
? 4.11?開啟監(jiān)控模塊:
一、存儲基礎(chǔ):
?1.單機存儲設(shè)備:
- DAS(直接附加存儲,是直接接到計算機的主板總線上去的存儲)
IDE、SATA、SCSI、SAS、USB 接口的磁盤
所謂接口就是一種存儲設(shè)備驅(qū)動下的磁盤設(shè)備,提供塊級別的存儲
- NAS(網(wǎng)絡(luò)附加存儲,是通過網(wǎng)絡(luò)附加到當(dāng)前主機文件系統(tǒng)之上的存儲)
NFS、CIFS、FTP
文件系統(tǒng)級別的存儲,本身就是一個做好的文件系統(tǒng),通過nfs接口在用戶空間輸出后,客戶端基于內(nèi)核模塊與遠程主機進行網(wǎng)絡(luò)通信,把它轉(zhuǎn)為好像本地文件系統(tǒng)一樣來使用,這種存儲服務(wù)是沒辦法對它再一次格式化創(chuàng)建文件系統(tǒng)塊的
- SAN(存儲區(qū)域網(wǎng)絡(luò))
SCSI協(xié)議(只是用來傳輸數(shù)據(jù)的存取操作,物理層使用SCSI線纜來傳輸)、FCSAN(物理層使用光纖來傳輸)、iSCSI(物理層使用以太網(wǎng)來傳輸)
也是一種網(wǎng)絡(luò)存儲,但不同之處在于SAN提供給客戶端主機使用的接口是塊級別的存儲
?2.?單機存儲的問題:
- 存儲處理能力不足
? 傳統(tǒng)的IDE的IO值是100次/秒,SATA固態(tài)磁盤500次/秒,固態(tài)硬盤達到2000-4000次/秒。即使磁盤的IO能力再大數(shù)十倍,也不夠抗住網(wǎng)站訪問高峰期數(shù)十萬、數(shù)百萬甚至上億用戶的同時訪問,這同時還要受到主機網(wǎng)絡(luò)IO能力的限制。
- 存儲空間能力不足
? 單塊磁盤的容量再大,也無法滿足用戶的正常訪問所需的數(shù)據(jù)容量限制。
- 單點故障問題
? 單機存儲數(shù)據(jù)存在單點故障問題
?3.?商業(yè)存儲解決方案:
EMC、NetAPP、IBM、DELL、華為、浪潮
?4.?分布式存儲:
Ceph、TFS、FastDFS、MooseFS(MFS)、HDFS、GlusterFS(GFS)
存儲機制會把數(shù)據(jù)分散存儲到多個節(jié)點上,具有高擴展性、高性能、高可用性等優(yōu)點。
?5. 分布式存儲的類型:
- 塊存儲(例如硬盤,一般是一個存儲被一個服務(wù)器掛載使用,適用于容器或虛擬機存儲卷分配、日志存儲、文件存儲)
就是一個裸設(shè)備,用于提供沒有被組織過的存儲空間,底層以分塊的方式來存儲數(shù)據(jù)
- 文件存儲(例如NFS,解決塊存儲無法共享問題,可以一個存儲被多個服務(wù)器同時掛載,適用于目錄結(jié)構(gòu)的存儲、日志存儲)
是一種數(shù)據(jù)的組織存放接口,一般是建立在塊級別的存儲結(jié)構(gòu)之上,以文件形式來存儲數(shù)據(jù),而文件的元數(shù)據(jù)和實際數(shù)據(jù)是分開存儲的
- 對象存儲(例如OSS,一個存儲可以被多服務(wù)同時訪問,具備塊存儲的高速讀寫能力,也具備文件存儲共享的特性,適用圖片存儲、視頻存儲)
基于API接口提供的文件存儲,每一個文件都是一個對象,且文件大小各不相同的,文件的元數(shù)據(jù)和實際數(shù)據(jù)是存放在一起的
二、Ceph 簡介:
? Ceph使用C++語言開發(fā),是一個開放、自我修復(fù)和自我管理的開源分布式存儲系統(tǒng)。具有高擴展性、高性能、高可靠性的優(yōu)點。
? Ceph目前已得到眾多云計算廠商的支持并被廣泛應(yīng)用。RedHat及OpenStack,Kubernetes都可與Ceph整合以支持虛擬機鏡像的后端存儲。
? 粗略估計,我國70%—80%的云平臺都將Ceph作為底層的存儲平臺,由此可見Ceph儼然成為了開源云平臺的標(biāo)配。目前國內(nèi)使用Ceph搭建分布式存儲系統(tǒng)較為成功的企業(yè)有華為、阿里、中興、華三、浪潮、中國移動、網(wǎng)易、樂視、360、星辰天合存儲、杉巖數(shù)據(jù)等。?
三、Ceph 優(yōu)勢:
- 高擴展性:去中心化,支持使用普通X86服務(wù)器,支持上千個存儲節(jié)點的規(guī)模,支持TB到EB級的擴展。
- 高可靠性:沒有單點故障,多數(shù)據(jù)副本,自動管理,自動修復(fù)。
- 高性能:摒棄了傳統(tǒng)的集中式存儲元數(shù)據(jù)尋址的方案,采用 CRUSH 算法,數(shù)據(jù)分布均衡,并行度高。
- 功能強大:Ceph是個大一統(tǒng)的存儲系統(tǒng),集塊存儲接口(RBD)、文件存儲接口(CephFS)、對象存儲接口(RadosGW)于一身,因而適用于不同的應(yīng)用場景。
?
四、Ceph 架構(gòu):
?1.?RADOS 基礎(chǔ)存儲系統(tǒng):
(Reliable,Autonomic,Distributed object store,即可靠的、自動化的、分布式的對象存儲)
? RADOS是Ceph最底層的功能模塊,是一個無限可擴容的對象存儲服務(wù),能將文件拆解成無數(shù)個對象(碎片)存放在硬盤中,大大提高了數(shù)據(jù)的穩(wěn)定性。它主要由OSD和Monitor兩個組件組成,OSD和Monitor都可以部署在多臺服務(wù)器中,這就是ceph分布式的由來,高擴展性的由來。
?2.?LIBRADOS 基礎(chǔ)庫:
Librados提供了與RADOS進行交互的方式,并向上層應(yīng)用提供Ceph服務(wù)的API接口,因此上層的RBD、RGW和CephFS都是通過Librados訪問的,目前提供PHP、Ruby、Java、Python、Go、C和C++支持,以便直接基于RADOS(而不是整個Ceph)進行客戶端應(yīng)用開發(fā)。
?3. 高層應(yīng)用接口:包括了三個部分:
? 3.1?對象存儲接口 RGW(RADOS Gateway):
網(wǎng)關(guān)接口,基于Librados開發(fā)的對象存儲系統(tǒng),提供S3和Swift兼容的RESTful API接口。
? 3.2 塊存儲接口 RBD(Reliable Block Device):
基于Librados提供塊設(shè)備接口,主要用于Host/VM。
? 3.3 文件存儲接口 CephFS(Ceph File System):
Ceph文件系統(tǒng),提供了一個符合POSIX標(biāo)準(zhǔn)的文件系統(tǒng),它使用Ceph存儲集群在文件系統(tǒng)上存儲用戶數(shù)據(jù)?;贚ibrados提供的分布式文件系統(tǒng)接口。
?4.?應(yīng)用層:
基于高層接口或者基礎(chǔ)庫Librados開發(fā)出來的各種APP,或者Host、VM等諸多客戶端
五、?Ceph 核心組件:
? Ceph是一個對象式存儲系統(tǒng),它把每一個待管理的數(shù)據(jù)流(如文件等數(shù)據(jù))切分為一到多個固定大小(默認4兆)的對象數(shù)據(jù)(Object),并以其為原子單元(原子是構(gòu)成元素的最小單元)完成數(shù)據(jù)的讀寫。
?1. OSD(Object Storage Daemon,守護進程 ceph-osd)
是負責(zé)物理存儲的進程,一般配置與磁盤一一對應(yīng),一塊磁盤啟動一個OSD進程。主要功能是存儲數(shù)據(jù)、復(fù)制數(shù)據(jù)、平衡數(shù)據(jù)、恢復(fù)數(shù)據(jù),以及與其它OSD間進行心跳檢查,負責(zé)響應(yīng)客戶端請求返回具體數(shù)據(jù)的進程等。通常至少需要3個OSD來實現(xiàn)冗余和高可用性。
?2.?PG(Placement Group 歸置組)
PG 是一個虛擬的概念而已,物理上不真實存在。它在數(shù)據(jù)尋址時類似于數(shù)據(jù)庫中的索引:Ceph 先將每個對象數(shù)據(jù)通過HASH算法固定映射到一個 PG 中,然后將 PG 通過 CRUSH 算法映射到 OSD。
?3.?Pool:
Pool 是存儲對象的邏輯分區(qū),它起到 namespace 的作用。每個 Pool 包含一定數(shù)量(可配置)的 PG。Pool 可以做故障隔離域,根據(jù)不同的用戶場景統(tǒng)一進行隔離。
? 3.1?Pool中數(shù)據(jù)保存方式支持兩種類型:
- 多副本(replicated):類似 raid1,一個對象數(shù)據(jù)默認保存 3 個副本,放在不同的 OSD
- 糾刪碼(Erasure Code):類似 raid5,對 CPU 消耗稍大,但是節(jié)約磁盤空間,對象數(shù)據(jù)保存只有 1 個副本。由于Ceph部分功能不支持糾刪碼池,此類型存儲池使用不多
?4.?Monitor(守護進程 ceph-mon)
用來保存OSD的元數(shù)據(jù)。負責(zé)維護集群狀態(tài)的映射視圖(Cluster Map:OSD Map、Monitor Map、PG Map 和 CRUSH Map),維護展示集群狀態(tài)的各種圖表, 管理集群客戶端認證與授權(quán)。一個Ceph集群通常至少需要 3 或 5 個(奇數(shù)個)Monitor 節(jié)點才能實現(xiàn)冗余和高可用性,它們通過 Paxos 協(xié)議實現(xiàn)節(jié)點間的同步數(shù)據(jù)。
?5.?Manager(守護進程 ceph-mgr)
負責(zé)跟蹤運行時指標(biāo)和 Ceph 集群的當(dāng)前狀態(tài),包括存儲利用率、當(dāng)前性能指標(biāo)和系統(tǒng)負載。為外部監(jiān)視和管理系統(tǒng)提供額外的監(jiān)視和接口,例如 zabbix、prometheus、 cephmetrics 等。一個 Ceph 集群通常至少需要 2 個 mgr 節(jié)點實現(xiàn)高可用性,基于 raft 協(xié)議實現(xiàn)節(jié)點間的信息同步。
?6.?MDS(Metadata Server,守護進程 ceph-mds)
是 CephFS 服務(wù)依賴的元數(shù)據(jù)服務(wù)。負責(zé)保存文件系統(tǒng)的元數(shù)據(jù),管理目錄結(jié)構(gòu)。對象存儲和塊設(shè)備存儲不需要元數(shù)據(jù)服務(wù);如果不使用 CephFS 可以不安裝。
六、OSD 存儲后端:
OSD 有兩種方式管理它們存儲的數(shù)據(jù)。在 Luminous 12.2.z 及以后的發(fā)行版中,默認(也是推薦的)后端是 BlueStore。在 Luminous 發(fā)布之前, 默認是 FileStore, 也是唯一的選項。
?6.1?Filestore:
FileStore是在Ceph中存儲對象的一個遺留方法。它依賴于一個標(biāo)準(zhǔn)文件系統(tǒng)(只能是XFS),并結(jié)合一個鍵/值數(shù)據(jù)庫(傳統(tǒng)上是LevelDB,現(xiàn)在BlueStore是RocksDB),用于保存和管理元數(shù)據(jù)。
FileStore經(jīng)過了良好的測試,在生產(chǎn)中得到了廣泛的應(yīng)用。然而,由于它的總體設(shè)計和對傳統(tǒng)文件系統(tǒng)的依賴,使得它在性能上存在許多不足。
?6.2?Bluestore:
BlueStore是一個特殊用途的存儲后端,專門為OSD工作負載管理磁盤上的數(shù)據(jù)而設(shè)計。BlueStore 的設(shè)計是基于十年來支持和管理 Filestore 的經(jīng)驗。BlueStore 相較于 Filestore,具有更好的讀寫性能和安全性。
?6.3?BlueStore 的主要功能包括:
1)BlueStore直接管理存儲設(shè)備,即直接使用原始塊設(shè)備或分區(qū)管理磁盤上的數(shù)據(jù)。這樣就避免了抽象層的介入(例如本地文件系統(tǒng),如XFS),因為抽象層會限制性能或增加復(fù)雜性。
2)BlueStore使用RocksDB進行元數(shù)據(jù)管理。RocksDB的鍵/值數(shù)據(jù)庫是嵌入式的,以便管理內(nèi)部元數(shù)據(jù),包括將對象名稱映射到磁盤上的塊位置。
3)寫入BlueStore的所有數(shù)據(jù)和元數(shù)據(jù)都受一個或多個校驗和的保護。未經(jīng)驗證,不會從磁盤讀取或返回給用戶任何數(shù)據(jù)或元數(shù)據(jù)。
4)支持內(nèi)聯(lián)壓縮。數(shù)據(jù)在寫入磁盤之前可以選擇性地進行壓縮。
5)支持多設(shè)備元數(shù)據(jù)分層。BlueStore允許將其內(nèi)部日志(WAL預(yù)寫日志)寫入單獨的高速設(shè)備(如SSD、NVMe或NVDIMM),以提高性能。如果有大量更快的可用存儲,則可以將內(nèi)部元數(shù)據(jù)存儲在更快的設(shè)備上。
6)支持高效的寫時復(fù)制。RBD和CephFS快照依賴于在BlueStore中有效實現(xiàn)的即寫即復(fù)制克隆機制。這將為常規(guī)快照和擦除編碼池(依賴克隆實現(xiàn)高效的兩階段提交)帶來高效的I/O。
七、Ceph 數(shù)據(jù)的存儲過程:
?1)客戶端從 mon 獲取最新的 Cluster Map
?2)在 Ceph 中,一切皆對象。Ceph 存儲的數(shù)據(jù)都會被切分成為一到多個固定大小的對象(Object)。Object size 大小可以由管理員調(diào)整,通常為 2M 或 4M。
每個對象都會有一個唯一的 OID,由 ino 與 ono 組成:
●ino :即是文件的 FileID,用于在全局唯一標(biāo)識每一個文件
●ono :則是分片的編號
比如:一個文件 FileID 為 A,它被切成了兩個對象,一個對象編號0,另一個編號1,那么這兩個文件的 oid 則為 A0 與 A1。
OID 的好處是可以唯一標(biāo)示每個不同的對象,并且存儲了對象與文件的從屬關(guān)系。由于 Ceph 的所有數(shù)據(jù)都虛擬成了整齊劃一的對象,所以在讀寫時效率都會比較高。
?3)通過對 OID 使用 HASH 算法得到一個16進制的特征碼,用特征碼與 Pool 中的 PG 總數(shù)取余,得到的序號則是 PGID 。
即 Pool_ID + HASH(OID) % PG_NUM 得到 PGID
?4)PG 會根據(jù)設(shè)置的副本數(shù)量進行復(fù)制,通過對 PGID 使用 CRUSH 算法算出 PG 中目標(biāo)主和次 OSD 的 ID,存儲到不同的 OSD 節(jié)點上(其實是把 PG 中的所有對象存儲到 OSD 上)。
即通過 CRUSH(PGID) 得到將 PG 中的數(shù)據(jù)存儲到各個 OSD 組中
CRUSH 是 Ceph 使用的數(shù)據(jù)分布算法,類似一致性哈希,讓數(shù)據(jù)分配到預(yù)期的地方。
八、基于 ceph-deploy 部署 Ceph 集群:
?1.?Ceph 生產(chǎn)環(huán)境推薦:
1、存儲集群全采用萬兆網(wǎng)絡(luò)
2、集群網(wǎng)絡(luò)(cluster-network,用于集群內(nèi)部通訊)與公共網(wǎng)絡(luò)(public-network,用于外部訪問Ceph集群)分離
3、mon、mds 與 osd 分離部署在不同主機上(測試環(huán)境中可以讓一臺主機節(jié)點運行多個組件)
4、OSD 使用 SATA 亦可
5、根據(jù)容量規(guī)劃集群
6、至強E5 2620 V3或以上 CPU,64GB或更高內(nèi)存
7、集群主機分散部署,避免機柜的電源或者網(wǎng)絡(luò)故障
?2.?Ceph 環(huán)境規(guī)劃:
主機名 | Public網(wǎng)絡(luò) | Cluster網(wǎng)絡(luò) | 角色 |
admin | 192.168.88.100 | admin(管理節(jié)點負責(zé)集群整體部署)、client | |
node01 | 192.168.88.101 | 192.168.100.101 | mon、mgr、osd(/dev/sdb、/dev/sdc、/dev/sdd) |
node02 | 192.168.88.103 | 192.168.100.103 | mon、mgr、osd(/dev/sdb、/dev/sdc、/dev/sdd) |
node03 | 192.168.88.104 | 192.168.100.104 | mon、osd(/dev/sdb、/dev/sdc、/dev/sdd) |
client | 192.168.88.105 | client |
? ? ? ? ? ? ? ?node01,node02,node03 都需要雙網(wǎng)卡和三塊硬盤(最好是空硬盤,不然還要擦除)
? ?生產(chǎn)環(huán)境準(zhǔn)備
可選步驟:創(chuàng)建 Ceph 的管理用戶
useradd cephadm
passwd cephadm
visudo
cephadm ALL=(root) NOPASSWD:ALL? ?sudo提權(quán)
?3. 環(huán)境準(zhǔn)備:
? 3.1. 關(guān)閉 selinux 與防火墻:
systemctl disable --now firewalld
setenforce 0
sed -i 's/enforcing/disabled/' /etc/selinux/config
? 3.2. 根據(jù)規(guī)劃設(shè)置主機名:
hostnamectl set-hostname admin
hostnamectl set-hostname node01
hostnamectl set-hostname node02
hostnamectl set-hostname node03
hostnamectl set-hostname client
? 3.3. 配置 hosts 解析:
cat >> /etc/hosts << EOF
192.168.88.100 admin
192.168.88.101 node01
192.168.88.103 node02
192.168.88.104 node03
192.168.88.105 client
EOF
? 3.4. 安裝常用軟件和依賴包:
? ? ?使用國內(nèi)源下載常用軟件和依賴包
部署國內(nèi)源腳本:
#!/bin/bash
cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak
cat > /etc/yum.repos.d/CentOS-Base.repo << 'EOF'
# CentOS-Base.repo
#
# The mirror system uses the connecting IP address of the client and the
# update status of each mirror to pick mirrors that are updated to and
# geographically close to the client. You should use this for CentOS updates
# unless you are manually picking other mirrors.
#
# If the mirrorlist= does not work for you, as a fall back you can try the
# remarked out baseurl= line instead.
#
#
[base]
name=CentOS-$releasever - Base
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/os/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=os
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
#released updates
[updates]
name=CentOS-$releasever - Updates
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/updates/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=updates
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
#additional packages that may be useful
[extras]
name=CentOS-$releasever - Extras
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/extras/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=extras
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
#additional packages that extend functionality of existing packages
[centosplus]
name=CentOS-$releasever - Plus
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/centosplus/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=centosplus
gpgcheck=1
enabled=0
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
EOF
yum clean all
yum -y install epel-release
sed -e 's!^metalink=!#metalink=!g' \
-e 's!^#baseurl=!baseurl=!g' \
-e 's!//download\.fedoraproject\.org/pub!//mirrors.tuna.tsinghua.edu.cn!g' \
-e 's!http://mirrors\.tuna!https://mirrors.tuna!g' \
-i /etc/yum.repos.d/epel.repo /etc/yum.repos.d/epel-testing.repo
yum -y install epel-release
yum -y install yum-plugin-priorities yum-utils ntpdate python-setuptools python-pip gcc gcc-c++ autoconf libjpeg libjpeg-devel libpng libpng-devel freetype freetype-devel libxml2 libxml2-devel zlib zlib-devel glibc glibc-devel glib2 glib2-devel bzip2 bzip2-devel zip unzip ncurses ncurses-devel curl curl-devel e2fsprogs e2fsprogs-devel krb5-devel libidn libidn-devel openssl openssh openssl-devel nss_ldap openldap openldap-devel openldap-clients openldap-servers libxslt-devel libevent-devel ntp libtool-ltdl bison libtool vim-enhanced python wget lsof iptraf strace lrzsz kernel-devel kernel-headers pam-devel tcl tk cmake ncurses-devel bison setuptool popt-devel net-snmp screen perl-devel pcre-devel net-snmp screen tcpdump rsync sysstat man iptables sudo libconfig git bind-utils tmux elinks numactl iftop bwm-ng net-tools expect snappy leveldb gdisk python-argparse gperftools-libs conntrack ipset jq libseccomp socat chrony sshpass
? 3.5.?在 admin 管理節(jié)點配置 ssh 免密登錄所有節(jié)點:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
sshpass -p '主機密碼' ssh-copy-id -o StrictHostKeyChecking=no root@admin
sshpass -p '主機密碼' ssh-copy-id -o StrictHostKeyChecking=no root@node01
sshpass -p '主機密碼' ssh-copy-id -o StrictHostKeyChecking=no root@node02
sshpass -p '主機密碼' ssh-copy-id -o StrictHostKeyChecking=no root@node03
? 3.6.?配置時間同步:
systemctl enable --now chronyd
timedatectl set-ntp true #開啟 NTP
timedatectl set-timezone Asia/Shanghai #設(shè)置時區(qū)
chronyc -a makestep #強制同步下系統(tǒng)時鐘
timedatectl status #查看時間同步狀態(tài)
chronyc sources -v #查看 ntp 源服務(wù)器信息
timedatectl set-local-rtc 0 #將當(dāng)前的UTC時間寫入硬件時鐘
? 3.7.?重啟依賴于系統(tǒng)時間的服務(wù)&關(guān)閉無關(guān)服務(wù):
systemctl restart rsyslog
systemctl restart crond
systemctl disable --now postfix
? 3.8. 所有節(jié)點配置 Ceph yum源:
wget https://download.ceph.com/rpm-nautilus/el7/noarch/ceph-release-1-1.el7.noarch.rpm --no-check-certificate
rpm -ivh ceph-release-1-1.el7.noarch.rpm --force
?4.?部署 Ceph 集群:
? 4.1?為所有節(jié)點都創(chuàng)建一個 Ceph 工作目錄:
mkdir -p /etc/ceph
? 4.2 管理節(jié)點安裝 ceph-deploy 部署工具:
cd /etc/ceph
yum install -y ceph-deploy
ceph-deploy --version
? 4.3?在管理節(jié)點為其它節(jié)點安裝 Ceph 軟件包:
ceph-deploy 2.0.1 默認部署的是 mimic 版的 Ceph,若想安裝其他版本的 Ceph,可以用 --release 手動指定版本
cd /etc/ceph
ceph-deploy install --release nautilus node0{1..3} admin
#ceph-deploy install 本質(zhì)就是在執(zhí)行下面的命令:
yum clean all
yum -y install epel-release
yum -y install yum-plugin-priorities
yum -y install ceph-release ceph ceph-radosgw
#也可采用手動安裝 Ceph 包方式,在其它節(jié)點上執(zhí)行下面的命令將 Ceph 的安裝包都部署上:
sed -i 's#download.ceph.com#mirrors.tuna.tsinghua.edu.cn/ceph#' /etc/yum.repos.d/ceph.repo
yum install -y ceph-mon ceph-radosgw ceph-mds ceph-mgr ceph-osd ceph-common ceph
? 4.4?生成初始配置:
#在管理節(jié)點運行下述命令,告訴 ceph-deploy 哪些是 mon 監(jiān)控節(jié)點
cd /etc/ceph
ceph-deploy new --public-network 192.168.88.0/24 --cluster-network 192.168.100.0/24 node01 node02 node03
#命令執(zhí)行成功后會在 /etc/ceph 下生成配置文件
ls /etc/ceph
ceph.conf #ceph的配置文件
ceph-deploy-ceph.log #monitor的日志
ceph.mon.keyring #monitor的密鑰環(huán)文件
? 4.5?在管理節(jié)點初始化 mon 節(jié)點:
cd /etc/ceph
ceph-deploy mon create node01 node02 node03
#創(chuàng)建 mon 節(jié)點,由于 monitor 使用 Paxos 算法,其高可用集群節(jié)點數(shù)量要求為大于等于 3 的奇數(shù)臺
ceph-deploy --overwrite-conf mon create-initial
#配置初始化 mon 節(jié)點,并向所有節(jié)點同步配置
# --overwrite-conf 參數(shù)用于表示強制覆蓋配置文件
ceph-deploy gatherkeys node01 #可選操作,向 node01 節(jié)點收集所有密鑰
#命令執(zhí)行成功后會在 /etc/ceph 下生成配置文件
ls /etc/ceph
ceph.bootstrap-mds.keyring?? ??? ??? ?#引導(dǎo)啟動 mds 的密鑰文件
ceph.bootstrap-mgr.keyring?? ??? ??? ?#引導(dǎo)啟動 mgr 的密鑰文件
ceph.bootstrap-osd.keyring?? ??? ??? ?#引導(dǎo)啟動 osd 的密鑰文件
ceph.bootstrap-rgw.keyring?? ??? ??? ?#引導(dǎo)啟動 rgw 的密鑰文件
ceph.client.admin.keyring?? ??? ??? ?#ceph客戶端和管理端通信的認證密鑰,擁有ceph集群的所有權(quán)限
ceph.conf
ceph-deploy-ceph.log
ceph.mon.keyring
? 4.6?在管理節(jié)點查看 Ceph 集群狀態(tài):
cd /etc/ceph
ceph -s
#查看 mon 集群選舉的情況
ceph quorum_status --format json-pretty | grep leader
"quorum_leader_name": "node01",
#擴容 mon 節(jié)點
ceph-deploy mon add <節(jié)點名稱> (擴展可不做)
? 4.7?部署能夠管理 Ceph 集群的節(jié)點(可選):
? ? 可實現(xiàn)在各個節(jié)點執(zhí)行 ceph 命令管理集群,查看集群狀態(tài)
cd /etc/ceph
ceph-deploy --overwrite-conf config push node01 node02 node03
#向所有 mon 節(jié)點同步配置,確保所有 mon 節(jié)點上的 ceph.conf 內(nèi)容必須一致
ceph-deploy admin node01 node02 node03
#本質(zhì)就是把 ceph.client.admin.keyring 集群認證文件拷貝到各個節(jié)點
#在 mon 節(jié)點上查看
ls /etc/ceph
ceph.client.admin.keyring ceph.conf rbdmap tmpr8tzyc
cd /etc/ceph
ceph -s
? 4.8?部署 osd 存儲節(jié)點:
如果是利舊的硬盤,則需要先擦凈(刪除分區(qū)表)磁盤(可選,無數(shù)據(jù)的新硬盤可不做)
cd /etc/ceph
ceph-deploy disk zap node01 /dev/sdb
ceph-deploy disk zap node02 /dev/sdb
ceph-deploy disk zap node03 /dev/sdb
#添加并擴容 osd 節(jié)點,硬盤名根據(jù)自己的來
ceph-deploy --overwrite-conf osd create node01 --data /dev/sdb
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdb
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdb
ceph-deploy --overwrite-conf osd create node01 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node01 --data /dev/sdd
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdd
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdd
#查看 ceph 集群狀態(tài)
ceph -s
添加 OSD 中會涉及到 PG 的遷移,由于此時集群并沒有數(shù)據(jù),因此 health 的狀態(tài)很快就變成 OK,如果在生產(chǎn)環(huán)境中添加節(jié)點則會涉及到大量的數(shù)據(jù)的遷移。
? 4.9 查看狀態(tài):
ceph osd stat
ceph osd tree
rados df
ssh root@node01 systemctl status ceph-osd@0
ssh root@node02 systemctl status ceph-osd@1
ssh root@node03 systemctl status ceph-osd@2
ceph osd status #查看 osd 狀態(tài),需部署 mgr 后才能執(zhí)行
ceph osd df #查看 osd 容量,需部署 mgr 后才能執(zhí)行
? 4.10?部署 mgr 節(jié)點:
ceph-mgr守護進程以Active/Standby模式運行,可確保在Active節(jié)點或其ceph-mgr守護進程故障時,其中的一個Standby實例可以在不中斷服務(wù)的情況下接管其任務(wù)。根據(jù)官方的架構(gòu)原則,mgr至少要有兩個節(jié)點來進行工作。文章來源:http://www.zghlxwxcb.cn/news/detail-725877.html
#主節(jié)點操作,為其節(jié)點部署mgr
cd /etc/ceph
ceph-deploy mgr create node01 node02
##此時查看狀態(tài)會出現(xiàn)mons are allowing insecure global_id reclaim
ceph -s
cluster:
id: 7e9848bb-909c-43fa-b36c-5805ffbbeb39
health: HEALTH_WARN
mons are allowing insecure global_id reclaim
services:
mon: 3 daemons, quorum node01,node02,node03
mgr: node01(active, since 10s), standbys: node02
osd: 0 osds: 0 up, 0 in
#解決 HEALTH_WARN 問題:mons are allowing insecure global_id reclaim問題:
禁用不安全模式:
ceph config set mon auth_allow_insecure_global_id_reclaim false
#擴容 mgr 節(jié)點
ceph-deploy mgr create <節(jié)點名稱> (擴展,可選)
? 4.11?開啟監(jiān)控模塊:
#在 ceph-mgr Active節(jié)點執(zhí)行命令開啟
ceph -s | grep mgr
yum install -y ceph-mgr-dashboard
cd /etc/ceph
ceph mgr module ls | grep dashboard
#開啟 dashboard 模塊
ceph mgr module enable dashboard --force
#禁用 dashboard 的 ssl 功能
ceph config set mgr mgr/dashboard/ssl false
#配置 dashboard 監(jiān)聽的地址和端口
ceph config set mgr mgr/dashboard/server_addr 0.0.0.0
ceph config set mgr mgr/dashboard/server_port 8000
#重啟 dashboard
ceph mgr module disable dashboard
ceph mgr module enable dashboard --force
#確認訪問 dashboard 的 url
ceph mgr services
#設(shè)置 dashboard 賬戶以及密碼
echo "12345678" > dashboard_passwd.txt
ceph dashboard set-login-credentials admin -i dashboard_passwd.txt
或
ceph dashboard ac-user-create admin administrator -i dashboard_passwd.txt
##這個是新版的命令
? 瀏覽器訪問:http://192.168.88.101:8000 ,賬號密碼為 admin/12345678文章來源地址http://www.zghlxwxcb.cn/news/detail-725877.html
到了這里,關(guān)于ceph 分布式存儲與部署的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!