分散式儲存Ceph技術詳解

引言

在當今資料爆炸的時代，企業對儲存系統的需求日益增長，傳統的集中式儲存已經無法滿足大規模資料處理的要求。分散式儲存系統應運而生，而Ceph作為開源分散式儲存系統的佼佼者，以其高可用性、高擴充套件性和統一儲存架構贏得了眾多企業的青睞。

Ceph概述

Ceph是一個開源的分散式儲存系統，由Sage Weil在加州大學聖克魯斯分校開發，現已成為Linux基金會專案。它提供了物件儲存、塊儲存和檔案儲存三種儲存介面，能夠在commodity硬體上執行，具有無單點故障、自動資料修復和智慧資料分佈等特性。

核心特性

高可用性：透過資料複製和分散式架構，確保系統在硬體故障時仍能正常工作。

高擴充套件性：支援從幾個節點擴充套件到數千個節點的PB級儲存叢集。

統一儲存：單一叢集同時提供物件、塊和檔案儲存服務。

自管理：具備自動故障檢測、資料修復和負載均衡能力。

架構元件

Monitor（MON）

Monitor是Ceph叢集的大腦，負責維護叢集狀態資訊，包括Monitor Map、OSD Map、PG Map等。通常部署奇數個Monitor例項（3或5個）以避免腦裂問題。Monitor透過Paxos演算法保證叢集狀態的一致性。

Object Storage Daemon（OSD）

OSD是Ceph的核心儲存元件，每個OSD管理一個儲存裝置（通常是硬碟）。OSD負責儲存資料、處理資料複製、恢復和重新平衡，以及向Monitor報告狀態資訊。一個典型的Ceph叢集包含數十到數千個OSD。

Metadata Server（MDS）

MDS專門為CephFS檔案系統服務，負責管理檔案系統的元資料。對於物件儲存和塊儲存，MDS不是必需的。MDS支援動態擴充套件和故障轉移，確保元資料服務的高可用性。

Manager（MGR）

Manager是Ceph Luminous版本引入的新元件，負責收集叢集指標、提供管理介面和擴充套件功能。MGR支援外掛架構，可以整合各種監控和管理工具。

核心演算法

CRUSH演算法

CRUSH（Controlled Replication Under Scalable Hashing）是Ceph的核心資料分佈演算法。它透過確定性的雜湊函式將資料對映到儲存位置，無需維護中心化的對映表。CRUSH演算法考慮了硬體層次結構，能夠根據故障域進行智慧的資料分佈。

Placement Group（PG）

PG是Ceph中的邏輯概念，作為物件和OSD之間的中間層。每個PG包含多個物件，並被複制到多個OSD上。PG的數量需要根據OSD數量合理配置，通常建議每個OSD管理50-100個PG。

儲存介面

RADOS塊裝置（RBD）

RBD提供塊儲存服務，支援快照、克隆和精簡配置等企業級功能。RBD可以直接掛載到虛擬機器或物理主機，廣泛應用於雲計算環境。

# 建立RBD映象rbd create --size 1024 mypool/myimage# 對映RBD裝置rbd map mypool/myimage# 格式化並掛載mkfs.ext4 /dev/rbd0mount /dev/rbd0 /mnt/ceph-disk

CephFS檔案系統

CephFS是一個POSIX相容的分散式檔案系統，支援多客戶端併發訪問。它透過MDS管理元資料，提供目錄層次結構和檔案許可權管理。

# 掛載CephFSmount -t ceph mon1:6789:/ /mnt/cephfs -o name=admin,secret=AQD...# 或使用核心客戶端ceph-fuse /mnt/cephfs

RADOS閘道器（RGW）

RGW提供RESTful物件儲存介面，相容Amazon S3和OpenStack Swift API。它支援多租戶、使用者管理和訪問控制，適用於雲端儲存和備份場景。

部署最佳實踐

硬體選擇

網路：建議使用10Gb乙太網，公共網路和叢集網路分離。

儲存：SSD用於OSD日誌和元資料，HDD用於資料儲存。

CPU和記憶體：OSD節點建議每個OSD分配1-2GB記憶體，Monitor節點需要更多記憶體。

叢集規劃

節點數量：最少3個節點，推薦5個或以上節點以提高可用性。

副本數量：生產環境建議設定3副本，可根據可用性需求調整。

PG數量：合理配置PG數量，避免過多或過少影響效能。

安裝部署

使用ceph-deploy工具可以簡化部署過程：

# 安裝ceph-deploypip install ceph-deploy# 初始化叢集ceph-deploy new node1 node2 node3# 安裝ceph軟體包ceph-deploy install node1 node2 node3# 部署Monitorceph-deploy mon create-initial# 部署OSDceph-deploy osd create node1 --data /dev/sdbceph-deploy osd create node2 --data /dev/sdbceph-deploy osd create node3 --data /dev/sdb