儘管企業級 NVMe 閃存價格持續下滑,但仍不便宜,尤其是在需大量儲存容量的情況下。然而,許多組織實際上擁有數百 TB 甚至 PB 等級的閒置儲存空間。為何會這樣?
儘管企業級 NVMe 閃存價格持續下滑,但仍不便宜,尤其是在需大量儲存容量的情況下。然而,許多組織實際上擁有數百 TB 甚至 PB 等級的閒置儲存空間。為何會這樣?
若您購置一台(甚至一千台!)GPU 伺服器,它們很可能至少搭載數顆 NVMe SSD。以今日購買 NVIDIA DGX H200 或 B200 為例,無論是否需要,它們皆預載 8 顆 3.84TB 的 U.2 NVMe SSD。其他品牌雖提供彈性選購,但也支援更多、更大容量的 NVMe SSD,例如 Dell PowerEdge XE9680 預計在 2025 年推出,將支援最高 16 顆 122.88TB 的 NVMe SSD,代表伺服器可搭載近 2PB 的 NVMe 儲存空間。即使在公有雲端租用 GPU 伺服器,其本地 NVMe SSD 也會內建包含在配置中。
我們都知道本地儲存效能遠優於網路儲存,那麼,為什麼 GPU 伺服器的本地儲存會經常被忽略呢?
主要有三個原因:
因此,雖然這些本地儲存資源存在,但實務上往往因難以管理與保護而被忽略。
使用 Hammerspace 解鎖「第 0 層」(Tier 0)儲存
Hammerspace 是一套整合分散式檔案與物件資料的資料平台。其基於標準的平行檔案系統架構,能建立跨品牌、跨儲存型態、跨場域與雲端的全球命名空間。平台內建的編排引擎能自動處理資料保護與服務,透過「目標」(政策)在正確時間將資料放置於正確儲存位置。無論資料實體位於何處,用戶端始終可見、可存取,資料在搬移中亦可不中斷操作。Hammerspace 採用開放標準,無須額外安裝用戶端軟體或修改核心,部署簡便快速。
在建構 Hammerspace 全域資料環境時,可將新建或現有儲存裝置(例如 NAS 的 NFS 匯出、Linux 儲存伺服器等)加入為儲存磁區,透過元資料同化達成,無需資料遷移。之後,可建立 NFS、SMB 或 S3 存取介面供用戶端與應用系統操作資料,而資料則依照目標策略自動放置在最適合的儲存磁區中,可針對耐久性、可用性、效能、地點與自訂中繼資料進行精密定義。
Tier 0 成為 Hammerspace 全域儲存的一部分
將每台 GPU 伺服器上的本地磁碟掛載為 NFS 匯出後,這些資源即可加入 Hammerspace,成為 Tier 0 儲存的一環,並享有所有 Hammerspace 的功能與優勢。
Hammerspace 不採用私有協定或自製核心模組,而是對 Linux 標準協定進行優化,提升效能並保有開放彈性。例如在 Linux Kernel 6.12 起導入的 LOCALIO 協定,當偵測到 NFS 伺服器與用戶端位於同一主機上時,便可繞過標準資料流程,實現「零拷貝」的極速存取。此創新亦支援容器環境,實現最大化的效能與最小延遲。透過 LOCALIO 協定,GPU 本地存取資料的速度提升最高可達讀取 12 倍、寫入 3 倍,完美釋放 NVMe 的效能潛力。
Tier 0 實際應用:Checkpoint
AI 與高效能運算(HPC)通常涉及跨大規模伺服器叢集的長時間運算作業,一旦中斷可能造成重大損失。因此「Checkpoint」技術被廣泛應用,用來定期將運算狀態儲存至持久儲存中,日後若伺服器故障,可從 Checkpoint 狀態繼續,而非從頭開始。然而,傳統 Checkpoint 操作需將大量資料透過網路傳送至共享儲存,導致 GPU 長時間等待。若使用 Tier 0,本地 NVMe 儲存可直接用於記錄 Checkpoint,配合 NFS 協定旁路功能,可將作業時間從數分鐘縮短至數秒,GPU 幾乎無需停工,大幅提升叢集效能與 GPU 使用率。
Checkpoint 文件可在之後透過 Hammerspace 自動分層備份至其他儲存系統或雲端,資料安全與效能兼得。更重要的是,由於所有儲存位置都在同一命名空間中,Checkpoint 文件始終保持在一致的邏輯位置,無論其實體位置如何變動,系統皆可存取。
Hammerspace Tier 0 的關鍵優勢總結:
Hammerspace v5.1 與 Tier 0 儲存層,將 GPU 運算基礎架構轉型為更具效益的投資平台,不僅提升效能,更大幅縮短成果交付時間,是 AI 時代不可或缺的基礎建設。
📩 如果有任何需求,歡迎與資褓儲存聯繫:Marketing@datasitter.com