利用 GPU 伺服器本地磁碟打造「第 0 層」受保護可流動儲存,實現 100 倍 Checkpoint 效能提升

Close
搜尋
banner banner
利用 GPU 伺服器本地磁碟打造「第 0 層」受保護可流動儲存,實現 100 倍 Checkpoint 效能提升

利用 GPU 伺服器本地磁碟打造「第 0 層」受保護可流動儲存,實現 100 倍 Checkpoint 效能提升

儘管企業級 NVMe 閃存價格持續下滑,但仍不便宜,尤其是在需大量儲存容量的情況下。然而,許多組織實際上擁有數百 TB 甚至 PB 等級的閒置儲存空間。為何會這樣?

P R O D U C T S - I N F O R M A T I O N
商品資訊

利用 GPU 伺服器本地磁碟打造「第 0 層」受保護可流動儲存,實現 100 倍 Checkpoint 效能提升

GPU 伺服器本地磁碟:被忽視的寶貴資源

 

儘管企業級 NVMe 閃存價格持續下滑,但仍不便宜,尤其是在需大量儲存容量的情況下。然而,許多組織實際上擁有數百 TB 甚至 PB 等級的閒置儲存空間。為何會這樣?


若您購置一台(甚至一千台!)GPU 伺服器,它們很可能至少搭載數顆 NVMe SSD。以今日購買 NVIDIA DGX H200 或 B200 為例,無論是否需要,它們皆預載 8 顆 3.84TB 的 U.2 NVMe SSD。其他品牌雖提供彈性選購,但也支援更多、更大容量的 NVMe SSD,例如 Dell PowerEdge XE9680 預計在 2025 年推出,將支援最高 16 顆 122.88TB 的 NVMe SSD,代表伺服器可搭載近 2PB 的 NVMe 儲存空間。即使在公有雲端租用 GPU 伺服器,其本地 NVMe SSD 也會內建包含在配置中。


我們都知道本地儲存效能遠優於網路儲存,那麼,為什麼 GPU 伺服器的本地儲存會經常被忽略呢?

主要有三個原因:

 

  1. 它是資訊孤島:只有位於同一台伺服器中的 GPU 才能完全發揮本地 NVMe 儲存效能。例如雖可透過 NFS 掛載存取該儲存空間,但若有數十或數百台 GPU 伺服器,則需手動導入與導出大量資料,管理相當複雜。
  2. 它沒有資料保護機制:預設情況下寫入本地儲存的資料不具備保護能力,這也是供應商多數將其作為暫存用途的原因。即便配置 RAID1 或 RAID10,仍會佔用可用容量,且僅提供有限保護。雖可將糾刪碼檔案系統條帶化到多台伺服器,但此舉會使大多數 I/O 無法留在本地,浪費性能。GPU 伺服器也經常重新設定或重啟,因此並不穩定。
  3. 資料難以搬移與共享:在數十至數千台伺服器間手動複製資料極不實際,即使能自動化,監控資料位置與狀態依然耗時且易出錯,增加管理風險與成本。

 

因此,雖然這些本地儲存資源存在,但實務上往往因難以管理與保護而被忽略。


使用 Hammerspace 解鎖「第 0 層」(Tier 0)儲存

 

Hammerspace 是一套整合分散式檔案與物件資料的資料平台。其基於標準的平行檔案系統架構,能建立跨品牌、跨儲存型態、跨場域與雲端的全球命名空間。平台內建的編排引擎能自動處理資料保護與服務,透過「目標」(政策)在正確時間將資料放置於正確儲存位置。無論資料實體位於何處,用戶端始終可見、可存取,資料在搬移中亦可不中斷操作。Hammerspace 採用開放標準,無須額外安裝用戶端軟體或修改核心,部署簡便快速。


在建構 Hammerspace 全域資料環境時,可將新建或現有儲存裝置(例如 NAS 的 NFS 匯出、Linux 儲存伺服器等)加入為儲存磁區,透過元資料同化達成,無需資料遷移。之後,可建立 NFS、SMB 或 S3 存取介面供用戶端與應用系統操作資料,而資料則依照目標策略自動放置在最適合的儲存磁區中,可針對耐久性、可用性、效能、地點與自訂中繼資料進行精密定義。


Tier 0 成為 Hammerspace 全域儲存的一部分


將每台 GPU 伺服器上的本地磁碟掛載為 NFS 匯出後,這些資源即可加入 Hammerspace,成為 Tier 0 儲存的一環,並享有所有 Hammerspace 的功能與優勢。

  1. Tier 0 資料不再是孤島:GPU 伺服器本地磁碟一旦加入 Hammerspace 全域命名空間,其上的檔案與物件資料便可被集中管理與跨平台存取,不再受限於伺服器本身。
  2. Tier 0 資料獲得保護:透過 Hammerspace 的目標政策,資料可被設定自動備份或複寫至其他儲存磁區(包含本地或雲端),達到所需的可用性與耐久性標準。
  3. Tier 0 資料可被智慧編排:Hammerspace 支援跨階層資料流動。例如,可將最新資料保留於 Tier 0,而將舊資料自動轉移至低成本儲存;或在開機時將必要檔案固定於本地儲存,以避免「開機風暴」造成的延遲;也可將資料暫存於 Tier 0 處理完畢後再分層備份或搬移。
  4. NFS 協定旁路:最大化 GPU 效能

Hammerspace 不採用私有協定或自製核心模組,而是對 Linux 標準協定進行優化,提升效能並保有開放彈性。例如在 Linux Kernel 6.12 起導入的 LOCALIO 協定,當偵測到 NFS 伺服器與用戶端位於同一主機上時,便可繞過標準資料流程,實現「零拷貝」的極速存取。此創新亦支援容器環境,實現最大化的效能與最小延遲。透過 LOCALIO 協定,GPU 本地存取資料的速度提升最高可達讀取 12 倍、寫入 3 倍,完美釋放 NVMe 的效能潛力。

 

Tier 0 實際應用:Checkpoint


AI 與高效能運算(HPC)通常涉及跨大規模伺服器叢集的長時間運算作業,一旦中斷可能造成重大損失。因此「Checkpoint」技術被廣泛應用,用來定期將運算狀態儲存至持久儲存中,日後若伺服器故障,可從 Checkpoint 狀態繼續,而非從頭開始。然而,傳統 Checkpoint 操作需將大量資料透過網路傳送至共享儲存,導致 GPU 長時間等待。若使用 Tier 0,本地 NVMe 儲存可直接用於記錄 Checkpoint,配合 NFS 協定旁路功能,可將作業時間從數分鐘縮短至數秒,GPU 幾乎無需停工,大幅提升叢集效能與 GPU 使用率。


Checkpoint 文件可在之後透過 Hammerspace 自動分層備份至其他儲存系統或雲端,資料安全與效能兼得。更重要的是,由於所有儲存位置都在同一命名空間中,Checkpoint 文件始終保持在一致的邏輯位置,無論其實體位置如何變動,系統皆可存取。


Hammerspace Tier 0 的關鍵優勢總結:

  • 原生支援 Linux,不需額外軟體或代理程式
  • 避免版本相容與維運問題,簡化部署與維護。
  • 使用標準協定,與所有主要發行版完全相容。
  • 內建資料保護與分層能力
  • 本地磁碟可被自動備份至雲端或異地,無需設定 RAID。
  • 提供智能化的容錯與版本控制策略。
  • 具備智慧資料編排與全域命名空間
  • 本地儲存成為全域架構一部分,實現資源最大化與彈性調度。
  • 支援多副本資料複寫與本地親和性配置,提升讀寫效能。
  • NFS 協定旁路技術最大化 NVMe 效能
  • 本地資料存取可避開傳統堆疊瓶頸,達成極速 IO。
  • 完全相容標準協定,效能與開放兼得。

Hammerspace v5.1 與 Tier 0 儲存層,將 GPU 運算基礎架構轉型為更具效益的投資平台,不僅提升效能,更大幅縮短成果交付時間,是 AI 時代不可或缺的基礎建設。


📩 如果有任何需求,歡迎與資褓儲存聯繫:Marketing@datasitter.com

Go top