Meta 使用 Hammerspace 架構其 GenAI 儲存基礎設施——為 24,000 張 GPU 卡提供每秒 12.5TB 的頻寬
客戶簡介
Meta 公司(原名 Facebook),是世界知名的網際網路科技公司之一。2024 年 8 月,Meta 入選 2024 年《財富》世界 500 強,排名第 66 位。2024 年 7 月,Meta 正式發表最新的開源大型語言模型 Llama 3.1 系列,進一步縮小了開源模型與閉源模型的差距。Llama 3.1 包含 8B、70B 和 450B 三種參數規模,其中 450B 參數的模型在多項基準測試中超越 OpenAI 的 GPT-4o,表現媲美 Claude 3.5 Sonnet 等領先的閉源模型。
業務挑戰
Meta 每天需執行數百萬億次人工智慧模型運算,這些需求仰賴高度先進且靈活的基礎設施。透過自行設計大量硬體、軟體與網路架構,使我們能夠最佳化 AI 研究人員的端到端體驗,同時確保資料中心高效運作。
儲存技術在 AI 訓練中扮演關鍵角色,卻往往被忽略。隨著生成式 AI 訓練愈趨多模態,需大量使用圖像、影片與文字資料,對資料儲存的需求迅速成長。然而,要如何讓工程師能以數千張 GPU 進行互動式除錯,使集群中(兩個集群,共 49,152 張 Nvidia H100 GPU)所有節點能即時存取修改後的程式碼?同時又必須嚴格控制功耗與機櫃空間的擴增,這是一項相當艱鉅的任務!
解決方案
在評估市場上所有儲存供應商後,最終選擇與 Hammerspace 合作,「因為只有 Hammerspace 不需要在伺服器集群中安裝客戶端。要知道,安裝任何程式都有可能導致系統不穩,產生難以估計的損失;同時 Hammerspace 擁有無與倫比的效能擴展能力。」Hammerspace 使工程師能以數千張 GPU 執行互動式除錯,因為環境中所有節點都能即時存取程式碼變更。我們的 Tectonic 分散式儲存解決方案結合 Hammerspace,不僅支援快速迭代,也不影響擴展性。
「Hammerspace 所完成的簡直就是純粹的魔法。」
——Paul Saab,Meta 首席工程師
一切皆以業界標準為基礎,隨插即用,無需安裝客戶端
沒有任何儲存供應商可與 Hammerspace 相提並論
- 超過 1,000 個節點的 Hammerspace 儲存集群
- 目前為 24,000 張 GPU 提供資料支援,很快將提升至 35 萬張,接著是 100 萬張
- 卓越的可靠性(可容許數百個儲存節點故障)
- 總傳輸率為 12.5TB/秒(即 100Tb/秒)
- 可使用現有 OCP 儲存伺服器
Meta:https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
Meta表示到 2024 年底,我們的目標是持續擴展基礎設施,其中包括 35 萬張 NVIDIA H100,這將是我們投資組合的一部分,最終將具備相當於近 60 萬張 H100 的運算能力。當我們展望未來時,我們清楚意識到,昨日或今日有效的系統,明日可能就不敷使用。這正是我們持續評估與優化基礎設施各個層面(從實體、虛擬到軟體與應用層)的原因。我們的目標是打造靈活且可靠的系統,以支援快速演進的新模型與研究。