Ray 2.55 為大規模 AI 模型部署新增容錯功能
Joerg Hiller 2026年4月2日 18:35
Anyscale 的 Ray Serve LLM 更新為 vLLM WideEP 部署啟用了 DP 群組容錯功能,降低了分散式 AI 推理系統的停機風險。
Anyscale 發布了其 Ray Serve LLM 框架的重大更新,解決了執行大規模 AI 推理工作負載的組織所面臨的關鍵營運挑戰。Ray 2.55 為 vLLM Wide Expert Parallelism 部署引入了資料平行(DP)群組容錯功能——這項功能可防止單一 GPU 故障導致整個模型服務叢集停擺。
此更新針對專家混合(MoE)模型服務中的特定痛點。與每個副本獨立運作的傳統模型部署不同,像 DeepSeek-V3 這樣的 MoE 架構會將專家層分片到必須協同工作的 GPU 群組中。當這些配置中的一個 GPU 故障時,整個群組——可能跨越 16 到 128 個 GPU——就會無法運作。
技術問題
MoE 模型將專門的「專家」神經網路分散到多個 GPU 上。例如,DeepSeek-V3 每層包含 256 個專家,但每個標記只啟動 8 個。標記會透過調度和合併操作路由到持有所需專家的 GPU,這些操作需要所有參與的節點保持健康狀態。
以前,單一節點故障會破壞這些集體操作。查詢會繼續路由到受影響群組中倖存的副本,但每個請求都會失敗。恢復需要重啟整個系統。
Ray 如何解決問題
Ray Serve LLM 現在透過群組排程將每個 DP 群組視為原子單元。當一個節點故障時,系統會將整個群組標記為不健康,停止將流量路由到該群組,拆除故障群組,並將其作為一個單元重建。其他健康群組在整個過程中繼續處理請求。
此功能在 Ray 2.55 中預設啟用。現有的 DP 部署不需要更改程式碼——框架會自動處理群組級別的健康檢查、排程和恢復。
自動擴展也遵守這些界限。擴展和縮減操作以群組大小為增量進行,而不是以個別副本為單位,從而防止建立無法處理流量的部分群組。
營運影響
此更新帶來了一個重要的設計考量:群組寬度與群組數量的對比。根據 Anyscale 引用的 vLLM 基準測試,在專家平行大小為 32、72 和 96 時,每個 GPU 的吞吐量保持相對穩定。這意味著營運人員可以在不犧牲效率的情況下調整為更小的群組——而更小的群組意味著故障發生時影響範圍更小。
Anyscale 指出,這種編排層級的彈性補充了 vLLM 社群中正在進行的引擎層級彈性工作。vLLM Elastic Expert Parallelism RFC 解決了執行時如何動態調整群組內拓撲的問題,而 Ray Serve LLM 則管理哪些群組存在並接收流量。
對於大規模部署 DeepSeek 風格模型的組織來說,實際好處很明確:GPU 故障成為局部事件,而非全系統性的停機。程式碼範例和重現步驟可在 Anyscale 的 GitHub 儲存庫中取得。
圖片來源:Shutterstock- Ray
- vLLM
- AI 基礎設施
- 機器學習
- 分散式運算








