Ray 2.55が大規模AIモデル展開に耐障害性を追加

Joerg Hiller 2026/4/2 18:35

AnyscaleのRay Serve LLMアップデートは、vLLM WideEP展開のためのDPグループ耐障害性を実現し、分散型AI推論システムのダウンタイムリスクを軽減します。

Anyscaleは、大規模AI推論ワークロードを実行する組織にとって重要な運用上の課題に対処するRay Serve LLMフレームワークの重要なアップデートをリリースしました。Ray 2.55は、vLLM Wide Expert Parallelism展開のためのデータ並列(DP)グループ耐障害性を導入し、単一のGPU障害がモデルサービングクラスタ全体をダウンさせることを防ぐ機能です。

このアップデートは、Mixture of Experts (MoE) モデルサービングにおける特定の課題点をターゲットとしています。各レプリカが独立して動作する従来のモデル展開とは異なり、DeepSeek-V3のようなMoEアーキテクチャは、集合的に動作しなければならないGPUグループ全体にエキスパート層を分散します。これらの構成で1つのGPUが故障すると、16から128個のGPUに及ぶ可能性のあるグループ全体が動作不能になります。

技術的な問題

MoEモデルは、専門化された「エキスパート」ニューラルネットワークを複数のGPUに分散します。たとえば、DeepSeek-V3は層ごとに256個のエキスパートを含みますが、トークンごとに8個のみをアクティブ化します。トークンは、すべての参加ランクが正常である必要があるディスパッチおよび結合操作を通じて、必要なエキスパートを保持するGPUにルーティングされます。

以前は、単一のランク障害がこれらの集合操作を破壊していました。クエリは影響を受けたグループ内の生き残ったレプリカへのルーティングを続けますが、すべてのリクエストが失敗します。復旧にはシステム全体の再起動が必要でした。

Rayの解決方法

Ray Serve LLMは、ギャングスケジューリングを通じて各DPグループをアトミックユニットとして扱うようになりました。1つのランクが故障すると、システムはグループ全体を不健全とマークし、トラフィックのルーティングを停止し、故障したグループを解体し、ユニットとして再構築します。他の健全なグループは、その間も引き続きリクエストを処理します。

この機能は、Ray 2.55でデフォルトで有効になっています。既存のDP展開ではコード変更は不要で、フレームワークがグループレベルのヘルスチェック、スケジューリング、リカバリを自動的に処理します。

自動スケーリングもこれらの境界を尊重します。スケールアップおよびスケールダウン操作は、個別のレプリカではなくグループサイズの増分で行われ、トラフィックを処理できない部分的なグループの作成を防ぎます。

運用上の影響

このアップデートは、重要な設計上の考慮事項を生み出します。グループ幅対グループ数です。AnyscaleによるvLLMベンチマークによると、GPU あたりのスループットは、32、72、96のエキスパート並列サイズ全体で比較的安定しています。これは、オペレーターが効率を犠牲にすることなく小さいグループに調整できることを意味し、小さいグループは障害が発生したときの影響範囲が小さくなることを意味します。

Anyscaleは、このオーケストレーションレベルの回復力が、vLLMコミュニティで行われているエンジンレベルの弾力性作業を補完すると指摘しています。vLLM Elastic Expert Parallelism RFCは、ランタイムがグループ内でトポロジを動的に調整する方法に対処し、Ray Serve LLMはどのグループが存在しトラフィックを受信するかを管理します。

DeepSeekスタイルのモデルを大規模に展開する組織にとって、実用的なメリットは明確です。GPU障害は、システム全体の停止ではなく、局所的なインシデントになります。コードサンプルと再現手順は、AnyscaleのGitHubリポジトリで入手できます。

画像ソース: Shutterstock