知名工程師 Jeff Geerling 成功串聯四台 M3 Ultra Mac Studio,打造出一個擁有 1.5TB 統一記憶體的 AI 運算叢集。這個叢集利用 macOS 26.2 的新功能 RDMA over Thunderbolt 5,在 Geekbench 6 測試中表現出色,甚至能執行其他系統無法運作的超大型 AI 模型,不過硬體成本也高達約新台幣 128 萬元。
哇賽!又有新玩法了!知名工程師 Jeff Geerling 最近完成了一項超狂的挑戰,他利用 macOS 26.2 最新的系統特性,成功把四台 M3 Ultra Mac Studio 串聯起來,打造出一台擁有 1.5TB 統一記憶體的 AI 運算叢集。
這次叢集能成功,關鍵就在於 macOS 26.2 導入了一項核心功能:「RDMA over Thunderbolt 5」。透過 Thunderbolt 5 介面,這項技術允許一台 Mac 直接讀取另一台的記憶體,而且還不需要 CPU 介入,聽起來是不是很厲害!
在 Geekbench 6 的多核心測試中,這個由 Mac Studio 組成的 AI 叢集,輕鬆就超越了 Dell Pro Max with GB10 和 Framework Desktop。它的雙精度浮點數效能更是達到 1 TFLOPS 以上,而且待機功耗還低於 10W,真的非常節能。
不只如此,在 AI 推論方面,表現也相當亮眼。單機執行 Llama 3.2 3B 模型時,每秒可以處理 154.6 個 token;而執行大型的 Llama 3.1 70B 模型時,每秒也能維持 14.1 個 token。這兩個測試的效能,都遠遠超越了其他競爭對手。
更讓人驚訝的是,當嘗試執行 DeepSeek R1 671B 這種超大型模型時,其他系統都無法正常運作,但 Mac Studio 叢集卻憑藉著它那 1.5TB 的統一記憶體,成功完成了這項艱鉅的挑戰!
RDMA over Thunderbolt 5 在這個 AI 叢集當中真的發揮了關鍵作用。啟用 RDMA 後,記憶體存取延遲從 TCP 的 300 微秒,大幅降到 50 微秒以下,這效能提升簡直是飛躍式成長!
在使用 exo 系統測試 Qwen3 235B 時,四台裝置每秒可以處理 31.9 個 token,比 llama.cpp TCP 快了一倍以上;測試 DeepSeek V3.1 更是達到每秒 32.5 個 token,表現非常突出。
不過,雖然 RDMA 表現出色,但在高負載時偶爾還是會出現系統當機的情況,這點可能還需要進一步優化。
當然,這種頂級效能也是要付出代價的。由 Mac Studio 組成的 AI 叢集,總硬體成本約為 40,000 美元 (約新台幣 128 萬元,人民幣約 28 萬元)。相較於其他兩個平台,這個價格確實更昂貴,但能有這樣的效能,或許對某些專業使用者來說還是很值得的。


![[Pastilan] 我們曾見證過總統領跑者因貪腐問題而垮台](https://www.rappler.com/tachyon/2025/09/marcos-rock-netting-inspection-benguet-august-24-2025-scaled.jpg?resize=75%2C75&crop=725px%2C0px%2C1708px%2C1708px)