AMD GPU 火力全開 (★
102 分)
史丹佛大學 Hazy Research 團隊在最新的技術報告中說明,為了讓 AMD GPU 能夠在人工智慧 (AI) 訓練與推論領域真正發揮效能,他們推出了一套名為 HipKittens 的開發工具。這個軟體框架提供一系列針對 AMD 架構特性設計的程式原語 (programming primitives),其中包括最佳化的登錄器配置、在處理器內以 8-wave 與 4-wave 模式取代傳統 wave-specialization 的工作排程,以及能對晶粒 (chiplet) 架構進行快取重用的排程策略。這些設計使得開發者能接近硬體實際峰值效能,並有效克服 AMD 軟體堆疊尚不成熟的問題。
研究團隊指出,AMD 的最新 GPU 架構 MI355X 採用 256 個運算單元 (Compute Units, CUs) 並導入 chiplet 式設計,能在高密度運算下達到與 NVIDIA B200 相近甚至更高的理論算力。然而,AMD 在硬體層面缺乏部分關鍵特性,例如非同步矩陣乘法指令、登錄器再分配與高效同步原語,使得原本在 NVIDIA 上普遍採用的 wave specialization 策略難以有效發揮。他們透過 HipKittens 的 tile-based 設計,明確管理登錄器配置、最佳化記憶體存取及排程方式,藉此實現類似 NVIDIA Tensor Core 的深度管線運算,並針對 chiplet 式 L2 與 L3 快取結構重新設計工作分佈演算法,由此能在大規模矩陣乘法 (GEMM) 與注意力機制等 AI 工作負載上達到最先進效能。
HipKittens 的核心創新包含三點:第一是記憶體存取的最佳化,利用「swizzle pattern」來避免共享記憶體的 bank conflict,並透過顯式登錄器排程讓開發者取代編譯器的登錄器管理;第二是調整波形 (wave) 的執行模式,採用 8-wave ping-pong 或 4-wave interleave 排程方式,以在記憶體與計算之間達成高佔用率;第三則是針對 AMD 的 chiplet 式 GPU 跨處理器重新編排 grid 啟動順序,以提升快取一致性與帶寬使用率。他們展示的實驗結果顯示,HipKittens 在 GEMM 與注意力運算中能達到甚至超越 NVIDIA 同級 GPU 的表現。團隊強調,實現多晶片、多供應商的開放式 AI 硬體生態,將有助於推動更具彈性與多樣化的 AI 發展。
在 Hacker News 的討論中,許多開發者對這項研究表示讚賞,認為學術界願意針對 AMD 平台開發高效工具是一件好事,但也指出 AMD 若要真正與 NVIDIA 競爭,仍需根本改善自家軟體生態。有使用者批評 AMD 長期忽視軟體工程的重要性,導致開發體驗不佳、驅動問題頻仍,甚至不接受崩潰回報,反觀 NVIDIA 早已將軟體視為資產,願意投入高薪聘請工程師。許多留言認為 AMD 現金流充足,卻未大力投資 ROCm 等開發堆疊,是文化與策略上的問題。
也有部分用戶分享正面經驗,指出在 Linux 系統上以 ROCm 驅動 AMD GPU 已相當穩定,無須額外編譯核心模組即可運行容器化推論任務,如 Ollama 或 Whisper 等專案在 Fedora 環境下的整合順暢。這些開發者認為,若能配合 HipKittens 這類開放工具,AMD GPU 或能逐步成為 NVIDIA 的實質替代方案。此外,有討論提及 AMD 在晶片短缺期間未被炒作反而讓遊戲玩家受惠,但整體意見仍傾向認為 AMD 必須徹底改革其軟體策略,否則即便硬體再強勁,也難以在 AI 訓練與開發者市場上與 NVIDIA 分庭抗禮。
👥
10 則討論、評論 💬
https://news.ycombinator.com/item?id=45934416