Jump to...
redirecting...

Log for Ubuntu 台灣社群

MongoDB 有沒有 bleed 都算炸了吧 @@a
個 300 億參數的 Qwen 模型「走進」Raspberry Pi,還能近乎即時跑起來 (★ 108 分)

ByteShape 這篇文章主打把 300 億參數的 Qwen3-30B-A3B-Instruct-2507 透過 GGUF 量化後,做出「在特定裝置上回應快、品質高」的實測曲線,甚至能在 Raspberry Pi 5(16GB)達到接近即時的互動體驗。作者強調目標不是把模型檔案越縮越小,而是把「記憶體當成預算」:先確保模型能舒適地放進可用記憶體,再針對使用者真正有感的 tokens per second(TPS,每秒產生的 token 數)與輸出品質做最佳化。他們用自家 ShapeLearn(bitlength learning,逐張量選擇權重資料型別與位元長度的方法)替不同張量挑選量化格式,避免只靠「位元越低越快」這種直覺。

在 CPU 端,文章描述一旦模型「放得下」,位元長度降低通常會帶來較單調、可預期的「速度換品質」曲線。在最吃緊的 Raspberry Pi 5(16GB)情境,他們主推 `Q3_K_S-2.70bpw [KQ-2]`:2.70 BPW(bits per weight,每個權重平均位元數)、8.03 TPS、保留 94.18% 的 BF16(bfloat16)基準品質,並指出約 8 TPS 就會讓文字輸出體感接近即時(超過一般閱讀速度)。若以「品質優先」為目標,文章列出在 Pi 上仍可執行的高準確度選項,宣稱 ByteShape 在相同記憶體限制下比 Unsloth 量化結果有更低錯誤率;到了較寬裕的 Intel i7(64GB)上,ByteShape 也聲稱能提供更高品質或更高 TPS 的平衡點,甚至把部分組合推到 26+ TPS 區間。

在 GPU 端,文章把重點放在 llama.cpp 的核心現實:量化「位元更低」不必然更快,因為真正左右效能的是 kernel(GPU 計算核心路徑)與解碼開銷、記憶體讀取對齊等硬體特性。作者觀察 RTX 5090(32GB)存在明顯的「約 4-bit 甜蜜點」,多家方法都能在相近品質下跑到約 300 TPS;但離開該區域後,效能與品質的曲線就變得不規則,ByteShape 自認在更高品質或更嚴格記憶體預算時更有優勢。對 RTX 4080(16GB)這種無法容納「魔法 4-bit」配置的常見顯卡,文章主張 ByteShape 在同樣 VRAM 限制下能比 Unsloth 維持更好的 TPS/品質取捨。最後作者用 GPU 的 warp(NVIDIA 每 32 執行緒的鎖步群組)、32-byte 對齊讀取、以及量化解碼指令等例子說明:例如某些矩陣乘法從 `iq4_xs` 換到更低位元的 `iq3_xxs`,雖然權重更小卻反而變慢,並把結論收斂成一句話:別怪模型或晶片,「怪資料型別」。

Hacker News 的討論首先幫忙把標題裡「即時」具體化:有人直接引用文中數字,指出在 Pi 5(16GB)用 `Q3_K_S-2.70bpw` 約 8 TPS、品質約 BF16 的 94%。也有人質疑這個「品質」到底怎麼量:從 BF16 量化到 2.8 BPW 只掉約 5% 聽起來不太符合直覺,因為常見指標如 perplexity(困惑度,衡量語言模型對文本的不確定性)在不同量化下的變化,往往會讓人預期更明顯的退化;文章雖提到其「normalized quality」是把 MMLU、GSM8K、IFEval、LiveCodeBench 等基準彙總成單一分數,但社群仍提醒需要看清楚評分定義與可重現性。

另一條高互動的留言串是實測可重現性:知名硬體玩家 geerlingguy 回報一開始用最新 llama.cpp 在 Pi 5(16GB)載入就因為 KV cache(Key-Value cache,推論時保存注意力機制中鍵值以加速生成)配置吃掉大量記憶體而失敗,甚至出現記憶體配置不足後 segfault(段錯誤);後來把 context size(上下文長度)用 `-c 4096` 降下來就能載入,生成速度約 6–7 tokens/s、提示處理約 10–11 tokens/s,並提醒「輸出越長、任務越複雜」時速度會掉到 4–6 tokens/s,但仍算在這種硬體上相當驚人。也有人建議是否能靠 swap(交換空間)撐過去,或拿其他專案如 ik_llama.cpp、BitNet(微軟提出的低位元網路)做對照;另有人提到 GPT-OSS-20B 模型檔約 11.2GB,可能在 16GB 機器上更容易取得「夠用的上下文」而不必把設定壓得那麼極端。

討論最後把話題延伸到「本地推論」的產品與硬體趨勢:有人期待隱私導向、類 Alexa 的家用語音助理生態,透過 Home Assistant(開源智慧家庭平台)加上本地 LLM 推論把資料留在家中;也有人認為若要在一般電腦與邊緣裝置普及,長期需要更便宜、更標準化的推論加速器(inference unit)像是「每台電腦都內建一顆」才能把效率與體驗做到位。整體情緒偏正面,認為文章把「量化不等於更快」講得清楚且有實測價值,但也要求更具體的重現指引與更透明的品質指標解讀。

👥 28 則討論、評論 💬
https://news.ycombinator.com/item?id=46518573
為什麼別人的 Raspberry Pi 比較好玩
CES 2026:揭開 AMD Venice 與 MI400 SoC 的神秘面紗 (★ 114 分)

AMD 在 CES 2026 首度展示了 EPYC「Venice」伺服器 CPU 與 MI400 資料中心加速器的實體晶片與封裝,讓外界得以從裸晶與封裝配置推估其設計重點。Venice 最顯著的變化是封裝走線方式看起來更進階,類似 AMD 先前在 Strix Halo 或 MI250X 上採用的作法;同時也從過往 EPYC 慣例的單一 I/O Die(IOD,輸入輸出晶粒)改成雙 IOD,暗示記憶體、PCIe 等外部連接與內部互連的規劃可能大幅調整。

就運算晶粒而言,Venice 由 8 個 CCD(Core Complex Die,含 CPU 核心與快取的晶粒小塊)組成,每個 CCD 32 核心,單顆封裝最高可達 256 核心。作者以現場照片量測推估,每個 CCD 約 165 mm²、採用 TSMC N2(2nm)製程;若延續每核心 4MB L3 快取的配置,則單個 CCD 可能是 32 個 Zen 6 核心加上 128MB L3。另一方面,每個 IOD 約 353 mm²,兩顆合計超過 700 mm²,明顯高於前代 EPYC 約 400 mm² 的 I/O 面積;封裝周邊還有 8 顆小晶粒,可能是結構用矽片或深溝電容(deep trench capacitor)晶粒,用來改善供電品質。

MI400 加速器則是一個更巨大的封裝:配置 12 顆 HBM4(High Bandwidth Memory 4,高頻寬記憶體)堆疊,並包含「12 個 2nm 與 3nm 的運算與 I/O 晶粒」。從外觀推測其結構類似 MI350 的雙 base die(基底晶粒),但上下另多了兩顆額外晶粒,可能負責封裝外 I/O(例如 PCIe、UALink 等互連)。作者估算每個 base die 約 747 mm²、額外 I/O 晶粒約 220 mm²;運算 chiplet(晶粒小塊)可能是 8 顆、每顆大小上限約 180 mm²,較可能落在 140–160 mm² 但仍待日後確認。AMD 也宣布 MI400 家族新增 MI440X,鎖定 8 路 UBB(Universal Base Board,通用底板)機箱,作為 MI300/MI350 的直接替換;同時提出 Venice-X,推測為採用 3D V-Cache(堆疊式額外 L3 快取)的版本,若 32 核心 CCD 也能疊 V-Cache,單 CCD L3 最高可能推到 384MB、整顆處理器合計可達 3GB L3。

Hacker News 討論熱點集中在「高核心數到底怎麼用」與「這類晶片真正瓶頸在哪」。不少人把 256 核心/512 執行緒(threads)拿來玩梗,想像用 CPU 軟體光柵化(D3D WARP,Direct3D 的軟體渲染器)來跑 Crysis 或 DOOM;但也有人提醒,多數桌面與遊戲負載難以有效擴展到數百核心,真正的關鍵往往是記憶體頻寬與 I/O,而不是把執行緒數硬撐大。相對地,也有留言指出對網頁與資料庫等伺服器工作,透過在單機塞進大量容器或 VM(Virtual Machine,虛擬機)其實很吃高核心數;HPC(High Performance Computing,高效能運算)則常以 MPI(Message Passing Interface,訊息傳遞介面)搭配 OpenMP 等方式做階層式平行化,並討論 NUMA(Non-Uniform Memory Access,非一致性記憶體存取)拓樸在多 CCD/多 IOD 下會更複雜,跨晶粒溝通與原子操作(atomic)成本可能成為程式模型的新壓力。

另一條爭論是把 AMD 的高密度核心(常被推測為 Zen 6c)拿去類比 Intel 的 E-core(Efficiency core,高效率核心)是否恰當。有高分留言強調兩者差異:Intel P-core/E-core 往往是不同微架構、IPC(Instructions Per Cycle,每時脈指令數)與指令集支援也可能不一致,導致排程與相容性更棘手;而 AMD 的「c」版本多被認為是同微架構、主要以較少快取與較低時脈換取更高密度,因此比較不會出現同一顆 CPU 內「兩種核心像兩種不同機器」的困擾。也有人替 Intel E-core 平反,認為它在面積與功耗限制下堆疊算力很有價值,名聲不好更多來自使用情境與系統整合問題。

最後,討論也延伸到工程現實:如此巨大的封裝要怎麼散熱、1U 能塞幾顆、下一代機櫃每 U 的 kW 密度會變多高。有人推估由於封裝面積很大,熱通量(單位面積熱量)未必比桌面旗艦更糟,未必「一定要」水冷,但整機櫃的總功耗與風量仍會逼近資料中心極限;也有讀者補充 AMD 軟體生態 ROCm(Radeon Open Compute,AMD 的 GPU 運算平台)近年穩定度已改善,但「CUDA(Nvidia 的 GPU 運算平台)優勢」仍是採購與導入時繞不開的現實門檻。

👥 63 則討論、評論 💬
https://news.ycombinator.com/item?id=46519326