Log for Ubuntu 台灣社群

MongoDB 有沒有 bleed 都算炸了吧 @@a

(つ`ω´)つ

一個 300 億參數的 Qwen 模型「走進」Raspberry Pi，還能近乎即時跑起來 （★ 108 分）

ByteShape 這篇文章主打把 300 億參數的 Qwen3-30B-A3B-Instruct-2507 透過 GGUF 量化後，做出「在特定裝置上回應快、品質高」的實測曲線，甚至能在 Raspberry Pi 5（16GB）達到接近即時的互動體驗。作者強調目標不是把模型檔案越縮越小，而是把「記憶體當成預算」：先確保模型能舒適地放進可用記憶體，再針對使用者真正有感的 tokens per second（TPS，每秒產生的 token 數）與輸出品質做最佳化。他們用自家 ShapeLearn（bitlength learning，逐張量選擇權重資料型別與位元長度的方法）替不同張量挑選量化格式，避免只靠「位元越低越快」這種直覺。

在 CPU 端，文章描述一旦模型「放得下」，位元長度降低通常會帶來較單調、可預期的「速度換品質」曲線。在最吃緊的 Raspberry Pi 5（16GB）情境，他們主推 `Q3_K_S-2.70bpw [KQ-2]`：2.70 BPW（bits per weight，每個權重平均位元數）、8.03 TPS、保留 94.18% 的 BF16（bfloat16）基準品質，並指出約 8 TPS 就會讓文字輸出體感接近即時（超過一般閱讀速度）。若以「品質優先」為目標，文章列出在 Pi 上仍可執行的高準確度選項，宣稱 ByteShape 在相同記憶體限制下比 Unsloth 量化結果有更低錯誤率；到了較寬裕的 Intel i7（64GB）上，ByteShape 也聲稱能提供更高品質或更高 TPS 的平衡點，甚至把部分組合推到 26+ TPS 區間。

在 GPU 端，文章把重點放在 llama.cpp 的核心現實：量化「位元更低」不必然更快，因為真正左右效能的是 kernel（GPU 計算核心路徑）與解碼開銷、記憶體讀取對齊等硬體特性。作者觀察 RTX 5090（32GB）存在明顯的「約 4-bit 甜蜜點」，多家方法都能在相近品質下跑到約 300 TPS；但離開該區域後，效能與品質的曲線就變得不規則，ByteShape 自認在更高品質或更嚴格記憶體預算時更有優勢。對 RTX 4080（16GB）這種無法容納「魔法 4-bit」配置的常見顯卡，文章主張 ByteShape 在同樣 VRAM 限制下能比 Unsloth 維持更好的 TPS/品質取捨。最後作者用 GPU 的 warp（NVIDIA 每 32 執行緒的鎖步群組）、32-byte 對齊讀取、以及量化解碼指令等例子說明：例如某些矩陣乘法從 `iq4_xs` 換到更低位元的 `iq3_xxs`，雖然權重更小卻反而變慢，並把結論收斂成一句話：別怪模型或晶片，「怪資料型別」。

Hacker News 的討論首先幫忙把標題裡「即時」具體化：有人直接引用文中數字，指出在 Pi 5（16GB）用 `Q3_K_S-2.70bpw` 約 8 TPS、品質約 BF16 的 94%。也有人質疑這個「品質」到底怎麼量：從 BF16 量化到 2.8 BPW 只掉約 5% 聽起來不太符合直覺，因為常見指標如 perplexity（困惑度，衡量語言模型對文本的不確定性）在不同量化下的變化，往往會讓人預期更明顯的退化；文章雖提到其「normalized quality」是把 MMLU、GSM8K、IFEval、LiveCodeBench 等基準彙總成單一分數，但社群仍提醒需要看清楚評分定義與可重現性。

另一條高互動的留言串是實測可重現性：知名硬體玩家 geerlingguy 回報一開始用最新 llama.cpp 在 Pi 5（16GB）載入就因為 KV cache（Key-Value cache，推論時保存注意力機制中鍵值以加速生成）配置吃掉大量記憶體而失敗，甚至出現記憶體配置不足後 segfault（段錯誤）；後來把 context size（上下文長度）用 `-c 4096` 降下來就能載入，生成速度約 6–7 tokens/s、提示處理約 10–11 tokens/s，並提醒「輸出越長、任務越複雜」時速度會掉到 4–6 tokens/s，但仍算在這種硬體上相當驚人。也有人建議是否能靠 swap（交換空間）撐過去，或拿其他專案如 ik_llama.cpp、BitNet（微軟提出的低位元網路）做對照；另有人提到 GPT-OSS-20B 模型檔約 11.2GB，可能在 16GB 機器上更容易取得「夠用的上下文」而不必把設定壓得那麼極端。

討論最後把話題延伸到「本地推論」的產品與硬體趨勢：有人期待隱私導向、類 Alexa 的家用語音助理生態，透過 Home Assistant（開源智慧家庭平台）加上本地 LLM 推論把資料留在家中；也有人認為若要在一般電腦與邊緣裝置普及，長期需要更便宜、更標準化的推論加速器（inference unit）像是「每台電腦都內建一顆」才能把效率與體驗做到位。整體情緒偏正面，認為文章把「量化不等於更快」講得清楚且有實測價值，但也要求更具體的重現指引與更透明的品質指標解讀。

👥 28 則討論、評論 💬
https://news.ycombinator.com/item?id=46518573

pm 06:59:49

(つ`ω´)つ

為什麼別人的 Raspberry Pi 比較好玩

CES 2026：揭開 AMD Venice 與 MI400 SoC 的神秘面紗（★ 114 分）

AMD 在 CES 2026 首度展示了 EPYC「Venice」伺服器 CPU 與 MI400 資料中心加速器的實體晶片與封裝，讓外界得以從裸晶與封裝配置推估其設計重點。Venice 最顯著的變化是封裝走線方式看起來更進階，類似 AMD 先前在 Strix Halo 或 MI250X 上採用的作法；同時也從過往 EPYC 慣例的單一 I/O Die（IOD，輸入輸出晶粒）改成雙 IOD，暗示記憶體、PCIe 等外部連接與內部互連的規劃可能大幅調整。

就運算晶粒而言，Venice 由 8 個 CCD（Core Complex Die，含 CPU 核心與快取的晶粒小塊）組成，每個 CCD 32 核心，單顆封裝最高可達 256 核心。作者以現場照片量測推估，每個 CCD 約 165 mm²、採用 TSMC N2（2nm）製程；若延續每核心 4MB L3 快取的配置，則單個 CCD 可能是 32 個 Zen 6 核心加上 128MB L3。另一方面，每個 IOD 約 353 mm²，兩顆合計超過 700 mm²，明顯高於前代 EPYC 約 400 mm² 的 I/O 面積；封裝周邊還有 8 顆小晶粒，可能是結構用矽片或深溝電容（deep trench capacitor）晶粒，用來改善供電品質。

MI400 加速器則是一個更巨大的封裝：配置 12 顆 HBM4（High Bandwidth Memory 4，高頻寬記憶體）堆疊，並包含「12 個 2nm 與 3nm 的運算與 I/O 晶粒」。從外觀推測其結構類似 MI350 的雙 base die（基底晶粒），但上下另多了兩顆額外晶粒，可能負責封裝外 I/O（例如 PCIe、UALink 等互連）。作者估算每個 base die 約 747 mm²、額外 I/O 晶粒約 220 mm²；運算 chiplet（晶粒小塊）可能是 8 顆、每顆大小上限約 180 mm²，較可能落在 140–160 mm² 但仍待日後確認。AMD 也宣布 MI400 家族新增 MI440X，鎖定 8 路 UBB（Universal Base Board，通用底板）機箱，作為 MI300/MI350 的直接替換；同時提出 Venice-X，推測為採用 3D V-Cache（堆疊式額外 L3 快取）的版本，若 32 核心 CCD 也能疊 V-Cache，單 CCD L3 最高可能推到 384MB、整顆處理器合計可達 3GB L3。

Hacker News 討論熱點集中在「高核心數到底怎麼用」與「這類晶片真正瓶頸在哪」。不少人把 256 核心／512 執行緒（threads）拿來玩梗，想像用 CPU 軟體光柵化（D3D WARP，Direct3D 的軟體渲染器）來跑 Crysis 或 DOOM；但也有人提醒，多數桌面與遊戲負載難以有效擴展到數百核心，真正的關鍵往往是記憶體頻寬與 I/O，而不是把執行緒數硬撐大。相對地，也有留言指出對網頁與資料庫等伺服器工作，透過在單機塞進大量容器或 VM（Virtual Machine，虛擬機）其實很吃高核心數；HPC（High Performance Computing，高效能運算）則常以 MPI（Message Passing Interface，訊息傳遞介面）搭配 OpenMP 等方式做階層式平行化，並討論 NUMA（Non-Uniform Memory Access，非一致性記憶體存取）拓樸在多 CCD／多 IOD 下會更複雜，跨晶粒溝通與原子操作（atomic）成本可能成為程式模型的新壓力。

另一條爭論是把 AMD 的高密度核心（常被推測為 Zen 6c）拿去類比 Intel 的 E-core（Efficiency core，高效率核心）是否恰當。有高分留言強調兩者差異：Intel P-core/E-core 往往是不同微架構、IPC（Instructions Per Cycle，每時脈指令數）與指令集支援也可能不一致，導致排程與相容性更棘手；而 AMD 的「c」版本多被認為是同微架構、主要以較少快取與較低時脈換取更高密度，因此比較不會出現同一顆 CPU 內「兩種核心像兩種不同機器」的困擾。也有人替 Intel E-core 平反，認為它在面積與功耗限制下堆疊算力很有價值，名聲不好更多來自使用情境與系統整合問題。

最後，討論也延伸到工程現實：如此巨大的封裝要怎麼散熱、1U 能塞幾顆、下一代機櫃每 U 的 kW 密度會變多高。有人推估由於封裝面積很大，熱通量（單位面積熱量）未必比桌面旗艦更糟，未必「一定要」水冷，但整機櫃的總功耗與風量仍會逼近資料中心極限；也有讀者補充 AMD 軟體生態 ROCm（Radeon Open Compute，AMD 的 GPU 運算平台）近年穩定度已改善，但「CUDA（Nvidia 的 GPU 運算平台）優勢」仍是採購與導入時繞不開的現實門檻。

👥 63 則討論、評論 💬
https://news.ycombinator.com/item?id=46519326