Neo_Chen (BU4AK)
says to
OKTW Network
不完全,因為跑 tensor parallel 的時候每個 node 不用存取那麼多 weight