Neo_Chen (BU4AK) says to OKTW Network
不完全,因為跑 tensor parallel 的時候每個 node 不用存取那麼多 weight