Himσησ says to YSITD
寫過 但不是要你去寫 verilog 只是去參考架構,然後用 opencl/cuda去寫 記憶體這問題,通常在存取 array 時,cuda/opencl會建議先複製到 local memory再運算,在搬移的時間 scheduler 會去排其他工作,只要做好記憶體最佳化效率可以很高