Li-Fan Chen
says to
YSITD
為什麼 gradient descent 的時候要大小取決於微分值