Li-Fan Chen says to YSITD
為什麼 gradient descent 的時候要大小取決於微分值