William Mou
says to
YSITD
SGD 天生就會對 Loss 大小決定 W 呀 oeo Ada 系列的則會亙進一步針對微分大小去調整學習率