啊你就開個 container 跑個人家寫好的 script
原來 Forti 有 proxy 功能喔,我還以為都是 SSLVPN
我把它流量導去你那邊好了
113 IP 看起來比較庫
curl || wget || perl || python | bash
你用什麼撈到他們被戳爆的r
我復現一次 拿資料去跟他們講
他們有用filebeat還logstash收系統log
想請問有人參加過之前的Google學生開發者計畫嗎?
申請時有提到 DSC code ,想知道那是什麼。
為什麼 gradient descent 的時候要大小取決於微分值
微分值越大你對loss function的影響力越大,所以你需要調整的值理所當然要大一點,才會越快達到minimum
譬如說你weight_1調整1,loss可以降低1,然後你weight _2 調整1 loss卻降了100,這時候你會比較傾向讓weight_2調整多一點,這樣會比較快達到min
找你這麼說你每一個weight你都可以設很大的數字
我覺得 Gradient Descent 依賴了某項假設
3b1b不是有說weight關聯到神經元中間的強度
所以說你在optimized的時候就是在訓練神經元最符合資料想要的connection
所以你在optimization的時候,你會對weight跟bias做偏微然後利用資料來告訴你,那邊的connect應該要增強那邊應該要減弱,這樣才會更符合資料要的connection,然而你如果反而資料告訴你哪邊的connect不要增加那麼多,你卻在那個weight加了一個很大的數字
通常我們用的方法是 new_x <- x-n*v(x)
那如果說,我們改成
new_x <- x-n* (v(x)/|v(x)|)
我覺得你可以把神經網路的緯度降回來三維的空間想一下
你會發現你拿到的東西是你站在的點,分別對x剖面和y頗面的斜率
今天你要往下走的話你是不是朝著x的方向走多一點是不是比較有利?
你能用 Gradient Descent 找到最佳解
你先不要用一個 「Gradient Descent 一定對」的想法在想事情
有時候你同一個模型,同樣的東西跑兩次結果就不一樣了
這種case你應該也可以嘗試調整learning rate
總之Gradient decent就是比較中規中矩的做法,應該這樣子說
再來是在「剛開始」的時候 斜率大就走快一點是合理的
那當 step size 收斂的時候 斜率對距離的影響就沒那麼大了 反正都走不遠
實際上假設應該是 斜率會越小 => 距離最低點越近
我們是因為怕跑過頭 所以才在斜率低的時候走慢一點 因為可能已經到最低點了
而為了解決平原的問題
才會有考慮動量的 optimizer
你是說回到你前面說的
用單位向量乘上 step size 嗎
有什麼推薦的 framework 可以讓我這樣改ㄇ
Which is to say, no the book is right.
如果你想要下降ㄉ最快,哪你下降的大小會跟倒數成正比