主頁 > 知識庫 > 淺談pytorch中為什么要用 zero_grad() 將梯度清零

淺談pytorch中為什么要用 zero_grad() 將梯度清零

熱門標(biāo)簽:美圖手機(jī) 呼叫中心市場需求 智能手機(jī) 銀行業(yè)務(wù) 網(wǎng)站文章發(fā)布 檢查注冊表項 鐵路電話系統(tǒng) 服務(wù)器配置

pytorch中為什么要用 zero_grad() 將梯度清零

調(diào)用backward()函數(shù)之前都要將梯度清零,因為如果梯度不清零,pytorch中會將上次計算的梯度和本次計算的梯度累加。

這樣邏輯的好處是,當(dāng)我們的硬件限制不能使用更大的bachsize時,使用多次計算較小的bachsize的梯度平均值來代替,更方便,壞處當(dāng)然是每次都要清零梯度。

optimizer.zero_grad()
output = net(input)
loss = loss_f(output, target)
loss.backward()

補充:Pytorch 為什么每一輪batch需要設(shè)置optimizer.zero_grad

CSDN上有人寫過原因,但是其實寫得繁瑣了。

根據(jù)pytorch中的backward()函數(shù)的計算,當(dāng)網(wǎng)絡(luò)參量進(jìn)行反饋時,梯度是被積累的而不是被替換掉;但是在每一個batch時毫無疑問并不需要將兩個batch的梯度混合起來累積,因此這里就需要每個batch設(shè)置一遍zero_grad 了。

其實這里還可以補充的一點是,如果不是每一個batch就清除掉原有的梯度,而是比如說兩個batch再清除掉梯度,這是一種變相提高batch_size的方法,對于計算機(jī)硬件不行,但是batch_size可能需要設(shè)高的領(lǐng)域比較適合,比如目標(biāo)檢測模型的訓(xùn)練。

關(guān)于這一點可以參考這里

關(guān)于backward()的計算可以參考這里

補充:pytorch 踩坑筆記之w.grad.data.zero_()

在使用pytorch實現(xiàn)多項線性回歸中,在grad更新時,每一次運算后都需要將上一次的梯度記錄清空,運用如下方法:

w.grad.data.zero_()
b.grad.data.zero_() 

但是,運行程序就會報如下錯誤:

報錯,grad沒有data這個屬性,

原因是,在系統(tǒng)將w的grad值初始化為none,第一次求梯度計算是在none值上進(jìn)行報錯,自然會沒有data屬性

修改方法:添加一個判斷語句,從第二次循環(huán)開始執(zhí)行求導(dǎo)運算

for i in range(100):
    y_pred = multi_linear(x_train)
    loss = getloss(y_pred,y_train)
    if i != 0:
        w.grad.data.zero_()
        b.grad.data.zero_()
    loss.backward()
    w.data = w.data - 0.001 * w.grad.data
    b.data = b.data - 0.001 * b.grad.data

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • PyTorch梯度裁剪避免訓(xùn)練loss nan的操作
  • Pytorch訓(xùn)練過程出現(xiàn)nan的解決方式
  • pytorch 權(quán)重weight 與 梯度grad 可視化操作
  • PyTorch 如何檢查模型梯度是否可導(dǎo)
  • PyTorch 如何自動計算梯度
  • pytorch 梯度NAN異常值的解決方案

標(biāo)簽:河南 紅河 沈陽 滄州 新疆 長治 樂山 上海

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《淺談pytorch中為什么要用 zero_grad() 將梯度清零》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266