无码少妇,爆插美女流白浆视频

主頁 > 知識庫 > pytorch DataLoader的num_workers參數(shù)與設置大小詳解

pytorch DataLoader的num_workers參數(shù)與設置大小詳解

Q：在給Dataloader設置worker數(shù)量（num_worker）時，到底設置多少合適？這個worker到底怎么工作的？

    train_loader = torch.utils.data.DataLoader(train_dataset,
                                               batch_size=batch_size, shuffle=True,
                                               num_workers=4)

參數(shù)詳解：

1、每次dataloader加載數(shù)據(jù)時：dataloader一次性創(chuàng)建num_worker個worker，（也可以說dataloader一次性創(chuàng)建num_worker個工作進程，worker也是普通的工作進程），并用batch_sampler將指定batch分配給指定worker，worker將它負責的batch加載進RAM。

然后，dataloader從RAM中找本輪迭代要用的batch，如果找到了，就使用。如果沒找到，就要num_worker個worker繼續(xù)加載batch到內存，直到dataloader在RAM中找到目標batch。一般情況下都是能找到的，因為batch_sampler指定batch時當然優(yōu)先指定本輪要用的batch。

2、num_worker設置得大，好處是尋batch速度快，因為下一輪迭代的batch很可能在上一輪/上上一輪...迭代時已經加載好了。壞處是內存開銷大，也加重了CPU負擔（worker加載數(shù)據(jù)到RAM的進程是CPU復制的嘛）。num_workers的經驗設置值是自己電腦/服務器的CPU核心數(shù)，如果CPU很強、RAM也很充足，就可以設置得更大些。

3、如果num_worker設為0，意味著每一輪迭代時，dataloader不再有自主加載數(shù)據(jù)到RAM這一步驟（因為沒有worker了），而是在RAM中找batch，找不到時再加載相應的batch。缺點當然是速度更慢。

設置大小建議：

1、Dataloader的num_worker設置多少才合適，這個問題是很難有一個推薦的值。有以下幾個建議：

2、num_workers=0表示只有主進程去加載batch數(shù)據(jù)，這個可能會是一個瓶頸。

3、num_workers = 1表示只有一個worker進程用來加載batch數(shù)據(jù)，而主進程是不參與數(shù)據(jù)加載的。這樣速度也會很慢。

num_workers>0 表示只有指定數(shù)量的worker進程去加載數(shù)據(jù)，主進程不參與。增加num_works也同時會增加cpu內存的消耗。所以num_workers的值依賴于 batch size和機器性能。

4、一般開始是將num_workers設置為等于計算機上的CPU數(shù)量

5、最好的辦法是緩慢增加num_workers，直到訓練速度不再提高，就停止增加num_workers的值。

補充：pytorch中Dataloader()中的num_workers設置問題

如果num_workers的值大于0，要在運行的部分放進__main__()函數(shù)里，才不會有錯：

import numpy as np
import torch
from torch.autograd import Variable
import torch.nn.functional
import matplotlib.pyplot as plt
import torch.utils.data as Data 
 
BATCH_SIZE=5
 
x=torch.linspace(1,10,10)
y=torch.linspace(10,1,10)
torch_dataset=Data.TensorDataset(x,y)
loader=Data.DataLoader(
    dataset=torch_dataset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    num_workers=2,
) 
 
def main():
    for epoch in range(3):
        for step,(batch_x,batch_y) in enumerate(loader):
            # training....
            print('Epoch:',epoch,'| step:',step,'| batch x:',batch_x.numpy(),
                  '| batch y:',batch_y.numpy()) 
 
if __name__=="__main__":
    main() 
 
'''
# 下面這樣直接運行會報錯：
 for epoch in range(3):
     for step,(batch_x,batch_y) in enumerate(loader):
         # training....
          print('Epoch:',epoch,'| step:',step,'| batch x:',batch_x.numpy(),
                  '| batch y:',batch_y.numpy()
'''

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

pytorch鎖死在dataloader(訓練時卡死)
pytorch Dataset,DataLoader產生自定義的訓練數(shù)據(jù)案例
解決Pytorch dataloader時報錯每個tensor維度不一樣的問題
pytorch中DataLoader()過程中遇到的一些問題
Pytorch dataloader在加載最后一個batch時卡死的解決
Pytorch 如何加速Dataloader提升數(shù)據(jù)讀取速度
pytorch 實現(xiàn)多個Dataloader同時訓練

標簽：宿遷駐馬店常州山東成都六盤水江蘇蘭州

巨人網絡通訊聲明：本文標題《pytorch DataLoader的num_workers參數(shù)與設置大小詳解》，本文關鍵詞 pytorch,DataLoader,的,num,workers,；如發(fā)現(xiàn)本文內容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡，涉及言論、版權與本站無關。

pytorch DataLoader的num_workers參數(shù)與設置大小詳解

參數(shù)詳解：

設置大小建議：

四合一精品企业网站建设

¥888元限时抢购

立即咨询快速购买

企业400电话

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议