国产主播一区二区,精品欧美一线二线三线蜜桃

主頁(yè) > 知識(shí)庫(kù) > 基于PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的CNN圖像分類器

基于PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的CNN圖像分類器

一. 加載數(shù)據(jù)

Pytorch的數(shù)據(jù)加載一般是用torch.utils.data.Dataset與torch.utils.data.Dataloader兩個(gè)類聯(lián)合進(jìn)行。我們需要繼承Dataset來(lái)定義自己的數(shù)據(jù)集類，然后在訓(xùn)練時(shí)用Dataloader加載自定義的數(shù)據(jù)集類。

1. 繼承Dataset類并重寫(xiě)關(guān)鍵方法

pytorch的dataset類有兩種：Map-style datasets和Iterable-style datasets。前者是我們常用的結(jié)構(gòu)，而后者是當(dāng)數(shù)據(jù)集難以（或不可能）進(jìn)行隨機(jī)讀取時(shí)使用。在這里我們實(shí)現(xiàn)Map-style dataset。
繼承torch.utils.data.Dataset后，需要重寫(xiě)的方法有：__len__與__getitem__方法，其中__len__方法需要返回所有數(shù)據(jù)的數(shù)量，而__getitem__則是要依照給出的數(shù)據(jù)索引獲取對(duì)應(yīng)的tensor類型的Sample，除了這兩個(gè)方法以外，一般還需要實(shí)現(xiàn)__init__方法來(lái)初始化一些變量。話不多說(shuō)，直接上代碼。

'''
包括了各種數(shù)據(jù)集的讀取處理，以及圖像相關(guān)處理方法
'''
from torch.utils.data import Dataset
import torch
import os
import cv2
from Config import mycfg
import random
import numpy as np


class ImageClassifyDataset(Dataset):
    def __init__(self, imagedir, labelfile, classify_num, train=True):
    	'''
    	這里進(jìn)行一些初始化操作。
    	'''
        self.imagedir = imagedir
        self.labelfile = labelfile
        self.classify_num = classify_num
        self.img_list = []
        # 讀取標(biāo)簽
        with open(self.labelfile, 'r') as fp:
            lines = fp.readlines()
            for line in lines:
                filepath = os.path.join(self.imagedir, line.split(";")[0].replace('\\', '/'))
                label = line.split(";")[1].strip('\n')
                self.img_list.append((filepath, label))
        if not train:
            self.img_list = random.sample(self.img_list, 50)

    def __len__(self):
        return len(self.img_list)
        
    def __getitem__(self, item):
	    '''
	    這個(gè)函數(shù)是關(guān)鍵，通過(guò)item(索引)來(lái)取數(shù)據(jù)集中的數(shù)據(jù)，
	    一般來(lái)說(shuō)在這里才將圖像數(shù)據(jù)加載入內(nèi)存，之前存的是圖像的保存路徑
	    '''
        _int_label = int(self.img_list[item][1])	# label直接用0,1,2,3,4...表示不同類別
        label = torch.tensor(_int_label,dtype=torch.long)
        img = self.ProcessImgResize(self.img_list[item][0])
        return img, label

    def ProcessImgResize(self, filename):
    	'''
    	對(duì)圖像進(jìn)行一些預(yù)處理
    	'''
        _img = cv2.imread(filename)
        _img = cv2.resize(_img, (mycfg.IMG_WIDTH, mycfg.IMG_HEIGHT), interpolation=cv2.INTER_CUBIC)
        _img = _img.transpose((2, 0, 1))
        _img = _img / 255
        _img = torch.from_numpy(_img)
        _img = _img.to(torch.float32)
        return _img

有一些的數(shù)據(jù)集類一般還會(huì)傳入一個(gè)transforms函數(shù)來(lái)構(gòu)造一個(gè)圖像預(yù)處理序列，傳入transforms函數(shù)的一個(gè)好處是作為參數(shù)傳入的話可以對(duì)一些非本地?cái)?shù)據(jù)集中的數(shù)據(jù)進(jìn)行操作（比如直接通過(guò)torchvision獲取的一些預(yù)存數(shù)據(jù)集CIFAR10等等），除此之外就是torchvision.transforms里面有一些預(yù)定義的圖像操作函數(shù)，可以直接像拼積木一樣拼成一個(gè)圖像處理序列，很方便。我這里因?yàn)槭怯梦易约合螺d到本地的數(shù)據(jù)集，而且比較簡(jiǎn)單就直接用自己的函數(shù)來(lái)操作了。

2. 使用Dataloader加載數(shù)據(jù)

實(shí)例化自定義的數(shù)據(jù)集類ImageClassifyDataset后，將其傳給DataLoader作為參數(shù)，得到一個(gè)可遍歷的數(shù)據(jù)加載器。可以通過(guò)參數(shù)batch_size控制批處理大小，shuffle控制是否亂序讀取，num_workers控制用于讀取數(shù)據(jù)的線程數(shù)量。

from torch.utils.data import DataLoader
from MyDataset import ImageClassifyDataset

dataset = ImageClassifyDataset(imagedir, labelfile, 10)
dataloader = DataLoader(dataset, batch_size=5, shuffle=True,num_workers=5)
for index, data in enumerate(dataloader):
	print(index)	# batch索引
	print(data)		# 一個(gè)batch的{img,label}

二. 模型設(shè)計(jì)

在這里只討論深度學(xué)習(xí)模型的設(shè)計(jì)，pytorch中的網(wǎng)絡(luò)結(jié)構(gòu)是一層一層疊出來(lái)的，pytorch中預(yù)定義了許多可以通過(guò)參數(shù)控制的網(wǎng)絡(luò)層結(jié)構(gòu)，比如Linear、CNN、RNN、Transformer等等具體可以查閱官方文檔中的torch.nn部分。
設(shè)計(jì)自己的模型結(jié)構(gòu)需要繼承torch.nn.Module這個(gè)類，然后實(shí)現(xiàn)其中的forward方法，一般在__init__中設(shè)定好網(wǎng)絡(luò)模型的一些組件，然后在forward方法中依據(jù)輸入輸出順序拼裝組件。

'''
包括了各種模型、自定義的loss計(jì)算方法、optimizer
'''
import torch.nn as nn


class Simple_CNN(nn.Module):
    def __init__(self, class_num):
        super(Simple_CNN, self).__init__()
        self.class_num = class_num
        self.conv1 = nn.Sequential(
            nn.Conv2d(		# input: 3,400,600
                in_channels=3,
                out_channels=8,
                kernel_size=5,
                stride=1,
                padding=2
            ),
            nn.Conv2d(
                in_channels=8,
                out_channels=16,
                kernel_size=5,
                stride=1,
                padding=2
            ),
            nn.AvgPool2d(2),  # 16,400,600 --> 16,200,300
            nn.BatchNorm2d(16),
            nn.LeakyReLU(),
            nn.Conv2d(
                in_channels=16,
                out_channels=16,
                kernel_size=5,
                stride=1,
                padding=2
            ),
            nn.Conv2d(
                in_channels=16,
                out_channels=8,
                kernel_size=5,
                stride=1,
                padding=2
            ),
            nn.AvgPool2d(2),  # 8,200,300 --> 8,100,150
            nn.BatchNorm2d(8),
            nn.LeakyReLU(),
            nn.Conv2d(
                in_channels=8,
                out_channels=8,
                kernel_size=3,
                stride=1,
                padding=1
            ),
            nn.Conv2d(
                in_channels=8,
                out_channels=1,
                kernel_size=3,
                stride=1,
                padding=1
            ),
            nn.AvgPool2d(2),  # 1,100,150 --> 1,50,75
            nn.BatchNorm2d(1),
            nn.LeakyReLU()
        )
        self.line = nn.Sequential(
            nn.Linear(
                in_features=50 * 75,
                out_features=self.class_num
            ),
            nn.Softmax()
        )

    def forward(self, x):
        x = self.conv1(x)
        x = x.view(-1, 50 * 75)
        y = self.line(x)
        return y

上面我定義的模型中包括卷積組件conv1和全連接組件line，卷積組件中包括了一些卷積層，一般是按照{(diào)卷積層、池化層、激活函數(shù)}的順序拼接，其中我還在激活函數(shù)之前添加了一個(gè)BatchNorm2d層對(duì)上層的輸出進(jìn)行正則化以免傳入激活函數(shù)的值過(guò)?。ㄌ荻认В┗蜻^(guò)大（梯度爆炸）。
在拼接組件時(shí)，由于我全連接層的輸入是一個(gè)一維向量，所以需要將卷積組件中最后的50 × 75 50\times 7550×75大小的矩陣展平成一維的再傳入全連接層(x.view(-1,50*75))

三. 訓(xùn)練

實(shí)例化模型后，網(wǎng)絡(luò)模型的訓(xùn)練需要定義損失函數(shù)與優(yōu)化器，損失函數(shù)定義了網(wǎng)絡(luò)輸出與標(biāo)簽的差距，依據(jù)不同的任務(wù)需要定義不同的合適的損失函數(shù)，而優(yōu)化器則定義了神經(jīng)網(wǎng)絡(luò)中的參數(shù)如何基于損失來(lái)更新，目前神經(jīng)網(wǎng)絡(luò)最常用的優(yōu)化器就是SGD（隨機(jī)梯度下降算法）及其變種。
在我這個(gè)簡(jiǎn)單的分類器模型中，直接用的多分類任務(wù)最常用的損失函數(shù)CrossEntropyLoss()以及優(yōu)化器SGD。

self.cnnmodel = Simple_CNN(mycfg.CLASS_NUM)
self.criterion = nn.CrossEntropyLoss()	# 交叉熵，標(biāo)簽應(yīng)該是0,1,2,3...的形式而不是獨(dú)熱的
self.optimizer = optim.SGD(self.cnnmodel.parameters(), lr=mycfg.LEARNING_RATE, momentum=0.9)

訓(xùn)練過(guò)程其實(shí)很簡(jiǎn)單，使用dataloader依照batch讀出數(shù)據(jù)后，將input放入網(wǎng)絡(luò)模型中計(jì)算得到網(wǎng)絡(luò)的輸出，然后基于標(biāo)簽通過(guò)損失函數(shù)計(jì)算Loss，并將Loss反向傳播回神經(jīng)網(wǎng)絡(luò)（在此之前需要清理上一次循環(huán)時(shí)的梯度），最后通過(guò)優(yōu)化器更新權(quán)重。訓(xùn)練部分代碼如下：

for each_epoch in range(mycfg.MAX_EPOCH):
            running_loss = 0.0
            self.cnnmodel.train()
            for index, data in enumerate(self.dataloader):
                inputs, labels = data
                outputs = self.cnnmodel(inputs)
                loss = self.criterion(outputs, labels)

                self.optimizer.zero_grad()	# 清理上一次循環(huán)的梯度
                loss.backward()	# 反向傳播
                self.optimizer.step()	# 更新參數(shù)
                running_loss += loss.item()
                if index % 200 == 199:
                    print("[{}] loss: {:.4f}".format(each_epoch, running_loss/200))
                    running_loss = 0.0
            # 保存每一輪的模型
            model_name = 'classify-{}-{}.pth'.format(each_epoch,round(all_loss/all_index,3))
            torch.save(self.cnnmodel,model_name)	# 保存全部模型

四. 測(cè)試

測(cè)試和訓(xùn)練的步驟差不多，也就是讀取模型后通過(guò)dataloader獲取數(shù)據(jù)然后將其輸入網(wǎng)絡(luò)獲得輸出，但是不需要進(jìn)行反向傳播的等操作了。比較值得注意的可能就是準(zhǔn)確率計(jì)算方面有一些小技巧。

acc = 0.0
count = 0
self.cnnmodel = torch.load('mymodel.pth')
self.cnnmodel.eval()
for index, data in enumerate(dataloader_eval):
	inputs, labels = data   # 5,3,400,600  5,10
	count += len(labels)
	outputs = cnnmodel(inputs)
	_,predict = torch.max(outputs, 1)
	acc += (labels == predict).sum().item()
print("[{}] accurancy: {:.4f}".format(each_epoch, acc / count))

我這里采用的是保存全部模型并加載全部模型的方法，這種方法的好處是在使用模型時(shí)可以完全將其看作一個(gè)黑盒，但是在模型比較大時(shí)這種方法會(huì)很費(fèi)事。此時(shí)可以采用只保存參數(shù)不保存網(wǎng)絡(luò)結(jié)構(gòu)的方法，在每一次使用模型時(shí)需要讀取參數(shù)賦值給已經(jīng)實(shí)例化的模型：

torch.save(cnnmodel.state_dict(), "my_resnet.pth")
cnnmodel = Simple_CNN()
cnnmodel.load_state_dict(torch.load("my_resnet.pth"))

結(jié)語(yǔ)

至此整個(gè)流程就說(shuō)完了，是一個(gè)小白級(jí)的圖像分類任務(wù)流程，因?yàn)榍岸螘r(shí)間一直在做android方面的事，所以有點(diǎn)生疏了，就寫(xiě)了這篇博客記錄一下，之后應(yīng)該還會(huì)寫(xiě)一下seq2seq以及image caption任務(wù)方面的模型構(gòu)造與訓(xùn)練過(guò)程，完整代碼之后也會(huì)統(tǒng)一放到github上給大家做參考。

以上就是基于PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的CNN圖像分類器的詳細(xì)內(nèi)容，更多關(guān)于PyTorch實(shí)現(xiàn)CNN圖像分類器的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

pytorch實(shí)現(xiàn)textCNN的具體操作
Pytorch mask-rcnn 實(shí)現(xiàn)細(xì)節(jié)分享
Pytorch 使用CNN圖像分類的實(shí)現(xiàn)
pytorch實(shí)現(xiàn)CNN卷積神經(jīng)網(wǎng)絡(luò)
用Pytorch訓(xùn)練CNN(數(shù)據(jù)集MNIST,使用GPU的方法)
PyTorch CNN實(shí)戰(zhàn)之MNIST手寫(xiě)數(shù)字識(shí)別示例
PyTorch上實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)CNN的方法
CNN的Pytorch實(shí)現(xiàn)(LeNet)

標(biāo)簽：長(zhǎng)治上海沈陽(yáng) 河南紅河樂(lè)山新疆滄州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《基于PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的CNN圖像分類器》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。