PyTorch常用Tricks總結

MLNLP

(

機器學習演算法與自然語言處理

)社群是國內外知名自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流，特別是初學者同學們的進步。

轉載自 | 機器學習演算法那些事

作者 | z.defying

來源 | DataWhale

1. 指定GPU編號

設定當前使用的GPU裝置僅為0號裝置，裝置名稱為 /gpu:0

：

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

設定當前使用的GPU裝置為0, 1號兩個裝置，名稱依次為 /gpu:0、/gpu:1

：

os.environ["CUDA_VISIBLE_DEVICES"] = "0,1" ，根據順序表示優先使用0號裝置,然後使用1號裝置。

指定GPU的命令需要放在和神經網路相關的一系列操作的前面。

2. 檢視模型每層輸出詳情

Keras有一個簡潔的API來檢視模型的每一層輸出尺寸，這在除錯網路時非常有用。現在在PyTorch中也可以實現這個功能。

使用很簡單，如下用法：

from torchsummary import summarysummary(your_model, input_size=(channels, H, W))

input_size是根據你自己的網路模型的輸入尺寸進行設定。

https://github.com/sksq96/pytorch-summary

3. 梯度裁剪（Gradient Clipping）

import torch.nn as nnoutputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

nn.utils.clip_grad_norm_的引數：

parameters – 一個基於變數的迭代器，會進行梯度歸一化
max_norm – 梯度的最大範數
norm_type – 規定範數的型別，預設為L2

知乎使用者 @不橢的橢圓提出：梯度裁剪在某些任務上會額外消耗大量的計算時間。

4. 擴充套件單張圖片維度

因為在訓練時的資料維度一般都是 (batch_size, c, h, w)，而在測試時只輸入一張圖片，所以需要擴充套件維度，擴充套件維度有多個方法：

import cv2import torchimage = cv2.imread(img_path)image = torch.tensor(image)print(image.size())img = image.view(1, *image.size())print(img.size())# output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])

或

import cv2import numpy as npimage = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)# output:# (h, w, c)# (1, h, w, c)

或（感謝知乎使用者 @coldleaf 的補充）

import cv2import torchimage = cv2.imread(img_path)image = torch.tensor(image)print(image.size())img = image.unsqueeze(dim=0)  print(img.size())img = img.squeeze(dim=0)print(img.size())# output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])

tensor.unsqueeze(dim)：擴充套件維度，dim指定擴充套件哪個維度。

tensor.squeeze(dim)：去除dim指定的且size為1的維度，維度大於1時，squeeze()不起作用，不指定dim時，去除所有size為1的維度。

5. 獨熱編碼

在PyTorch中使用交叉熵損失函式的時候會自動把label轉化成onehot，所以不用手動轉化，而使用MSE需要手動轉化成onehot編碼。

import torchclass_num = 8batch_size = 4def one_hot(label):"""    將一維列表轉換為獨熱編碼    """    label = label.resize_(batch_size, 1)    m_zeros = torch.zeros(batch_size, class_num)# 從 value 中取值，然後根據 dim 和 index 給相應位置賦值    onehot = m_zeros.scatter_(1, label, 1)  # (dim,index,value)return onehot.numpy()  # Tensor -> Numpylabel = torch.LongTensor(batch_size).random_() % class_num  # 對隨機數取餘print(one_hot(label))# output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]

https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

6. 防止驗證模型時爆視訊記憶體

驗證模型時不需要求導，即不需要梯度計算，關閉autograd，可以提高速度，節約記憶體。如果不關閉可能會爆視訊記憶體。

with torch.no_grad():# 使用model進行預測的程式碼 pass

感謝知乎使用者 @zhaz 的提醒，我把 torch.cuda.empty_cache() 的使用原因更新一下。

這是原回答：

Pytorch 訓練時無用的臨時變數可能會越來越多，導致 out of memory ，可以使用下面語句來清理這些不需要的變數。

官網上的解釋為：

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()

意思就是PyTorch的快取分配器會事先分配一些固定的視訊記憶體，即使實際上tensors並沒有使用完這些視訊記憶體，這些視訊記憶體也不能被其他應用使用。這個分配過程由第一次CUDA記憶體訪問觸發的。

而torch.cuda.empty_cache()的作用就是釋放快取分配器當前持有的且未佔用的快取視訊記憶體，以便這些視訊記憶體可以被其他GPU應用程式中使用，並且透過nvidia-smi命令可見。注意使用此命令不會釋放tensors佔用的視訊記憶體。

對於不用的資料變數，Pytorch 可以自動進行回收從而釋放相應的視訊記憶體。

更詳細的最佳化可以檢視：

最佳化視訊記憶體使用：

https://blog.csdn.net/qq_28660035/article/details/80688427

視訊記憶體利用問題：

https://oldpan.me/archives/pytorch-gpu-memory-usage-track

7. 學習率衰減

import torch.optim as optimfrom torch.optim import lr_scheduler# 訓練前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1)  # # 每過10個epoch，學習率乘以0.1# 訓練過程中for n in n_epoch:    scheduler.step()    ...

8. 凍結某些層的引數

參考：Pytorch 凍結預訓練模型的某一層

https://www.zhihu.com/question/311095447/answer/589307812

在載入預訓練模型的時候，我們有時想凍結前面幾層，使其引數在訓練過程中不發生變化。

我們需要先知道每一層的名字，透過如下程式碼列印：

net = Network() # 獲取自定義網路結構for name, value in net.named_parameters(): print('name: {0},\t grad: {1}'.format(name, value.requires_grad))

假設前幾層資訊如下：

name: cnn.VGG_16.convolution1_1.weight, grad: Truename: cnn.VGG_16.convolution1_1.bias, grad: Truename: cnn.VGG_16.convolution1_2.weight, grad: Truename: cnn.VGG_16.convolution1_2.bias, grad: Truename: cnn.VGG_16.convolution2_1.weight, grad: Truename: cnn.VGG_16.convolution2_1.bias, grad: Truename: cnn.VGG_16.convolution2_2.weight, grad: Truename: cnn.VGG_16.convolution2_2.bias, grad: True

後面的True表示該層的引數可訓練，然後我們定義一個要凍結的層的列表：

no_grad = ['cnn.VGG_16.convolution1_1.weight','cnn.VGG_16.convolution1_1.bias','cnn.VGG_16.convolution1_2.weight','cnn.VGG_16.convolution1_2.bias']

凍結方法如下：

net = Net.CTPN()  # 獲取網路結構for name, value in net.named_parameters():if name in no_grad:value.requires_grad = Falseelse:value.requires_grad = True

凍結後我們再列印每層的資訊：

name: cnn.VGG_16.convolution1_1.weight,   grad: Falsename: cnn.VGG_16.convolution1_1.bias,   grad: Falsename: cnn.VGG_16.convolution1_2.weight,   grad: Falsename: cnn.VGG_16.convolution1_2.bias,   grad: Falsename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

可以看到前兩層的weight和bias的requires_grad都為False，表示它們不可訓練。

最後在定義最佳化器時，只對requires_grad為True的層的引數進行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9. 對不同層使用不同學習率

我們對模型的不同層使用不同的學習率。

還是使用這個模型作為例子：

net = Network()  # 獲取自定義網路結構for name, value in net.named_parameters():print('name: {}'.format(name))# 輸出：# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias

對 convolution1 和 convolution2 設定不同的學習率，首先將它們分開，即放到不同的列表裡：

conv1_params = []conv2_params = []for name, parms in net.named_parameters():if"convolution1"in name:        conv1_params += [parms]else:        conv2_params += [parms]# 然後在最佳化器中進行如下操作：optimizer = optim.Adam(    [        {"params": conv1_params, 'lr': 0.01},        {"params": conv2_params, 'lr': 0.001},    ],    weight_decay=1e-3,)

我們將模型劃分為兩部分，存放到一個列表裡，每部分就對應上面的一個字典，在字典裡設定不同的學習率。當這兩部分有相同的其他引數時，就將該引數放到列表外面作為全域性引數，如上面的`weight_decay`。

也可以在列表外設定一個全域性學習率，當各部分字典裡設定了局部學習率時，就使用該學習率，否則就使用列表外的全域性學習率。

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP社群 ( 機器學習演算法與自然語言處理 ) 是由國內外自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名自然語言處理社群，旗下包括 萬人頂會交流群、AI臻選匯、AI英才匯 以及 AI學術匯 等知名品牌，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。