PyTorch常用Tricks總結


MLNLP 

機器學習演算法與自然語言處理 

)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景 是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流,特別是初學者同學們的進步。

轉載自 | 機器學習演算法那些事
作者 | z.defying
來源 | DataWhale
1. 指定GPU編號
設定當前使用的GPU裝置僅為0號裝置,裝置名稱為 /gpu:0

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

設定當前使用的GPU裝置為0, 1號兩個裝置,名稱依次為 /gpu:0/gpu:1

: 

os.environ["CUDA_VISIBLE_DEVICES"] = "0,1" ,根據順序表示優先使用0號裝置,然後使用1號裝置。

指定GPU的命令需要放在和神經網路相關的一系列操作的前面。

2. 檢視模型每層輸出詳情

Keras有一個簡潔的API來檢視模型的每一層輸出尺寸,這在除錯網路時非常有用。現在在PyTorch中也可以實現這個功能。
使用很簡單,如下用法:
from torchsummary import summarysummary(your_model, input_size=(channels, H, W))
input_size是根據你自己的網路模型的輸入尺寸進行設定。
https://github.com/sksq96/pytorch-summary

3. 梯度裁剪(Gradient Clipping)

import torch.nn as nnoutputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()
nn.utils.clip_grad_norm_的引數:
  • parameters – 一個基於變數的迭代器,會進行梯度歸一化
  • max_norm – 梯度的最大範數
  • norm_type – 規定範數的型別,預設為L2
知乎使用者 @不橢的橢圓 提出:梯度裁剪在某些任務上會額外消耗大量的計算時間。

4. 擴充套件單張圖片維度

因為在訓練時的資料維度一般都是 (batch_size, c, h, w),而在測試時只輸入一張圖片,所以需要擴充套件維度,擴充套件維度有多個方法:
import cv2import torchimage = cv2.imread(img_path)image = torch.tensor(image)print(image.size())img = image.view(1, *image.size())print(img.size())# output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])
import cv2import numpy as npimage = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)# output:# (h, w, c)# (1, h, w, c)
或(感謝知乎使用者 @coldleaf 的補充)
import cv2import torchimage = cv2.imread(img_path)image = torch.tensor(image)print(image.size())img = image.unsqueeze(dim=0) print(img.size())img = img.squeeze(dim=0)print(img.size())# output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])
tensor.unsqueeze(dim):擴充套件維度,dim指定擴充套件哪個維度。
tensor.squeeze(dim):去除dim指定的且size為1的維度,維度大於1時,squeeze()不起作用,不指定dim時,去除所有size為1的維度。
5. 獨熱編碼
在PyTorch中使用交叉熵損失函式的時候會自動把label轉化成onehot,所以不用手動轉化,而使用MSE需要手動轉化成onehot編碼。
import torchclass_num = 8batch_size = 4def one_hot(label):""" 將一維列表轉換為獨熱編碼 """ label = label.resize_(batch_size, 1) m_zeros = torch.zeros(batch_size, class_num)# 從 value 中取值,然後根據 dim 和 index 給相應位置賦值 onehot = m_zeros.scatter_(1, label, 1) # (dim,index,value)return onehot.numpy() # Tensor -> Numpylabel = torch.LongTensor(batch_size).random_() % class_num # 對隨機數取餘print(one_hot(label))# output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]
https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

6. 防止驗證模型時爆視訊記憶體

驗證模型時不需要求導,即不需要梯度計算,關閉autograd,可以提高速度,節約記憶體。如果不關閉可能會爆視訊記憶體。
with torch.no_grad():# 使用model進行預測的程式碼    pass
感謝知乎使用者 @zhaz 的提醒,我把 torch.cuda.empty_cache() 的使用原因更新一下。
這是原回答:
Pytorch 訓練時無用的臨時變數可能會越來越多,導致 out of memory ,可以使用下面語句來清理這些不需要的變數。
官網上的解釋為:
Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()
意思就是PyTorch的快取分配器會事先分配一些固定的視訊記憶體,即使實際上tensors並沒有使用完這些視訊記憶體,這些視訊記憶體也不能被其他應用使用。這個分配過程由第一次CUDA記憶體訪問觸發的。
torch.cuda.empty_cache()的作用就是釋放快取分配器當前持有的且未佔用的快取視訊記憶體,以便這些視訊記憶體可以被其他GPU應用程式中使用,並且透過nvidia-smi命令可見。注意使用此命令不會釋放tensors佔用的視訊記憶體。
對於不用的資料變數,Pytorch 可以自動進行回收從而釋放相應的視訊記憶體。

更詳細的最佳化可以檢視:

最佳化視訊記憶體使用:

https://blog.csdn.net/qq_28660035/article/details/80688427

視訊記憶體利用問題:

https://oldpan.me/archives/pytorch-gpu-memory-usage-track

7. 學習率衰減

import torch.optim as optimfrom torch.optim import lr_scheduler# 訓練前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1) # # 每過10個epoch,學習率乘以0.1# 訓練過程中for n in n_epoch: scheduler.step() ...

8. 凍結某些層的引數

參考:Pytorch 凍結預訓練模型的某一層

https://www.zhihu.com/question/311095447/answer/589307812

在載入預訓練模型的時候,我們有時想凍結前面幾層,使其引數在訓練過程中不發生變化。
我們需要先知道每一層的名字,透過如下程式碼列印:
net = Network() # 獲取自定義網路結構for name, value in net.named_parameters(): print('name: {0},\t grad: {1}'.format(name, value.requires_grad))
假設前幾層資訊如下:
name: cnn.VGG_16.convolution1_1.weight, grad: Truename: cnn.VGG_16.convolution1_1.bias, grad: Truename: cnn.VGG_16.convolution1_2.weight, grad: Truename: cnn.VGG_16.convolution1_2.bias, grad: Truename: cnn.VGG_16.convolution2_1.weight, grad: Truename: cnn.VGG_16.convolution2_1.bias, grad: Truename: cnn.VGG_16.convolution2_2.weight, grad: Truename: cnn.VGG_16.convolution2_2.bias, grad: True
後面的True表示該層的引數可訓練,然後我們定義一個要凍結的層的列表:
no_grad = ['cnn.VGG_16.convolution1_1.weight','cnn.VGG_16.convolution1_1.bias','cnn.VGG_16.convolution1_2.weight','cnn.VGG_16.convolution1_2.bias']
凍結方法如下:
net = Net.CTPN() # 獲取網路結構for name, value in net.named_parameters():if name in no_grad:value.requires_grad = Falseelse:value.requires_grad = True
凍結後我們再列印每層的資訊:
name: cnn.VGG_16.convolution1_1.weight, grad: Falsename: cnn.VGG_16.convolution1_1.bias, grad: Falsename: cnn.VGG_16.convolution1_2.weight, grad: Falsename: cnn.VGG_16.convolution1_2.bias, grad: Falsename: cnn.VGG_16.convolution2_1.weight, grad: Truename: cnn.VGG_16.convolution2_1.bias, grad: Truename: cnn.VGG_16.convolution2_2.weight, grad: Truename: cnn.VGG_16.convolution2_2.bias, grad: True
可以看到前兩層的weight和bias的requires_grad都為False,表示它們不可訓練。
最後在定義最佳化器時,只對requires_grad為True的層的引數進行更新。
optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9. 對不同層使用不同學習率

我們對模型的不同層使用不同的學習率。
還是使用這個模型作為例子:
net = Network() # 獲取自定義網路結構for name, value in net.named_parameters():print('name: {}'.format(name))# 輸出:# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias
對 convolution1 和 convolution2 設定不同的學習率,首先將它們分開,即放到不同的列表裡:
conv1_params = []conv2_params = []for name, parms in net.named_parameters():if"convolution1"in name: conv1_params += [parms]else: conv2_params += [parms]# 然後在最佳化器中進行如下操作:optimizer = optim.Adam( [ {"params": conv1_params, 'lr': 0.01}, {"params": conv2_params, 'lr': 0.001}, ], weight_decay=1e-3,)
我們將模型劃分為兩部分,存放到一個列表裡,每部分就對應上面的一個字典,在字典裡設定不同的學習率。當這兩部分有相同的其他引數時,就將該引數放到列表外面作為全域性引數,如上面的`weight_decay`。
也可以在列表外設定一個全域性學習率,當各部分字典裡設定了局部學習率時,就使用該學習率,否則就使用列表外的全域性學習率。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP社群  機器學習演算法與自然語言處理 ) 是由國內外自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名自然語言處理社群,旗下包括  萬人頂會交流群、AI臻選匯、AI英才匯  以及  AI學術匯  等知名品牌,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章