
(
機器學習演算法與自然語言處理
)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
轉載自 | 極市平臺
作者 | 李國躉
來源 | https://www.zhihu.com/question/540433389
-
R-Drop:兩次前向+KL loss約束
-
MLM: 在領域語料上用mlm進一步預訓練 (Post-training)
-
EFL: 少樣本下,把分類問題轉為匹配問題,把輸入構造為NSP任務形式.
-
混合精度fp16: 加快訓練速度,提高訓練精度
-
多卡ddp訓練的時候,用到梯度累積時,可以使用no_sync減少不必要的梯度同步,加快速度
-
對於驗證集或者測試集特別大的情況,可以嘗試多卡inference,需要用的就是dist.all_gather,對於非張量的話也可以用all_gather_object
-
PET: 少樣本下,把分類轉為mask位置預測,並構造verbalizer,參考EACL2021. PET
-
ArcFaceLoss:雙塔句子匹配的loss把NT-Xent loss改成arccos的形式,參考ACL2022. ArcCSE
-
資料增強在zero shot x-lingual transfer:code switch,machine translation..記得最後加一致性loss,參考consistency regularization for cross lingual finetuning
-
SimCSE:繼續在領域語料上做simcse的預訓練
-
Focal loss: 不平衡的處理
-
雙塔遲互動:maxsim操作:query和doc的每個token表徵算相似度,取最大相似度再求和。速度和精度都有一個很好的平衡,參考colbert
-
持續學習減輕遺忘:EWC方法+一個很強的預訓練模型效果很不錯。就是加一個正則讓重要引數遺忘不太多,重要性用fisher資訊度量。
-
對抗訓練:FGM,PGD,能提點,就是訓練慢,
-
memory bank增大bsz,雖然我感覺有時候有點雞肋
-
PolyLoss: -logpt + eps * (1-pt) 效果存疑,反正我試了沒啥效果,有人試過效果不錯

掃描二維碼新增小助手微信
關於我們
