多模態生成是指綜合使用影像,影片,文字等多種模態資訊,進而自動化地生成符合人類視覺,文化的文字片段描述。
這要求其不僅僅考慮文字生成的流暢性,語言豐富性,更要與視覺模態相結合,綜合考量時空位置資訊。
因此,綜合使用影片片段、圖片等多種資訊實現文字生成是CV與NLP交叉的前沿熱點領域。
這次我邀請到了在多家大廠擔任演算法研究員的朋友John老師,利用1小時左右的時間,給大家做一次多模態生成的系統分享。
John老師是計算機視覺全球前十機構高校聯合培養博士,在多家大廠擔任演算法研究員,研究方向為多模態領域,如多模態檢索,視音文多模態融合與生成,視覺問答等。
此次分享的時間在12月15日晚20:00開始分享時長大約1小時。以下是分享的大綱:
Part1.未來AI研究發展趨勢—多模態
· 多模態的發展
· 為什麼要學習多模態
Part2.多模態生成的發展與未來
· 發展歷程
· 有哪些坑?
· 多模態生成
· 預備知識
· Image caption
· Image generation
· Video caption
· Video generation
掃描下方二維碼,支付0.01元預約直播

支付後務必新增客服微信進直播群


掃碼領取【多模態生成論文】

1.Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds
2.X-Trans2Cap_ Cross-Modal Knowledge Transfer using Transformerfor 3D Dense Captioning
3.A Comprehensive Survey of Deep Learning for ImageCaptioning
4.Image Captioning with Semantic Attention
5.Knowing When to Look_ Adaptive Attention viaA Visual Sentinel for Image Captioning
6.Learning to Evaluate Image Captioning
7.SCA-CNN_ Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning
8.Show and Tell_ A Neural Image Caption Generator
9.Show, Attend and Tell_ Neural Image CaptionGeneration with Visual Attention
10.CLIP4Caption – CLIP for Video Caption
篇幅有限,僅展示前10篇
掃描下方二維碼,支付0.01元預約直播

支付後務必新增客服微信進直播群
如果你想找個大牛帶著你學習,在圖神經領域快速發文,我給大家推薦下John老師。
以下是招生資訊:

關鍵詞
多模態
語言
論文
視覺
系統