胡瀚是計算機視覺領域通用架構Swim Transformer的核心作者之一。

作者丨高允毅

編輯丨馬曉寧

AI科技評論獨家獲悉，前微軟亞洲研究院視覺計算組首席研究員胡瀚，不久前加入騰訊，接替已離職的前騰訊混元大模型技術負責人之一的劉威，負責多模態大模型的研發工作。

胡瀚2008年獲得清華大學本科學位，2014年獲得清華大學博士學位，師從周杰教授。博士論文獲2016年中國人工智慧學會優秀博士論文獎。2012年在賓夕法尼亞大學GRASP實驗室做訪問研究，師從史建波教授。隨後胡瀚加入百度深度學習研究所 (IDL) ，該研究院由余凱掛帥，成為國內最早開啟深度學習研究的先鋒軍之一，胡瀚憑藉出色能力擔任tech leader角色。2016年12月，胡瀚加入微軟亞洲研究院視覺計算組。

微軟亞洲研究院視覺計算組有計算機視覺界的“黃埔軍校”之稱，曾走出孫劍、何愷明、華剛、梅濤、王井東、代季峰、危夷晨、Steve Lin等所謂業界技術領軍人物。加入騰訊前，胡瀚在微軟亞洲研究院擔任視覺計算組首席研究員。

胡瀚是計算機視覺領域的重要研究者，他曾以核心作者身份參與論文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》的創作。Swin Transformer效能優於DeiT、ViT和EfficientNet等主幹網路，已經替代經典的CNN架構，成為了計算機視覺領域通用的backbone。該論文因切中了2021年業內爭論要用transfomer還是用卷積的熱點問題，一經發表就已在多項視覺任務中霸榜，獲得當年 ICCV 最佳論文獎（馬爾獎）。

這篇論文的四位共同一作分別是來自中國科學技術大學的劉澤、西安交通大學的林宇桐、以及MSRA的曹越和胡瀚。曹越是前光年之外聯合創始人，現在創立AI影片公司Sand.AI。林宇桐此前是西安交通大學-微軟亞洲研究院聯合培養博士生，目前也在Sand.AI。

劉澤是中國科大與微軟亞洲研究院的聯合培養博士生，目前博士畢業，在微軟亞洲研究院繼續研究工作。

Swin Transformer的作者還有韋毅軒，清華大學-微軟亞洲研究院聯合培養博士生。張拯，現就職於微軟亞洲研究院視覺計算組，擔任研究員。郭百寧，現為微軟亞洲研究院副院長，主要從事網路圖形學技術、基於網路應用的虛擬環境技術、幾何模型、基於影像的模型和繪製、紋理合成、真實感圖形影像技術等領域的研究。Stephen Lin，是微軟亞洲研究院視覺計算組的研究員。

2021年末，該團隊又進一步提出了 Swin Transformer v2.0 版本，新版本訓練了當時為止最大的稠密視覺模型，並在多個主流視覺任務上大大重新整理了記錄。

胡瀚此次加入騰訊，正是接替劉威此前的工作。十一月下旬，各媒體爆出劉威已離開騰訊。

劉威，2012年獲得哥倫比亞大學計算機科學與電子工程博士學位，在IBM沃森研究中心擔任研究科學家。期間，劉威曾先後獲得 2011 年底 Facebook 博士研究生獎學金、2013 年度哥倫比亞大學優秀博士論文獎、2014 年CVPR青年研究者獎、2016 年SIGIR最優論文榮譽獎。

劉威於2016年加入騰訊AI Lab，與AI Lab另外兩位負責人張潼、俞棟一起，被業內稱為“AI Lab三劍客”。在2018年，劉威入選IEEE智慧系統10大AI青年科學家；2022年，因對大規模機器學習和智慧多媒體的貢獻，獲得IEEE Fellow。在騰訊時期，劉威的工作主要是面向騰訊產品業務的CV基礎大模型、多模態理解大模型、文生圖、文生影片大模型等。

騰訊已經在多模態大模型的研發上取得新的進展，12月3日，騰訊宣佈，混元大模型上線並開源文生影片能力，引數量 130 億，支援中英文雙語輸入。此前騰訊混元大模型已經陸續推出了文生文、文生圖、3D生成等能力。此次推出的影片生成能力，被認為是混元系列大模型當前的最後一塊重要拼圖。