
作者丨高允毅
編輯丨馬曉寧
AI科技評論獨家獲悉,前微軟亞洲研究院視覺計算組首席研究員胡瀚,不久前加入騰訊,接替已離職的前騰訊混元大模型技術負責人之一的劉威,負責多模態大模型的研發工作。
胡瀚2008年獲得清華大學本科學位,2014年獲得清華大學博士學位 ,師從周杰教授。博士論文獲2016年中國人工智慧學會優秀博士論文獎。2012年在賓夕法尼亞大學GRASP實驗室做訪問研究,師從史建波教授。隨後胡瀚加入百度深度學習研究所 (IDL) ,該研究院由余凱掛帥,成為國內最早開啟深度學習研究的先鋒軍之一,胡瀚憑藉出色能力擔任tech leader角色。2016年12月,胡瀚加入微軟亞洲研究院視覺計算組。
微軟亞洲研究院視覺計算組有計算機視覺界的“黃埔軍校”之稱,曾走出孫劍、何愷明、華剛、梅濤、王井東、代季峰、危夷晨、Steve Lin等所謂業界技術領軍人物。加入騰訊前,胡瀚在微軟亞洲研究院擔任視覺計算組首席研究員。
胡瀚是計算機視覺領域的重要研究者,他曾以核心作者身份參與論文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》的創作。Swin Transformer效能優於DeiT、ViT和EfficientNet等主幹網路,已經替代經典的CNN架構,成為了計算機視覺領域通用的backbone。該論文因切中了2021年業內爭論要用transfomer還是用卷積的熱點問題,一經發表就已在多項視覺任務中霸榜,獲得當年 ICCV 最佳論文獎(馬爾獎)。
這篇論文的四位共同一作分別是來自中國科學技術大學的劉澤、西安交通大學的林宇桐、以及MSRA的曹越和胡瀚。曹越是前光年之外聯合創始人,現在創立AI影片公司Sand.AI。林宇桐此前是西安交通大學-微軟亞洲研究院聯合培養博士生,目前也在Sand.AI。
劉澤是中國科大與微軟亞洲研究院的聯合培養博士生,目前博士畢業,在微軟亞洲研究院繼續研究工作。
Swin Transformer的作者還有韋毅軒,清華大學-微軟亞洲研究院聯合培養博士生。張拯,現就職於微軟亞洲研究院視覺計算組,擔任研究員。郭百寧,現為微軟亞洲研究院副院長,主要從事網路圖形學技術、基於網路應用的虛擬環境技術、幾何模型、基於影像的模型和繪製、紋理合成、真實感圖形影像技術等領域的研究。Stephen Lin,是微軟亞洲研究院視覺計算組的研究員。
2021年末,該團隊又進一步提出了 Swin Transformer v2.0 版本,新版本訓練了當時為止最大的稠密視覺模型,並在多個主流視覺任務上大大重新整理了記錄。
胡瀚此次加入騰訊,正是接替劉威此前的工作。十一月下旬,各媒體爆出劉威已離開騰訊。
劉威,2012年獲得哥倫比亞大學計算機科學與電子工程博士學位,在IBM沃森研究中心擔任研究科學家。期間,劉威曾先後獲得 2011 年底 Facebook 博士研究生獎學金、2013 年度哥倫比亞大學優秀博士論文獎、2014 年CVPR青年研究者獎、2016 年SIGIR最優論文榮譽獎。
劉威於2016年加入騰訊AI Lab,與AI Lab另外兩位負責人張潼、俞棟一起,被業內稱為“AI Lab三劍客”。在2018年,劉威入選IEEE智慧系統10大AI青年科學家;2022年,因對大規模機器學習和智慧多媒體的貢獻,獲得IEEE Fellow。在騰訊時期,劉威的工作主要是面向騰訊產品業務的CV基礎大模型、多模態理解大模型、文生圖、文生影片大模型等。
騰訊已經在多模態大模型的研發上取得新的進展,12月3日,騰訊宣佈,混元大模型上線並開源文生影片能力,引數量 130 億,支援中英文雙語輸入。此前騰訊混元大模型已經陸續推出了文生文、文生圖、3D生成等能力。此次推出的影片生成能力,被認為是混元系列大模型當前的最後一塊重要拼圖。


更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。