全球頂級AI科學家許主洪加盟阿里!IEEEFellow,五萬被引論文數,曾任Salesforce集團副總裁

白交 發自 凹非寺

量子位 | 公眾號 QbitAI
AI的新進展頻頻,人才動態也愈加重磅。
新年第一則大牛人事動向,引發業內關注。
許主洪,IEEE Fellow,新加坡管理大學終身教授,被曝加盟阿里。
許主洪是誰?1998級清華計算機系本科,碩博畢業於港中文,谷歌學術五萬引大佬。
多篇關於多模態預訓練論文,深刻影響了業內大模型研發,阿里Qwen、谷歌RT-2都曾引用過其研究成果。
產業界,他曾擔任全球最大企業軟體廠商Salesforce集團副總裁、亞洲研究院創始院長,從0到1搭建了Salesforce亞洲人工智慧研究體系。
現在,阿里方面已經證實。他將出任阿里集團副總裁,向阿里AI To C業務負責人吳嘉彙報,專注於AI To C業務的多模態基礎模型及Agents相關基礎研究與應用解決方案。

誰是許主洪?

在加盟阿里之前,他曾在工業界和學術界均擁有超20年經驗,曾在新加坡南洋理工大學、新加坡管理大學擔任教授。
研究方向包括機器學習的基礎研究和人工智慧多個領域的應用研究,包括多媒體資訊檢索、計算機視覺、大資料分析、社交媒體、智慧網路安全、計算金融和智慧城市等。
谷歌學術顯示,其發表300餘篇人工智慧頂級學術論文,被引五萬餘次,2020年至今被引近四萬次。
2019年當選為IEEE Fellow,同一年當選的還有知名大佬、CMU教授邢波。
時間回到1998年,他來到清華大學計算機系讀書,本科畢業前往港中文攻讀碩博。
2007年他來到了新加坡南洋理工大學。期間他負責開源了一個機器學習庫LIBOL,裡面有一大批經典和先進的線上學習演算法,用於解決大規模機器學習任務,滿足各種新興大資料探勘應用的需求。
能夠看到的是,從那時候開始,他就已經在深入思考連線技術到應用之間這一橋樑。
隨後他去到新加坡管理大學,2020年獲終身教職。
轉折點在2019年,他正式選擇踏入工業界,將自身技術積累真正融入進產業應用當中去。
他的實戰場是全球最大企業軟體廠商Salesforce,幫助他們補齊AI基礎研究與應用這一板塊。
他主導開創了多個行業先河的人工智慧專案和產品,包括不限於多模態系列模型BLIP、程式碼生成神器CodeGen、通用CRM助手Einstein GPT。
(CRM是客戶關係管理軟體系統。Einstein GPT支援包括 Slack、銷售、服務、營銷、商務和應用程式構建器)
另一個實戰場是2023年,乘著大模型的技術熱潮,他創辦了AI初創公司HyperGAI。
期間釋出了多款多模態基礎模型,特點是在不增加計算成本的情況下,實現當前世界頂尖模型的水平。
在GPT-4V和Gemini Pro等大語言模型都在專注於文字的當下,他們在多模態理解和生成上面取得了不少突破,並且有很強的應用屬性在裡面。
比如像HPT 1.5 端側多模態模型,只有4B大小,效能卻優於當時微軟新推出的Phi-3-Vision(4B)多模態模型,並在多項基準測試中達到了GPT-4V的效能。
除了一些評測之外,模型還展示了移動端上的使用效果,能夠識別圖中的關鍵資訊。
同時它也具備強大的推理能力,可以理解並解答幾何題。
學術領域,他憑藉深厚的專業素養和傑出的研究能力,發表了眾多頂級學術論文,研究成果備受行業矚目。
而在產業界,他將前沿技術與實際應用緊密結合,成功推動了AI多個領域的突破與落地,成為連線學術與產業之間的橋樑。

深刻影響多模態大模型研發

問題是有了這位頂尖AI科學家的加盟,對於阿里來說意味著什麼?
在許主洪的專業擅長中,不難找到線索和答案。
在他諸多論文中,有兩篇BLIP系列論文最為矚目,累計引用過萬,其中BLIP-2始終高居引用榜首。
更早之前還有技術博主專門研讀了他的成果,表示GPT-4V現在還像個黑匣子,而BLIP系列研究不僅在各種視覺任務中表現出SOTA的效能,也可能是打破黑匣子的有效解決方案
2023年,各種大語言模型剛剛興起的時候,業內就已經在思考LLM湧現的通用性和泛化能力,是否也能在視覺領域中實現。
一個統一的視覺與語言的框架,以及一個能將它們與LLM結合起來的框架,成為自然而然的技術需求。
在眾多創新方法中,BLIP脫穎而出,它統一了視覺語言任務的理解與生成能力,並透過引入Captioner-Filter機制減少了監督文字的噪聲,從而提高模型的訓練質量。
模型核心在於獨特的編碼器-解碼器混合架構(MED),該架構由視覺編碼器、文字編碼器和多模態編碼器三部分組成。
每個模組都有相關的預訓練目標,所有三個模組都根據這些預訓練目標進行聯合訓練。
這系列論文所在的語言視覺智慧一站式庫LAVIS,GitHub超過萬顆星,足以見其在業內的影響力。在這個庫裡還有各種BLIP的衍生,比如X-InstructBLIP、BLIP-Diffusion等等
而將時間拉回現在,隨著大模型發展的深入,多模態能力作為核心屬性,正在重塑著AI的應用正規化。
總結來說,多模態讓大模型從“單一功能工具”轉變為“全知全能的Agent”,其應用場景將不斷地深入與拓寬。
核心體現在兩個方面:
其一,突破單模態侷限,實現更全面的認知與互動。多模態大模型透過融合文字、影像、音訊、影片等異構資料,能夠構建更接近人類認知、近乎人類水平的模型。
這種跨模態的語義對齊能力,使AI能理解複雜場景中的隱含關聯,比如識別影像中的隱喻或情感表達。像夸克、通義APP這種軟體,在其智慧工具、ChatBot屬性之上,整合更多多模態功能之後,就能實現更多精細化功能,成為日常的AI全能助手。
更多樣化更復雜的任務需求也將得到滿足,多維之間的感知互動,能夠實現AI在更多終端和硬體的落地,比如AI眼鏡——據稱是已經明確的阿里AI to C業務未來探索方向。當然這些還只是單點功能或產品形態,多模態能力還在於更多應用場景的賦能。
所以第二個方面就是:拓展更多應用場景,釋放行業生產力
比如醫療場景,多模態模型融合醫學影像、基因資料和臨床文字,支援個性化診療方案生成。教育場景,結合圖文、影片和語音的多模態教學助手,可動態適配學生學習風格,提供沉浸式學習體驗。
但上述場景對阿里來說不是計劃,而是已經部署落地的實踐,並且還展現出“幹中學”的技術迭代潛力。
在夸克落地的業務中,其“靈知”學習大模型在考研數學題上的正確率和得分率已經比肩OpenAI最新發布的o1模型,且遠超國內其他模型。
所以瞭解了多模態能力與阿里AI to C業務佈局的關係,或許也就看懂了許主洪的加盟。
這一次他要連線的是AI多模態能力在C端產品、應用上的端對端閉環能力。

做面向使用者的AI技術創新

大模型的發展路線,目前可以總結為兩條,一個是面向大模型更高階智慧水平的技術演進,一個是面向應用和使用者價值/體驗的AI技術創新。阿里AI To C業務尤其是夸克呈現出後者的特點。
於阿里而言,許主洪是人工智慧學術界的領路人,在產業界同樣擁有豐富的應用研發和產品創新經驗——尤其他不僅搭建了Salesforce亞洲人工智慧研究體系,還將研究成果轉化為實際應用——主導的多個AI創新專案,將學術成果轉化為商業應用,推動了AI技術產業化程序。
這種學術與產業的雙重背景,使得許主洪不僅具備深厚的學術研究功底,還擁有將技術轉化為實際產品的豐富經驗。這種能力就是阿里AI To C業務所需要的。
而以夸克為代表的阿里AI To C業務,在大模型能力上也一直注重實用性,強調以應用產品驅動大模型的研發、升級方向。
產品追求的不是“顛覆”,而是拳拳到肉,解決使用者的核心需求。夸克大模型的典型特點就是不卷引數和打榜,而是依據使用場景提供專業技術能力,衍生出通識、醫療、教育等垂類模型。
這種對使用者價值的核心追求,也是AI驅動之下,夸克迅猛崛起,成為國內增長最快、勢頭最猛、使用者使用最多的AI全能助手——沒有之一。
量子位智庫統計,在APP端,前10個月國內AI APP三日留存資料顯示,夸克是唯一突破40%的產品,也是唯一突破兩億累計下載量的。
圖源:量子位智庫
如果說一年前還相對低調,高速增長下的夸克現在也攤牌了,夸克已經完成了品牌升級——2億人的AI全能助手。
當然,這也是技術、產品、場景等全方位要素驅動之下的結果,天時地利皆具備,現在阿里整個AI To C業務要發力,就是時候在“人和”——人才上點燃東風。
許主洪的加盟可能還只是開始的開始。有訊息稱,阿里AI To C業務正在組建頂級AI演算法研究和工程團隊,吸引大量業內頂級人才加盟。
而頂級科學家+頂尖團隊,再加上高速前進的AI業務和場景,夸克也好,阿里AI To C業務佈局也好,有機會把AI創新帶入中國最熟悉的正規化之下——技術驅動產品,產品反哺技術,並且在規模最大的使用者市場迭代之下,實現綜合實力的超車。
AI不是移動網際網路,但使用者需求和產品體驗的價值線,大道至簡,一以貫之,未曾改變。
參考連結:
[1]https://raghul-719.medium.com/neural-networks-intuitions-17-blip-series-blip-blip-2-and-instruct-blip-papers-explanation-2378bc860d53
[2]https://github.com/salesforce/LAVIS
[3]https://www.hypergai.com/blog/hpt-1-5-edge-towards-multimodal-llms-for-edge-devices
[4]https://www.linkedin.com/in/steven-hoi-8712b41/?originalSubdomain=sg
[5]https://x.com/_akhaliq/status/1620246724672380930
[6]https://github.com/salesforce/BLIP
*本文系量子位獲授權刊載,觀點僅為原作者所有。
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章