2025年政府工作報告再度強調 “人工智慧 +”的戰略方向,在此背景下,AI視覺正以前所未有的態勢,開闢出萬億級別的應用新場景。當純視覺模型強勢突破傳統多模態技術的藩籬,這場科技革命正悄然重塑哪些產業格局?AI視覺技術如何從實驗室走向生產線,從概念走向大眾生活?這其中究竟潛藏著哪些不容錯過的投資機遇?《兩會“數新風”》系列節目邀請AI視覺科學家、加拿大工程院外籍院士、智象未來創始人兼執行長梅濤,以及敦鴻資產執行董事CEO袁國良,解讀AI視覺最前沿的技術,把脈時代風口下的投資機遇。

1、問題:今年兩會的政府工作報告中,有兩處明確提到了人工智慧。第一是"創新能力有所提升,積體電路、人工智慧、量子科技等領域取得了新成果"。第二是"持續推進人工智慧加行動,將數字技術與製造優勢、市場優勢更好地結合起來,支援大模型廣泛應用。”怎麼理解今年政府工作報告中對於人工智慧,特別是大模型的表述呢?
梅濤:第一點,去年政府報告就已經把"人工智慧+"寫到報告裡面了,去年強調引導大模型的研發,今年強調持續推進“人工智慧+”的行動,這表明今年會著重強調人工智慧大模型的應用,特別是與行業的深度融合。今年希望把人工智慧與我們的強勢行業,如智慧製造、新能源車、智慧硬體以及機器人等實體行業結合起來。政府政策引導我們進行顛覆式技術創新,希望產生更多顛覆式的人工智慧技術,未來全社會將迎來全新的人工智慧生活方式。第二點,關於人工智慧和視覺的關係。人工智慧的終極目標是希望機器能夠像人一樣思考、看、聽、說、行動。人類大腦在接收訊號的過程中,有80%的訊號來自於視覺。去年全球人工智慧產業,特別是AIGC產業大概有100到200億美元的產值,其中60%是與影片相關的。預計到2030年,中國的AIGC產業將突破萬億人民幣的市場規模,視覺佔據核心地位。第三點,未來很多行業都會受到人工智慧的賦能,特別是與影片行業相關的營銷、影視設計、文旅、智慧終端等,都會產生重大變革。
袁國良:我們看到總理的政府工作報告明確提到要持續推進“人工智慧+”行動,同時在兩個方面著墨:一是大模型的廣泛應用,二是人工智慧與智慧終端的深度融合。這個政策導向很明顯,就是要持續推動人工智慧與實體經濟的深度融合,透過規模化和經濟邏輯、商業邏輯的可驗證,不斷髮揮人工智慧的生產力和產業動能。人工智慧已經融入到社會生活生產的方方面面,現在正是人工智慧融入社會、成為生產力的主戰場的好時機。
2、問題:政策的支援對AI視覺產業的落地、產業化起到哪些關鍵作用呢?
梅濤:政策起著積極引導的作用,會帶來三個結果:一是加速行業應用的深度融合;二是激勵企業的技術創新;三是為中小企業特別是創業企業營造更好的營商環境。我們希望政策落地時能產生好的效果,並具有好的時效性。因為人工智慧技術發展日新月異,如果政策推進不夠快、不夠實際,可能會跟不上技術演進的速度。我們希望針對人工智慧行業有一些非常規的推進機制,特別是在投資方面,因為技術創新本身是一種經濟活動,透過耐心資本的持續加持,人工智慧創新才能走得更穩。比如中美之間的人工智慧投資對比,美國無論是投資規模還是力度,都比我們國內目前要大。我們特別希望政策和投資能夠使初創企業或技術創新能夠持續穩定地參與到全球競爭中去。
3、問題:在投資領域,哪些AI視覺應用的相關行業和場景是最具前景的,最被看好的?
袁國良:視覺大模型與語言大模型相比,大家普遍感覺語言大模型不管是C端還是B端,都已經隨手可用了,特別是DeepSeek出來以後,我們國內居民也能方便使用。但在視覺多模態領域,應用還不夠普遍。我希望今年能看到生成成本較低、生成質量非常高、生成時間特別短的底層視覺大模型技術的出現。從大的方面看,我期待人工智慧特別是視覺與產業的全方面融合:一是與工業、農業、服務業的融合;二是與智慧終端的結合,包括電動車、手機、機器人、電動飛機、AR眼鏡等;三是希望看到我們的產業和社會,包括政策,給大模型的落地應用提供更好的全面支援,包括新產品、新場景的開發。現在最被看好的應該是AR增強現實的演進,AR+AI支援的眼鏡是一個重要方向。其次是很多智慧終端,包括家庭用的割草機、除塵機等都配備了攝像頭和智慧模組,還有電動汽車、低空電動垂直起降飛機等都會搭載大量攝像頭和大模型軟體支援。
4、問題:從AI視覺領域來看,去年年初Sora一鳴驚人,經過一年的發展,當前視覺AI技術的最新水平是怎麼樣的?
梅濤:首先,處理的訊號不同。大語言模型處理的是Token(令牌),是文字單詞或其變種;而視覺模型處理的基本單元是畫素。視覺領域最難的點是如何把視覺訊號轉變成具有語義的Token。其次,技術架構不同。大語言模型使用GPT架構,採用Next Token Prediction的方式,用前面的單詞預測後面的單詞,透過語言方式壓縮知識。而影片大模型使用的是擴散模型(Diffusion Model)。擴散模型就像在清水中滴入墨汁,墨汁會均勻擴散到各個角落,我們把這個擴散過程模擬出來,用神經網路模擬每一步,然後再逆向恢復。第三,目標不同。大語言模型的目標是壓縮知識、做邏輯推理;而影片模型是模擬物理世界,我們是"物理世界的模擬器",希望模擬物理世界中的人和物體、物體間的運動和結構關係。目前影片大模型的發展經歷了幾次升級:1. 模型架構的變化:從最初的UNIT架構,到2023年的DIT(Diffusion Transformer)架構,再到現在智象未來提出的自迴歸+DIT混合架構模型。混合架構提升了指令跟隨能力和文字與影片的相關性,同時實現了推理加速。2. 影片效果的提升:最初只能生成3-5秒的影片,現在已經能做到10-15秒的單一鏡頭,對企業使用者可以提供60秒的影片。故事性更好,可以做到多個鏡頭講述完整的小故事。3. 畫質和穩定性提升:與2023年相比,現在人物的微表情、手指、眼睛等細節表現得更好,但仍需要"抽卡"(多次嘗試)。目前單個人物IP的一致性問題基本解決,但多人物IP的一致性仍是挑戰。智象未來是國內唯一打通影像和影片統一預訓練路徑的大模型企業,我們希望未來能開發出更好的產品。
5、問題:現在影片大模型和產品已經把製作影片的門檻降得很低。這種顛覆性技術會不會對傳統影視製作行業帶來天翻地覆的改變?
袁國良:這肯定會帶來改變。在專業領域,技術的提升已經非常顯性、非常直觀。我認為未來視覺多模態大模型底層能力的進一步發展會帶來變革。現在我們還是把它作為一種效率工具、創作工具來理解,幫助製作內容。但未來很可能因為影片本身是一種高效的語言,隨著技術進一步進化,影片不單是用來生成被觀賞的內容,而可能成為根據使用者意願、心態、感情低成本高質量生成的、傳遞資訊和感情的新型互動形式。發展到這一步時,它可能不再只是一個效率工具,也不再只是對營銷、廣告、遊戲等專業領域有影響的工具,而成為我們每個人生活不可分割的必備工具。
6、問題:現在國產AI大模型使用頻率相當高。目前國內大模型的技術水平處於怎樣的階段或梯隊?
梅濤:這是個非常有意思的問題。兩三個月前討論這個問題時,如果說中國和美國在同一梯隊,我們可能會有點懷疑和不自信。但在上個月DeepSeek釋出後,我們確實可以很自豪地說,中國在人工智慧領域已經妥妥地處於第一梯隊。中國的開源模型已經掀起了一股風暴,把大模型應用的門檻降得很低,天花板卻提得很高。從這個角度說,中國確實已經躋身AI領域的第一梯隊。在影片AI領域,無論從底層模型產品還是從商業化角度看,中美一直是並駕齊驅的。市面上的影片生成工具,從使用者訪問量還是影片效果來說,國內的很多公司,包括智象未來,與美國是完全不落後的。當然,在佈局上可能略有差異。美國在網際網路經濟、數字經濟上確實比較領先,而中國可能更加強調AI和實體經濟的融合。未來我們期望在多模態人工智慧、機器人領域有更多像DeepSeek這樣的創新主體出現。
7、問題:作為公司創始人兼CEO,智象未來在產品開發到應用再到落地的商業邏輯是什麼?
梅濤:我們從創業第一天開始就思考如何把人工智慧技術用到商業化場景中去。目前我們推出了兩款產品:第一款是面向普通或專業使用者的影片創作工具,在國內叫"智象"。這個產品已經服務了來自100多個國家和地區的上千萬使用者。任何設計師、自媒體從業者或專業/半專業使用者,都可以透過他的創意在我們平臺上生成各種型別的圖片、影片,可以是海報、生日卡片、節日祝福影片,也可以是專業的影視鏡頭。我們在這個領域已經躋身全球第一行列。第二款是面向企業客戶的服務,特別是為品牌商提供互動營銷素材。只要在網際網路上售賣商品或做廣告,就可能用到我們的產品。我們會生成大量營銷圖案、營銷影片,甚至可以指導如何製作能提升使用者轉化率的影片廣告。舉個例子,我們在通訊領域為個人使用者或小型企業客戶開發了"AI影片彩鈴"。使用者可以定製彩鈴,當別人打電話時,就能瞭解來電者是誰、今天心情如何、是什麼樣的人。我們的影片AI技術已經完全走入日常生活。我們也製作了很多微短劇,未來可能會與更多企業合作。
8、問題:智象未來在發展過程中的技術升級,其中最大的突破或最大的挑戰是什麼?
梅濤:在影片生成領域,模型效果非常重要。如果模型效果不好,在上面雕琢產品是很難的。目前我們在開發影片大模型時面臨三大挑戰:1. 故事性:如何生成適合影片創作的劇本。影片模型做得再好,也不能完全取代導演或頂級攝影師、藝術家的創意,所以能否生成有創意的劇本非常關鍵。2. 可控性:如何讓影片大模型生成精準可控的內容,比如特定的鏡頭語言、推拉搖移、聚焦細節等,這些畫面和人物的可控性很難做到。3. 一致性:如何保證多個人物在多個鏡頭中的一致性。目前單個IP(人物)的一致性問題基本解決,但多個人物在不同鏡頭中保持各自一致性仍是難點。針對這些挑戰,智象未來做了幾方面創新:1. 技術架構上引入了擴散式自迴歸,將Diffusion Transformer和自迴歸模型結合,在保證畫面質量的同時降低推理耗時,未來希望實現即時生成。2. 引入全域性鏡頭運動和區域性運動聯合學習,實現影視級和更生動的畫面運動。3. 採用類似DeepSeek的"專家混合"(Mixture of Experts)方法,將多場景和多專家聯合學習,更好滿足使用者的特定應用需求。未來我們希望實現三個目標:一是在1K以上解析度下實現即時推理,滿足大量等待使用者的需求;二是開源我們最好的影像生成模型,讓更多使用者低成本使用;三是融合多模態的理解和生成,透過這種融合既能做生成,又能做檢索、編輯、二創,打造開放式平臺。
9、問題:現在國內大模型越來越多地開源,對開源這個事情怎麼解讀?對行業會帶來怎樣的影響?
梅濤:技術有兩種方式:開源和閉源。一個企業選擇開源還是閉源,是由市場化或商業化決定的,沒有對錯之分。開源是把所有技術都公開給大家使用,雖然有不同協議,但本質上是技術的普惠。短期內可能沒有特別好的商業模式,但長期來看可以構建自己的生態壁壘,包括整個社群、底層硬體和上層應用。此外,一個新技術出現時要跨越兩個鴻溝:第一個是從最早期感興趣的使用者到早期主流使用者;第二個是從早期主流使用者到大規模普通使用者。DeepSeek的出現已經成功讓AI技術跨越了第一個鴻溝。現在不僅中國使用者,連美國使用者都在使用DeepSeek。以前很多行業不知道大模型能做什麼,現在從大型國企到中小企業,都在尋求構建自己的DeepSeek服務。開源帶來的生態繁榮和行業變遷非常快,有利於各行業的發展。
10、問題:開源越來越多,未來的應用場景和商業化落地會怎樣發展?
袁國良:開源後,技術被各方使用,會形成一階反應、二階反應甚至三階反應。大量中間開發者和最終消費者進入後,會形成很多意想不到的商業模式和應用場景,這是一個非常好的正向迴圈。開源既是一種非常好的商業模式,也是有利於技術擴散的形式。如果一家公司在底層技術上研發投入巨大,在生成質量、時間消耗、算力消耗等方面都處於領先地位,然後把這些技術開源給市場免費使用,那麼各種參與者,不管是直接使用者還是利用這些工具開發自己產品的開發商,都可以加入到以這個底層模型為基礎的龐大生態中。因為任何團隊再強大,相對於全社會的智慧和生產能力,仍然很有限。只有融入到整個社會的創新源泉中,技術才能生生不息——一方面提供給社會強大的底座能力,另一方面也從社會獲取良好反饋。
11、問題:雖然行業在蓬勃發展,但也確實存在一些安全隱患。AI視覺行業發展過程中會存在哪些潛在的危險因素?
梅濤:我們非常重視AI治理,在很多專家委員會和峰會上都討論過這個話題。我國網信辦對上線服務有嚴格要求,需要經過多道稽核。但未來仍存在一些風險:1. 資料風險:我們正在制定法律法規來規範使用者資料安全。2. 版權風險:使用者在平臺上生成的內容,版權歸屬還沒有清晰界定。3. 隱私風險:如何保證使用者資料在未經允許的情況下不被濫用。
袁國良:從投資或商業角度看,大模型總體上還處於技術集中爆發期,從產業角度它還是很早期的階段。在這個階段,大模型底層能力的開發和基於這些能力開發的各種應用,以及這兩種研發共同指向商業化,三者經常混搭在一起。我們看到2022年底以來,相當一批大模型公司在反思究竟是"模型第一"還是"產品第一",或者兼而有之。這是很正常的現象,因為這是全世界都在共同探索的前沿地帶,沒有現成規律可循,甚至移動網際網路時代的商業模式對我們的借鑑意義也很有限。這既是風險地帶,也是機會所在。從投資人角度看,完全迴避這些風險不太現實。我們能做的是與被投公司一起,以開放心態不斷重新定位創業公司在大模型技術鏈和產業鏈中的座標,回到最初的出發點,鞏固和發揮核心競爭優勢。因為在任何領域你都會面臨無數競爭者,所以要回到自身,回到初心,發揮最核心的競爭力。投資人和被投公司要以完全開放包容的心態理解大模型技術的熱點演進,不是迴避風險,而是在動態中直面風險並解決風險。
12、問題:投資人要對被投公司進行全方位保駕護航。對投資者來說,怎樣優選出好的標的進行投資?
袁國良:我們可以觀察到一系列連續的指標,但作為投資人,你不可能永遠等待更多指標出現——在適當時期要果斷決策、果斷下場,否則就會看著好公司一騎絕塵而被甩在後面。具體來說,有兩類風格突出的團隊值得關注:第一類是絕對技術領先的團隊。這類公司有兩個特點:一是研發投入效率特別高;二是在長期和中期的技術路徑判斷上幾乎都準確無誤。這不僅意味著資金和人力的節省,更意味著時間的節省,在全球化競爭中領先一步。第二類是具有出色市場思維和產品思維的團隊,能夠藉助開源或非開源的底座模型能力,開發切合市場需求的產品。