快手張迪：每個人的創意都能轉化成好的視覺故事

如果DeepSeek等語言大模型代表人類左腦，可靈AI有點像人的右腦。

文｜《中國企業家》記者趙東山

編輯｜張曉迪

圖片來源｜中企相簿

4月18日~19日，由《中國企業家》雜誌社主辦的2025（第十七屆）商界木蘭年會在北京舉辦。圍繞可靈AI的技術進展和實際應用，快手科技副總裁、大模型團隊負責人張迪發表了主題演講。

張迪演講的核心觀點如下：

1.以DeepSeek為代表的大語言模型，代表的是人類的左腦，更多是關於語言和邏輯的部分。可靈AI等視覺大模型，有點像是人的右腦，更多代表的是人類對圖片和影片的理解以及生成。

2.可靈已經發展成了一個全球化的產品，在全球範圍之內累計超過2200萬的使用者，使用者使用可靈生成了1.68億個影片，其中包括3.44億張圖片，可靈在阿根廷、智利等8個國家和地區的iOS應用市場下載排到了第一，在北美市場的分類下載也排到了第一。

3.整個科技行業發展非常快，AI發展非常快，中國大模型從前幾年追趕美國的狀態到今天各個領域跟美國的差距在縮小，最重要的還是AI轉化為新質生產力。

以下為張迪演講全文：

大語言模型代表左腦，影片大模型代表右腦

尊敬的各位領導，各位企業家，大家上午好！我非常開心能夠給大家帶來這個分享，我今天分享的主題是“可靈AI助力開啟影片創作的新業態”，前面幾位企業家都講到了包括影視跟AI的結合，可以做一個呼應。

我是快手的副總裁，主要在快手負責大模型的研發，我也是一個技術人員，所以接下來我儘可能給大家講一下中國的AI、中國的大模型發展到什麼階段了。

最開始先說一下整個大模型技術領域，大概可以分成兩個大的方向，第一，以DeepSeek為代表的大語言模型，代表的是人類的左腦，更多是關於語言和邏輯的部分。第二，我今天講的這部分是關於視覺大模型，有點像是人的右腦，更多代表的是人類對於圖片和影片的理解以及生成。

首先說一下可靈AI這個業務的願景，我們的願景是建設全球領先的AI視覺與表達平臺，讓每一個人都能夠用AI講出一個好故事，這是我們做這件事情的初衷，我們想讓每一個人都可以把自己的創意轉化成一個好的視覺的故事。

我今天儘可能少一些文字，因為我們是一個視覺大模型，我儘可能多一些影片素材給大家介紹一下。

可靈AI是去年6月份釋出的，是全球首個使用者可以使用的真實影片生成大模型，我相信很多人未必瞭解它是用來做什麼的，我說一下2024年春節的時候一個特別火的模型是OpenAI的Sora，這個在全球範圍之內引起了一個很大的討論，Sora釋出之後只發布了一些demo，相當長一段時間都沒有開放給使用者使用，我們也是抓住了這個機會，透過快速研發率先推出了可靈AI。

我們在去年6月份釋出的版本上已經可以根據文字描述生成接近電影質感的、比較美輪美奐、比較寫實的、符合物理規律的影片片段。

在之後我們整個大模型在國內外引起了很好的一個反響，在國際非常知名的視覺模型評測的榜單上，我們可靈AI也是處於第一名的位置，包括OpenAI的Sora、谷歌的Veo2都排在可靈AI之後。

在海外引起了很大關注

可靈AI釋出之後無論是國內還是海外都引起很大的關注，尤其在海外引起了很好的反響，包括埃隆·馬斯克都參與到了可靈的討論裡面來，除了DeepSeek以外，可靈AI也是在矽谷代表中國影響力最高的一個視覺模型。

我們在這之後也經過了10個月的快速研發，不停地更新我們的模型、產品，經過了二十幾次的迭代，現在我們的可靈已經發展成了一個全球化的產品，我們在全球範圍之內累計超過2200萬的使用者，我們的使用者使用可靈生成了1.68億個影片，3.44億張圖片，我們的APP也是在阿根廷、智利等8個國家和地區的iOS應用市場下載排到了第一，在北美市場的影像與設計分類裡面的下載也排到了第一。

講完整個可靈的介紹，我接下來就用一組短片給大家介紹一下可靈有什麼樣的能力，4月15日，我們釋出了可靈2.0，在可靈釋出的時候有兩個最核心的模型，一個是可圖大模型2.0，做的是影像生成的工作，你輸入一段文字，我們就可以按照你的文字指令生成一個圖片；第二個是可靈影片生成大模型，你輸入一段文字或者輸入一張圖片，我們就可以生成對應的你想要的影片片段。

從指標上來說，我們釋出的新版本在全球範圍之內，在這個領域仍然是行業領先的，包括我們的可圖在評測上超過了我們的競品，包括大家比較瞭解的Midjourney，我們可靈大模型在模型的效能上比谷歌Veo2和OpenAI的Sora，包括非常知名的Runway要更好一點，這是一個模型指標的參考。

過去一年影片生成模型在發生什麼？

更直觀的，我想給大家展示一下過去一年的時間影片生成的能力到底有一個什麼樣的變化，大家可以看到這是一年之前我們的模型，左側是一段非常複雜的描述詞，它描述的是一個電影場景的人，一個在跑動的場景，一年之前這個畫面沒法看，基本上是一個動圖，這是2024年1月份。2024年6月份我們釋出的版本，雖然畫面還是非常糟糕的，至少這個人動起來了，有點像一個影片。

2024年12月份已經有一點感覺了，雖然整個畫面影片完成質量很低，但有點感覺了，我們釋出的2.0很好地生成了左邊的完整影片，是跑酷的畫面，整個畫面的質量，整個鏡頭的跟隨程度，整個美學已經達到了電影的質感，整個技術的發展是非常快的，一年以前整個行業都不敢想象我們是可以用文字生成近似於影視質感的影片，僅一年的時間，就可以發展為輸入左邊的文字就可以生成右邊的影片，接下來用更多的例子給大家做一個展示。

我們怎麼用文字生成圖片，再用圖片生成電影短片的，右邊這個例子是超級創作者用影像模型、影片模型的例子，上面用文字生成的圖片，下面用這張圖片生成的影片，我們的模型可以響應各種各樣的風格，故事片、動作片都可以做得很好，上面這些片段其實是一些電影片段的復現，上面所有的畫面和影片都是用AI技術生成的，沒有進行任何的拍攝和設計。

一些基本功能，文生影片，輸入左邊的這些詞，右邊就可以看到片段，左邊是我們的老模型，右邊是我們的新模型，對於人物的動作、表情都可以展現得非常詳細，下面是延遲攝影的示例，這是文生影片。

圖生影片，給我一張圖片，可以是生成的，也可以是你拍攝的，就可以生成下面的影片，無論對於寫實類的還是卡通動畫類的都可以做得非常好。

我們也支援多模態編輯，現有的影片我們可以對影片中元素進行增刪改，影片中的PS也可以實現了，有一個示例，展現我們怎麼對現有影片進行增刪改，這是原始的影片，可以替換中影片中的所有元素，讓女生妝容變化、人物變化、吃的東西變化，可以看到這個影片讓我們感覺現實好像已經不“存在”了，所有的影片也可以進行動態的變化。

我們知道影視製作除了生成圖片影片以外，聲音也是很重要的，我們的平臺可以提供聲音、音效生成能力，聲音也是AI生成的，這個短片所有的聲音都是AI生成的，這是一個卡通短片，他講述的是老爺爺和老奶奶回憶自己青春時的經歷，所有的聲音都是根據畫面自動生成的，可以看到無論是影像、影片、聲音，AI都代表了新質生產力，大幅降低了創作的成本，提高了創作的效率，這是聲音部分。

可靈AI帶來的新商業機會

AI也可以帶來很多有意思的玩法，我們給木蘭會的LOGO做了一個影片效果，可以變成非常有意思的動漫特效。

最後我想給大家展示AI做電影、AI做商業化做到什麼程度，接下來的短片能夠震撼到大家，這個是我們超級創作者給我們做的最新電影短片中的片段，《王國》，所有內容都是AI生成的，網友們說是AI版《權力的遊戲》，如果用傳統的拍攝技術，拍攝難度、拍攝成本都非常高，我們用AI做這個片子大概是幾個人的工作室，做了一週的成本，這是一個短片，真實片子有20分鐘的長度，我們在5月份會有一個完整系列的短片，每個片子有20~40分鐘，有十部片子在全球釋出，包括了各種各樣的風格。

整個科技行業發展非常快，AI發展非常快，中國大模型從前幾年追趕美國的狀態到今天各個領域跟美國的差距在縮小，最重要的還是AI轉化為新質生產力，跟各行各業結合在一起。

新聞熱線&投稿郵箱：[email protected]