揭秘大模型技術在快手搜尋的應用

演講嘉賓 | 許坤快手搜尋部門技術專家

稽核｜傅宇琪、褚杏娟

策劃 | 蔡芳芳

本文整理自快手搜尋部門技術專家許坤在 QCon 2024 北京的分享“大模型技術在快手搜尋的應用”。演講深入探討了大模型技術在快手搜尋領域的具體應用，重點介紹了多模態技術，尤其是多模態理解和生成方面的最新科研進展。

本文由 InfoQ 整理，經許坤老師授權釋出。以下為演講實錄。

我們在去年 3 月底至 4 月初成立了一個聯合專案組，致力於大模型技術的研發。到了 8 月份，我們釋出了快手的第一個大模型，命名為快意大模型。

快意大模型目前有三個不同的規模版本，分別是 13B、66B 和 175B。在去年 8 月份的評估中，我們的模型已經達到了或者說接近 GPT-3.5 的效能水平。自那以後，我們團隊在內部進行了大量的迭代和最佳化。特別是 175B 規模的模型，目前在很多場景中，特別是在中文場景下，表現已經超過了 GPT-4。這一進步已經被實際應用到了快手的多個具體產品中，實現了技術的落地和商業價值的轉化。

快手大模型落地場景

快手大模型技術目前已經在多個領域進行了嘗試和應用。以下是幾個具體的落地例項：

AI 小快：使用者在觀看影片時可以透過 @AI 小快來提問有關影片理解的問題。我們的大模型會在評論區中對這些問題進行智慧解答，提供使用者所需的資訊。
智慧客服：透過大模型的強大能力，智慧客服能夠更精準地理解使用者需求，並提供更加人性化的服務。
商家影片文案生成：這項服務使得我們的 ToB 使用者能夠更加便捷地創作文案和製作影片，提高了內容生成的效率和質量。

儘管短影片在視覺呈現上具有優勢，但在某些場景下，如 how to 類查詢或知識性問答，短影片內容繁多，使用者需要觀看完整影片才能找到答案，這實際上降低了搜尋效率。此外，短影片是由人創作的，創作者與使用者之間存在一定的鴻溝。在沒有足夠影片供給的情況下，我們希望大模型能夠對使用者的問題進行解答。以下是我們四個產品的具體形態：

GPT 卡片：當用戶提出問題時，GPT 卡片會在搜尋結果頁面直接輸出答案。例如，使用者詢問“桂花不開花是什麼原因？”時，我們會利用 RAG 技術聚合影片和網頁結果，直接呈現答案。
AI 搜：在某些問題沒有索引或影片供給的情況下，AI 搜會利用大模型線上即時生成結果，彌補 GPT 卡片的不足。這也是一種漏斗邏輯，引導使用者在看完 AI 搜後，如果有後續問題，進入多輪對話場景。
GPT 多輪對話：使用者點選搜尋框旁的 AI 圖示後，會進入多輪對話場景。與 AI 搜相比，我們會重點放在多輪對話的理解上，並提供特定領域的能力，如文生圖設計和朋友圈文案創作。
角色聊天：在上線這些產品後，我們發現許多使用者除了知識獲取需求外，還有與 AI 進行交流的需求，尤其是在深夜。

產品實踐：AI 搜 & 角色聊天

搜尋智慧問答

搜尋智慧問答的設計旨在提升搜尋效率和補充搜尋供給。

我們構建了一個框架，該框架以邏輯流程圖的形式呈現。當用戶提出一個查詢，系統首先進行影片檢索，這包括快手自有搜尋流水線中的粗排、精排、個性化排序等步驟。在獲取相關影片後，系統還會利用快手豐富的知識庫資源對查詢進行文件檢索，檢索到的結果將進行答案抽取，並使用生成式模型進行答案聚合。如果查詢沒有相關的索引資源，我們的基座模型將透過指令檢索邏輯進行兜底。

在下圖框架中，藍色部分代表抽取式模型，而紅色部分代表生成式模型。

框架中還加入了一個強化學習模組，該模組與傳統的大模型訓練中的 RLHF 或 DPU 有所不同。我們認識到，答案的呈現形式對使用者體驗有顯著影響。

例如，有時我們希望答案以列表形式出現，有時是圖文對，有時則可能是純文字。強化學習模組的目標是教會模型以最合適的形式回答特定型別的問題。強化學習的訊號通常基於使用者看到結果後的後驗行為，如停留時長、後續查詢搜尋等。這些訊號將反向傳遞給模型，使模型在學習過程中既能滿足使用者需求，也能逐步提升使用者體驗。

透過這種方式，我們可以形成一個閉環，使模型能夠每天線上自我迭代。

在開發過程中，我們面臨了三個主要挑戰。

大模型的幻象：早在三年前 GPT-1 出現時，學術界就對大模型的必要性存在分歧，分為兩派，一派主張走符號推理（Symbolic Reasoning）路線，瞄準大模型幻象難以解決的痛點。現在，隨著 ChatGPT 等模型的效果顯著，大家開始集中研究如何檢測大模型幻象。在實際應用中，我們希望有一個模型或模組能夠告訴系統，大模型的輸出存在問題。
低質索引資源影響答案准確率：在我們的系統中，落地時面臨的一個嚴重問題是資源本身可能存在重複。例如，一個問題可能同時有正確和錯誤的答案，或者不同的人對同一答案的看法不同。我們如何對這些答案進行聚合，這是我們在研究中需要解決的問題。
Multi-Hop 事實類問題：這類問題在檢索時通常無法直接找到答案，因為它們需要進行一定的推理。

儘管大模型有一些索引資源，我們已經對這些索引的質量進行了嚴格控制，但仍有少數低質資源可能進入最終的排序模組。

我們觀察到，絕大多數正確答案通常能夠得到足夠多的索引資源的支援。基於這一發現，我們構建了一個圖神經網路模型。該模型的工作機制如下：它從每個文件（doc）中抽取答案，並計算每個答案被其他文件支援的程度。同時，我們還會計算答案之間的相似度，然後利用整個圖的模式來判斷哪個答案最有可能是正確的。這是一個常規的解決方案，它在離線測試中表現出色。

回答 Multi-Hop 事實類問題

我們線上實施了一個類似“source tree”的概念。邏輯是，面對一個複雜問題時，我們需要將這個問題拆解成多個子問題。為此，我們開發了一個模組來拆解問題。拆解後，我們會針對每一個子問題進行解答。當子問題得到正確解答時，我們會進一步探索答案，直到最終解決問題。如果某個子問題沒有得到解答，我們會退回到問題的根節點，並尋找另一條路徑。有時如果問題確實無法解答，我們也會接受這一現實。

升級到角色聊天模型

自去年以來，隨著 AI 技術的火爆以及國內資本市場的變化，我們觀察到市場對角色聊天這一概念非常認可。使用者不僅需要獲取資訊，他們的情感需求也同樣重要，這正是我們需要提供的價值。我們的產品框架包含三個主要部分：

角色庫：使用者可以與所有已存在的角色進行聊天。
當前對話角色：使用者與當前正在對話的角色進行互動。
角色發現：使用者可以在發現頁尋找他們可能感興趣的新角色。

在角色聊天領域，我們面臨一個基本問題，即如何將現有的語言模型升級為角色聊天模型。雖然整體方案沒有變化，包含預訓練、監督訓練和強化學習模組，但每個階段使用的資料型別有所不同。在角色聊天模型中，我們主要使用了劇本資料、對話資料和人人對話資料。與機構模型使用 3T 到 6T token 的資料量相比，角色聊天模型追求的是少而精，通常 100B 到 200B 的資料量就足夠了。

在指定微調階段，基座模型預訓練階段需要幾百萬到上千萬的指定資料。而在角色聊天中，我們關注的是三類資料：

模型是否能理解角色的含義；
模型是否能理解場景的意義；
模型是否具備通用能力和多輪對話能力，尤其是長上下文的處理能力。

我們特別構造了不同角色間的場景對話能力，以及長上下文對話（long SFT）的資料。雖然在搜尋場景中，很多人認為 DPU 沒有太大作用，但在角色聊天中情況完全不同，因為高情商的回覆與低情商的回覆對使用者體驗的影響非常大。GPT-4 在這方面也無能為力，因為它提供的是更正式的回覆，與角色聊天所需的口語化回覆不同，常規使用 GPT-4 進行打標的方法在角色對話中並不適用。

因此，在強化學習階段，我們進行了很多使用者模擬器的開發，並結合人工標註進行對齊，以提升模型的情商和對話質量。

挑戰一：

如何構建不同角色多輪對話資料

由於我們沒有大量線上資料，即使有也不一定適用。因此，我們必須從冷啟動階段開始生成資料。我們會生成數萬甚至數十萬的角色，然後從這些角色中兩兩配對，並讓 GPT-4 在給定場景下生成合理的對話。接下來，我們會進行簡單的人工篩選，篩選出的資料將用於訓練模型。有了這個基礎模型後，我們將其上線。上線後，我們會為使用者提供一個功能，允許他們自己建立角色。然後，我們會從使用者建立的角色中獲取資料，逐步更新原始的資料集。透過這樣的多次迭代，我們最終能夠達到一個比較理想的效果，使模型能夠更好地理解和生成符合角色特性的對話。這個過程需要不斷地收集使用者反饋，最佳化資料集，並訓練模型，以實現角色聊天功能的最佳表現。

挑戰二：

如何增強模型的上下文理解能力

眾所周知，GPT 或 Transformer 這類模型框架在進行 NSP（Next Sentence Prediction）任務時，通常是預測下一個 token，這種預測往往依賴於區域性資訊，而不太涉及全域性資訊。為了增強模型的長上下文理解能力，我們採取了以下措施：

● 程式碼預訓練：我們加入了程式碼預訓練資料，這樣做可以天然地增強模型對於遠距離注意力（attention）的效果，從而提升模型對長上下文的理解。

● 線上長對話資料：我們利用線上的長對話資料，讓 GPT-4 幫助我們進行標註，以識別出哪些回覆可能與前文歷史緊密相關。如果發現有相關性，我們會採用拒絕取樣（reject sampling）的方式，透過人工挑選來構建長上下文對話訓練資料。

● 增強上下文效果：利用特別構建的資料，我們進一步增強了模型的上下文效果，使其能夠更好地理解和回應長對話中的上下文資訊。

技術探索：多模態大模型

與大語言模型（LLM）相比，多模態模型主要增加了兩種模態：語音和視覺（包括影像和影片）。目前常規的方案基本上是以大模型作為基礎，透過一個專案將多模態特徵對映到 LLM 中的固定數量的 token 上，然後進行建模。最終，根據需要輸出影像或語音，只需選擇不同的解碼器（decoder）即可。

這樣的大型模型存在一個顯著問題，它們經常使用所謂的"model adapter"結構。在這種結構中，視覺特徵或語音特徵被固定（fix），然後整個模型的訓練主要集中在訓練這個 adapter 上。這種做法引發了一系列問題。

● 多模態作為 prompt 的弱點：在建模過程中，多模態輸入通常被當作 prompt 使用，它與隨後文字的互動天生較弱。這是因為目前大多數模型都採用僅解碼（decode-only）框架，導致多模態輸入與模型的互動不夠充分。

● 任務複雜性：當前的任務，尤其是多模態任務，非常複雜。如果將模型的視覺特徵抽取或 LLM 固定，那麼 adapter 的訓練潛力將非常有限。目前，adapter 主要採用 cross attention 的方式，這可能會嚴重限制整個模型的能力。

基於現有問題，我們提出了一個新的想法，即將視覺或語音視為一種外語，即另一種語言。

"萬物皆可 token"

以 LLama 模型為例，我們的處理方式是相同的，不論是中文資料還是影像資料。我們希望將影像離散化，轉換成 token，即"萬物皆可 token"的理念。Token 化後的資料輸入到基礎模型中，對於基礎模型而言，它們僅僅是一串 token，沒有任何區別。這樣做的好處在於我們可以隨意交叉這些 token 的位置。

為了實現這一目標，我們設計了一個名為"Image Tokenizer"的元件，作用是將影像、影片或音訊轉換成一系列 token，然後輸入到基礎模型中。

我們選擇使用 LLM 的原因是，LLM 已經將人類文字知識全部壓縮在內，在基礎之上進行推理、理解和生成任務時，它會具有天然的優勢。與從頭開始訓練模型相比，使用 LLM 作為基礎模型可以帶來更好的效果，這是我們的基本動機。透過這種方式，我們可以更有效地處理多模態資料，並提升模型的整體效能。

我們最近有一篇論文被 ICLR 接收，論文的基本思想是，當我們處理影像時，首先將其轉換成 token，與文字 Tokenizer 處理後的文字拼接在一起，然後輸入到模型中。我們的模型名為 LaVIT，其輸出的 loss 與語言模型相同，都是採用 ASP loss 預測下一個 token。

與之前方案的最大區別在於，我們將影像離散化，影像的每個 patch 都有一個獨特的 ID，在語言模型中它就是一個語義 token，這樣我們可以在 loss 上實現同質化處理。透過這種方式，無論是影片理解還是影像理解，只需將影像轉換為 token 輸入模型，然後讓它解碼成文字就可以將影像理解任務建模。

此外，我們還可以進行生成任務，比如給模型一張圖片和一段文字，然後要求它輸出圖片。對模型來說這沒有難度，因為它只是一系列 token 的輸入和輸出。唯一的區別在解碼階段，我們通常會選擇使用 Stable Diffusion 或 DIT 等方法來進行解碼，這種方法使我們能夠更靈活地處理多模態資料，並在不同的任務中實現更好的效能。

我們的 Tokenizer 設計涉及離線預訓練過程，這個過程不需要文字，只需要影像。影像輸入後，我們會使用 VIT（Vision Transformer）作為特徵提取器，將影像分割成若干個 patch。每個 patch 都有一個對應的 embedding。

在這個基礎上，我們進行 KNN（K 最近鄰）檢索，將這些 patch 對映到一個 Codebook 中。這個 Codebook 可以理解為我們自然語言中的詞彙表，其中包含了大約 1 萬到 2 萬個“詞彙”。有了這些詞彙後，我們可以將影像中的每個區域對映成一個詞。然後，我們會對編碼過程使用一個解碼 loss，即要求模型能夠恢復出原始影像，這是一個迴歸 loss，具體來說是均方誤差（MSE）loss。

完成這個離線預訓練過程後，我們將得到一個優秀的影像編碼器和解碼器。編碼器的作用是將影像轉換成一系列的 token，而解碼器的作用是將這些 token 還原成影像。解碼器的基礎我們採用了 Stable Diffusion，並對其做了改進，實現了動態編碼。

動態編碼的動機其實很簡單：在很多影像中，顏色可能非常相近，比如都是紅色。我們不希望模型對這類影像使用過長的 token，因為這會使訓練過程變得冗長。因此，我們引入了一個名為 token selector 的元件，它會在影像中選擇它認為重要的 token 進行編碼。

下圖展示了視覺 Tokenizer 的效果：

左側第一張圖我們僅使用了 95 個 token，可以從圖中觀察到，因為有許多顏色是一致的，而右側灰白部分表示我們沒有選擇對這些區域進行編碼，我們保留的有顏色區域即是保留的 token，未保留的則是我們去掉的部分。

觀察右側的釣魚圖片，可以看到影像中包含的語義資訊相當複雜，因此我們大約使用了 108 個 token 來表達。而下面那張鳥站在樹上的圖片，實際上只需要 79 個 token 就能夠進行有效編碼。

透過這種動態長度編碼的方式，我們能夠對圖片進行更為高效的編碼處理。這種編碼方法在我們的模型中能夠顯著提升訓練速度，大約可以提高 3 到 4 倍，從而使得整個模型的訓練過程更加快速和高效。

影像編碼完成後，接下來的步驟是將其對映到一個詞表中。我們使用的是一個包含 16,000 個詞彙的詞表，每個詞彙都代表了一個特定的含義。透過視覺化，我們可以發現特定的編碼，比如 13014，它代表的是人手臂的語義，而編碼 2223 則學會了代表鐵軌的語義。本質上，我們的過程是將影像拆解，然後進行語義聚類，之後將其與語言進行同步建模。

影像的處理也是類似的。我們把影像分解，將其中的每一部分對映到相應的語義上，並與語言的語義進行融合，輸入到 LLM 中。透過這種方式，我們能夠將影像和文字統一到同一個語義空間中，使得模型能夠更好地理解和處理多模態資料。這種方法不僅提高了模型的效率，也增強了其處理複雜任務的能力。

多種任務嘗試

完成影像編碼和詞表對映的工作後，我們進行了多種任務的嘗試和應用。首先，我們實現了 Image Caption 和 Visual QA 任務。使用者可以直接輸入一張圖片，然後大模型能夠生成對圖片內容的描述。例如，模型能夠形容圖片中的景象或物體。比如，使用者可以上傳一張圖片並提出問題，比如詢問圖片中有多少隻斑馬，模型能夠理解問題並回答出具體的數字，如“有三個斑馬”。

在下面的圖表中，我們展示了一些基準測試上的結果。這些結果是我們在去年 12 月份提交論文時的資料。當時，在多模態模型領域，BLIP-2 的效果被認為是最好的，如果大家對多模態模型有所瞭解，可能對這個模型會比較熟悉。然而，在我們的實驗設定中，當我們使用相同規模的大約 7B 引數的基礎模型時，我們的結果實際上遠遠超過了這個競品。

我們的框架設計得非常通用，既可以處理圖片理解任務，也可以進行圖片生成。在圖片生成方面，我們展示了一些效果，看起來也相當不錯。坦白來講，與當前非常受歡迎的 Mid Journey 和 Stable Diffusion 相比，我們的生成質量並不遜色。

我們進行了一項實驗，目的是比較我們的方法與一個強有力的競爭對手 SDXl 在文字提示理解方面的差異。我們特別想知道，在採用 LLM 之後，我們是否能夠更好地理解文字提示。

實驗中，我們給出了一個文字提示，內容是：“桌子上有兩個蘋果，這兩個蘋果沒有一個是紅的，都是綠的。” 結果顯示，SDXl 對這個提示的理解相對較弱，它生成的影像中既有紅色的蘋果也有綠色的蘋果。而使用我們的方法，基於語義建模，生成的影像則非常好，準確地反映了文字提示的要求，即生成了兩個都是綠色的蘋果。

另一個例子是，文字提示描述了一隻貓位於長椅下方的籃子裡。SDXl 生成的影像在空間理解上表現不佳，因為它通常使用 CLIP 進行文字建模，與我們使用 LLM 的方法完全不同。相比之下，我們的模型明顯在空間理解上做得更好，能夠準確地描繪出貓在指定位置的場景。

我們展示了一些文字到影像（Text to Image）的結果，與我們的結果比較接近的是 Parti 的效果，在 FID（Fréchet Inception Distance，一種評估生成影像質量的指標）這個維度上非常接近。

我們的框架非常靈活，不僅可以支援從文字生成影像（文生圖），還能處理影像生成文字（圖生文）、以及影像加文字或影像加影像的組合（圖加文加圖）。

如果我們在左邊給出一張貓的圖片，然後在右邊給出一個文字提示，比如說“這隻貓在海灘上”，我們的模型就能夠生成出一張貓在海灘上的影像。如果我們想讓這隻貓戴上眼鏡，只需在文字提示中加入這一要求，模型同樣能夠生成出相應的效果。這是一個影像加文字輸入的例子。

我們還可以進行影像和影像的輸入組合。比如，如果我們將梵高的畫作和貓的圖片放在一起作為輸入，模型能夠生成出具有梵高風格的貓的影像。同樣，如果我們將一隻朋克風格的狗和貓的圖片放在一起，模型就能生成出朋克風格的貓的影像。

我們還進行了一項更復雜的實驗，即文加圖加文加圖加文，也就是三個文字和兩個影像的組合。例如，假設我們說“這是一幅畫”，然後給出一張狗的圖片，並希望將這隻狗以那幅畫的風格呈現出來，我們的模型同樣能夠生成這樣的影像。當然，如果你有更具體的特定需求，比如需要更多的文字描述，或者想要結合兩張圖片、三張圖片以及文字作為輸入，這也是可行的。

Video-LaVIT 框架

今年第一季度，我們開發了一個名為 Video-LaVIT 的框架，介紹一下它的基本思想。

在之前框架的基礎上，我們進行了影片編碼和解碼的工作。目前，大家普遍知道 GPT 這樣的框架屬於較高階的結構。但在國內，許多人處理影片的方法是將其拆解成多幀，然後分別進行建模。另一種流行的方案是 Sora。

我們的工作始於 2 月 6 日，原本計劃稍後再推出更新版本，但 Sora 的進展比我們快得多，並且效果顯著。Sora 的方案考慮了 3D 方案，與單幀抽取方案相比，其 token 數量非常龐大。這會帶來一個問題：如果有 100 萬個 token，學習它們之間的 attention 關係將需要巨大的資料量和計算資源，這是我們所不具備的。

我們並沒有選擇 Sora 的方案，也沒有選擇單幀抽取方案，因為這樣會丟失幀與幀之間的動作時序變化。最終，我們選擇了一個從編解碼領域借鑑的思路，這是一個折中的方案，旨在保留影片幀之間的時序資訊，同時避免上述兩種方案的缺點。

如果對影片編碼有所瞭解，你就知道 H.264 方案，這是一個相對傳統的標準。它的基本思想是在影片編碼或壓縮時，將語義資訊單獨壓縮，特別是所謂的運動向量（Motion Vectors）。這個方案的核心思想是對影片中每一幀（patch）與下一幀之間的動作變化進行建模，而畫素級別的變化則被正交解耦。我們不需要對每一幀都進行單獨建模，也不需要像 Sora 方案那樣建立一個非常複雜的 3D token。

我們的基本方案採用了關鍵幀加運動向量（key frame + motion vectors）的方法。簡單來說，我們會從影片中提取關鍵幀，然後基於這些關鍵幀對後續動作進行運動向量建模。這樣，我們就無需保留整個影片的所有關鍵幀，只需保留運動向量即可。同時，這種方法也不會丟失影片的時序資訊。

基於這個概念，我們設計了一個編碼 Tokenizer 和解碼 Detokenizer，用於將影片編碼並恢復成期望的影片效果。這種方法允許我們以更高效和節省資源的方式來處理影片資料，同時保留了影片內容的核心資訊和動態變化。

我們的框架中新增了一個元件，稱為 motion tokenizer，它的功能是將影片中的動作編碼成 token，並將這些 token 輸入到 Video-LaVIT 模型中。這個 motion tokenizer 的訓練過程與 LaVIT 的訓練過程非常相似，都是將向量透過語義編碼轉換成 token。具體來說，motion tokenizer 的訓練方案與 LaVIT 相同，它使用 MSE loss 來進行訓練，這是一個離線過程。與 LaVIT 不同的地方在於，motion tokenizer 的訓練不需要文字對齊，它僅依賴影片本身即可完成訓練。

我們還開發了一個解碼器，目的是在影片預測階段將關鍵幀和運動向量恢復成影片效果。為此，我們訓練了一個名為 3D U-Net 的框架。簡單來說，操作過程是將關鍵幀和運動向量輸入到 3D U-Net 中，然後對其進行加噪處理，接著進行去噪，最終得到影片的輸出效果。

在離線訓練 Tokenizer 的過程中，我們首先對影片進行編碼，然後再次解碼，以檢驗影片資訊是否能夠被有效復原。儘管我們觀察到復原影片的解析度較低（僅為 520P），因此效果並不完美，但基本的語義資訊已經透過模型學習到。

我們特別在兩個任務上進行了重點評估。首先，我們對影像理解（image understanding）進行了評測，發現在現有的影像理解基準測試上，我們的效果是最佳的。其次，在影片理解方面，特別是在 ActivityNet-QA 資料集上，該資料集用於衡量影片中的動作，我們的效果顯著優於現有所有工作。這是因為我們對 motion 的建模非常精準，而其他許多工作往往忽略了對運動的建模。

我們還嘗試生成了較長的影片，使用者只需輸入一段文字或者提供一張圖片，模型就能基於這張圖片生成影片。在沒有進行任何控制的情況下，影片的穩定性已經達到了一個相當不錯的效果。這表明我們的模型在處理長影片生成任務時，即便在沒有額外控制機制的情況下，也能夠保持較高的穩定性和合理性。

我們製作了一個較長的影片，大約 10 秒左右。LLM 本身對輸入長度沒有太多限制，不過我們訓練集中的大部分影片都在 6 秒左右。因為我們的訓練集未曾見過更長的影片，這可能導致對後面關鍵幀的預測存在一些問題。但總體來說，生成的影片結果還是符合預期的。

我們的長影片是透過拼接多個幾秒的影片片段來實現的。雖然與 Sora 相比，我們的效果還有一定差距，但個人認為這個差距可能不是由模型本身造成的，而可能是因為我們目前使用的資料還不夠充分。我們沒有使用任何閉源資料，也沒有使用快手的資料，目前的效果是基於公開資料實現的。

我們的 Video-LaVIT 框架已經引起了包括 Stable Diffusion CTO 在內的一些業界人士的關注。大家對這個框架的優勢有明確的認識。

與 Sora 相比，我們只需要其 1/10 的 token 即可進行建模。雖然 1/10 token 可能會在最終生成質量上帶來一些損失，但它對影片的理解能力依然非常強。我們進行了一些評測，結果表明我們的效果可以與 Sora 相媲美。

眾所周知，廣告領域是影片生成的一個非常重要的應用場景，包括在快手內部，我們也進行了一些廣告生成的嘗試。這些廣告通常時長大約在 10 到 15 秒之間，這正好是我們的文生影片模型能夠充分發揮作用的場景。因此，我們的模型在廣告製作和影片內容生成方面具有巨大的潛力和應用價值。

內容推薦

新應用時代，融合AI技術的應用開發變得更加複雜。在6月14日至15日的ArchSummit全球架構師峰會上，來自位元組、百度和騰訊雲等知名企業的資深架構師分享了他們如何運用AI模型及技術管理手段，解決實際問題。「AI前線」精選了大會上聚焦AI模型及其應用開發的系列PPT，關注「AI前線」，回覆關鍵詞「應用開發」免費獲取。

活動推薦

InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會，匯聚頂尖企業專家，深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名，6 月 30 日前可以享受 8 折優惠，單張門票節省 960 元（原價 4800 元），詳情可聯絡票務經理 13269078023 諮詢。