AI影片技術突破靜默，讓每一幀畫面實現聲色同步|大模型一週大事

大模型的快節奏發展，讓瞭解最新技術動態、積極主動學習成為每一位從業者的必修課。InfoQ 研究中心期望透過每週更新大模型行業最新動態，為廣大讀者提供全面的行業回顧和要點分析。現在，讓我們回顧過去一週的大模型重大事件吧。

一、重點發現

影片生成模型的發展速度令人矚目，在人工智慧領域的競爭已經達到了白熱化階段。各大廠商之間的激烈角逐不僅推動了技術的快速進步，也為整個行業營造了一個更加公正和開放的競爭環境。儘管如此，從年初令人矚目的 Sora 到近期的可靈、Luma、Gen-3 Alpha 等模型，它們所生成的影片作品均未能突破聲音的侷限。然而，Google DeepMind 推出的 V2A 技術，為這一問題提供瞭解決方案。從技術應用來看，V2A 技術與 Veo 等影片生成模型的結合，將能夠創造出既具有戲劇性配樂、逼真音效，又能與影片中的角色、風格完美融合的對話鏡頭。這一創新標誌著 AI 影片即將告別無聲時代，迎來一個充滿活力、充滿創新的有聲世界。

二、具體內容

大模型持續更新

6 月 19 日，中國氣象局釋出人工智慧全球中短期預報系統“風清”、人工智慧臨近預報系統“風雷”和人工智慧全球次季節—季節預測系統“風順”。這三個大模型都是由中國氣象局與清華大學聯合攻關團隊開發的。這三個大模型完成了基於國產全球大氣再分析資料 CRA-40、雷達觀測資料、風雲衛星遙感資料的訓練和檢驗評估，顯著降低了當前主流氣象預報大模型對國際再分析資料的依賴，提升了自主資料來源的應用效率和準確性。
6 月 21 日，Anthropic 釋出最新大模型 Claude 3.5 Sonnet，擁有前代模型 2 倍的推理速度和 1/5 的呼叫成本，在多項評測中超過了 GPT-4o。

多模態領域

6 月 17 日，Runway 公司釋出了其最新力作——影片生成基礎模型 Gen-3 Alpha，該模型能夠生成包含豐富場景變換、多樣電影風格以及精細藝術指導的影片作品。
6 月 18 日，松鼠 Ai 全新多模態智適應大模型釋出會在上海召開，不僅宣佈了教育大模型及系統的全方位升級，還推出了多款全新智適應教育硬體產品。在大模型方面，全新多模態智適應大模型在多模態智慧錯因分析與追根溯源、多模態智慧人機互動、多模態智慧測試與評估三大維度進行了全面迭代。在硬體方面，松鼠 Ai 推出了三款全新松鼠 Ai 智慧老師——S211 白鷺松鼠 Ai 智慧老師、S139 松鼠 Ai 智慧老師以及 Z29 松果 Ai 智慧老師，能給匹配不同使用者需求，並全系搭載松鼠 Ai 最新多模態智適應教育大模型。

開源領域

6 月 15 日，英偉達宣佈推出 Nemotron-4 340B，其包含一系列開放模型，可用於生成合成資料，訓練大語言模型，以及所有行業的商業應用。
6 月 18 日，潞晨 Open-Sora 團隊在 720p 高畫質文生影片質量和生成時長上實現了突破性進展，支援無縫產出任意風格的高質量短片，模型權重和訓練程式碼已經全面開源。
6 月 18 日，基於文字生成音效工具，ElevenLabs 開源影片生成音效工具。無需尋找合適的音效，使用者可以透過輸入文字來生成配音，且大部分音效具有 Shutterstock 的商業授權。
6 月 19 日，B 站開源了輕量級 Index-1.9B 系列模型，包含基座模型、對照組、對話模型、角色扮演模型等多個版本。
6 月 19 日，Hedra Labs 釋出影片生成模型 Character-1 的研究預覽版，對多平臺使用者開放使用。Character-1 是一款能夠透過文字和圖片生成說話和唱歌影片的模型，最長支援 60 秒的免費體驗，還是一個全新的創作平臺，為使用者提供影片創作機會。

科研領域

6 月 16 日，由上海科技大學、影眸科技以及賓夕法尼亞大學聯合研發的 DressCode，標誌著 3D 服裝生成技術的重大突破。作為首個全面支援 CG 操作，並無縫融入工業生產流程的框架，DressCode 透過文字驅動的方式，能夠自動生成具備卓越渲染品質、高度可編輯性、可驅動性以及模擬特性的 3D 服裝。

應用探索

新產品新應用 / 功能新動態

6 月 17 日，谷歌 DeepMind 釋出了 V2A 技術進展，該技術可以結合影片畫素和自然語言文字提示，為無聲影片新增逼真的音效，能夠實現同步的視聽生成。
6 月 19 日，OpenAI 宣佈和 Color Health 合作，探索透過 GPT-4o 建立 AI 工具 Cancer Copilot，幫助醫生根據患者資料制定篩查和治療計劃，從而能夠就癌症篩查和治療做出更加合理的決策。
6 月 19 日，Meta 釋出 AudioSeal，一款音訊水印技術，能在音訊片段中精準識別 AI 生成的音訊內容。
6 月 19 日，月之暗面 Kimi 開放平臺將啟動 Context Caching 內測，將支援長文字大模型以及上下文快取機制。
6 月 19 日，前小度 CEO 景鯤和前小度 CTO 朱凱華聯合創立的 AI 創新產品公司 MainFunc 推出了旗下首款 AI Agent 搜尋產品 GenSpark。該產品是一款 AI Agent 引擎，旨在“利用 AI 提供更好的搜尋體驗”。
6 月 19 日，Luma AI 對其影片生成模型 Dream Machine 進行了重大更新，推出了 Extend 功能。這項新功能允許使用者在保持原有影片風格和人物特徵一致性的前提下，將原本生成的 5 秒影片延長至 10 秒以上。
6 月 20 日，百度智慧雲的曦靈數字人平臺即將經歷一次重大升級。此次升級不僅優化了 2D 和 3D 數字人的生成過程，實現了成本效益和效率的雙重提升，而且還在直播、短影片和對話等多種應用場景中實現了無縫整合。使用者僅需提供一段簡短的描述，系統便能迅速模仿人類的創意思維，僅需 10 分鐘就能自動創造出栩栩如生的 3D 數字人形象。

智慧體

6 月 20 日，斯坦福大學研究人員研發了一款仿人機器人 HumanPlus，這款機器人可以模仿人類的行為，並支援模仿動作來進行學習，例如自主疊衣服、搬運物品、彈鋼琴等。

報告推薦

Sora 來襲，國內發展文生影片模型的土壤如何？各公司用腳投票開閉源路線的當下，開源在大模型市場程序中的價值正在被重新定義嗎？人型機器人重回視野，大模型是否助力其重新整理能力上限？Devin 和智慧編碼助手是同一條賽道上的不同節點？多家企業宣佈 All in AI，對市場意味著什麼？答案盡在 InfoQ 研究中心釋出的《2024 年第 1 季度大模型監測報告》，關注「AI 前線」公眾號，回覆「季度報告」免費下載，一睹為快吧~

報告預告

金融行業是否找到了 AGI 應用的最佳路徑？取得了哪些具體應用成果? 又存在哪些難以逾越的挑戰與桎梏？金融機構一定要做 AGI 建設嗎？如何考量金融 AGI 應用產品的效果？歡迎大家持續關注 InfoQ 研究中心即將釋出的《AGI 在金融領域的應用實踐洞察》。

活動推薦

InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會，匯聚頂尖企業專家，深入端側 AI、大模型訓練、安全實踐、RAG 應用、多模態創新等前沿話題。現在大會已開始正式報名，6 月 30 日前可以享受 8 折優惠，單張門票節省 960 元（原價 4800 元），詳情可聯絡票務經理 13269078023 諮詢。