前蘋果首席工程師回國入職復旦/OpenAI高管揭秘GPT–4o生圖變化/眾擎機器人CEO「怒懟」朱嘯虎|HuntGood週報

歡迎收看最新一期的 Hunt Good 週報!
在本期內容你會看到:
10 條新鮮

資訊

3 個有用

工具

1 個有趣

案例

3 個鮮明

觀點

Hunt for News|先進頭條
🍉 OpenAI 宮鬥風波細節再曝光
外媒 WSJ 昨日深入報道了關於 OpenAI「宮鬥風波」的更多細節。
據悉,事件發生前,山姆·奧特曼正與其導師、風險投資家彼得·泰爾在洛杉磯一家高檔日式餐廳共進晚餐。泰爾暗指 OpenAI 內部的「有效利他主義」(EA)派系可能對公司構成威脅。而奧特曼卻不以為然,表示公司已經擺脫了曾持相似觀點的聯合創始人埃隆·馬斯克的影響。
然而,就在這次晚餐期間,OpenAI 六人董事會中的四名成員——聯合創始人伊利亞·蘇茨克弗和三名獨立董事(亞當·德安傑洛、海倫·託納和塔莎·麥考利)——正在舉行秘密視訊會議,討論是否應該解僱奧特曼。
董事會對奧特曼的不滿已經積累多時。
首先是在產品安全審查方面的問題,奧特曼曾聲稱三項 GPT-4 功能增強已獲得聯合安全委員會批准,但實際上只有一項獲批。更嚴重的是,微軟在未經安全審查的情況下在印度測試了未釋出的 GPT-4,而奧特曼和聯合創始人格雷格·布羅克曼在長達六小時的董事會會議中對此隻字未提。
其次,一位董事會成員偶然發現奧特曼個人擁有 OpenAI 創業基金的所有權,而該基金此前被宣稱由 OpenAI「管理」。這讓董事會成員對奧特曼的透明度產生了嚴重懷疑。
OpenAI 前 CTO 米拉·穆拉蒂也向董事會成員揭露了奧特曼的「有毒管理風格」,包括挑撥高階員工之間的矛盾、對員工的誤導性承諾等。蘇茨克弗向獨立董事會成員提供了詳細證據,包括多個奧特曼涉嫌撒謊和其他不當行為的例子。
穆拉蒂還提供了截圖證據,顯示奧特曼曾錯誤聲稱法律部門批准 GPT-4 Turbo 無需經過安全審查。
2023 年 11 月 16 日,四名董事會成員透過視訊會議投票決定解僱奧特曼,並邀請穆拉蒂擔任臨時 CEO。然而,事態發展超出董事會預期。首先,董事會未能向公眾和員工清晰解釋解僱原因,僅表示奧特曼對董事會「並未始終坦誠」。
其次,週五晚上,OpenAI 高管團隊與董事會舉行了一系列緊張會議。出人意料的是,穆拉蒂站在了員工一邊,要求董事會解釋解僱原因或辭職。而董事會感到進退兩難,因為他們不能透露穆拉蒂是關鍵證據的提供者。
與此同時,奧特曼支持者開始傳播這是蘇茨克弗因對 OpenAI 研究員雅庫布·帕喬基 升職感到憤怒而策劃的「政變」的說法。蘇茨克弗也大吃一驚,他原本以為 OpenAI 的員工會歡呼。
到週一早上,幾乎所有 OpenAI 員工都簽署了一封信,威脅如果不讓奧特曼復職就集體辭職。簽名者中也包括了穆拉蒂和蘇茨克弗。面對公司可能「崩潰」的危險,董事會最終不得不讓步,讓奧特曼重返 CEO 職位。
🔗 https://www.wsj.com/tech/ai/the-real-story-behind-sam-altman-firing-from-openai-efd51a5d?mod=tech\_feat1\_ai\_pos1
🥊 眾擎機器人 CEO 趙同陽「怒懟」金沙江朱嘯虎:這不應是他這個段位人應有的表現
金沙江創業投資主管合夥人朱嘯虎近日分享了其投資理念和對 AI 行業發展的觀察。
在與投中網的對話中,朱嘯虎回顧了過去一年的投資決策,他表示沒有投資基礎模型是最能代表金沙江價值觀的選擇。「去年這個時候,不投大模型還有很多爭議,今天基本上沒啥爭議了。」朱嘯虎認為,投資需關注專案的商業化潛力和壁壘,而非高大上的概念。
朱嘯虎用兩個維度來評價投資機會:市場共識和商業化可能性。
他指出目前具身智慧特別是人形機器人賽道正處於「高度共識但商業化路徑不清晰」的階段,因此金沙江正在退出之前投資的相關專案。「我問這幾個CEO,你們商業化可能的客戶在哪裡?我感覺他們說的都是自己想象出來的客戶,誰會花十幾萬買一個機器人去幹這些活?」
相比之下,朱嘯虎對 AI 應用領域展現出極大熱情。他透露已經看到許多 AI 應用企業實現月環比 20% 的增長速度,他更看好垂直領域應用而非通用 AI 工具。他以做會議紀要的 AI 產品為例,指出專注於特定場景的產品,如醫生問診記錄、獸醫服務、上市公司財報會議等,正在多個市場實現快速增長。
對於 DeepSeek 等開源模型的崛起,朱嘯虎認為這已改變了基礎模型的競爭格局。「如果全世界 50% 以上的程式設計師都在用 DeepSeek 開發應用的話,相容是最好的選擇。」談到 AI 對就業的影響,朱嘯虎表示程式設計師崗位將首當其衝受到衝擊。
值得注意的是,針對朱嘯虎的部分言論,眾擎機器人 CEO 趙同陽在朋友圈發文稱朱嘯虎只適合投資今年投入後年就見效的快餐式專案,AI 和人形機器人 都不是能讓他快速賺錢的專案,「這哥們甚至問出了人形機器人在這個階段有什麼用?就像質問一個剛出生的嬰兒,用眼前看到的來否定未來,這不應該是他這個段位人應有的表現。」
在趙同陽看來,人形機器人在五年之內幾乎無處不在,是人類學會製造工具以來最刺激的一次工業革命。甚至長遠的改變人類歷史,很慶幸總有那麼一小部分人,能堅持 10 年如一日,不被這種噪音所幹擾。
🔗 https://mp.weixin.qq.com/s/CcLt4mSXi_EJqU5KDCLH9g

🍎 蘋果首席工程師歸國任教
近日,曾在美國蘋果公司擔任首席工程師的孔龍正式加入復旦大學,出任研究員兼博士生導師,將在射頻積體電路與系統設計、數模混合模擬計算晶片以及高速資料介面積體電路等領域開展研究工作。
復旦大學微電子學院官網顯示,孔龍擁有豐富的學術背景和行業經驗。他於 2007 年至 2011 年在上海交通大學完成微電子學本科學業,隨後前往加州大學洛杉磯分校(UCLA)攻讀電子工程學碩士、博士學位,並於 2016 年獲得博士學位。畢業後,孔龍先後在美國甲骨文公司擔任高階工程師,並於 2017 年至 2024 年在蘋果公司總部擔任首席工程師職務。
在蘋果公司工作期間,孔龍以第一發明人身份申請並獲得 11 項美國專利,主導研發併成功量產了三款射頻 SoC晶片(型號 U1、U2、H2),這些晶片已廣泛應用於蘋果全系列手機、手錶和耳機等主流產品中。
作為學術成果,孔龍在積體電路領域頂級會議及期刊 ISSCC、VLSI 和 JSSC 上共發表論文 11 篇。他還獲得了多項專業榮譽,包括 IEEE 高階會員、國家海外高層次青年人才、美國博通 UCLA Fellow、美國 ADI 傑出學生設計師獎以及美國高通創新獎學金。
🎨 傳 Midjourney v7 下週釋出
據博主 Alain Astruc 在社交媒體上透露,AI 影像生成工具 Midjourney 將於下週正式釋出其第七代版本(v7),此訊息在 Midjourney 每週例行的辦公時間會議上得到確認。
Astruc 指出,Midjourney 從 2022 年 2 月的 v1 版本發展到 v6 版本僅用了 1 年零 10 個月,令人印象深刻。而此次從 V6 到 V7 的更新間隔為 1 年零 4 個月,顯示出公司在產品開發節奏上的戰略調整。
對於 OpenAI 新推出的 4o 影像模型,Astruc 表示雖然他嘗試後發現其在許多方面令人印象深刻,特別是在精確響應提示方面表現出色,但他認為這並不能完全取代 Midjourney。
他描述 Midjourney 具有一種獨特的魅力,類似「貓一樣的反覆無常、優雅和魅力」。「它不只是聽從指令。它會玩耍。它會轉變。它會讓人感到驚訝,」Astruc 這樣形容 Midjourney 的特質。
儘管他表示很高興能同時使用這兩個工具,但 Astruc 預感即將到來的Midjourney V7 將會帶來特別的驚喜。
🔗 https://x.com/alanxtruc/status/1905009099013521554?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=ai-image-generation-levels-up-again
💰 曝 Manus AI 正洽談 37 億融資,估值暴漲 5 倍
The Information 訊息,據三位知情人士透露, Manus AI 的團隊正在與包括美國風投機構在內的潛在投資者進行談判,計劃以至少 5 億美元(約合 37.5 億人民幣)的估值進行新一輪融資,這一估值比之前的估值增長了約五倍。
不久前 Manus 的國內產品 Monica 在北京完成了生成式人工智慧服務登記,其背後的初創公司「蝴蝶效應」最近與一些美國投資者進行了面對面和線上的溝通。報道稱,雖然中國的 AI 產品在美國面臨限制的風險,隨著 DeepSeek 的崛起,越來越多的美國投資者開始密切關注中國的 AI 產品。蝴蝶效應公司方面目前拒絕對此訊息置評。
據悉 Manus 表示使用邀請碼等待名單已經超過 260 萬人。Manus 釋出時,曾因採用邀請碼的方式進行預覽體驗,且邀請碼數量過少,一度出現「一碼難求」的市場局面。
而 Manus 最近正式公佈了收費方案,共分為 Manus Starter 和 Manus Pro 兩個版本:
Manus Starter:每月 3900 積分;同時執行最多 2 個任務;專屬資源提升穩定性;擴充套件的上下文長度;高峰時段優先訪問。
Manus Pro:每月 19900 積分;同時執行最多 5 個 任務;支援使用高投入模式和其他測試功能;其他與 Starter 會員一致。
此外,Manus AI App 也上架了 App Store,目前已支援 iPad、iPhone。但該軟體目前暫未上架國區 App Store。
Manus AI 官方也在 X 平臺分享了一些關於測試版的更新內容,包括支援更長的上下文和更強的多模態能力以及所有任務將由 Claude 3.7 提供支援,以及更穩定的沙盒環境等。
🔗 https://www.theinformation.com/articles/chinese-startup-behind-manus-ai-agent-seeks-500-million-valuation?rc=qmzset
🧠 Anthropic 揭示 Claude 如何「思考」
Anthropic 公司近日釋出兩篇重要研究論文,首次深入揭示了大型語言模型 Claude 的內部「思考」機制。
受到神經科學領域的啟發,研究團隊透過開發一種類似於「顯微鏡」的技術工具,追蹤和分析了 Claude 在處理各類任務時的內部計算過程。該研究旨在解答一系列關鍵問題:Claude 在「腦內」使用何種語言思考?它是否能提前規劃輸出內容?它的推理解釋是否反映了真實的思考過程?
在多語言能力方面,研究發現 Claude 在處理不同語言時存在共享的概念特徵,這表明 AI 可能擁有一種跨語言的「思維語言」。研究人員讓 Claude 用英語、法語和中文回答「small(小)的反義詞是什麼」的問題,發現無論使用哪種語言提問,模型都會啟用相同的「小」和「相反」概念特徵,然後觸發「大」的概念,最後將答案翻譯成相應語言輸出。
Claude 在創作詩歌時會提前規劃押韻詞。研究者原本假設模型只是逐字生成內容,但實驗顯示 Claude 會在開始寫第二行詩句前就預先考慮可能的押韻詞,然後圍繞這個計劃構建整行內容。研究人員透過抑制或注入特定概念,成功引導 Claude 改變其押韻計劃,證明了模型具備提前規劃和靈活調整的能力。
在數學計算方面,Claude 並非僅依靠記憶,而是發展出並行的計算路徑。研究顯示,當 Claude 計算 36+59 時,一條路徑計算粗略估計,另一條路徑精確確定最後一位數字,兩者結合得出最終答案。有趣的是,當被問及如何計算時,Claude 描述了標準的進位演算法,這與其實際內部計算方式不符。
研究還揭示了 Claude 有時會提供「不誠實」的推理過程。當被要求計算較難問題時,Claude 可能會進行「動機性推理」,即先確定目標答案,再找出能支援該答案的中間步驟。
對於幻覺現象,研究發現 Claude 預設會拒絕回答不確定的問題,只有當識別到「已知實體」特徵時才會抑制這一預設行為。這解釋了為何模型有時會產生幻覺—當部分識別某個名稱但缺乏相關知識時,「已知實體」特徵可能錯誤啟用,導致模型開始編造看似合理但實際不真實的回答。
儘管取得了這些進展,研究人員承認當前方法存在侷限性。即使對簡短提示的分析也只能捕捉 Claude 總計算量的一小部分,且解讀發現的計算迴路需要幾小時的人工分析。Anthropic 表示,他們將繼續嘗試多種方法以確保 AI 系統的安全與可靠。
🔗 https://www.anthropic.com/research/tracing-thoughts-language-model?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-nears-record-funding-round
💵 傳軟銀對 OpenAI 投資有隱藏條件:若轉型失敗注資將腰斬
據 The Information 援引知情人士訊息稱,OpenAI 正在進行的 400 億美元大規模融資取決於一個關鍵條件:必須在今年年底前完成向營利性結構的轉型。如果 OpenAI 無法按期實現這一目標,本輪融資的主要投資者軟銀可能會將融資規模削減一半,至 200 億美元。
這輪融資被分為兩個部分:首期 100 億美元預計將在未來幾周內完成,第二期 300 億美元預計將於今年晚些時候到位。據知情人士表示,如果 OpenAI 未能完成營利轉型,第二期融資將從 300 億美元縮減至 100 億美元。在這輪計劃融資的 400 億美元中,軟銀預計將提供至少 300 億美元的資金。
另外,據彭博社報道,OpenAI 預估其 2025 年營收將達到 127 億美元(約合 923 億元人民幣),相比 2024 年 37 億美元(約合 269 億元人民幣)的營收翻了超三倍。
在該預估基礎上,OpenAI 預計其 2026 年營收將達到 294 億美元(約合 2,136.8 億元人民幣),2029 年更將超過 1250 億美元(約合 9085.2 億元人民幣)。
🔗 https://www.theinformation.com/briefings/softbank-slash-openais-round-half-conversion-condition-met?rc=qmzset
👀 馬斯克牽線 xAI 收購 X 平臺
馬斯克昨日宣佈,他旗下的 AI 初創企業 xAI 已透過全股票交易方式收購了 X(前 Twitter),此次交易對 xAI 的估值為800 億美元,對 X 的估值為 330 億美元(450 億美元扣除 120 億美元債務)。
據彭博社援引知情人士訊息稱,新成立的合併實體 XAI Holdings 總價值(不含債務)將超過 1000 億美元。摩根士丹利作為唯一銀行家代表了交易雙方。
「自兩年前成立以來,xAI 已迅速成為全球領先的人工智慧實驗室之一,以前所未有的速度和規模構建模型和資料中心,」馬斯克在宣告中表示,「而 X 是一個數字城鎮廣場,擁有超過 6 億活躍使用者,在過去兩年已轉變為世界上最高效的公司之一,有望實現可持續的未來增長。」
根據馬斯克的說法,此次合併將整合兩家公司的資料、模型、計算能力、分銷網路和人才資源,為數十億使用者提供」更智慧、更有意義的體驗」,同時堅守「尋求真理和推進知識的核心使命」,構建一個「不僅反映世界而且積極促進人類進步的平臺」。
值得一提的是,今年 1 月有報道稱 xAI 員工同時也是 X 員工,擁有公司筆記型電腦並可訪問其程式碼庫。馬斯克此前曾聲稱 X 投資者將擁有 xAI 公司 25% 的股份,但截至今年 1 月,擁有 X 公司股份的員工並未實現這一目標。
🔗 https://www.bloomberg.com/news/articles/2025-03-28/musk-says-that-his-xai-startup-has-acquired-x-for-33-billion
📉 全新 ARC-AGI-2 測試登場:AI 模型得分慘淡,被人類碾壓
知名 AI 研究員 François Chollet 共同創立的非營利組織 Arc Prize 基金會本週宣佈推出一項全新測試——ARC-AGI-2,旨在更精準地衡量領先 AI 模型的通用智慧水平。
ARC-AGI-2 測試由類似拼圖的視覺問題組成,要求 AI 從不同顏色的方塊集合中識別模式並生成正確的「答案」網格。這些問題經特別設計,目的是迫使 AI 適應和解決它在訓練資料中從未遇到過的全新問題。
Chollet 表示 ARC-AGI-2 比第一代測試 ARC-AGI-1 更能準確衡量 AI 模型的實際智慧。
他指出,新測試解決了 ARC-AGI-1 的主要缺陷,即 AI 模型可以透過「暴力計算」——投入大量計算資源來尋找解決方案。為此,ARC-AGI-2 引入了「效率」這一新指標,並要求模型能夠即時解釋模式而非依賴記憶。
「智慧不僅僅由解決問題或取得高分的能力定義,獲取和部署這些能力的效率是一個至關重要的決定性因素,」Arc Prize 基金會聯合創始人 Greg Kamradt 在部落格文章中寫道,「核心問題不僅是『AI 能否獲得解決任務的技能』,還有『效率或成本如何』。
此前的 ARC-AGI-1 曾長期保持不敗記錄,直到 o3 首次在該測試中達到與人類相當的水平。
然而,o3 在 ARC-AGI-1 上的出色表現伴隨著高昂的計算成本。值得注意的是,曾在 ARC-AGI-1 上獲得 75.7% 高分的 o3(low)版本,在新的 ARC-AGI-2 測試中僅獲得 4% 的分數,即便每個任務耗費了高達 200 美元的計算資源。
🔗 https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025?utm\_source=thedeepview&utm\_medium=newsletter&utm\_campaign=arc-launches-new-agi-benchmark-focused-on-efficiency
🤔 ChatGPT 影像生成器引發版權爭議
OpenAI 宣佈在 GPT-4o 模型中集成了迄今為止最先進的影像生成器。新功能亮點速覽如下:
能夠精確渲染文字內容
支援多模態輸入輸出(文字、影像、音訊)
能理解複雜指令並結合上下文
能建立具有真實感的第一人稱視角影像
遵循指令,可以處理上傳的圖片並進行編輯或風格轉換
值得關注的是,GPT-4o 影像生成是一個自迴歸模型,原生嵌入在 ChatGPT 中。具體來說,比起其他影像生成模型,GPT-4o 能處理多達 10-20 個不同物體的複雜指令。
目前,新功能已向 Plus、Pro、Team 等使用者開放,Enterprise 和 Edu 使用者即將獲得訪問許可權。而開發者們幾周後也能透過 API 用上這功能。
與此同時,由 GPT-4o 生成的、帶著日本動畫工作室「吉卜力」風格的大量生成式圖片開始成為網路熱門梗圖,並在網際網路上大規模傳播。
在這一大批的「吉卜力工作室風格」圖片中,不僅包括埃隆・馬斯克等著名人物的形象,連 OpenAI CEO Sam Altman 都開始將自己的新頭像換成由 GPT-4o 生成的「吉卜力風格」影像。
這波「吉卜力」熱潮也引發了大眾對「AI 生圖是否會涉及版權糾紛」這一問題的思考。TechCrunch 援引 Neal & McDevitt 律師事務所的智慧財產權律師埃文・布朗的說法表示,像 GPT-4o 影像生成器這樣的產品如今處於法律灰色地帶。
布朗表示,風格本身並未明確受到版權保護,這意味著 OpenAI 僅透過生成類似吉卜力電影風格的影像似乎並沒有違反法律。同時布朗也指出,GPT-4o 可能是透過學習吉卜力電影的數百萬幀畫面,生成的圖片才實現了這樣的相似性。據悉,目前仍有多國的法院正在裁定,使用版權作品訓練 AI 模型是否屬於合理使用保護範圍。
對於上述的爭議,OpenAI 發言人向 TechCrunch 釋出一份宣告表示,雖然 GPT-4o 的影像生成器拒絕複製「在世個人藝術家的風格」,但允許複製「更廣泛的工作室風格」。同時其也強調,部分在世的藝術家因其獨特的創作風格而獲得市場認可,例如吉卜力工作室的聯合創始人宮崎駿。
🔗 https://openai.com/index/introducing-4o-image-generation/
Hunt for Tools|先進工具

👀 阿里通義千問推出視覺推理模型 QVQ-Max

本週,阿里通義推出新一代視覺推理模型 QVQ-Max。據官方介紹,QVQ-Max 不僅能夠「理解」圖片和影片內容,還能為上述資訊提供分析並推理,具體來看:
QVQ-Max 在解析影像方面表現出色,其能快速識別圖片中的關鍵元素;
QVQ-Max 可以進一步分析所提供的圖片、影片資訊,並將這些資訊與背景知識相結合,推理得出結論;
不止分析和推理,QVQ-Max 還可以完成設計插圖、生成短影片劇本等內容,甚至根據使用者的需求建立角色扮演內容。
效能方面,透過通義團隊對 QVQ-Max 的思考過程長度進行調節,模型在多模態數學問題基準測試「MathVision」中,準確率不斷提升,從 4K tokens 的 43.5% 提升至 24K tokens 的 48.1%。
目前,QVQ-Max 已上線 Qwen Chat。
🔗 https://qwenlm.github.io/blog/qvq-max-preview/
👏 OpenAI 推出 MCP 服務,Agent SDK 迎來重要升級
OpenAI 近日對 Agent SDK 進行了重大更新:支援 MCP 服務,這也意味著可以統一介面標準解鎖無限工具。
OpenAI CEO Sam Altman 在 X 平臺發文稱:「人們喜歡 MCP,我們很高興能在我們的產品中增加支援,該功能今天已在 Agents SDK 中可用,對 ChatGPT 桌面應用程式和 Responses API 的支援即將推出!」
據悉,MCP 全稱為「Model Context Protocol」,是一種專為大模型開放的統一開放介面,允許 AI 模型從業務工具、軟體、內容儲存庫和應用程式開發環境等各種資料來源提取資訊來完成任務。
該協議的核心優勢在於能夠讓開發者在資料來源與 AI 驅動的應用程式(如聊天機器人)之間建立雙向連線。
透過 MCP,開發者可以透過「MCP 伺服器」公開資料,並構建能夠按命令連線到這些伺服器的「MCP 客戶端」,例如各種應用程式和工作流。自 Anthropic 將 MCP 開源以來,包括 Block、Apollo、Replit、Codeium 和 Sourcegraph在內的多家公司已經為其平臺添加了 MCP 支援。
🔗 https://techcrunch.com/2025/03/26/openai-adopts-rival-anthropics-standard-for-connecting-ai-models-to-data/
💥 Google 上線 Gemini 2.5 Pro 模型
Google 正式上線了「最強推理大模型」Gemini 2.5 Pro Experimental,其在多項測試中表現相當出色:
在大模型榜單 LMSYS Arena 上排名第一,分數比 Grok-3、GPT-4.5 高出 40 分;
在所有評測類別(綜合能力、編碼、數學等)中均排名第 1,尤其在帶風格控制的複雜提示(Hard Prompts w/ Style Control)和多輪對話(Multi-Turn)表現突出;
在個基準測試上,Gemini 2.5 Pro 綜合表現拿下最佳。其中科學(Science)、程式碼生成、視覺推理(MMMU)和長文字理解(MRCR)上均領先;
在號稱最難的測試「人類最後一次考試」中,Gemini 2.5 Pro 超越 OpenAI o3-mini、GPT-4.5、DeepSeek-R1 等一眾大模型。
此外,Gemini 2.5 Pro Experimental 還在其他領域表現出色:
Gemini 2.5 Pro 還具備多模態能力,在 Vision Arena 視覺排行榜上依然第 1;
網頁開發榜單 WebDev Arena 上排名第 2,僅次於 Claude-3.7。
目前,Gemini 2.5 Pro Experimental 已經可以在 Google AI Studio 和 Gemini APP 中使用了。
🔗 https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
Hunt for Fun | 先玩
💍 如果吉卜力工作室執導《指環王》會怎樣?
一位名為 @PJaccetturo 的創作者近日在 X 平臺將經典電影《魔戒:護戒使者》的預告片重新打造成吉卜力工作室動畫風格。截至發稿前,這段作品觀看量已接近一千萬。
據介紹,他花費了 250 美元的可靈積分和 9 小時的編輯時間來完成這一創意專案。
他還詳細分享了創作過程:首先擷取原版預告片中的全部 102 個鏡頭,然後使用 OpenAI Sora 將每個鏡頭重新處理成吉卜力動畫風格,接著透過可靈 AI 和 LumaLabs AI 進行動畫處理,最後重新編輯使其與原始預告片同步。
在使用 Sora 生成內容時,他採用了特定的提示詞,例如「以吉卜力工作室的風格重現這個場景,細節精緻。確保構圖、顏色和氛圍相似」,以保證每個場景既保留原作氛圍又融入吉卜力獨特的動畫美學。
🔗 https://x.com/PJaccetturo/status/1905151190872309907
Hunt for Insight|先知
🌁 最安全的 AI 是拒絕一切的 AI?OpenAI 模型行為主管揭秘影像生成新政策
OpenAI 近日推出了 GPT-4o 原生影像功能,該公司模型行為負責人 Joanne Jang 也透過一篇部落格文章中闡述了這一功能背後的政策思考與轉變。
據該負責人介紹,OpenAI 正從過去對敏感領域的「全面拒絕」轉向更精確的方法,重點關注防止現實世界的實際傷害。即承認團隊在使用者需求和使用場景方面認知的侷限性,並保持靈活適應的態度。
「影像具有獨特的力量和震撼力,能夠帶來無與倫比的愉悅和衝擊。與文字不同,影像可以跨越語言障礙,瞬間引發各種情緒反應,並能立即闡明覆雜的想法。」該負責人表示,正是因為影像影響力巨大,團隊在制定相關政策和行為準則時感受到了更大的責任。
在模型能力釋出方面,OpenAI的觀點已經歷了顯著演變:首先是選擇信任使用者的創造力而非團隊自身的假設,承認 AI 實驗室員工不應成為創作可能性的仲裁者;其次是在清晰認識風險的同時不忽視 AI 為使用者帶來的日常價值,避免過度放大假設的最壞情況;最後是重視那些未知甚至難以想象的可能性,認識到過度限制可能造成的「看不見的損」。
針對特定問題,OpenAI 採取了更加平衡的方式。比如在處理公眾人物形象生成時,他們建立了退出名單,允許任何可能被模型描繪的人自主決定;對於可能被視為「冒犯性」的內容,團隊重新思考了何種不適源於個人偏好而非實際傷害;而在涉及未成年人的政策上,則選擇了更強有力的保護措施。
「船停在港口最安全;最安全的模型是拒絕一切的模型。但這不是船或模型的用途。」該負責人引用同事的話表達了他們的理念,強調 OpenAI 的目標是在保障安全的同時促進創新和表達自由,而政策的演變和根據使用者反饋進行調整是迭代發展的本質。
🔗 https://reservoirsamples.substack.com/p/thoughts-on-setting-policy-for-new
💡 牛津教授:AI 的十年,人類的百年
近日,牛津教授 Will MacAskill 等人釋出了《Preparing for the Intelligence Explosion》博文,其中 Will MacAskill 在文中發表了其對未來提出了許多驚人的預測。
Will MacAskill 提到,目前 AI 模型越來越智慧,訓練計算、演算法效率和後期增強等因素使 AI 認知勞動總量每年大幅增加。如果趨勢持續到 AI 研究努力與人類研究勞動相當,AI 研究努力可能以每年至少 25 倍的速度增長。
最值得關注的是,Will MacAskill 在文中認為,AI 研究努力很可能在未來 20 年內與人類研究勞動達到對等,甚至在未來 10 年內就可能接近對等。同時 Will MacAskill 也表示,即使算力的擴充套件陷入停滯,演算法效率提升的速度放緩,但 AI 的發展增速仍然足夠快,能夠在不到 10 年的時間內推動相當於 100 年的技術進步。
Will MacAskill 表示,快速的 AI 發展既可能帶來生活質量的巨大提升,也會帶來一系列挑戰,如新型破壞性技術風險、建立數字生命權利等關鍵倫理問題。對此,Will MacAskill 提議現在就可以採取一些行動,從而提前進行新領域的制度設計,增強各方面的約束,以防止 AI「浪潮」過度吞噬人類日常。
🔗 https://www.forethought.org/research/preparing-for-the-intelligence-explosion
👍 微軟 CEO 內部發言:DeepSeek 是微軟的新標杆
據外媒 The Verge 報道,微軟 CEO 薩蒂亞·納德拉近期在一次內部全員會議上表示,DeepSeek 的 R1 模型已成為微軟 AI 發展的新標杆。
納德拉特別強調了 DeepSeek 團隊的高效運作:DeepSeek 最令人印象深刻的是,它展示了 200 人團隊齊心協力能夠創造的成就。更重要的是,他們不僅僅停留在研究專案或開源專案階段,而是將其打造成應用商店中排名第一的產品。這就是我心目中的新標準。
報道指出,相比之下,微軟的 Copilot 應用尚未取得同樣的成功。儘管微軟能夠使用 OpenAI 的最新模型,並投入大量資金進行宣傳,以及對 Copilot 進行包括語音和視覺功能在內的設計更新,但通常排名甚至不在前 100 名應用之列。
為此,納德拉正尋求透過微軟自身的 AI 研發而非僅依賴 OpenAI 來提升其市場地位。
除了改進 AI 模型,微軟今年還計劃投資 800 億美元用於建設資料中心,以支援 AI 相關的工作負載。納德拉表示:「我們希望在一定程度上將自身定位為未來每個工作負載都能像 ChatGPT 一樣」
「如果你觀察 ChatGPT,它不僅僅運用了 AI 加速器,還在 Cosmos DB 中保持了狀態,利用了 Azure 搜尋以及其他多個服務。因此,在 AI加速器、儲存和計算之間存在著一定的平衡比例,這是我們正在努力協調的。這就是我們資金的主要投向,而且即使不考慮 AI 的因素,我們的雲計算業務也在持續增長。」
🔗 https://www.theverge.com/notepad-microsoft-newsletter/637496/microsoft-satya-nadella-deepseek-chatgpt-ai-investments-notepad
彩蛋時間
作者:@ailovelynn
工具:MIdjourney
連結:https://www.midjourney.com/jobs/601c23a1-4a42-42db-b138-0230879c1347?index=0


我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章