相比之下,朱嘯虎對 AI 應用領域展現出極大熱情。他透露已經看到許多 AI 應用企業實現月環比 20% 的增長速度,他更看好垂直領域應用而非通用 AI 工具。他以做會議紀要的 AI 產品為例,指出專注於特定場景的產品,如醫生問診記錄、獸醫服務、上市公司財報會議等,正在多個市場實現快速增長。對於 DeepSeek 等開源模型的崛起,朱嘯虎認為這已改變了基礎模型的競爭格局。「如果全世界 50% 以上的程式設計師都在用 DeepSeek 開發應用的話,相容是最好的選擇。」談到 AI 對就業的影響,朱嘯虎表示程式設計師崗位將首當其衝受到衝擊。值得注意的是,針對朱嘯虎的部分言論,眾擎機器人 CEO 趙同陽在朋友圈發文稱朱嘯虎只適合投資今年投入後年就見效的快餐式專案,AI 和人形機器人 都不是能讓他快速賺錢的專案,「這哥們甚至問出了人形機器人在這個階段有什麼用?就像質問一個剛出生的嬰兒,用眼前看到的來否定未來,這不應該是他這個段位人應有的表現。」在趙同陽看來,人形機器人在五年之內幾乎無處不在,是人類學會製造工具以來最刺激的一次工業革命。甚至長遠的改變人類歷史,很慶幸總有那麼一小部分人,能堅持 10 年如一日,不被這種噪音所幹擾。
而 Manus 最近正式公佈了收費方案,共分為 Manus Starter 和 Manus Pro 兩個版本:Manus Starter:每月 3900 積分;同時執行最多 2 個任務;專屬資源提升穩定性;擴充套件的上下文長度;高峰時段優先訪問。Manus Pro:每月 19900 積分;同時執行最多 5 個 任務;支援使用高投入模式和其他測試功能;其他與 Starter 會員一致。此外,Manus AI App 也上架了 App Store,目前已支援 iPad、iPhone。但該軟體目前暫未上架國區 App Store。Manus AI 官方也在 X 平臺分享了一些關於測試版的更新內容,包括支援更長的上下文和更強的多模態能力以及所有任務將由 Claude 3.7 提供支援,以及更穩定的沙盒環境等。🔗 https://www.theinformation.com/articles/chinese-startup-behind-manus-ai-agent-seeks-500-million-valuation?rc=qmzset🧠 Anthropic 揭示 Claude 如何「思考」Anthropic 公司近日釋出兩篇重要研究論文,首次深入揭示了大型語言模型 Claude 的內部「思考」機制。受到神經科學領域的啟發,研究團隊透過開發一種類似於「顯微鏡」的技術工具,追蹤和分析了 Claude 在處理各類任務時的內部計算過程。該研究旨在解答一系列關鍵問題:Claude 在「腦內」使用何種語言思考?它是否能提前規劃輸出內容?它的推理解釋是否反映了真實的思考過程?在多語言能力方面,研究發現 Claude 在處理不同語言時存在共享的概念特徵,這表明 AI 可能擁有一種跨語言的「思維語言」。研究人員讓 Claude 用英語、法語和中文回答「small(小)的反義詞是什麼」的問題,發現無論使用哪種語言提問,模型都會啟用相同的「小」和「相反」概念特徵,然後觸發「大」的概念,最後將答案翻譯成相應語言輸出。Claude 在創作詩歌時會提前規劃押韻詞。研究者原本假設模型只是逐字生成內容,但實驗顯示 Claude 會在開始寫第二行詩句前就預先考慮可能的押韻詞,然後圍繞這個計劃構建整行內容。研究人員透過抑制或注入特定概念,成功引導 Claude 改變其押韻計劃,證明了模型具備提前規劃和靈活調整的能力。
在數學計算方面,Claude 並非僅依靠記憶,而是發展出並行的計算路徑。研究顯示,當 Claude 計算 36+59 時,一條路徑計算粗略估計,另一條路徑精確確定最後一位數字,兩者結合得出最終答案。有趣的是,當被問及如何計算時,Claude 描述了標準的進位演算法,這與其實際內部計算方式不符。研究還揭示了 Claude 有時會提供「不誠實」的推理過程。當被要求計算較難問題時,Claude 可能會進行「動機性推理」,即先確定目標答案,再找出能支援該答案的中間步驟。對於幻覺現象,研究發現 Claude 預設會拒絕回答不確定的問題,只有當識別到「已知實體」特徵時才會抑制這一預設行為。這解釋了為何模型有時會產生幻覺—當部分識別某個名稱但缺乏相關知識時,「已知實體」特徵可能錯誤啟用,導致模型開始編造看似合理但實際不真實的回答。儘管取得了這些進展,研究人員承認當前方法存在侷限性。即使對簡短提示的分析也只能捕捉 Claude 總計算量的一小部分,且解讀發現的計算迴路需要幾小時的人工分析。Anthropic 表示,他們將繼續嘗試多種方法以確保 AI 系統的安全與可靠。🔗 https://www.anthropic.com/research/tracing-thoughts-language-model?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-nears-record-funding-round💵 傳軟銀對 OpenAI 投資有隱藏條件:若轉型失敗注資將腰斬據 The Information 援引知情人士訊息稱,OpenAI 正在進行的 400 億美元大規模融資取決於一個關鍵條件:必須在今年年底前完成向營利性結構的轉型。如果 OpenAI 無法按期實現這一目標,本輪融資的主要投資者軟銀可能會將融資規模削減一半,至 200 億美元。這輪融資被分為兩個部分:首期 100 億美元預計將在未來幾周內完成,第二期 300 億美元預計將於今年晚些時候到位。據知情人士表示,如果 OpenAI 未能完成營利轉型,第二期融資將從 300 億美元縮減至 100 億美元。在這輪計劃融資的 400 億美元中,軟銀預計將提供至少 300 億美元的資金。
根據馬斯克的說法,此次合併將整合兩家公司的資料、模型、計算能力、分銷網路和人才資源,為數十億使用者提供」更智慧、更有意義的體驗」,同時堅守「尋求真理和推進知識的核心使命」,構建一個「不僅反映世界而且積極促進人類進步的平臺」。值得一提的是,今年 1 月有報道稱 xAI 員工同時也是 X 員工,擁有公司筆記型電腦並可訪問其程式碼庫。馬斯克此前曾聲稱 X 投資者將擁有 xAI 公司 25% 的股份,但截至今年 1 月,擁有 X 公司股份的員工並未實現這一目標。🔗 https://www.bloomberg.com/news/articles/2025-03-28/musk-says-that-his-xai-startup-has-acquired-x-for-33-billion📉 全新 ARC-AGI-2 測試登場:AI 模型得分慘淡,被人類碾壓知名 AI 研究員 François Chollet 共同創立的非營利組織 Arc Prize 基金會本週宣佈推出一項全新測試——ARC-AGI-2,旨在更精準地衡量領先 AI 模型的通用智慧水平。ARC-AGI-2 測試由類似拼圖的視覺問題組成,要求 AI 從不同顏色的方塊集合中識別模式並生成正確的「答案」網格。這些問題經特別設計,目的是迫使 AI 適應和解決它在訓練資料中從未遇到過的全新問題。Chollet 表示 ARC-AGI-2 比第一代測試 ARC-AGI-1 更能準確衡量 AI 模型的實際智慧。他指出,新測試解決了 ARC-AGI-1 的主要缺陷,即 AI 模型可以透過「暴力計算」——投入大量計算資源來尋找解決方案。為此,ARC-AGI-2 引入了「效率」這一新指標,並要求模型能夠即時解釋模式而非依賴記憶。
該協議的核心優勢在於能夠讓開發者在資料來源與 AI 驅動的應用程式(如聊天機器人)之間建立雙向連線。透過 MCP,開發者可以透過「MCP 伺服器」公開資料,並構建能夠按命令連線到這些伺服器的「MCP 客戶端」,例如各種應用程式和工作流。自 Anthropic 將 MCP 開源以來,包括 Block、Apollo、Replit、Codeium 和 Sourcegraph在內的多家公司已經為其平臺添加了 MCP 支援。🔗 https://techcrunch.com/2025/03/26/openai-adopts-rival-anthropics-standard-for-connecting-ai-models-to-data/💥 Google 上線 Gemini 2.5 Pro 模型Google 正式上線了「最強推理大模型」Gemini 2.5 Pro Experimental,其在多項測試中表現相當出色:在大模型榜單 LMSYS Arena 上排名第一,分數比 Grok-3、GPT-4.5 高出 40 分;在所有評測類別(綜合能力、編碼、數學等)中均排名第 1,尤其在帶風格控制的複雜提示(Hard Prompts w/ Style Control)和多輪對話(Multi-Turn)表現突出;在個基準測試上,Gemini 2.5 Pro 綜合表現拿下最佳。其中科學(Science)、程式碼生成、視覺推理(MMMU)和長文字理解(MRCR)上均領先;在號稱最難的測試「人類最後一次考試」中,Gemini 2.5 Pro 超越 OpenAI o3-mini、GPT-4.5、DeepSeek-R1 等一眾大模型。此外,Gemini 2.5 Pro Experimental 還在其他領域表現出色:Gemini 2.5 Pro 還具備多模態能力,在 Vision Arena 視覺排行榜上依然第 1;網頁開發榜單 WebDev Arena 上排名第 2,僅次於 Claude-3.7。目前,Gemini 2.5 Pro Experimental 已經可以在 Google AI Studio 和 Gemini APP 中使用了。🔗 https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/Hunt for Fun | 先玩💍 如果吉卜力工作室執導《指環王》會怎樣?一位名為 @PJaccetturo 的創作者近日在 X 平臺將經典電影《魔戒:護戒使者》的預告片重新打造成吉卜力工作室動畫風格。截至發稿前,這段作品觀看量已接近一千萬。據介紹,他花費了 250 美元的可靈積分和 9 小時的編輯時間來完成這一創意專案。
他還詳細分享了創作過程:首先擷取原版預告片中的全部 102 個鏡頭,然後使用 OpenAI Sora 將每個鏡頭重新處理成吉卜力動畫風格,接著透過可靈 AI 和 LumaLabs AI 進行動畫處理,最後重新編輯使其與原始預告片同步。在使用 Sora 生成內容時,他採用了特定的提示詞,例如「以吉卜力工作室的風格重現這個場景,細節精緻。確保構圖、顏色和氛圍相似」,以保證每個場景既保留原作氛圍又融入吉卜力獨特的動畫美學。🔗 https://x.com/PJaccetturo/status/1905151190872309907Hunt for Insight|先知🌁 最安全的 AI 是拒絕一切的 AI?OpenAI 模型行為主管揭秘影像生成新政策OpenAI 近日推出了 GPT-4o 原生影像功能,該公司模型行為負責人 Joanne Jang 也透過一篇部落格文章中闡述了這一功能背後的政策思考與轉變。據該負責人介紹,OpenAI 正從過去對敏感領域的「全面拒絕」轉向更精確的方法,重點關注防止現實世界的實際傷害。即承認團隊在使用者需求和使用場景方面認知的侷限性,並保持靈活適應的態度。「影像具有獨特的力量和震撼力,能夠帶來無與倫比的愉悅和衝擊。與文字不同,影像可以跨越語言障礙,瞬間引發各種情緒反應,並能立即闡明覆雜的想法。」該負責人表示,正是因為影像影響力巨大,團隊在制定相關政策和行為準則時感受到了更大的責任。
在模型能力釋出方面,OpenAI的觀點已經歷了顯著演變:首先是選擇信任使用者的創造力而非團隊自身的假設,承認 AI 實驗室員工不應成為創作可能性的仲裁者;其次是在清晰認識風險的同時不忽視 AI 為使用者帶來的日常價值,避免過度放大假設的最壞情況;最後是重視那些未知甚至難以想象的可能性,認識到過度限制可能造成的「看不見的損」。針對特定問題,OpenAI 採取了更加平衡的方式。比如在處理公眾人物形象生成時,他們建立了退出名單,允許任何可能被模型描繪的人自主決定;對於可能被視為「冒犯性」的內容,團隊重新思考了何種不適源於個人偏好而非實際傷害;而在涉及未成年人的政策上,則選擇了更強有力的保護措施。「船停在港口最安全;最安全的模型是拒絕一切的模型。但這不是船或模型的用途。」該負責人引用同事的話表達了他們的理念,強調 OpenAI 的目標是在保障安全的同時促進創新和表達自由,而政策的演變和根據使用者反饋進行調整是迭代發展的本質。🔗 https://reservoirsamples.substack.com/p/thoughts-on-setting-policy-for-new💡 牛津教授:AI 的十年,人類的百年近日,牛津教授 Will MacAskill 等人釋出了《Preparing for the Intelligence Explosion》博文,其中 Will MacAskill 在文中發表了其對未來提出了許多驚人的預測。Will MacAskill 提到,目前 AI 模型越來越智慧,訓練計算、演算法效率和後期增強等因素使 AI 認知勞動總量每年大幅增加。如果趨勢持續到 AI 研究努力與人類研究勞動相當,AI 研究努力可能以每年至少 25 倍的速度增長。
最值得關注的是,Will MacAskill 在文中認為,AI 研究努力很可能在未來 20 年內與人類研究勞動達到對等,甚至在未來 10 年內就可能接近對等。同時 Will MacAskill 也表示,即使算力的擴充套件陷入停滯,演算法效率提升的速度放緩,但 AI 的發展增速仍然足夠快,能夠在不到 10 年的時間內推動相當於 100 年的技術進步。Will MacAskill 表示,快速的 AI 發展既可能帶來生活質量的巨大提升,也會帶來一系列挑戰,如新型破壞性技術風險、建立數字生命權利等關鍵倫理問題。對此,Will MacAskill 提議現在就可以採取一些行動,從而提前進行新領域的制度設計,增強各方面的約束,以防止 AI「浪潮」過度吞噬人類日常。🔗 https://www.forethought.org/research/preparing-for-the-intelligence-explosion👍 微軟 CEO 內部發言:DeepSeek 是微軟的新標杆據外媒 The Verge 報道,微軟 CEO 薩蒂亞·納德拉近期在一次內部全員會議上表示,DeepSeek 的 R1 模型已成為微軟 AI 發展的新標杆。納德拉特別強調了 DeepSeek 團隊的高效運作:「DeepSeek 最令人印象深刻的是,它展示了 200 人團隊齊心協力能夠創造的成就。更重要的是,他們不僅僅停留在研究專案或開源專案階段,而是將其打造成應用商店中排名第一的產品。這就是我心目中的新標準。」報道指出,相比之下,微軟的 Copilot 應用尚未取得同樣的成功。儘管微軟能夠使用 OpenAI 的最新模型,並投入大量資金進行宣傳,以及對 Copilot 進行包括語音和視覺功能在內的設計更新,但通常排名甚至不在前 100 名應用之列。
為此,納德拉正尋求透過微軟自身的 AI 研發而非僅依賴 OpenAI 來提升其市場地位。除了改進 AI 模型,微軟今年還計劃投資 800 億美元用於建設資料中心,以支援 AI 相關的工作負載。納德拉表示:「我們希望在一定程度上將自身定位為未來每個工作負載都能像 ChatGPT 一樣」「如果你觀察 ChatGPT,它不僅僅運用了 AI 加速器,還在 Cosmos DB 中保持了狀態,利用了 Azure 搜尋以及其他多個服務。因此,在 AI加速器、儲存和計算之間存在著一定的平衡比例,這是我們正在努力協調的。這就是我們資金的主要投向,而且即使不考慮 AI 的因素,我們的雲計算業務也在持續增長。」🔗 https://www.theverge.com/notepad-microsoft-newsletter/637496/microsoft-satya-nadella-deepseek-chatgpt-ai-investments-notepad彩蛋時間