Hunt for News|先進頭條👀 雷軍回應 AI 語音被惡搞據紅星新聞報道,昨日,在十四屆全國人大三次會議北京市代表團小組會議上,全國人大代表、小米集團創始人雷軍分享了自己遭遇 AI 換臉技術濫用的親身經歷,並呼籲相關部門加強對人工智慧新技術應用的立法監管。雷軍在會上表示,這兩年人工智慧技術快速突破以後,出現了很多老百姓喜聞樂見的應用,比如 AI 換臉、擬聲等,但任何一個人的臉和聲音都能輕鬆被用來做各種影片,成了新的違法重災區。雷軍闡述自身經歷說:「去年『十一』,有網友說過了 7 天假,被我整整罵了 8 天,剛開始我覺得網民拿我開涮我也能接受。但這類內容增多且質量低劣後,防不勝防,網友也紛紛投訴。」
雷軍表示,當他想透過法律維權時,卻發現對此沒有專門的立法,只能用隱私權、肖像權、名譽權等法律起訴,而這些都要量化損失。「在網上被罵 8 天,損失根本沒法量化。」雷軍說。雷軍在發言中呼籲,人工智慧技術興起以後產生了很多新問題,相關部門要提前預判,提前立法。值得一提的是,雷軍在此前公佈的 2025 兩會建議就提到,加強「AI 換臉擬聲」違法侵權重災區治理。「人工智慧深度合成技術的快速發展,推動了『AI 換臉擬聲』在影視、廣告、社交等領域的廣泛興起,成為喜聞樂見、傳播力強、易成熱點的技術應用。但同時也看到,『AI 換臉擬聲』不當濫用成為違法侵權行為的重災區,易引發侵犯肖像權、侵犯公民個人資訊以及詐騙等犯罪行為,不利於構建『以人為本、智慧向善』的人工智慧發展生態。」🍎 蘋果承認 Siri 新功能開發延遲蘋果公司近日正式確認,將推遲釋出部分 Apple Intelligence 功能,特別是「更加個性化的 Siri」體驗。據蘋果發言人 Jacqueline Roy 表示,這些新功能的開發「需要比預想更長的時間」,預計將在「明年」才能向用戶推出。在去年 6 月的 WWDC 開發者大會上,蘋果曾重點宣傳了 Siri 的全面升級計劃,承諾透過 Apple Intelligence 技術讓 Siri 具備個人背景感知能力,從而為使用者提供更加個性化的服務。
這些功能包括能夠在使用者的各種應用中搜索和提取資訊,例如從郵件、簡訊或筆記中找出特定內容;具備螢幕感知能力,可以理解並執行與螢幕內容相關的指令;以及跨應用操作功能,讓使用者能夠透過語音在不同應用間無縫執行復雜任務。儘管推遲了這些功能,蘋果在過去六個月中仍推出了一系列 Apple Intelligence 相關功能,包括讓 Siri 更具對話性、引入 ChatGPT 整合、新增寫作工具、生成表情、圖片遊樂場、減少干擾模式、郵件和訊息摘要、智慧回覆以及照片 app 中的自然語言搜尋等功能。🔗 https://9to5mac.com/2025/03/07/apple-intelligence-personal-siri-delayed/✊ 蜜月期結束,微軟自研 AI 模型據 The Information 援引知情人士訊息稱,微軟公司已成功研發一系列內部人工智慧模型,名為 MAI,其測試效能表明可與 OpenAI 和 Anthropic 的模型相媲美。這些模型有望為微軟的 Copilot 智慧助手提供支援,增強其處理使用者問題和提供具體建議的能力。除基礎模型外,微軟還在開發「推理模型」,旨在解決更復雜的查詢並展現類人思維能力。值得注意的是,微軟上月已將 OpenAI 的 o1 推理模型整合進 Copilot 產品中。有趣的是,報道中提到微軟希望能夠檢視 OpenAI o1 模型在推理過程中的「思維鏈」,以便在自家的 AI 模型中複製相關技術。然而,OpenAI 拒絕了微軟的要求,這也讓微軟的研究團隊在研發自己的 AI 模型時遇到了困難。
此外,微軟發言人表示,公司正採用混合模型策略,包括繼續與 OpenAI 保持深度合作,同時利用自研 AI 模型和開源模型。這一策略可能減輕微軟對 OpenAI 的依賴,後者已獲得微軟約 130 億美元的投資。兩家公司最近重新談判合作協議,允許 OpenAI 在某些條件下使用其他雲計算服務商的伺服器,該協議將持續至 2030 年。微軟首席財務官艾米·胡德在近期會議上強調,雙方都在為未來十年乃至二十年的發展做規劃。除 MAI 外,微軟已推出名為 Phi 的小型模型,並銷售多家公司的 AI 模型產品。據報道,微軟還測試了包括 Anthropic、Meta 和馬斯克的 xAI 等公司模型作為 Copilot 的備選方案。艾米·胡德表示,雖然微軟為擁有 OpenAI 的領先模型感到自豪,但也需要構建和引入其他模型以確保選擇多樣性。🔗 https://www.theinformation.com/articles/microsofts-ai-guru-wants-independence-from-openai-thats-easier-said-than-done?rc=a4cwro👀 Manus 釋出、質疑與回應,復現專案爆火近日,時下火熱的 AI Agent 產品「Manus」開通了其 X 賬號「ManusAI_HQ」。但在前日,Manus 的 X 賬號突然被封禁,並顯示賬號違反了 X 的社群規則。隨後,Manus 聯合創始人兼首席科學家 Yichao Peak Ji(季逸超)在 X 平臺發文稱,據初步調查,本次賬號封禁可能與加密貨幣騙局有關。季逸超強調,Manus 未涉及加密貨幣專案、代幣發行或者區塊鏈倡議,並提醒任何與 Manus 關聯的加密貨幣專案都為騙局,而公司也正在對該類冒名者進行起訴。此外,季逸超強調目前正在努力與 X 平臺的支援團隊聯絡,並重新恢復賬號運營。截至目前,賬號已解除封禁。
其中,Trae 的全新 Builder 模式能充分利用 AI 的能力:只需要用簡單的語言描述需求,Trae 就可以迅速搭建起專案框架,還能持續進行調優修改,產出可用程式碼。在程式碼理解維度,Trae 能夠對開發專案上下文的極致理解,深入剖析程式碼倉庫,即時獲取 IDE 中的各種環境上下文,為開發過程提供最為契合、準確的解決方法。Trae 的即時程式碼續寫技術可基於開發專案整體上下文進行智慧補全,提升編碼效率。此外,在 Trae 的互動體驗方面,開發者可以便捷地將 AI 生成的程式碼一鍵應用到多個模組,還能根據實際需求隨時靈活調整指令,並即時預覽 AI 生成程式碼的前端效果。目前,Trae 國內版已上線官網,並提供下載安裝包,已支援 MacOS 和 Windows,Linux 版本已開啟預約。🔗 https://mp.weixin.qq.com/s/I8GBoOkLk030Sa3pePYgSA💾 Mistral AI 推出號稱世界最強 OCR「法國版 OpenAI」Mistral 本週推出了一款號稱世界上最強的 OCR 模型的全新 API 服務,專為處理複雜 PDF 文件的開發者設計,能夠將任何 PDF 文件轉換為 Markdown 格式文字檔案。以乾淨格式儲存和索引資料已成為企業構建 AI 工作流的關鍵環節,而與市場上大多數 OCR 服務不同,Mistral OCR 採用多模態技術,能夠識別文字中的插圖和照片,並在輸出結果中保留這些圖形元素的位置資訊。該公司聲稱,其 OCR 效能優於 Google、微軟和 OpenAI 的同類服務,特別是在處理包含數學表示式、複雜排版和表格的文件時表現出色,同時對非英語文件的支援也更為友好。
更重要的是,該服務不僅輸出純文字,還會自動轉換為 Markdown 格式。這種格式化語法允許開發者新增連結、標題等富文字元素。Markdown 已成為大語言模型訓練資料集的重要組成部分,同時也是 AI 助手生成結構化內容的常用格式。Mistral 已將這項技術應用於其 AI 助手 Le Chat,當用戶上傳 PDF 檔案時,系統會在後臺使用 Mistral OCR 理解文件內容。附上 Le Chat 體驗地址:https://chat.mistral.ai/chat🔗 https://mistral.ai/news/mistral-ocr💻 macOS 版 ChatGPT 升級,開發者可在 IDE 中編寫程式碼ChatGPT 本週增添了直接編輯程式碼的新功能。具體來說,最新版 macOS ChatGPT 應用已支援在 Xcode 和 VS Code 等主流開發工具中直接編輯程式碼。使用者還可以啟用「自動應用」模式,讓 ChatGPT 無需額外確認即可自動完成程式碼修改。
從本週四開始,ChatGPT Plus、Pro 和 Team 訂閱使用者可透過更新應用獲取此功能,而企業版、教育版和免費版使用者則需等到下週。OpenAI 產品團隊成員 Alexander Embiricos 在社交媒體上表示,Windows 版 ChatGPT 應用也將「很快」獲得此功能。隨著直接編輯功能的加入,ChatGPT 現在能夠與 Cursor 和 GitHub Copilot 等專業 AI 編碼工具展開更直接的競爭。據報道,OpenAI 計劃在未來幾個月推出專門支援軟體工程的產品。🔗 https://techcrunch.com/2025/03/06/chatgpt-on-macos-can-now-directly-edit-code/Hunt for Fun | 先玩🗺️ 一張照片,AI 就能知道你在哪裡?近日,Moonpig 公司的 AI 主管 Peter Gostev 最近發現,OpenAI 最新的 GPT-4.5 模型展示出超強的影像地理位置識別能力,即使是背景極其模糊、幾乎看不清任何細節的照片,它也能準確識別出拍攝地點。據 Gostev 表示,他進行了一系列測試,向 GPT-4.5 展示了多張具有挑戰性的圖片,包括偏僻街道、海岸線、咖啡館和庭院的照片。
而 GPT-4.5 幾乎每次都能準確猜出確切位置。唯一的例外是一張缺乏細節的隨機小街道照片,即便如此,它仍然正確識別出了國家。為排除元資料洩露的可能性,Gostev 特意使用了圖片的螢幕截圖進行測試,結果依然驚人。他指出,雖然 Claude 3.7 在這項任務上表現最接近 GPT-4.5,但準確度和自信度仍有差距,而其他語言模型要麼完全錯誤,要麼給出過於模糊的回答,如「地中海某處」。這一發現在 LinkedIn 上引發熱議。有使用者猜測模型可能在讀取 EXIF 資料,但 Gostev 確認已排除這種可能性。另有網友認為,儘管這種經過充分訓練的系統是基於對全球影像和元資料的大量接觸做出的「有根據的猜測」,但仍然是基於機率的,並非總是 100% 準確。現在,GPT-4.5 已經向所有 Plus 使用者開放,感興趣的朋友不妨去測試一下。🔗 https://www.linkedin.com/posts/peter-gostev_one-shockingly-impressive-capability-of-gpt-activity-7301990052614574080-PeBv/📦 讓 AI「推箱子」,效果會怎樣?近日,Hao AI 實驗室做了一個有趣的測試,透過讓多款頂級 AI 模型挑戰 1989 年經典遊戲「推箱子」(Sokoban),測試它們的空間推理和決策能力。結果慘不忍睹,o3-mini 僅能達到第 4 關,且在處理兩個相互糾纏的箱子時就遇到了瓶頸。Claude-3.7-thinking 和 Deepseek-R1 分別只解決了兩關和一個關卡,而 Gemini-2.0-flash-thinking 則完全無法解決任何關卡。研究人員指出,「推箱子」遊戲雖然規則簡單,但它要求玩傢俱備長期規劃和強大的空間感知能力,這恰恰是當前 AI 模型的弱點。
為改善 AI 在此類任務中的表現,Hao AI 實驗室開發了一個將遊戲視覺狀態轉換為文字的模組,並透過重新設計關卡調整難度,同時嘗試賦予 AI 代理自我一致性和記憶能力。該研究還發現,非推理型 AI 模型在這類任務中表現更為糟糕,甚至連第一關都無法完成。Hao AI 實驗室強調,像「推箱子」這樣的經典遊戲應成為評估人工通用智慧(AGI)的重要工具,為 AI 研究提供可重複使用的測試基準。🔗 https://x.com/haoailab/status/1897792946646421514🗣️ 矽碳生命交流群
大家是否想過,把幾個知名的 AI 拉進一個群聊,會是怎麼樣的局面?現在,這個想法得到了實現。近日,基於 React和 Cloudflare Pages 的多人 AI 聊天專案 Botgroup.chat 上線。在聊天視窗中,使用者可以與多個 AI 角色同時參與對話,Botgroup 將提供類似群聊的互動體驗。同時 Botgroup 還支援自定義 AI 角色和個性、AI 角色禁言功能等特點。目前,Botgroup.chat 已上線 GitHub,並且也有線上體驗連結。👉 https://botgroup.chat/Hunt for Insight|先知👀 馮遠征回應「用 DeepSeek 寫劇本」:缺乏人的溫度
據中國日報報道,知名演員馮遠征近日在採訪中分享了他使用 DeepSeek 生成劇本的經歷。他表示, 自己曾嘗試利用 DeepSeek 將小說提煉成話劇劇本的提綱,結果令他印象深刻——不到一分鐘,AI 就完成了這項任務,且提煉效果出人意料地好。隨後,他繼續使用 DeepSeek 生成劇本,他表示,從技術角度看,AI 生成的劇本質量確實很高,語言嚴謹規範,結構完整,但「它可能缺少了一個溫度,就是真正人的溫度。」馮遠征認為,科技是無限的,但有限之處在於如何讓人去真正利用它,而不是它來左右人。🙅 Hugging Face 首席科學官:我們需要敢質疑的 AIHugging Face 聯合創始人兼首席科學官 Thomas Wolf 最近發文稱,如果人工智慧研究沒有實質性突破,AI 可能僅會成為「伺服器上的唯唯諾諾者」,而非真正的創新者。Wolf 認為,當前的 AI 發展路徑難以產生能夠進行創造性思考和突破性解決方案的系統。他指出,現有的 AI 模型更像是「非常聽話的學生」,擅長填補已知知識之間的空白,但缺乏質疑現有認知框架和提出全新問題的能力。
「人們通常犯的主要錯誤是認為牛頓或愛因斯坦等人只是優秀學生的放大版。」沃爾夫在文章中寫道,「要在資料中心創造愛因斯坦,我們不僅需要一個知道所有答案的系統,而且還需要一個能夠提出別人從未想過或不敢問的問題的系統。」沃爾夫將這一問題部分歸因於 AI 領域的「評估危機」。他指出,目前用於衡量 AI 系統進步的基準測試大多集中在有明確、封閉式答案的問題上,這限制了系統發展出質疑和創新能力的可能性。作為解決方案,他建議行業應當發展新的評估標準,能夠測量 AI 是否能採取「大膽的反事實方法」,並基於微小線索提出一般性建議。「科學最重要的方面是提出正確問題和質疑自己所學知識的能力,我們不需要一個能用常識回答所有問題的 A+ 學生,而是需要一個能看到並質疑其他人所錯過的東西的 B 級學生。」🔗 https://techcrunch.com/2025/03/06/hugging-faces-chief-science-officer-worries-ai-is-becoming-yes-men-on-servers/💵 模型即產品?近日,科技博主 Alexander Doria 發表了一篇題為《模型即產品》的文章,指出 AI 領域的下一個發展週期將是「模型本身即產品」。多項關鍵因素正在推動這一轉變:首先,通用模型 Scaling 已遇到瓶頸,OpenAI 在釋出 GPT-4.5 時透露,模型能力呈線性增長,但算力成本卻呈指數級攀升;其次,特定任務的強化訓練效果遠超預期,模型開始真正「學習任務」,呈現出既非傳統機器學習,也非基礎模型的全新特性;再者,推理成本大幅下降,使得單純銷售模型呼叫次數的商業模式難以為繼。
以 DeepResearch 和 Claude Sonnet 3.7 作為「模型即產品」的典型案例,前者並非簡單在 GPT 基礎上增加外部搜尋功能,而是訓練了一個全新模型,能夠完全在內部完成搜尋任務。同樣,Anthropic 也明確表示,真正的智慧體必須能自主決定任務實現過程和工具使用方式。這種趨勢表明,各大 AI 實驗室正逐步停止開放 API,轉向自己訓練並直接提供完整模型服務。文章引用 Databricks 投資人 Naveen Rao 的預測,未來 2-3 年內,所有閉源 AI 提供商將停止提供 API 服務,只有開源模型才會繼續提供 API 介面。AI 行業正面臨重大轉型,模型本身已成為產品,未來主導權將掌握在那些專注於模型訓練的公司手中。🔗 https://vintagedata.org/blog/posts/model-is-the-product👏 圖靈獎得主:科學裡沒有權威Richard Sutton 在榮獲計算機科學最高榮譽——圖靈獎後,接受了一場獨家採訪。他表示,當初收到獲獎通知時完全出乎意料,甚至因忘記會議時間而遲到,直到看到一群他略感面熟的前圖靈獎得主才意識到發生了什麼。在訪談中,Sutton 強調了強化學習的核心理念——從經驗中學習。他指出這與大語言模型等其他人工智慧技術有著本質區別,大語言模型主要是從人類那裡學習並模仿人類行為,而強化學習是從直接經驗中學習,這是最自然的學習方式。
作者:@yu285338525工具:MidjourneyPrompt:In the city, a white long-haired Angora cat standing on a rooftop, looking down at the bustling street below. Realistic style, taken with an old-fashioned camera連結:https://www.midjourney.com/jobs/8b97d932-099a-4902-a088-a28c3dfc0fcb?index=0