已卷瘋！距上次更新僅隔三月，Anthropic又釋出Claude3.5Sonnet

整理 | 傅宇琪、核子可樂

本週四，Anthropic 宣佈推出其最新 AI 語言模型 Claude 3.5 Sonnet，這是基於 3 月釋出的 Claude 3 基礎模型構建的全新“3.5”模型家族的首位成員。Claude 3.5 能夠撰寫文字、分析資料並編寫程式碼，擁有長達 20 萬 token 長上下文視窗的 Claude 3.5，目前已經在 Claude 網站及 API 上對外開放。隨後，亞馬遜雲科技宣佈 Claude 3.5 Sonnet 正式在 Amazon Bedrock 可用。

從目前的市場表現來看，Anthropic 的新成果似乎得到了外部使用者的廣泛好評。獨立 AI 研究員 Simon Willison 在 X 上寫道，“這套模型真的非常出色。它速度更快、價格只有 Opus 的一半，但效能卻實現了類似從 GPT-4 Turbo 到 GPT-4o 的飛躍，因此我願稱之為最好的新款整體模型。”

效能超越 GPT-4o？

根據 Anthropic 的介紹，Claude 3.5 Sonnet 在部分基準測試（包括涵蓋本科階段知識的 MMLU、小學數學問題的 GSM8K 以及程式設計技能的 HumanEval）上的表現，已經等同甚至超越了 GPT-4o 及 Gemini 1.5 Pro 等市面上的頂尖競爭對手。

以兩倍的速度實現先進的智慧水平

Claude 3.5 Sonnet 具備先進的智慧水平，執行速度可達到 Claude 3 Opus 的兩倍，在具有研究生水平的推理能力（GPQA）、本科水平知識（MMLU）和程式設計能力（HumanEval）方面設立了新的行業基準；在理解細微差別、幽默和複雜指令方面表現有顯著的提升；在撰寫高質量內容時能表現出更自然、更易理解的語氣，生成引人入勝和有說服力的內容，簡化寫作工作流程，提升敘事能力。

Claude 3.5 Sonnet 非常適合處理複雜任務，加上效能的提升與出色的成本效益，使其成為應對包括敏感語境的客戶支援和協調多步驟工作流程編排的理想選擇。

在內部代理編碼評估中，Claude 3.5 Sonnet 解決了 64% 的問題，超過了解決 38% 問題的 Claude 3 Opus。我們透過評估測試了該模型在給定自然語言描述過程中的改進，包括修復漏洞或新增功能到開原始碼庫的能力。當給予提示並提供相關工具時，Claude 3.5 Sonnet 可以獨立編寫、編輯和執行程式碼，並具備出色的複雜推理和故障排除能力。它能夠輕鬆處理程式碼翻譯，在更新已有的應用程式和遷移程式碼庫方面表現優異。

極其先進的“視覺”能力

Claude 3.5 Sonnet 模型“具備”極其強大的“視覺”能力，在標準視覺基準測試中超過了 Claude 3 Opus。這些顯著的進步在處理視覺推理的任務中極為明顯，如解釋圖表、圖片及其他需求。Claude 3.5 Sonnet 可以準確地從不完美的影像中轉錄文字，這對於零售、物流和金融服務等領域客戶尤為重要。在這些領域，生成式 AI 從影像、圖形或插圖中能獲得比單純文字中更多的洞察。

Claude 3.5 Sonnet 還可以用於自動化視覺資料處理任務，提取有價值的資訊，增強醫療保健、金融服務、媒體和娛樂工作負載中的資料分析。

對安全性和隱私的承諾

Claude 模型經過了嚴格的測試和訓練，以減少濫用。雖然 Claude 3.5 Sonnet 在智慧方面實現了質的飛躍，但 Anthropic 的紅隊 (red team，安全團隊，最大化模擬真實世界的攻擊) 評估得出結論，Claude 3.5 Sonnet 仍處於 ASL-2 （AI Safety Levels）級別。

履行對安全性和透明度的承諾，Anthropic 與外部專家合作，不斷測試並完善這一最新模型的安全機制，並於最近向英國人工智慧安全研究所提供了 Claude 3.5 Sonnet 部署前的安全評估。英國人工智慧安全研究所完成對 Claude 3.5 Sonnet 的測試後，與美國人工智慧安全研究所共享了測試結果。

當考慮到濫用的問題時，Anthropic 還整合了外部專家的政策反饋，以確保評估的可靠性。外部資源的參與幫助團隊提升了評估 Claude 3.5 Sonnet 時對各種濫用型別的判斷能力。

引入新功能後更具價效比

對於普通使用者來說，3.5 版本中更值得關注的可能當屬名為“Artifacts”的新增介面功能，它允許人們在對話的同時，在專用視窗中與 Claude 生成的內容（例如程式碼、文字和網頁設計）進行互動。這一新功能也能夠幫助人們在長時間會話中暫且擱置部分事情，而不必擔心內容丟失。同時，Anthropic 將 Artifacts 視為推動 Claude.ai（其網頁介面）成為團隊協作工作空間的第一步。

“Artifacts”介面示例。向 3.5 Sonnet 下達了一項編寫小遊戲的任務，它創建出了能夠實際執行的 Python 程式碼，程式碼結果就顯示在聊天記錄右側的全新“Artifacts”視窗當中。

Anthropic 表示，Claude 3.5 Sonnet 的執行速度是 Claude 3 Opus 的兩倍。在效能大致相當的情況下，3.5 的成本也更低廉——在 API 中，新的 3.5 模型每百萬輸入 token 定價 3 美元，每百萬輸出 token 定價 15 美元。相比之下，Opus 每百萬輸入 token 定價 15 美元，每百萬輸出 token 定價 75 美元。

除了網站和 API 之外，Claude 3.5 Sonnet 還可以透過 Claude iOS 應用程式提供訪問，付費使用者將獲得更高的用量上限。同時，該模型也透過亞馬遜 Beckrock 服務及 Google Cloud 的 Vertex AI 平臺對外開放。

試用感受

在測試中，Claude 3.5 Sonnet 似乎的確是一套稱職且領先的 AI 語言模型。它的輸出速度非常快，而且在相對隨意的非嚴謹測試當中，3.5 Sonnet 以相當不錯的表現回答了“Magenta 問題”。

當被問到“如果不存在 Magenta 鎮，「Magenta」（洋紅色）一詞還會被用於命名顏色嗎？”時，Claude 3.5 Sonnet 給出了以上輸出。這種顏色的確以一場戰役命名，而這場戰役正是在義大利的 Magenta 鎮上打響。

Claude 3 Opus 面對同一問題做出的回答。

Claude 2 面對同一問題做出的回答。

要求 Claude 3.5 Sonnet 編寫五個關於爸爸的原創笑話，但感覺好像有抄襲的涉嫌。當我們提出質疑後，它又從網際網路上抄了另外幾個笑話。

Claude 3.5 Sonnet 輸出的五個關於爸爸的原創笑話。

大語言模型的所謂智慧實際上只是對其訓練資料範圍的延伸。要想在大模型已經消化的主題之上實現正確的“推理”（即根據儲存在其神經網路中的資料0合成出新的排列），往往離不開人類的參與和引導。

Anthropic 計劃在 2024 年晚些時候釋出 Claude 3.5 Haiku 和 Claude 3.5 Opus 等 3.5 家族新成員。此外，該公司還在探索如何將新功能與企業應用需求相整合，從而對 Claude AI 平臺做出進一步更新。

參考連結：

https://arstechnica.com/information-technology/2024/06/anthropics-latest-best-ai-model-is-twice-as-fast-and-still-terrible-at-dad-jokes

內容推薦

新應用時代，融合AI技術的應用開發變得更加複雜。在6月14日至15日的ArchSummit全球架構師峰會上，來自位元組、百度和騰訊雲等知名企業的資深架構師分享了他們如何運用AI模型及技術管理手段，解決實際問題。「AI前線」精選了大會上聚焦AI模型及其應用開發的系列PPT，關注「AI前線」，回覆關鍵詞「應用開發」免費獲取。

活動推薦

InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會，匯聚頂尖企業專家，深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名，6 月 30 日前可以享受 8 折優惠，單張門票節省 960 元（原價 4800 元），詳情可聯絡票務經理 13269078023 諮詢。