【新智元導讀】昨夜上線的Claude 3.5 Sonnet,效能直接吊打了GPT-4o,甚至價格還更便宜。網友們紛紛展開實測,有人表示自己一半的工作已經可以由它替代了!而最讓人驚喜的新功能,莫過於Artifacts了。
就在昨天,Anthropic深夜釋出了下一代旗艦大模型Claude 3.5 Sonnet。
據稱,Claude 3.5 Sonnet不僅在評估中勝過GPT-4o,還保持了作為「中杯」的最優價效比,超過了自家的Claude 3 Opus。

如今,Claude 3.5 Sonnet已經面向全球開啟免費試用了。
在費用上,Sonnet處理每百萬輸入token僅需3美元,每百萬輸出token僅為15美元。
對比之下,GPT-4o的每百萬輸入token收費5美元,每百萬輸出token為15美元,在價格上可以說是不相上下。正式對打時,各家可以說是已經都壓低到了成本價。

前OpenAI對齊團隊負責人Jan Leike表示,我喜歡Sonnet新模型。我經常要求它向我解釋ML論文。雖然不一定全對,但可能比我略讀要好,而且速度也快得多。自動對齊研究越來越近了……

有網友同樣表示,「我有一半的工作都可以由Claude 3.5 Sonnet來完成,我真是太興奮了」。

Anthropic的產品經理Michael Gerstenhaber將新模型稱之為「世界上最智慧的模型」。
他表示,「我們正處於這個行業寒武紀大爆發的開端」。
今年晚些時候,Claude 3.5 Haiku和最強版Claude 3.5 Opus將會陸續推出。
模型廠商們是徹底捲起來了!
網友實測
Claude 3.5 Sonnet釋出之後,在全網掀起軒然大波,網友們紛紛上手開啟一波測試。
10倍編碼速度驚人
先來看看Claude 3.5 Sonnet寫程式碼的速度有多可怕。
網友僅在一次對話中,就用threejs+cannonjs創建出一個3D太陽系模型,包含了物體和碰撞效果。

另一個網友稱,使用Claude 3.5 Sonnet進行編碼比GPT-4,或任何其他大型語言模型效率高10倍。全新的Artifacts功能,可以在聊天旁邊生成和執行程式碼,簡直令人驚歎。

沒有什麼比使用Claude 3.5 Sonnet一次性編寫一個程式,來解密維吉尼亞密碼更棒的事了。



許多網友紛紛誇讚Claude 3.5 Sonnet速度快到起飛。

2分鐘一個小遊戲
一位開發者直接用了不到2分鐘,做出了一個戴著太陽鏡的小狗吃骨頭的遊戲。


另有人花了3分鐘的時間,做出了馬里奧克隆版,並且為角色提供了動畫效果。

還有另一款「原創」遊戲Color Cascade。

用2分鐘建立一個蛇梯棋遊戲。
網友表示,「我可以透過新的Artifacts功能即時檢視程式碼並玩遊戲。使用Claude的編碼體驗比GPT-4和Gemini好10倍」。

這位網友用Sonnet做了一款乒乓球遊戲。

不像ChatGPT,它沒有用到編碼直譯器。在這個過程中,我們可以製作文件、筆記和其他內容,其中一個選項的html/jss。
神經網路視覺化
有人還去做了視覺化深度學習,不過因為訊息限制,不得不暫停。


下面是用動畫效果解釋反向傳播的工作原理。

重建3D「模擬矩陣」
Claude 3.5 Sonnet是第一個能在首次嘗試中,重現電影《駭客》中「資料流」3D場景的模型。


而且,在製作恐怖遊戲上,Claude 3.5 Sonnet設計的3D結構比Opus更好。


SVG效果圖
Claude 3.5 Sonnet可以畫出獨角獸SVG圖。


它甚至可以生成晶片製造工藝流程示意圖。

「井字棋」遊戲失敗
OpenAI研究科學家,德撲之父使用新模型之後表示,
像GPT-4o(現在還有Claude 3.5 Sonnet)這樣的前沿模型,在某些方面可能達到了「聰明的高中生」的水平,但它們在像「井字棋」這樣的基本任務上無法完成。
人們曾希望原生的多模態訓練能夠有所幫助,但事實並非如此。



Artifacts改變互動
從上文也可以看出,這次更新的一大亮點,就是Claude 3.5引入的超強即時互動功能Artifacts了。
這一功能,可以說是開啟了互動式AI最有潛力的形式。
它標誌著Claude從對話式AI向協作工作環境的轉變。而在未來,Anthorpic的設想是,整個組織都能在共享空間中集中知識、文件、工作,而Claude會隨時提供服務。
在沃頓商學院教授Ethan Mollick看來,Artifacts可以說是一個簡化版的程式碼直譯器。
他上手建立的,是這樣一個螃蟹小遊戲。
開始的版本是這樣的,稍顯平淡。

教授直接問,能不能讓遊戲恐怖一點?然後氛圍感瞬間就上來了。

大家的直觀感受是,使用Claude和Artifacts,就像在IDE中工作一樣。

這位日本網友介紹說,Artifacts簡單來說,就是一個顯示程式碼預覽的功能。它很容易直觀地理解,可以用於多種目的。
-網站建立
-形狀
-圖形
-文件
-簡單遊戲
它可以幫忙建立簡單的網站。

只要跟它說“製作一個計算器應用程式”,一個使用React的計算器應用程式預覽就完成了。

透過Artifacts,可以讓Sonnet使用HTML建立簡單的幻燈片材料。
這位網友發現,這個過程中可以向Sonnet展示設計圖片,它們會把這些圖片用作參考。

Claude 3.5 Sonnet不僅編碼效率比GPT-4o或任何其他LLMs都高10倍,而且因為Artifacts功能可以在聊天的旁邊生成並執行程式碼,因而可以提供令人驚歎的使用者體驗。
比如讓它用React生成一個貪吃蛇的遊戲。

隨後,我們還可以用自然語言對遊戲進行修改,比如做一個美觀的背景,或者讓蛇有一個化身。

因為可以一邊建立遊戲,一邊立刻在右側視窗中玩這個遊戲,Artifacts功能可以說是徹底貫徹了從對話式人工智慧轉向協同工作環境的想法。

總的來說,Artifacts似乎是Claude長遠遠景的一個訊號。
長期以來,Anthropic一直表示自己主要關注企業,並且計劃將Claude變成一種工具,讓企業「安全地」將他們的知識、文件和正在進行的工作集中在一個共享空間中。
聽起來,這種概念更像是Notion或Slack,而不是ChatGPT。而在這種系統中,Anthropic的模型將處於整個系統的中心。
吊打GPT-4o,上一代2倍速
總的來說,Claude 3.5 Sonnet在生成速度方面,實現了飛昇,是上一代超大杯Claude 3 Opus的2倍。
而且,在視覺方面的表現,新模型全面超越了GPT-4o。OpenAI上個月剛釋出的新模型,沒想到這麼快被取而代之。

以下是官方部落格中,做的一些基準測試。
從圖中可以看出,Claude 3.5已經在多數基準中,領先GPT-4o、Gemini 1.5,以及Llama-400B的模型。
在程式碼基準中,Claude 3.5在零樣本情況下,取得了92%的成績。在數學上,零樣本+CoT加持Claude 3.5還是有些落後於GPT-4o。

在視覺基準上,Claude 3.5 Sonnet在視覺問答MMMU基準上,略遜於GPT-4o。
不過,視覺數學推理、科學表格、圖表問答、檔案問答上,都拿下了最高分。
Claude不僅能準確識別、轉錄影像中的文字內容,還結合了強大的程式碼生成能力,將多個模態真正整合在一起。

與眾不同的是,Claude 3.5 Sonnet並不像GPT-4o那樣集成了語音助手,或者能夠生成影像,而且Anthropic暫時也沒有這一打算。
Anthropic聯創兼總裁Daniela Amodei在接受彭博獨家採訪中提到,「我們的目標是使其成為所有企業業務的首選模型」。

她繼續稱,從研究的角度來看,我們能夠生成影像輸出,但繪製一隻「滑雪的貓」影像並不是我們的企業客戶所要求的,所以我們並不優先考慮這一點。
目前,製藥巨頭Pfizer已經利用Claude模型,幫助發現新藥物。
未來,模型越智慧,就越有能力支援這種非常高水平的智力工作。顯然,Anthropic正在努力為它想要瞄準的企業公司進一步差異化。
可以擴充套件Claude互動方式的新功能Artifacts,便是一個新的嘗試。
Anthropic的改進速度,簡直令人驚歎。
如今Anthropic的這一步,必將逼得其他競爭對手跟上。
要知道,Claude不像Gemini或ChatGPT那樣受到更多關注,但它在比賽中卻非常受歡迎。
參考資料:
https://www.anthropic.com/news/claude-3-5-sonnet
https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/