最新！LeCun發起的LLM評測榜單中，這個大模型拿下中國第一

夕小瑤科技說分享

國產大模型的“含金量”還在上升！

今日訊息，國際權威榜單 LiveBench 官網公佈了最新的語言大模型測評結果，階躍星辰自研的萬億引數語言大模型 Step-2 的技術表現位列中國基座大模型第一，成績逼近 OpenAI 的 o1-mini-2024-09-12，超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等國際主流模型，是唯一進入榜單前十名的中國語言大模型，位列全球第五。另外，同時上榜的中國大模型公司還有通義千問和 DeepSeek。

LiveBench 的權威性在大語言模型測評圈中有著難以撼動的地位，被稱為“世界上第一個不可玩弄的 LLM 基準測試”，不僅因為它是由圖靈獎得主、Meta 首席 AI 科學家楊立昆（Yann LeCun）聯合 Abacus.AI、紐約大學等機構聯合推出，更因為 LiveBench 透過一系列設計以確保測試集的客觀、中立和廣泛性。比如透過“每月更新題目”避免大模型微調作弊，設計中立的評價體系以避免人類評價者受格式偏好和文風影響，全面評估大模型包括推理、程式設計、寫作和資料分析在內的多種維度等等。

因為高度公平和透明，LiveBench 甚至把 “A Challenging, Contamination-Free LLM Benchmark” 直接寫在了官網上。

LiveBench 從包括數學、推理、程式設計、語言理解、指令遵循和資料分析在內的多個複雜維度對模型進行評估，值得注意的是，在 IF Average（Instruction Following，指令遵循）一項上，階躍星辰 Step-2 表現甚至超過了所有上榜模型，位列全球第一！上一次中國大模型在 LiveBench 揚眉吐氣還是通義千問，可見基座大模型廠商們的你追我趕還在繼續。

我們研究了下，IF Average 這個指標突出，意味著 Step-2 在語言生成上對細節有最強的控制力，模型能夠更好地理解和遵循人類指令。比如即便給模型模糊指令，它也能發揮出色的理解能力基於上下文推測使用者需求，提供更準確、個性化的響應；也意味著語言大模型在進行內容創作時對文字有更強的細節控制能力，比如當用模型創作七言律詩，它在字數、格律、押韻、意境都可以做到精準把握；同時，需要大模型在知識覆蓋範圍和深度上也能實力線上，除了能處理常見領域知識，也能理解特定領域或邊緣分佈中的複雜問題。

階躍星辰這款萬億引數的語言大模型目前已經接入了他們的C 端智慧助手「躍問」，在躍問 App 和躍問官網（https://yuewen.cn）都可以使用。階躍星辰開放平臺也對開發者開放了 Step-2的API介面。