說說位元組這個豆包視覺理解模型

看到訊息說，蘋果正在和騰訊和字節跳動洽談，將兩家公司的人工智慧模型整合到在中國市場銷售的 iPhone 中。當然這個談判還在早期階段，不排除還會有變數。

有的網友難免會問，蘋果選來選去的，是要比較哪家最強麼，還是有什麼標準？

要我說，蘋果未必會看中一個大模型引數更多或是評分指標有多高，而是要看交付的總體質量，尤其是交付體驗和終端使用者體驗。而這兩點，騰訊和位元組確實都更適合蘋果一些。當然最後花落誰家，現在無法確定。

國內的大模型追趕的速度比我之前預期還要快一些，之前有些能力還不具備，但現在，幾乎都已經開始對齊。

在剛結束的 2024 冬季火山引擎 FORCE 原動力大會上，字節跳動宣佈了一系列讓人目不暇接的產品釋出和能力升級：豆包視覺理解模型釋出、豆包 3D 生成模型首次亮相。豆包通用模型、音樂模型、文生圖模型等在內的豆包大模型多款產品能力進行了更新。

兩天的會議看下來，重頭戲是豆包視覺理解模型。

宣傳影片我看了幾遍，豆包視覺理解模型已經具備強大的內容識別與理解能力，覆蓋影像、動作、文字、邏輯推理等多個維度，並支援細節描述、指令遵循和多文體創作等功能。國產大模型的一旦補上某項能力，後續的迭代改進速度就會更快，用不了多久，追平業界最好能力並非不可能。有的人說，我們追趕的這段時間裡，人家不也發展麼？並不一定，領跑者有時候會走彎路。

視覺理解能力在前些天已經下發到個人使用者，豆包 App 和 PC 端產品都可以用了。普通使用者隨時可在豆包應用中體驗這些能力。第三方最新資料顯示，11 月的 AI 產品全球月活躍排行榜上，豆包的 MAU 已經接近 6000 萬，僅次於 ChatGPT。位元組團隊做使用者增長，還是有絕活兒，不服還真不行。

對個人使用者來說，別整天擔心被 AI 取代，你先把工具用好，讓工具幫你更好的處理工作，解決生活中遇到的問題，先從中獲益再說。

企業使用者能以極具價效比的價格使用視覺理解模型：處理千個 token 的費用僅為 0.003 元，比行業平均價格低 85%，價格上極具優勢，足以滿足絕大多數企業的預算需求。

這次釋出會把很大篇幅放在 MaaS、釦子這些平臺的工作上，講怎麼更容易的把模型用起來。對於企業使用者而言，這意味著更好的使用體驗，而開發者也能夠藉助平臺最佳化工作流程。值得一提的是，優秀的使用體驗是平臺型產品的重要競爭力，但卻常常被忽視。

至於企業是否能夠真正用好大模型？我的觀點是，對於絕大多數行業企業而言，關鍵在於如何將大模型能力應用到實際業務中。重要的是先嚐試使用，透過最佳化或解決具體業務場景中的問題，逐步實現模型的適配與迭代。如果自己做不來，就找團隊協助自己完成這一步。在此過程中，企業不僅能享受到模型能力升級的紅利，為客戶創造價值，也能提升自身的競爭力，推動行業發展。

視覺理解模型在教育、電商、旅遊、門店管理、金融、醫療等多個領域都很有想象力，比如醫療領域，對於手寫病歷的識別和理解在過去是個難題，現在不一定是了，這就是個合適的場景。前 AI 時代的應用場景和邊界，尤其值得我們公司這樣規模的團隊積極探索，給出更好的解決方案。

在生物進化中，眼睛的形成是物種多樣化與生態系統發展的關鍵推動因素，為生命的繁榮與物種爆發奠定了基礎。位元組這麼重視影片理解模型的釋出，一步到位給出大家都能用得起的價格，應該是非常看好多模態互動，想吸引更多開發者把應用做起來。

多模態互動已成為大模型發展的必然，每家大模型參與者都得跨過這一步，也都能跨過去。有理由期待，在這個過程中還會有更多令人驚歎的創新應用出現。

機會對所有人，所有企業，都還存在。