說說位元組這個豆包視覺理解模型

看到訊息說,蘋果正在和騰訊和字節跳動洽談,將兩家公司的人工智慧模型整合到在中國市場銷售的 iPhone 中。當然這個談判還在早期階段,不排除還會有變數。
有的網友難免會問,蘋果選來選去的,是要比較哪家最強麼,還是有什麼標準?
要我說,蘋果未必會看中一個大模型引數更多或是評分指標有多高,而是要看交付的總體質量,尤其是交付體驗和終端使用者體驗。而這兩點,騰訊和位元組確實都更適合蘋果一些。當然最後花落誰家,現在無法確定。
國內的大模型追趕的速度比我之前預期還要快一些,之前有些能力還不具備,但現在,幾乎都已經開始對齊。
在剛結束的 2024 冬季火山引擎 FORCE 原動力大會上,字節跳動宣佈了一系列讓人目不暇接的產品釋出和能力升級:豆包視覺理解模型釋出、豆包 3D 生成模型首次亮相。豆包通用模型、音樂模型、文生圖模型等在內的豆包大模型多款產品能力進行了更新。
兩天的會議看下來,重頭戲是豆包視覺理解模型
宣傳影片我看了幾遍,豆包視覺理解模型已經具備強大的內容識別與理解能力,覆蓋影像、動作、文字、邏輯推理等多個維度,並支援細節描述、指令遵循和多文體創作等功能。國產大模型的一旦補上某項能力,後續的迭代改進速度就會更快,用不了多久,追平業界最好能力並非不可能。有的人說,我們追趕的這段時間裡,人家不也發展麼?並不一定,領跑者有時候會走彎路。
視覺理解能力在前些天已經下發到個人使用者,豆包 App 和 PC 端產品都可以用了。普通使用者隨時可在豆包應用中體驗這些能力。第三方最新資料顯示,11 月的 AI 產品全球月活躍排行榜上,豆包的 MAU 已經接近 6000 萬,僅次於 ChatGPT。位元組團隊做使用者增長,還是有絕活兒,不服還真不行。
對個人使用者來說,別整天擔心被 AI 取代,你先把工具用好,讓工具幫你更好的處理工作,解決生活中遇到的問題,先從中獲益再說。
企業使用者能以極具價效比的價格使用視覺理解模型:處理千個 token 的費用僅為 0.003 元,比行業平均價格低 85%,價格上極具優勢,足以滿足絕大多數企業的預算需求。
這次釋出會把很大篇幅放在 MaaS、釦子這些平臺的工作上,講怎麼更容易的把模型用起來。對於企業使用者而言,這意味著更好的使用體驗,而開發者也能夠藉助平臺最佳化工作流程。值得一提的是,優秀的使用體驗是平臺型產品的重要競爭力,但卻常常被忽視。
至於企業是否能夠真正用好大模型?我的觀點是,對於絕大多數行業企業而言,關鍵在於如何將大模型能力應用到實際業務中。重要的是先嚐試使用,透過最佳化或解決具體業務場景中的問題,逐步實現模型的適配與迭代。如果自己做不來,就找團隊協助自己完成這一步。在此過程中,企業不僅能享受到模型能力升級的紅利,為客戶創造價值,也能提升自身的競爭力,推動行業發展。
視覺理解模型在教育、電商、旅遊、門店管理、金融、醫療等多個領域都很有想象力,比如醫療領域,對於手寫病歷的識別和理解在過去是個難題,現在不一定是了,這就是個合適的場景。前 AI 時代的應用場景和邊界,尤其值得我們公司這樣規模的團隊積極探索,給出更好的解決方案。
在生物進化中,眼睛的形成是物種多樣化與生態系統發展的關鍵推動因素,為生命的繁榮與物種爆發奠定了基礎。位元組這麼重視影片理解模型的釋出,一步到位給出大家都能用得起的價格,應該是非常看好多模態互動,想吸引更多開發者把應用做起來。
多模態互動已成為大模型發展的必然,每家大模型參與者都得跨過這一步,也都能跨過去。有理由期待,在這個過程中還會有更多令人驚歎的創新應用出現。
機會對所有人,所有企業,都還存在。


相關文章