
生成式AI的高速發展,不僅持續驅動著大模型本身的變革,更為各行各業創造了無數令人激動和無限想象的空間。
從情緒價值到新質生產力、從社交新方式到社交新構想。一場圍繞 AI 自身進化與賦能的 RTE2024 AI 專場10月25日在北京成功舉辦。聲網 AI RTE 產品線負責人姚光華、阿里雲智慧集團 通義千問高階產品架構師辛曉劍、智譜解決方案負責人吳同、MiniMax 商務總監王蘇、Soul App AI演算法技術總監劉忠亮、環信 IM 產品負責人王璨等嘉賓齊聚一堂,分別站在RTE行業、大模型廠商、B端以及C端視角,帶來了他們對AI大模型發展的分享和預判。
即時互動進入AI+RTE的全新時代
作為離生成式AI最近的行業,即時互動正在邁向一個全新的高度。在RTE2024 AI 論壇上,聲網AI RTE產品線負責人姚光華表示,在生成式AI的驅動下,即時互動帶來的體驗上將從“聽得到”到“聽得清”到“聽得懂”再到今天的“聽得心”,產品技術上也將完成從QoS、QoE到 MM QoE的標準革新。

聲網AI RTE產品線負責人姚光華
據介紹,2014-2019年期間,聲網專注於使用技術手段提升服務質量(QoS),聚焦確保文字、音訊和影片等多模態內容能夠進行高保真傳輸,進而利於終端使用者進行內容消費,這一階段被稱為“SLA時代”。從2020年起,聲網的產品從RTC轉變成了RTE,重心從也服務質量轉向了體驗質量(QoE),並在2020年提出了“XLA”。在XLA時代,聲網更關注使用者在使用服務時感受到的流暢性、延遲和清晰度(音質、畫質)等體驗因素。
姚光華指出,即時互動正在進入AI+RTE的全新時代,生成式AI技術將實現跨模態的資料傳輸與體驗最佳化。在未來的跨模態的MM QoE,我們將看到音訊、影片、文字模態互相轉換成為可能。多模態互動和生成式AI技術的結合,將徹底改變使用者的內容消費的體驗方式。
從行業的情況來看,生成式 AI 時代的到來已經不同程度上刺激了需求的暴增,具體的需求內容也 RTE 轉變成了AI+ RTE。據姚光華介紹,為了攜手各行各業共創AI+ RTE未來,聲網也正式推出了業內首個、為大模型設計的人類意圖預測產品——Human Intention Prediction,其產品矩陣也逐漸演進到包含AI Streaming Service、Linux Server SDK for AI 以及 HIP(Human Intention Prediction)在內的基建、核心產品、核心服務、對外API的組合形態。
通義、智譜、MiniMax:大模型廠商談企業級落地
自ChatGPT釋出以來,全球大模型廠商的發展就邁入了百花齊放、你追我趕的歷程。放眼國內市場,以通義、智譜、MiniMax為代表的大模型廠商在技術創新與場景落地上的探索也在持續。
論大語言模型的發展速度,通義算得上首當其衝。自從阿里雲釋出“通義”系列模型以來,其就以驚人的速度屢次重新整理行業認知。2024年9月推出了新一代模型——千問2.5,千問2.5也成為了整個開源應用技術最為廣泛的模型之一。據悉,通義在很早之前就已經開始佈局多模態,尤其是視覺多模態領域。不僅推出了包括音訊理解、影片生成在內的多個大模型,還在模型基礎之上,拓展了對話機器人等大模型原生應用。
阿里雲智慧集團通義千問高階產品架構師辛曉劍表示,通義的強大不止表現在大模型本身,在圍繞企業級落地層面,通義千問也有著自己獨特的優勢。他指出,架構是否安全可信、效果如何最佳化、成本如何降低是大模型在企業級落地方面存在的普遍問題,針對這些問題,通義有著自己獨特的解法。

阿里雲智慧集團通義千問高階產品架構師辛曉劍
在安全問題上,辛曉劍從內容安全、傳輸安全、資料儲存安全三個方向進行了解讀。內容安全上,通義千問會在模型訓練環節就把原始訓練語料裡偏違規、有害的內容去除,並在訓練後期用強化方式做偏好對齊。此外,千問還會透過內容安全的產品去做輸入/輸出的安全內容攔截。傳輸安全上,通義千問不僅採用了私網隔離的內容傳輸方式,還結合了其他內容加密形式以保證傳輸的效率及鏈路安全。資料儲存上,通義千問還增加了一個審計環節,用於保障端到端的傳輸安全。在效果以及成本最佳化上主要有兩點,混合資料訓練的方式將帶來更顯著的微調能力提升,按 Tokens 計費的形式也進一步降低了推理應用成本。
智譜解決方案負責人吳同也認為,大模型時代下,企業新的競爭力=基座模型+組織+資料資產+業務場景。大模型將在企業降本增效、構建新的產品和競爭壁壘層面發揮不可或缺的價值。

智譜解決方案負責人吳同
據悉,智譜已經形成了包括語音大模型、程式碼大模型、多模態大模型和超擬人大模型在內的智譜大模型矩陣,其全產品矩陣可以對標 OpenAI。
吳同介紹到,為了讓更多企業在使用通用模型之外能更好的進行微調,智譜釋出了新一代MaaS平臺,客戶僅需準備訓練資料、建立微調任務、部署微調模型三個步驟就可以輕鬆完成模型微調。另外,智譜還發布了一款面向企業的AI Agent開發工具——智譜清流。智譜清流基於智譜全自研大模型架構底座,孵化企業級大模型Al應用開發平臺,整合了多Agent的構建、工作流編排設計、開發、使用和管理,及知識沉澱功能,使得企業能夠迅速定製企業級AI Agent,讓企業無需專業程式設計即可快速構建高效行業應用,推動業務智慧化和效率提升。
除了通義、智譜之外,MiniMax 也面向企業客戶推出了大模型應用解決方案——MiniMax 開放平臺,為企業和開發者提供安全、靈活、可靠的 API 服務,助力快速搭建 AI 應用。MiniMax 商務總監王蘇介紹道,除了MiniMax 開放平臺之外,MiniMax 還為企業級使用者打造了專屬的雲上專區,為企業提供安全性及整體維度上的保障。
據介紹,MiniMax成立於2021年12月,是一家專注於推動通用人工智慧技術突破的科技創業公司,致力於與使用者共創智慧。MiniMax 自主研發了不同模態的通用大模型,其中包括萬億引數的 MoE 文字大模型、語音&音樂大模型以及影像、影片大模型。基於不同模態的通用大模型,MiniMax還推出生產力工具海螺AI、沉浸式AI內容社群星野等原生應用。

MiniMax商務總監王蘇
Soul App、WPS:AI賦能C端場景探索無限可能
在AI的賦能之下,C 端應用又發生了哪些實踐與革新呢?Soul App AI 演算法技術總監劉忠亮和金山辦公 WPS會議 產研負責人吳偉濤分別從社交和辦公的角度,為我們解讀了C 端場景下,AI 所帶來的無限可能。
在社交層面,劉忠亮認為,未來一定存在AI社交的必然。在傳統關係連結方式減弱、個體原子化的趨勢下,AI將成為社交新方式的補充。物件多元化會讓人會更注重情感質量,AI將更高效、更高質的提供情緒價值。科技普惠將讓AI社交的成本急劇下降,AI可以為使用者提供更個性化、更定製化的服務。在這樣的社交趨勢洞察下,Soul 在AI方面的探索一直走到前列。

Soul App AI 演算法技術總監劉忠亮
據劉忠亮介紹,自Soul 的AIGC研發工作啟動以來,Soul X 垂類多模態大模型就持續在超人化、情感化、個性化和多模態方向不斷升級迭代。值得一提的是,Soul自研多模態互動系統升級到第二代後,該模型就擁有了類 GPT-4o 端到端即時音視訊通話能力,且擬人化大幅度提升至接近真人程度。得益於聲網RTC搭建的全雙工架構,第二代自研系統可以實現使用者側端到端的延遲平均1.4秒,最快僅需1秒的效果。
劉忠亮表示,Soul未來在應用探索上將主要圍繞人機協同和人機互動兩大塊。人機協同上,不擅長聊天破冰的使用者可以藉助Soul提供的AI聊天助理、AI分身等,更好、更快的聊起來,高質、高效的建立關係。人機互動上的探索主要集中在社交類、遊戲類以及智慧伴侶、智慧房主等智慧體上。
AI的大有可為不僅僅侷限在社交領域,在辦公協作上,WPS會議也在不斷深挖AI能力,並用其驚人的能力表現為辦公場景提質增效。金山辦公 WPS會議產研負責人吳偉濤表示,目前大語言模型賦能線上會議的主要路徑是將會後音訊錄製、會中即時音訊透過離線/即時ASR模型轉換為轉文字資訊,再利用LLM能力進行文字處理,最終轉換為我們所看到的會議總結、智慧章節、待辦提取、發言人觀點的提取等。
據悉,WPS會議在實踐過程中已經支援雲錄製、AI智慧章節、AI精華紀要、對話詳情、智慧問答等功能。為了讓線上會議更輕鬆的被髮起,WPS還在去年釋出了全新的WPS 365辦公新質生產力平臺,並提供了WPS協作、WPS日曆、WPS雲文件、WPS郵箱在內的工作臺,讓使用者在這些場景下都可以做到輕鬆發起一場會議,會議的資訊也可以在這些應用場景底下很輕鬆地流轉和訪問。與此同時,WPS 365辦公新質生產力平臺還為企業提供了各種可靠的方案,幫助他們完成靈活的部署。
吳偉濤認為,AI驅動會議協作應用場景未來的發展趨勢是,大廠發揮平臺作用,做好基礎功能、開放能力和生態。小廠依託平臺的開放能力,深入垂直場景,實現AI增值。

金山辦公WPS會議產研負責人吳偉濤
AI如何重新定義即時通訊
作為網際網路上最為流行的通訊方式,IM 產品在生活中的應用價值無可替代。儘管如此,但IM產品在應用過程中,仍舊存在著諸多痛點。譬如,C端上歷史資料利用率低 、未讀訊息積壓 、重要資訊難以查詢 、群組活躍度低等問題。在B端上的主要表現為高人力投入和低運營效率 、內容管控難度大 、跨語言溝通障礙等。
針對這些問題,環信IM產品負責人王璨認為,在生成式AI時代下,IM與AI的結合一定會帶來更多的創新,並且能夠有效地幫助我們提升溝通效率。

環信IM產品負責人王璨
在RTE2024 AI論壇上,王璨不僅分享了環信助力星野業務成長的案例以及涵蓋雲市場、PaaS 服務、應用場景在內的環信 IM PaaS 開發工具包,還詳細介紹了環信藉助大模型去解決社交產品C端、B端使用者痛點的解決方案。他指出,在C端的效率維度上,環信IM藉助AI實現了對話摘要、日程安排、訊息編寫以及語言翻譯等場景助力。在情感維度,AI還可以即時提供表情建議、虛擬陪聊以及回覆建議等功能。在B端上,環信IM主要提供了暖場機器人、智慧回答、智慧推薦、智慧管理員等幫助企業降本增效的選項。
王璨表示,我們完全有理由相信,IM產品有望在未來藉助大模型的能力連線數字世界與實體世界,滿足使用者對社交產品的期望。
從多位專家和從業者的分享中不難看出,生成式 AI 正在幫助各行各業的期待從想象變為現實。我們也相信,無論是新質生產力的賦能,還是新社交方式的革新,聲網與 RTE
都將在其中發揮至關重要的價值,攜手共創新時代的繁榮。
往/期/回/顧
