AI早知道|Kimi開源音訊基礎模型;階躍星辰開源影像編輯模型

1.Moonshot AI最近推出的Kimi-Audio是一款開源音訊基礎模型,旨在推動音訊理解、生成和互動技術的發展。該模型基於Qwen2.5-7B架構,結合Whisper技術,支援多種音訊任務,如語音識別和音訊問答。
2.百度釋出文心快碼Coding智慧體Zulu,是國內首個多模態Al程式設計師。Zulu支援多模態互動,可上傳圖片一鍵生成程式碼,具備自動搭建開發環境、啟動服務等功能,適配主流IDE,能實現程式碼效果即時預覽。
3.階躍星辰正式開源影像編輯大模型Step1X-Edit,總引數量達19B,融合了7B多模態大語言模型(MLLM)和12B擴散模型(DiT),具備語義精準解析、身份一致性保持和高精度區域級控制三大核心能力。
4.清華系智譜與生數科技宣佈達成戰略合作,聚焦大模型聯合創新。雙方將在聯合研發、產品聯動、解決方案整合及行業協同等多方面合作,重點聚焦政企服務、泛網際網路、文化旅遊等垂直領域。
5.阿里巴巴旗下的夸克AI超級框推出了“拍照問夸克”功能,這一創新利用視覺理解和推理模型,能夠快速識別和理解使用者在現實生活中遇到的各種問題。
6.LemonAI 最近推出了其創新產品 Slice Live,這是一款全球首創的即時音影片 AI 模型。使用者只需上傳一張照片,即可與虛擬角色進行即時視訊通話。
想要了解更多AI 行業資訊以及ChatGPT和AI繪畫實戰案例,歡迎加入我們的「網際網路AI早讀課」知識星球!
在這個星球,你可以更加系統的學習AIGC相關知識
1. ChatGPT和AI繪畫(Midjourney+Stable Diffusion+Photoshop beta)基礎+進階全攻略;
2. ChatGPT和AI繪畫最直接變現案例;
3. 與200+行業先行者連結,積累你的專屬人脈資源;
4. 社群保姆級一站式服務,包教包會包討論;
現在加入,立享99元早鳥價優惠,星球使用者每漲100人,價格上調100元,直到恢復499元原價
這個風口抓不抓的住,就看你願不願意邁出第一步了!
越晚加入成本越貴!最後兩個名額又要漲價了!

相關文章