1.字節跳動與中國和新加坡大學研究團隊聯合推出的PhotoDoodle,利用Flux.1模型重新定義影像創作。該系統透過少量樣本學習藝術風格,精準執行編輯指令,極大地提高了創意表達的可能性。
2.B站推出的IndexTTS模型是基於XTTS和Tortoise的GPT風格文字轉語音系統,具備獨特的拼音糾正漢字發音能力和精準的停頓控制。
3.微軟開源了名為“Magma”的多模態AI Agent基礎模型。Magma能夠跨越數字和物理世界,處理影像、影片和文字等多種資料型別,並具備心理預測功能,能夠更準確地理解人物或物體的意圖。
4.ChatGPT的高階語音模式正式向用戶免費開放。該模式基於GPT-4o mini模型,透過最佳化計算效率,效能已接近完整版GPT-4o。
5.DeepSeek在開源周最後一天釋出了Fire-flyer File system(3Fs)和Smallpond資料處理框架。3FS是一種高效能並行檔案系統,專為AI訓練和推理設計,支援大規模叢集的高吞吐量資料訪問,峰值讀取吞吐量達6.6 TiB/s。Smallpond基於3FS和DuckDB構建,支援高效資料處理,可擴充套件至PB級資料集。
6.ElevenLabs 最近推出了其最新的語音轉文字模型 Scribe v1,聲稱在多種語言中達到了最高的準確性。該模型支援99種語言,能夠在複雜音訊環境中準確區分多達32位不同說話者。
想要了解更多AI 行業資訊以及ChatGPT和AI繪畫實戰案例,歡迎加入我們的「網際網路AI早讀課」知識星球!
在這個星球,你可以更加系統的學習AIGC相關知識:
1. ChatGPT和AI繪畫(Midjourney+Stable Diffusion+Photoshop beta)基礎+進階全攻略;
2. ChatGPT和AI繪畫最直接變現案例;
3. 與200+行業先行者連結,積累你的專屬人脈資源;
4. 社群保姆級一站式服務,包教包會包討論;
現在加入,立享99元早鳥價優惠,星球使用者每漲100人,價格上調100元,直到恢復499元原價!
這個風口抓不抓的住,就看你願不願意邁出第一步了!
越晚加入成本越貴!最後兩個名額又要漲價了!
