
新智元報道
新智元報道
編輯:定慧
【新智元導讀】谷歌推出全新DolphinGemma大模型,基於30年海豚研究資料訓練的AI模型正試圖破解海豚的語言密碼。僅有400M引數的輕量級模型能在普通Pixel手機上執行,不僅能識別海豚聲音模式,還能預測它們的下一個發聲——就像LLM預測下一個詞一樣。
你是否曾經好奇過海豚神秘的聲音在說什麼?
現在藉助AI的力量,可以實現「人與海豚」的跨物種交流。
谷歌推出了一款名為DolphinGemma的創新AI模型,不僅能聽懂海豚說什麼,還能在水下和海豚即時交流。
聽起來很科幻,但這是真的!看來人類對AI的開發還不足1%。
DolphinGemma是一個基礎LMM模型——但是使用音訊資料來訓練——來學習海豚發聲的結構並生成類似海豚的聲音序列,也是第一個能和動物交流的LLM。
Google的CEO Sundar Pichai也表示「這朝著實現跨物種交流邁出了非常酷的一步」。
同時Pichai也宣佈了將在夏天開源這個模型,也許你可以帶著這個模型去水族館展示一下超能力了。
因為這個模型足夠小,只有400M大小,可以部署在一臺手機上。

幾十年來,理解海豚的哨聲和爆發脈衝一直是科學前沿。
如果不僅能聆聽海豚,還能充分理解它們複雜交流的模式,是否能打破人類和其他物種的交流障礙?

DolphinGemma打破交流障礙
LLM能預測下一個詞,DolphinGemma也能預測海豚想要說什麼。
DolphinGemma利用了Google特有的音訊技術:SoundStream分詞器高效地表示海豚聲音。
這些聲音隨後由適合複雜序列的模型架構處理。
DolphinGemma的引數只有400M,可以直接部署在Google Pixel手機上。

左側:DolphinGemma 早期測試中生成的哨聲(左側)和爆發脈衝(右側)
DolphinGemma基於Gemma構建而成,Gemma是Google 的輕量級、最先進的開源模型,這些模型採用與Gemini模型相同的研發和技術。
和我們熟知的文字LLM類似,但是DolphinGemma是一個音訊輸入、音訊輸出的模型。
它能處理自然海豚聲音序列,以識別模式、結構,並最終預測序列中可能的後續聲音,就像LLM預測下一個單詞或Token一樣。

海豚資料集:WDP數十年的堅持
想要和海豚「溝通」是一項艱鉅的任務。
多虧了WDP的龐大、標記資料集,為這項前沿AI研究提供了獨特的機會。
自1985年以來,WDP開展了世界上持續時間最長的水下海豚研究專案,對巴哈馬特定社群的野生大西洋斑點海豚(Stenella frontalis)進行了跨代研究。

這種非侵入性的、以「在他們的世界,以他們的方式」為原則的方法,產生了豐富而獨特的資料集。
數十年水下影片和音訊,與個體海豚身份、生活史和觀察行為仔細配對的資料。

一群大西洋斑點海豚,Stenella frontalis
WDP長達數十年的觀察工作至關重要。
最終目標是理解這些海豚的聲音序列中的結構和潛在含義——尋找海豚語言中模式和規則。
這種對自然交流的長期分析構成了WDP研究的基礎,併為任何AI分析提供必不可少的上下文資料。

左邊:一隻母斑點海豚在覓食時觀察她的幼崽。她會使用她獨特的簽名哨聲在幼崽完成活動後叫它回來。右邊:用於視覺化海豚哨聲的頻譜圖

用Pixel手機和海豚交流
有了資料,也訓練好了模型,如何讓DolphinGemma的聲音被海豚聽到呢?
WDP與佐治亞理工學院合作,開發了「鯨目動物聽力增強遙測」 (Cetacean Hearing Augmentation Telemetry,CHAT)系統,一種水下計算機。
CHAT不是直接破譯海豚的複雜自然語言,而是建立一個更簡單、共享的詞彙表。
透過在人類之間演示系統,研究人員希望天生好奇的海豚會學會模仿這些哨聲來請求她們喜歡的特定物體。
最終,隨著更多海豚自然聲音的理解,它們也可以被新增到系統中。
CHAT的新一代系統將以Google Pixel 9為基礎,整合揚聲器/麥克風功能,並利用手機的先進處理能力。
使用Pixel智慧手機減少了對自定義硬體的需求,縮小了裝置的成本和尺寸,極大方便了在公海就行研究的科研人員。

一臺Google Pixel 9在最新的 CHAT 系統硬體內部
部署在手機上的DolphinGemma也可以幫助CHAT在海豚發聲序列的早期預測和識別潛在的模式。

跨物種交流,AI搞定
不得不說,Google推出的DolphinGemma還是值得點個大大的讚的。
在當下巨頭們都在「卷模型」的時候,DolphinGemma不僅另闢蹊徑,同時也讓我們看到了更多AI的可能性。
在探索更多AI應用的同時,也給更多的類似WDP這樣數十年如一日堅持科研的團隊帶來了更多的機會。
AI對於我們的生活的影響還遠遠沒有結束。
DeepMind的CEO Hassabis透露說,未來計劃與更多的高智商動物進行交流,比如家裡的狗。

Hassabis說他想知道自己家的狗在說什麼。
誰說不可能呢,也許未來每個人都可以藉助AI直接和你的貓狗進行交流。
這個畫面想想還是非常喜感的。

參考資料:
https://blog.google/technology/ai/dolphingemma/
