全球首個寵物翻譯器,上線爆火

▲ 設為星標,以防失聯
近期,谷歌推出DolphinGemma大模型,
稱將讓人類聽懂海豚的語言,
實現人與海豚在水下的即時交流。
另一個由華人團隊研發、面向全球英文使用者的
人狗交流應用Traini在去年6月出現,
成為全球首個實現人寵語言互譯的AI原生應用。
AI正步入跨物種交流領域,
拓寬著人們對非人類語言理解的邊界。
一條聯絡了TrainiCEO孫鄰家,
他是80後、中國人,老家在吉林長白山。
我們與他聊了聊
AI新技術對人寵交流領域的影響,
01探索過程中的挑戰,
以及他三年來身處行業內部的感受。
除此之外,我們還想知道:
當人類暫時離開語言的中心,
開始嘗試建立起與非人類語言平等對話的可能,
在新奇感過後,AI+跨物種交流
對我們具有怎樣的意義?
注:AI原生應用(AI-Native Application):指以人工智慧為核心驅動力設計開發的應用,而非簡單將AI作為附加功能嵌入已有架構。
編輯:藍雨約
責編:魯雨涵
孫鄰家,80後,吉林長白山人
知名投行高盛近期的一份報告顯示,中國的寵物數量首次超過4歲以下嬰幼兒總量。同時根據艾媒諮詢的資料,2023年中國寵物經濟產業規模就已經達到5928億元。
根據《2025寵物品牌網紅營銷生態報告》,以年輕群體為代表的養寵人多將寵物視作孩子朋友,呈現出情感消費與擬人化養寵的趨勢。
這樣的需求也催生了相關產業,比如幾年前備受爭議的寵物靈媒師,他們透過有關物件與寵物進行跨物種精神交流,並將寵物的處境、言語等以人類語言的方式轉達主人。
在這樣的情況下,孫鄰家等三位華人研發的Traini,作為全球首個AI人狗翻譯器,一經上線就引起了國內外網友的好奇和關注。
海外使用者試用Traini
開發AI人狗交流應用的想法源自孫鄰家創業過程中的一次使用者調研。
2018年,孫鄰家來到美國,面向當地亞裔做亞洲餐外賣平臺,後來開始拓展送狗糧的業務。
在一份有2200名使用者反饋的送狗糧業務的調研結果中,他發現有76%的使用者對理解自家寵物狗的行為感興趣,其中多數人還曾花錢給狗狗上過行為糾正的相關課程。
孫鄰家現在還記得一條留言。那是在患癌狗狗的臨終時刻,它的主人告訴他自己當時很想聽懂寵物犬的聲音,想知道它最後想對自己說的話。
他還在夏威夷的一家餐廳遇見過一位當地老人。這位老人的狗狗一身亮金色毛髮,性格沉靜,很少吠叫,總睜著一雙水汪汪的大眼睛張望。時間久了,老人特別想知道它每天都在想什麼。
這也讓他想起自己小時候在老家吉林長白山養狗的經歷。在那時還是孩子的他的眼中,小土狗吠叫就是在說話,從個人角度說,做人狗交流也是想實現小時候和狗狗對話的美好願望”。
Traini的應用介面
經過2年的研發,Traini誕生了。人們可以上傳寵物狗的叫聲、圖片和影片,獲知狗狗包括快樂、恐懼及其更細微情緒等12種情緒及衍生的行為表現,並得到一段人類語音與文字相結合的共情口語化翻譯。
孫鄰家告訴我們,狗狗的語言分為心智語言和社會語言。心智語言多是基因中帶來的,可以直接翻譯回去;社會語言就像我們小時候學語言一樣,和狗狗的受教育程度有關。
另外,跟狗的品種也有關係,比如邊牧可能就學得更快,詞彙量就會更大
透過與動物行為專家合作和模型訓練中的交叉驗證,該模型將寵物狗行為翻譯成人類語言的準確率已達到81.5%
而在將人類語言翻譯成犬吠方向,人們可以將看我一起走等18個短句轉換成犬吠,此部分的寵物犬反應程度各不相同。
在國內社交平臺,也有好奇的養寵人給自家狗狗做了嘗試。其中有人幽默地吐槽:聽不懂,難道是沒給報英語課。
孫鄰家解釋說,狗狗是有方言的。也就是說,對這個以面向英文使用者為主的AI原生應用而言,它聽不懂中國狗是完全有可能的。
當然還有一種可能,就是狗狗聽懂了,但是它不想做。就像一個小孩子在打遊戲,你跟他說別打遊戲了,去做作業,小孩聽懂了,但他就是不想。
孫鄰家在國際消費類電子產品展覽會(CES)上
CES有全球科技創新和消費電子行業的“風向標”之稱
在更早的約20年前,依託機器學習技術的人寵溝通已有初步嘗試。
彼時,日本聲學專家鈴木松美透過收集東京某寵物醫院的共5000多份犬吠聲樣本,並依據其音調、長度等特徵解讀情感,發明了能夠單向解讀家犬情緒的寵物犬翻譯器
而如今,隨著人工智慧技術的不斷發展,AI+人寵交流正成為一個新興的探索方向。孫鄰家成為第一批踩上這個風口的人。
2022年,OpenAI釋出ChatGPT,大型語言模型(LLM,是一種基於Transformer架構的深度學習模型,透過自監督學習從海量文字資料中捕捉語言規律,生成符合人類語用習慣的文字,並具備翻譯、對話、推理等多種能力)進入公眾視野。一年後,GPT實現文字、影像和音訊的多模態處理,LLM的應用場景得到擴充套件。
LLM讓孫鄰家看到了人寵交流在技術層面的可能性——“我覺得應該用這種形式滿足使用者,但動物這個方向基本就沒人做,做寵物的就更沒人了
孫鄰家(右)與合夥人Jason(左)
在美國華人科技組織華源科技協會(HYSTA)的年會上
Traini在2024年獲得該協會頒發的
最受使用者喜愛獎(Audience Choice Award)
2023年,孫鄰家在一次矽谷的創業活動上認識了現在的公司人工智慧主管兼合夥人Jason。他曾是OpenAI的華人工程師。
鑑於在前公司不太滿意的幾次產品開發嘗試,以及同為寵物愛好者,Jason被藉助AI技術具像化寵物行為與情感並擬人化為人類語言的新嘗試吸引,最終加入。
目前,這款由團隊自主研發的寵物行為翻譯共情模型被命名為寵物情緒與行為智慧(PEBI
簡單來說,就像是訓練其他AI模型一樣,把不同品種、不同地區狗狗的語音、表情、行為等多模態資料,投餵給PEBI,最後模型就能理解狗語了。
與科學家根據犬類行為分析和解讀情緒與意圖不同的是,PEBI模型還能夠基於已有資料庫預測寵物犬在下一秒的情緒變化。如果預測成功,那在人寵共情和互動的體驗上又會更好。
從共情的角度出發,根據寵物犬行為翻譯而來的人類語言,除了儘量準確地傳達意思之外,還要儘可能精準體現人與寵物犬之間深厚而獨特的情感,這是自研發期間就一直存在的最大難點。
狗狗在養寵人心裡其實很多是孩子的形象,都是個性化、獨一無二的。如果想要模擬這種對毛孩子講話的形式,還要模擬孩童的說話狀態和用語習慣,營造角色代入感。
為此,孫鄰家和團隊成員在聲音克隆階段先後嘗試了機器語音、自己和合夥人試錄的形式,但發現無論是聲音效果還是說話方式,都達不到理想效果。直到一次會議上一位合夥人的兒子偶然說話,忽然讓他們找到了想要的聲音。以孩子錄製的語料為基礎,他們才得以確定下初版的口吻和音調。
Traini還能看懂狗狗的面部表情、身體行為等語言
髒話也成了影響情感共鳴的考量因素。狗狗不開心了,它可不可以說髒話?
孫鄰家覺得,既然狗狗被當作了和人一樣的家庭成員,它們雖然無法真實地說出人類語言,但在將它們的憤怒翻譯成語言的時候,或許可以嘗試做個語義拓展,適當加入一些人類在情緒失控時會說的髒話。
人在發飆的時候,有時候也說那些話,這樣更貼近我們真實的生活。
此外,如何獲取更豐富、大量的資料,並做資料標註,是實現人寵交流的第二大難點。不夠充足的資料樣本,便難以保證翻譯的準確度。Traini的資料來源主要來自應用平臺的使用者社群,覆蓋了120個狗的品種。
不光是品種,寵物狗的地域差異、與人交流互動的水平等因素都左右著犬類行為和情緒表達的多樣性。這意味著即便是同一品種的寵物犬,其行為表達也可能不同,如果僅憑單一因素做翻譯解讀,結果也可能不準確。
目前,TrainiPEBI模型所收集的寵物狗資料大量來自北美和歐洲等主要使用者群上傳的寵物資訊,在地域和品種上的涵蓋範圍不夠全面,翻譯的準確度依然有待提升。
大西洋斑紋海豚群
圖片來源:Google Blog
2022年剛開始探索人寵交流相比,孫鄰家感到身邊的環境已經發生了不小的變化。
起初人們會問他,市場對寵物行為理解到底有沒有需求,但現在大家的反應更加熱切——“他們會說,Wow你們好酷,還能做什麼,能做貓嗎?
今年5月初,國家智慧財產權局也公開了百度的一項動物語言轉換專利。和Traini的嘗試類似,該專利運用大模型、多模態等人工智慧前沿技術,透過分析動物的聲音、表情、動作等資料來識別情緒與情感,並將結果轉換為人類語言。
而在更廣闊的AI+跨物種交流領域,在動物福利與養殖層面,藉助AI技術翻譯家豬、綿羊的情緒與處境的研究已經在海外出現。
DolphinGemma可將海豚的獨特哨聲視覺化
圖片來源:Google Blog
近年來,也有越來越多的科學家將人工智慧應用於野生動物研究,探索動物行為理解的新邊界,開拓動物保護、生態修復的新途徑。
今年的世界海豚日,谷歌推出了一款即將在夏天開源的DolphinGemmaAI大模型,稱該模型將實現與海豚進行水下即時交流,並能夠預測它們的下一個發聲。
值得一提的是,即便DolphinGemma吸收了30年的海豚研究資料,但它僅有400M大小,適合在手機端使用,這也為科研人員開展研究帶來了便捷。
海洋中的抹香鯨
圖片來源Project CETI官網
與此同時,一項由國際科學家團隊發起、《國家地理》支援的鯨語翻譯計劃”(Project CETI)也正在進行。
該專案中的一項研究將透過人工智慧領域下的自然語言處理系統(NLP)分析抹香鯨的40億個交流程式碼,破譯抹香鯨的對話內容。未來,該研究團隊還計劃開發和部署能與野外抹香鯨溝通的互動聊天機器人。
在《聽不見的大自然》(The Sounds of Life: How Digital Technology Is Bringing Us Closer to the Worlds of Animals and Plants)一書中,作者兼牛津大學環境地理學博士凱倫·巴克還談到了藉助AI模擬健康珊瑚礁的聲音吸引珊瑚幼蟲前來修復珊瑚礁的可能性。
書中提到,由於生物聲學、人工智慧和其他數字技術的進步,人能聽到和理解越來越多的“非人類聲音”,建立起動物語言的資料庫,未來可能真的會誕生“動物版谷歌翻譯”。
在與美國科技媒體Recode的對談中,凱倫·巴克如此解釋為何要追求跨物種的溝通:
在科學體系與公共話語中仍有人類例外論的殘留,我們希望相信人類在某些方面的獨一無二……或許當我們完善對非人類語言的理解時,我們會對語言有一個更包容的定義。

相關文章