
我們在去年釋出了 OceanGPT 並初步探索了其在海洋科學問答、內容生成和水下具身智慧能力,該工作近期被自然語言處理頂級會議 ACL 2024(CCF-A 類會議)錄用為主會論文。近期我們對 OceanGPT 進行了進一步的最佳化和升級,並將其中的部分能力以開源形式進行了更新發布,主要能力升級包括:
1. 在 OceanGPT-7b 基礎上升級釋出 OceanGPT-14B/2B 兩個新版本;
2. 新增基於 Qwen2 的中文基座的 OceanGPT,提供支援中英文雙語能力;
3. 開源了 20K 規模的海洋大模型指令資料集 OceanInstruct;

OceanGPT: A Large Language Model for Ocean Science Tasks
論文作者:
論文連結:
https://arxiv.org/abs/2310.02031
程式碼連結:
https://huggingface.co/zjunlp/OceanGPT-14B-v0.1
專案連結:
資料鏈接:
https://huggingface.co/datasets/zjunlp/OceanInstruct


海洋覆蓋了約 71% 的地球表面,它在全球的氣候調節、天氣模式、生物多樣性以及人類的經濟發展都扮演著至關重要的角色。海洋科學的研究關注于海洋的自然特性、其變化規律以及與海洋資源開發和利用相關的理論、方法與應用。因此,本文提出了為海洋領域打造的大型語言模型 OceanGPT,它能夠處理面向海洋科學的問答等生成任務。另外本文還嘗試驗證大模型模擬操控水下機器人的潛力,初步探索了大模型驅動的水下具身智慧的可能實現方法。

OceanGPT的訓練(OceanGPT-7B)

資料質量是訓練海洋領域大模型的關鍵。為訓練OceanGPT,我們收集了海洋科學語料,其包含多個子領域。由於每個子領域和主題都有獨特的特徵和模式,我們提出了一種名為 DoInstruct 的領域指令生成框架,採用多智慧體協作的方式來生成海洋科學的指令微調訓練資料。這種方式即可以確保資料的專業性和準確性,也能夠實現高效並行的資料生成效能。DoInstruct 框架利用智慧體(如 GPT-3.5-turbo)作為每個海洋主題的專家,主要包含三大類角色:
1. 演化式的資料合成智慧體:具體來說,智慧體主要採取兩種協同式的策略,一是補充拓展種子樣本的背景知識,二是對種子資料包含的知識點進行細化分析增強和改進;
2. 經過微調的文獻閱讀智慧體:首先對大模型進行微調得到專門用於文獻抽取的智慧體模型,從而能夠使用智慧體從海量海洋語料庫中提取高質量文字;
3. 確保資料質量的稽核智慧體:在這裡預定義了特定海洋科學相關的句法和語義規則,透過提示的方式構建該智慧體,最後能夠過濾資料來確保生成資料的質量。
基於上述得到的指令資料,我們基於開源模型 llama2-7b-chat 訓練得到 OceanGPT-7B,其中部分的指令資料已開源到 OceanInstructions。


從實驗結果可以看到,本文研究的模型在絕大多數任務上優於基線語言模型。與此作為對比,現有的開源大型語言模型並不能夠很好地處理一些需要專業知識的海洋任務。另外我們設計的多智慧體資料生成框架能夠有效地在海洋領域的各個子領域充當專家,這表明 OceanGPT 在各種海洋領域是更好的專家模型。


新升級能力(OceanGPT-14B/2B)
在前述工作基礎之上,近期我們對 OceanGPT 進行了多方面的升級,包括:
1. 對模型基座(基於 Qwen 和 MiniCPM)進行了更新最佳化並開源釋出 OceanGPT-14B/7B/2B 三個模型,其中 2B 模型可支援端側或邊緣側硬體裝置部署,以便更好適配海洋環境下端側或邊緣側的低計算能力裝置。
2. 基於 Qwen 2.0 基座模型,提升模型的中英雙語能力。
3. 對海洋指令資料集進行了擴充套件,覆蓋更為廣泛海洋領域知識,並基於部分指令資料集開源了海洋指令資料集 OceanInstruct(20K)。
4. 新訓練 OceanGPT-V 多模態版本(提供線上演示,即將開源),支援多模態海洋資料(聲吶、科學圖片等)處理能力。
下面以 OceanGPT-14B 為例,展示模型的部分能力。
如給定中文問題“請生成一份東海海域海底管纜的建設方案”,可以發現 OceanGPT 具備較好的海洋科學知識問題的回答能力。首先,從生成內容的豐富度而言,OceanGPT 從“專案概述”、“建設目標”、“線路規劃”、“技術路線”、“環境影響評估與保護”等八個點來闡述問題,比 GPT4 的邏輯性相對較好,豐富度也更高。

為驗證 OceanGPT 英文生成能力,給定英文輸入“請描述東海海域的海底地形地貌特徵”。可以看出 OceanGPT 的描述覆蓋了更多的地形地貌型別,如大陸坡、海溝、淺海平原、環礁和珊瑚島、洋中脊等。而 GPT4 的描述則相對簡單,僅提及了淺海區和深海區。從深度和專業性的角度來看,OceanGPT 不僅描述了地形,還提供了具體的深度資訊和相關地質特徵,如日本海溝的深度和琉球海脊的地質成因,使得描述更加專業和科學。
最後,OceanGPT 清晰地劃分了東海的不同地貌區域,並逐一進行詳細描述,使得讀者更容易理解東海海域的地形地貌特徵。相比之下,GPT4 的描述較為籠統且沒有區域劃分。透過以上對比分析可以看出,OceanGPT 生成的描述在細節、全面性、專業性和區域劃分上相對較好,能夠提供更為準確和深入的海底地形地貌資訊。

,時長01:13
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
