我們之前已經分享了 清華大學 和 北京大學 出品的 DeepSeek 系列教程。今天接著分享一份湖南大學出品的 PDF,內容圍繞著:我們該如何看待DeepSeek——what, how, why, and next?
如果你對 DeepSeek 是什麼,能用它幹什麼,以及它背後的原理都有所瞭解,不防看看這份 PDF 介紹的下一步要關注什麼。
這裡我們仍然會從四個方面簡要介紹一下這份 PDF:DeepSeek是什麼,能用DeepSeek幹什麼,DeepSeek背後的原理,以及下一步要關注什麼。
DeepSeek是什麼?
PDF 首先提到了 ChatGPT 引爆了全球人工智慧的熱潮,它是一個生成式人工智慧(AIGC)和大語言模型(LLM 或大模型),透過 Transformer 這種特殊的神經網路結構來實現文字接龍。而 DeepSeek-R1更像是一個“推理模型”。
推理模型的關鍵在於它不僅僅是直接給出答案,而是能夠像人類一樣進行一步一步的推導(Reasoning)。這意味著 DeepSeek-R1 在數學、程式碼和邏輯等領域展現出更強的優勢。PDF認為,DeepSeek R1是首個展示思維鏈過程的推理模型。
DeepSeek R1還具有以下幾個重要的特點:
-
價格非常有競爭力,甚至提供了網頁聊天免費的功能,降低了使用門檻。
-
它是首個開源的推理模型,使用者可以下載並在本地安裝使用。 -
它在技術創新、訓練和推理效率以及效能方面都表現出色。 -
它的出現使得最前沿的大模型技術能夠被更多人直接體驗。
簡單來說,DeepSeek-R1是一個功能強大、價格合理且開放的人工智慧模型,它不僅能進行對話和生成文字,更側重於邏輯推理和問題解決。
能用DeepSeek幹什麼?
第二部分介紹了 DeepSeek 的各種應用場景,並強調掌握使用AI的思維方法。它透過一些案例展示了 DeepSeek 在不同領域的潛力:
-
寫書:例如,提供編譯原理書稿的案例片段.
-
資訊梳理:例如,對比整理不同AI模型的收費情況。透過DS-R1+聯網搜尋
,可以自動梳理資訊.
-
資料分析:例如,分析某地公務員錄用人員的學歷和專業構成.
-
諮詢分析:例如,分析專家特長並給出研究方向建議.
-
寫程式:例如,編寫抽籤小程式.
-
做教輔:例如,為幼兒園小朋友設計科普講稿.
同時,PDF也提醒我們應該正確理解 DeepSeek 的侷限性。它還不是通用人工智慧(AGI),不能“一步到位”地解決所有問題,需要使用者具備一定的問題拆解、資訊整合和迭代調優能力。DeepSeek 可能會出錯,並且不掌握所有的知識,因此我們需要利用其能力的同時,也要有判斷和篩選能力,善用聯網搜尋和知識庫來輔助. 此外,當前的 DeepSeek 模型主要是語言模型,不能直接處理圖片、影片等多模態資料,並且存在上下文長度限制,不能一次性輸入過多的資訊. 因此,我們需要學會組合多種工具一起使用,取長補短。
總的來說,DeepSeek可以幫助我們處理各種文字相關的任務,提高效率,但我們需要了解它的能力邊界,並掌握正確的使用方法。
DeepSeek背後的原理是什麼?
第三部分簡要介紹了DeepSeek背後的技術原理,核心是 Transformer。
Transformer 是一種特殊的神經網路,現在幾乎所有典型的大模型都採用這種結構. 它可以將輸入的文字(token)編碼成向量(Embedding),然後透過注意力機制(Attention)計算不同token之間的關係,理解每個token在上下文中的含義。接著,透過多層感知機(MLP)進一步理解每個token自身的含義。這個Attention和MLP的過程會重複多次,最終透過解碼(Unembedding)將向量還原成預測的下一個token並輸出. 這個過程就像模型在學習“文字接龍”.
模型透過“訓練”來學習這種能力,也就是將海量的訓練資料知識內嵌到模型中. 訓練過程需要調整模型中大量的引數.資料和引數的規模越大,LLM就越強大. DeepSeek R1/V3就擁有6710億引數. 此外,為了讓模型更好地服務於人類,還需要進行後訓練對齊,例如監督式微調(SFT)和強化學習(RL),以提高模型的可靠性.
簡單來說,DeepSeek 等大模型的核心技術是 Transformer 神經網路,它們透過學習大量的文字資料,掌握了預測和生成文字的能力,並且模型越大、訓練資料越多,效能就越好。
下一步要關注什麼?
最後一部分展望了 DeepSeek 等大模型未來發展的方向。作者認為生態的爆發即將到來,AI技術將更廣泛地應用。
PDF提出了幾個值得關注的環節:
-
算力底座:包括AI晶片(GPU)、高效能網路等,這是大模型發展的基礎.
-
模型演算法:這是大模型的核心競爭力,持續的模型結構和訓練方法創新至關重要。開放對於模型演算法的發展非常重要.
-
系統軟體:包括推理引擎、訓練框架等,技術更新迅速,對使用者提出了更高的要求.
-
行業應用:大模型將在各個行業落地,例如IT、教育、醫療等.知識庫服務平臺可能成為重要的發展方向.
-
公共平臺:例如模型雲服務、API服務等,旨在降低大模型的使用門檻。
DeepSeek 等大模型正處於快速發展和廣泛應用的階段,未來將在算力、演算法、應用等多個層面迎來新的發展機遇和挑戰。瞭解這些趨勢,有助於我們把握未來的發展。相信透過閱讀這份PDF,你會對人工智慧大模型有一個更全面的認識。
獲取完整文件,請👇🏻點選下方關注 MaxAIBox 公號,在聊天框傳送 20250309

