大家好,今天繼續聊聊科技圈發生的那些事。
一、LitGPT
LitGPT 是一款用於預訓練、微調和部署 LLM 的命令列工具。

我們能看到主頁有這樣一句話:
For training the world's largest, most powerful open-source LLMs.
(用於訓練世界上最大、最強的開源 LLM。)
一看到這種最大、最強之類的詞,我們難免心生疑惑。那麼 LitGPT 是怎麼做的呢?
LitGPT 重新實現了所有模型架構和訓練配方:
-
去除所有抽象層,採用單一檔案實現。 -
保證符合 Apache 2.0
標準,使企業使用不受任何限制。 -
最佳化每個模型的每個細節,以獲得儘可能快的效能,從而降低成本和訓練速度。
除此之外,LitGPT 還使用了很多先進的技術。比如用
LoRA
、 Adapter
等進行引數微調,用 Flash Attention
降低視訊記憶體讀寫,提高執行速度等,這都是優勢所在。
另外,對於自行部署 LLM ,LitGPT 提供了 20 多種現成的 LLM 可供使用,其中不乏有許多我們耳熟能詳的模型,比如 Llama 2。你可以使用這些模型配合自己的資料進行微調、預訓練等。
專案的部署也很簡單,用
pip
直接安裝即可。剩下的內容,比如使用、預訓練等操作,作者團隊在專案主頁也已經給出了完整的教學。
專案已經開源,想體驗的小夥伴可以自行關注一下。
專案地址:
https://github.com/Lightning-AI/litgpt
二、Parler-TTS
Huggingface 最新推出的 TTS 模型,支援多種語言,支援個性定製化,使用非常簡單。
對於先前常見的 TTS 模型,我們通常會選擇語言、說話風格、語速等引數。但是 Parler – TTS 是沒有這些可調引數的。那麼,我們要如何定製我們想要生成的聲音資訊呢?
我們來看一下 Parler – TTS 的 prompt 例項,其中包含兩個部分:
-
Input Text 輸入文字 -
Description 描述

在這個 Description 部分,我們可以透過文字輸入,提供我們想要的語音風格描述,比如聲音的性別,語速快慢,音調高低,甚至是背景音的嘈雜程度和說話的清晰度。
另外,Parler – TTS 是完全開源的,包括權重資訊、資料集等等。如果有誰想要在它的基礎上進行一些“私人訂製”或是微調,都是完全能實現的。
對於Parler – TTS 的本地安裝,有多簡單呢?一行程式碼!
pip install git+https://github.com/huggingface/parler-tts.git
說了這麼多,我們回到這段話的開頭,它的作者可是 Huggingface ,既然是 Huggingface 自己做的,想必我們一定能線上體驗了吧?
答案是肯定的,不過這玩意目前還不支援中文。在此,我們就可以想象一段在未來用 Parler – TTS 生成的主播音:上鍊接。
線上體驗地址:
https://huggingface.co/spaces/parler-tts/parler_tts_mini
專案地址:
https://github.com/huggingface/parler-tts
三、InternLM-XComposer2
InternLM-XComposer2 ,一款圖文多模態大模型,它還有個超帥的中文名字——浦語·靈筆2。
InternLM-XComposer2 有兩塊大功能,一個是建立圖文並茂的文章,另一個是多模態對話問答。
InternLM-XComposer2 可以理解多種形式的圖文指令輸入,包括大綱、文章細節要求、參考圖片等,生成圖文並茂的文章,例如專案團隊展示的 demo,生成了一篇介紹熊貓的文章。

InternLM-XComposer2 具有海量圖文知識,可以準確的回覆各種圖文問答難題。比如你可以在上傳數學題的同時,把題目的參考影像一起發給 InternLM-XComposer2,就不用讓它根據描述自行想象了。你也可以透過重複懲罰等引數調節,進行對話內容的微調。

InternLM-XComposer2 的效能表現也非常不錯。在13項多模態評測中,InternLM-XComposer2 大幅領先同量級的多模態模型,在其中6項評測中超過 GPT-4V 和 Gemini Pro。

作者團隊也給出了本地部署的安裝教程,包括環境的配置,使用案例指導,多 GPU 條件下的指令碼,4bit 模型的依賴等。我們也可以線上體驗到這款優秀的模型。
線上體驗地址:
https://huggingface.co/spaces/Willow123/InternLM-XComposer
對於這個專案,作者團隊還在不斷更新,我們可以期待一下後續的發展。
專案地址:
https://github.com/InternLM/InternLM-XComposer
四、30 Days Of Python
30 天,學會 Python !
一進專案的主頁,撲面而來的就是令人倍感舒適、整潔有序的資料夾。

30 Days Of Python 這個專案,主要是一個 Python 教學向的大目錄。為什麼在此作出推薦分享呢?因為它實在是太精細了。
我們來簡單看看文件部分:
在 01 章的 Introduction 中,直接從如何安裝 Python 環境開始,再到簡單的語法教學,如何看報錯資訊,甚至教你如何安裝使用 VS Code !前人栽樹,後人乘涼,確實是少走了很多彎路。至少對於一個從來沒有接觸過 Python ,甚至是程式設計的小白來說,配置程式設計環境也算是一道坎了。

在每一個章節的最後,作者團隊也留下了練習,可以供初學者們加以鞏固。有沒有一種老師留課後作業的感覺?

我們再往後看看,往後的幾章涉及到了變數、函式、字串等基礎的知識,越往後,學習到的內容就越深、越全面。比如,到了 Day 21 ,接觸到了類和物件;更後面的 Day 25 ,使用 pandas 庫處理資料,建立 Dataframe 等;尾聲的 Day 28 、 Day 29,涉及 API 的使用和建立。

如果真的能抽出一些時間,完整的跟隨這個專案進行為期一個月的學習,我相信初學者一定會受益匪淺,提升一大截程式設計水平。而“老鳥”們也一定會在這樣一份幹練的學習計劃中,查缺補漏,加深記憶,同樣有所收穫。
再說回來,這份專案是全英文的,無論是對於在校生還是在職者,會不會也能順便提升一點英文水平呢?一試便知,感興趣的小夥伴可以點進專案主頁看看。
專案地址:
https://github.com/Asabeneh/30-Days-Of-Python
好了,本期的內容就是這麼多,我們下期再見!
關鍵詞
模型
多模態
預訓練
資訊
預訓練