Speak:用LLM重塑語言學習,再造一個Duolingo?

作者:haina
編輯:Siqi
排版:Scout
從 Coursera、可汗學院,Vipkid 再到 Duolingo,如何將稀缺的優質教育供給規模化是所有教育科技公司的核心命題。當 LLM 能夠 “Copolit 一切”時,是否能夠藉助 LLM 讓每個學習者都擁有自己一對一的老師、真正實現教育個性化成為市場對 AI 改造教育服務的預期。
隨著 GPT-4 釋出,Duolingo、Chegg、可汗學院等教育科技公司在原產品基礎上釋出了 AI Tutor 的相關功能,OpenAI 生態基金也投資了 Speak、Class companion 等創業公司探索 LLM 和教育的結合,Sam Altman 也曾多次表示過對 AI 將對教育產生的影響尤為興奮。
作為 OpenAI 生態基金的首批 Portfolio,創立於 2016 年的 Speak 在 2023 年之前主要針對日韓市場使用者提供線上英語學習產品,在 GPT-4 釋出後,團隊基於 LLM 和語音識別的 AI 技術上線了口語練習場景的 AI Tutor,提供更沉浸、互動性的口語練習體驗。在日韓英語學習市場驗證後,Speak 除了拓展更多國家市場,還計劃上線西班牙語、法語等多語種學習,其產品定位更像是“口語版多鄰國”。
除了 Speak 之外,我們還觀察到,也有不少早期團隊積極接入 GPT-4,想透過 AI Tutor 的功能找尋新的發展機會,就現階段而言,AI Tutor 的體驗相當同質化。
AI Tutor 本質上只是一個功能,它在一定程度上可以為產品提供差異化的體驗,但並沒有徹底顛覆教育產品的邏輯,好的教育產品體驗一定離不開課程研發、使用者洞察、課前課後全鏈條環節設計等,顯然,已經擁有大量使用者和課程開發經驗的頭部公司壁壘明顯。對於 Speak 而言,雖然團隊已經在日韓完成了第一階段的發展,在接下來的市場和使用者拓展中,找到自己的差異化、同時配合 GTM 策略是下一階段的重點。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 什麼是 AI Tutor?
02 什麼是 Speak?
03 商業化
04 競爭格局分析
05 關鍵問題
06 LLM 結合語言學習的技術探討
01.
什麼是 AI Tutor?
線上教育的創新本質上都在解決“如何規模化優質供給”的問題:Coursera  用錄影的方式實現全球 Top 級大學經典課程這一稀缺教育資源的規模化,國內市場中,Vipkid 的創新在於用差異化的“北美教師”供給和線上授課的方式降低了少兒外教的門檻。

從成本和教學體驗維度來衡量,我們可以把現有的學習解決方案進行簡單分類:
1)基於錄播課的非同步學習公開資源和工具(如 Youtube 影片、google 翻譯、慕課等免費錄播課);
2)工具類服務,將學習中的某類需求或學習過程抽象為標準化產品,例如Chegg、Duolingo 等;
3)真人老師的即時授課,包括線上、線下的大班課和 1對1 私教。
綜合來看,對於學習者來說,體驗最好的一定是 1 對 1 教學服務,但成本最高。隨著 LLM 和其他 AI 技術的成熟,用 AI 來複刻真人課堂環境、甚至更進一步模擬過去只有真人教師才能提供的即時互動成為可能,即 AI Tutor,本質上是用技術規模化教師供給,低成本的實現真人授課。
現階段 AI Tutor 最典型的產品形態就是“解釋錯題”,例如,Duolingo Max 可以為使用者講解錯題的原因、給出具體指導,還可以讓使用者和 AI 進行 Roleplay 對話練習語言。此外,還有產品藉助日益成熟的 AI 語音識別、Avatar 技術提供“AI 教師”功能,以一種更沉浸式、擬人化方式實現 AI Tutor 功能,OpenAI 投資的 Speak 就是其中的典型代表。
現有教育產品整合 LLM 推出的  AI tutor 功能
雖然現階段 AI Tutor 的效果和傳統 1 對 1 私教仍存在一些差距,但已經很大幅度改變使用者在學習過程中的互動體驗,對話式問題解答功能的引入使得學習不再是單向的知識傳遞,而更像是與一個智慧夥伴進行深入互動的過程。
02.
什麼是 Speak?
Overview
Speak 是由 Connor Zwick 和 Andrew Hsu 在 2016 年在舊金山創立的一款語言學習產品,在其創立早期就積極探索 用 AI 提升語言學習的效率和體驗。Speak 早期主要專注於韓國的英語學習市場。目前 Speak 在韓國蘋果商店 “教育應用”中排第一名。2023 年之前,Speak 重點放在課程研發,累計開設了近 1500 萬節英語課程。2023 年開始國際擴張、多語種擴張,目前產品已在日本、德國、法國、巴西、墨西哥等 20 多個國家上線。
2022 年, Speak 獲得 OpenAI Startup Fund 及頭部矽谷基金的支援,融資 2700 萬美元,2023 年 8 月又融資 1600 萬美元,估值在不到一年的時間裡翻了一番。
作為 OpenAI 的合作伙伴,Speak 提前獲取了 GPT-4、Whisper 的使用權以及微軟的 Azure 資源,透過和 Speak 的語言學習系統、教學法相結合,開發語言學習的 AI Tutor ,目標是為使用者提供更準確的即時反饋、提升使用者的語言學習體驗。Speak 的 CEO 認為,高度個性化和語境反饋只能使用 GPT-4 開發,GPT-4 是對早期語言模型的實質性改進。
產品
Speak 主打的是口語學習,希望透過 AI Tutor 讓使用者像和真人教師對話那樣一樣不斷進行口語練習,再基於 AI 提供的發音、語法、詞彙等方面即時反饋不斷完善語言學習。
Speak 首先會由專業教研人員設計框架和內容,這個過程主要以教研和使用者研究為主導,團隊也會藉助 LLM 進行課程研發中的頭腦風暴、效率提升。根據學習者的水平,Speak 將課程分為基礎初級、進階初級和實力中級三個等級。每個等級內有約 30 天課程設計。總體上,Speak 目前的可能內容較為基礎,更適合入門的學習者。
Speak 目前已經從韓國拓展到了日本、美國等多個地區市場,課程內容上也在英語之外開始開發西班牙語、法語等多語種課程體系。在教研設計上,Speak 會有自己統一的原則,比如讓使用者在最開始的 30 秒內就要開口說話,課程設計中也要考慮單詞、語法和口語同步學習的融合。Speak 每個地區會有專門的教研負責人,早期內容以韓國教程版本為基礎,之後的課程會同時考慮通用版和細化版,平衡 Go-to-Market 和提升教學效果的需求。

Speak 的課程分為三部分,影片課、口語操練和角色扮演。目前影片課程主要由真人錄製,口語操練是預先設定的題目,而角色扮演就是集成了 GPT-4 能力的 AI Tutor,也是 Speak 主打的點。
Speak 的 AI tutor 主要體現在角色扮演和話題暢聊兩部分。使用者首先在特定主題下與 AI 進行開放式對話。系統也會給到發音、語法、詞彙等方面的反饋,例如怎麼調整句子可以讓表達更自然、更簡潔等,和 Duolingo Max 類似。
在實際體驗中,Speak 的 AI Tutor 確實可以針對使用者的說話內容給予靈活的回答,同時又儘可能地將聊天內容引回學習主題,也能對使用者的回答給予合理的反饋建議。比如在“返回工作崗位”這個場景下,一次建議今天晚點時候討論進度、一次建議馬上討論進度,AI 都能合理的回應,並且確保使用者學習到“discuss the details”“set up a meeting”等該場景下的短語。Speak 的 AI 語音也比較自然,但回覆速度存在一定的延遲,仍無法達到與真人互動的沉浸感。
Speak 沒有免費模式,必須付費才能使用軟體,在開啟訂閱後有 7 天免費試用期,訂閱分為兩檔:
• Premium 計劃:$99.99/年,每月 2000 個 AI 家教積分;
• Premium plus 計劃:$ 234.99/年,每月 10000 個 AI 家教積分。
家教積分對應的是使用者和 AI Tutor 的對話字數,每和 AI 對話一個詞即 1 積分。在我們的實際測試中,2000 家教積分學習 5 天就會消耗完,這也意味著如果使用者想天天和 AI 對話,只靠 Premium 計劃遠遠不夠,對於有強剛需的使用者,更適合的選擇是 Premium Plus 方案。
Speak 的定價和  Coursera、Udemy、Skillshare、Duolingo 等其他線上教育產品的費用基本一致。
和真人外教對比,我們也能感受到 Speak 對這類服務價格的指數級下降:
團隊及創業故事
Speak 的創始人為 Connor Zwick 和 Andrew Hsu,是“小天才+小天才”的組合。兩人從 2014 年起就開始了對於 AI 的持續研究,在適應和利用 AI 新進展方面有足夠的靈活性。
Connor Zwick 為 Speak CEO,中學時就開始學習程式設計,他在 Cyberantix 網站撰寫的程式設計的文章閱讀人數達到數百萬人。他在高中時就建立了語音學習應用 Flashcards Plus,透過把語音單詞和短語製作成電子學習卡片,讓使用者反覆練習學習語言。Flashcards Plus 全球使用者最終達到了 500 萬人,2013 年被 Chegg 收購,這也讓 Connor 獲得了進入哈佛大學學習的機會。
Andrew Hsu 是 Speak 的 CTO,小時候因為太聰明所以接受家庭教育(Home-Schooling),他的天才故事曾被 NBC 報道,16 歲時就獲得了華盛頓大學的生物化學、神經生物學、化學三個學位,隨後在斯坦福大學完成了神經科學和生物工程的博士學位。
Connor  和 Andrew 在參與 Thiel Fellowship 期間相識,二人都對 AI 非常感興趣,一起閱讀相關論文,聽伯克利大學的 AI 課程自學人工智慧。這期間,他們一起搭建了一個檢測人們口音的語音識別系統,僅使用 Youtube 的隨機資料就取得了非常準確的結果。

💡

Thiel Fellowship:
由 Peter Thiel 在 2011 年創立,也被稱為 “20 Under 20”,每年錄取 20-25 人,報錄比低於 1%,該獎學金旨在為 23 歲(創立之初是 20 歲)以下的學生提供兩年總計 10 萬美元的資助,並提供創業指導和其他資源,包括:請教相關領域的科學家、投資人、協助組建團隊、在技術、市場、設計等方面提供幫助等等。
2015 年左右,他們意識到只要給模型足夠的資料,模型的效能會越來越好、最終超過人類,所以決定利用 AI 建立一個語音學習產品。大多數語言學習軟體僅可以幫助使用者學習基本詞彙和語法,但想要達到流利的水平,都需要在互動環境中大聲說話,之前人們獲得這種練習的唯一途徑是透過人類導師,這是困難且昂貴的。所以他們從語音識別做起,再結合高質量的語音合成,製作出逼真的對話系統,幫助語言學習者提高口語能力。

這成為了 Speak 產品的雛形。

2022 年 9 月開始,他們獲得 GPT-4 使用許可權後開始嘗試將其融入 AI tutor。Connor 認為,語言學習是少數即使 AI 系統還不完美,也可以被使用者接受的領域之一,因為語言學習可以容忍一定的錯誤,使用者還是可以從互動中獲得收益,這和其他要求非常高精度的領域不同。長期來看,如果 AI 系統獲得足夠的資料和經驗,其教學能力也會不斷增強,甚至超過人類老師。這將極大地提高教育效果,使更多地區的學生受益。Speak 表示未來也會考慮進一步擴充套件到其他教育領域。
PMF 和使用者增長
雖然 Speak 的誕生源於 Connor Zwick 和 Andrew Hsu 二人想要 AI 改造語言學習的想法,但 Speak 在最初幾年沒有在機器學習方面投入太多資源,而是專注找 PMF 和打磨產品,在和不同國家的使用者交流後(包括韓國、日本、歐洲),團隊最終選擇語言學習市場成熟、對產品要求高的韓國作為早期目標市場,創始人在一次採訪中表示, Speak 會不斷地進行 A/B 測試去迭代修正課程邏輯,而不像很多英語 app 將絕大部分重點都放在營銷上。
Speak 在韓國的成功離不開建立的優秀本地營銷團隊。2023 年 Speak 開始重點擴充套件日本、美國市場,在當地市場推廣中,也採取了搭建本地營銷團隊、深入瞭解當地需求的方式。

💡

Duolingo 運營總監 Gina  在 Duolingo 使用者數量只有 300 萬時加入,領導增長團隊 5 年後,Duolingo 的使用者數增長到 2 億。Gina 認為人性的核心需求是相通的,不應過分強調不同文化的差異,在不同國家的推廣中不會過度關注每個國家的差異,而是將全球使用者視為一個整體:
• 儘可能統一全球產品,避免為每個國家做定製化調整,降低開發和維護成本;
• 新功能先在一個國家測試,效果好則在全球範圍內推廣;
• 把營銷資訊本地化,但核心訴求保持一致。
參考 Data.ai 的資料,Speak 2023 年 10 月的 DAU 為 7 萬左右,MAU 為 65 萬左右,呈現波動上漲。使用者主要來自韓國(約 50%)、日本(22%)、美國(10%)、墨西哥(8%)以及臺灣、香港等地區,可見除了韓國市場,Speak 在日本、美國也獲得了一定的 PMF。
Speak MAU
不過,不同地域的使用者畫像差別較大,韓國地區以男女比例約為 4:6,25-44 歲的使用者佔比達 50%,16-24 歲使用者佔比達 40%,屬於典型的求職、求學需求;而日本地區以 45 歲以上的女性使用者為主,美國地區男女比為 6:4,45 歲以上使用者佔比達到約 50%,25-44 歲的使用者佔比達到約 40%,可以簡單猜測,日本、美國等市場使用者除了求職、移民等功能性需求外,也有一些非目的性的使用場景。
Speak 使用者的國家分佈
03.
商業化
市場及目標使用者
作為一個典型的線上語言學習產品,我們可以參考 Duolingo 的資料來對 Speak 面向的市場進行簡單測算。
參考 Duolingo 2023 年 Q3 財報資料,Duolingo MAU 為 8310萬,付費使用者為 580萬,Duolingo 的使用者付費率為~7%。2022 財年,Duolingo 的使用者訂閱金額為 3.32 億美元。
根據諮詢公司 HolonIQ 測算,全球有約 20 億人在學習新語言,線上、線下的語言學習消費支出約 600 億美元。如果以 7% 作為指標(考慮到 Duolingo 優越的遊戲化設計也促進了使用者的付費轉化率,因此 7% 是個樂觀狀態),則理想狀態下,20 億的語言學習人群中,約有 1.4 億潛在付費使用者。另外,基於線上語言學習趨勢加速發展,訂閱模式接納程度提升、AI 帶來的體驗效果持續提升的假設前提下,行業樂觀預測未來會有 20% 複合年增長率,所以這部分人群還在擴大。
但 AI 的發展也可能對語言學習市場存在負面影響,有聲音認為,隨著語音識別、語音生成技術的進展和普及,即時翻譯的門檻不斷下降,可能會削減人們對語言學習的需求。
但總體上,和 K-12 相比,語言學習的市場並不大,尤其考慮到 Speak 之前只專注東亞、應試求職等目的性明確的場景。對於 Speak 而言,如果要提升自身天花板最直接的是拓寬自身使用者群,短期內最直接的則是進入新的區域市場、增加新語種。
Speak 目前主要的市場為東亞地區,團隊已經充分開發了韓國市場,日本市場獲得了類似韓國的發展軌跡,同時獲取了一定的港臺和海外華人使用者。此外,Speak 也計劃進入美國這一大市場,首先,美國國內也有著非常強的英語學習需求,而 Speak 已經將業務範圍從英語擴充套件到了多語種,接下來的重點也會放在美國的西班牙語學習市場。因為東亞地區應試導向的英語學習的 TAM 很有限,在語言學習整個大市場裡面,還有大量不以應試為導向的英語學習場景,這部分 ”Casual Leaner“的學習者被認為是 Duolingo 的核心使用者群,也是 Speak 想要抓住的使用者。
不過語言學習市場在整個教育市場中的比重較小。HolonIQ 測算教育市場到 2030 年規模將達到 10 Trillion 美元,其中佔比最大的為 K-12 教育,到 2030 年將超過 5 trillion 美元,佔比為 55%,所以如果 Speak 的 AI tutor 未來能夠擴充套件到 K-12 全科,將會顯著地提高市場空間。參考 Duolingo,在語言學習外,Duolingo 在 2023 年相繼推出了自己的數學、音樂產品。
商業模式及收入預測
據瞭解,Speak 在 2022 年實現了 960 萬美元 ARR,如果按目前 Premium 的產品定價算,Speak 已經有 10 萬左右的付費使用者,如果按 Premium Plus,則~4 萬人。根據 data.ai 追蹤預測, Speak 最近 12 個月的商店收入在 1000 萬美元左右,其中韓國地區佔據了 73%左右,其次為日本,佔據 21%左右。
以 Duolingo 的付費使用者增速作為對比,根據 2023 年Q3 財報,Duolingo 目前有 580 萬付費使用者,YoY為 57%。因為 Speak 在大力擴張市場範圍,且使用者基數小,預期能取得超越 Duolingo 付費使用者的增速,若使用者數量達到 100% 的增長,

那 2023 年能獲得約 20 萬付費使用者,實現收入約 2000 萬美元

長期來看,假如 Speak 有機會實現 Duolingo 一樣的 580 萬的付費使用者量級,以目前 Speak Premium 定價,Speak 的 ARR 有機會達到約 5.8 億美金
04.
競爭格局分析
雖然 AI Tutor 的確提供了全新的使用者體驗,但仍只是語言學習應用中的一個功能(feature),而非一個 100% 全新的商業模式。從現狀來看,產品體驗也極易同質化。對於這個領域的玩家,要真正獲得產品競爭力仍離不開產品、課程設計和使用者理解,從而為使用者提供完整的語言學習體驗。
短期來看,Speak 的競爭對手是其他線上語言學習翫家,尤其是同樣基於 LLM 提供 AI Tutor 功能的產品,長期來看,還會與線下形式的語言學習競爭,此處我們先將目光集中在線上語言學習並提供 AI tutor 的公司。
目前市場上基於 LLM 提供語言學習 AI Tutor 的主要有以下三類:
1. Duolingo 為代表的頭部 AI 語言學習產品:
Duolingo 從創立就在探索 AI 和語言學習的結合,

同樣也提前試用了 GPT-4 ,並在此基礎上推出了  AI Tutor 功能,即 Duolingo Max。Duolingo 最大的優勢在於其龐大的使用者基礎及完整且豐富的產品設計。

Duolingo Max 提供的 “Explain My Answer”和“Roleplay”功能與 Speak 極為相似,均為模擬真實對話場景,並且針對使用者的錯誤給出即時反饋。從 Reddit 上使用者的評價綜合來看,Duolingo Max 獲得了一定積極反饋,使用者評論主要集中在提供更多互動和體驗個性化、即時解決問題、提高口語能力等,但也有不少使用者認為價格太高、超出預算、擔心 AI 的準確性。
目前 Duolingo Max 尚未在全球使用者中全量開放,所以對於其他早期團隊而言,也許存在一定視窗期。
Duolingo Max
2. 以 Speak 為代表,將 AI Language Tutor 作為差異化功能,並試圖透過該功能獲取市場關注度和使用者的中小團隊。
除了頭部公司探索 LLM 在教育領域的應用外,創業公司也紛紛試水,因為結合語音生成,利用 LLM 的互動能力學習語言是一個十分直觀且易實現的應用場景。我們也觀察到,GPT-4 開放之後,市場上出現了一大批產品同質化較嚴重的 AI Language Tutor 產品,模式均為固定課程學習配合整合 LLM 能力的開放式對話 AI Language Tutor,其中絕大部分都是已有公司試圖透過 AI 來吸引客戶、獲得新的增長。
其中,2023 年創立、並完成種子輪融資的  Practika 在互動方式上有所創新,加入 AI  avatar 以提升使用者使用沉浸感,是一個非必須、但能提升使用者體驗的功能。
3. 免費方案:
免費方案包括可以進行語音互動的 ChatGPT、Pi、Character AI 中的語言老師、Call Annie 等。
在 Reddit 的使用者討論中,雖然部分使用者提到可以用 ChatGPT、Pi、Character AI 中的 language AI 等通用性 LLM 替代付費的 AI tutor,但大部分使用者在分享將 ChatGPT 作為語言夥伴的體驗中提到,因為沒有合理的 prompt 和專業訓練資料,ChatGPT 在處理體驗專業術語、方言和俚語時較差,提供錯誤資訊機率較高,僅能滿足初步需求,而類似問題也可能出現在沒有足夠使用者資料和技術團隊的中小團隊中。C.ai 中的 UGC 的 AI languauge teacher 也因為沒有細緻的課程設計,同時沒有加入語音功能,僅能滿足基礎需求。
我們認為 AI tutor 是一個與課程設計、教研經驗、使用者學習的資料行為結合非常緊密的領域,相較通用性 LLM,針對教育場景進行深耕、具有教研和使用者積累的垂直賽道的公司具備明顯的競爭優勢。
使用 ChatGPT 作為語言學習輔助
綜上,我們從

產品體驗和市場佔有

兩個維度來分析 Speak 的競爭力:

產品體驗維度,語言學習 APP 要解決的核心問題是激發學習者的學習動機,提供持續學習動力,這不僅僅是整合 GPT-4 就可以解決的。AI Tutor 公司之間產品體驗的差距主要源自三個方面:
1)團隊是否有資深課程設計團隊設計;
2)是否提供真正的個性化體驗;
3)能否在互動性上取得創新。
在這些產品同質化較嚴重的 AI Language Tutor 公司中,需要找到同時具有產品經驗、教研經驗和對 AI 有較強理解的團隊。在這一維度上,Speak 由於紮實的課程設計和對 GPT-4 的應用優勢,產品體驗相對佔優。但成熟的教育科技公司在課程資源、使用者資料、AI 實踐方面均有深厚的積累,我們認為創業公司很難超越。
市場佔有維度,語言學習軟體需要儘快地開闢市場、做增長來搶佔地盤,同時維持一個較好的使用者留存。在這種情況下,擁有大量使用者基數的老玩家如 Duolingo 將具有很大的優勢。可以增加 AI tutor 功能,以組合訂閱套餐方式賣給使用者。Speak 在韓國市場已有較大優勢,但在拓展新市場時需要強大的營銷運營能力。新興公司如 Praktika 透過進入新興市場搶佔地盤,從拉美起步再向多地區擴充套件,近期獲取了一批義大利的使用者。
就現狀來看,Speak 最大的競爭對手為 Duolingo。兩者推出了相似形態的 AI tutor,但 Duolingo 有用更龐大的使用者群和市場認知度,使用者優勢也將轉化為資料優勢,使用者在 Duolingo 上的個人資料積累都會因為 GPT-4 的接入放大。由於 Duolingo 主攻讓英語母語者學其他語言的 casual learner 市場,這也是 Speak 下一步希望開拓的市場,因此兩者將面臨更為直接的競爭。
05.
關鍵問題
1. Speak 的產品競爭優勢能否保持。
Speak 因為與 OpenAI 取得密切合作,更早地使用 GPT-4,再加上在韓國英語教研的積累,取得了先發優勢,但如今所有企業都可以接入 GPT-4,同樣具有較深厚使用者資料和教研積累成熟語言教育公司如 Duolingo、Rosetta stone、Babbel 等或許都將成為 Speak 的競爭對手,只想藉助 AI Tutor 這一功能帶來的差異化贏得市場的難度會極高;
2. Speak 是否能完成市場擴張和增長計劃。
Speak 的市場競爭力已經在韓國、日本的英語學習市場取得了驗證。下一步計劃擴張到多國家地區的英語學習,以及多語言 causal learner 學習市場。但在擴張過程中需要考慮各個國家地區的語言學習需求與差異,在課程設計和本地化運營上都非常考驗團隊實力。各個國家存在現有玩家,多語言學習又是 Duolingo 的主要市場,Speak 將會面臨激烈的市場競爭。
3. 長期來看,因為 AI 的不斷進步,是否會降低語言學習意願,導致語言學習市場增長放緩甚至收縮。
GPT-4、Whisper,11labs 等技術使得語言與語言之間的轉換變得越來越無縫自然,能夠將說話者的語言翻譯成另一種語言的同時保持語音語調及音色,語音生成時間能控制在 400 毫秒以內,甚至 11labs 創立公司最初的目標就是“讓人類不再需要學習語言”。
06.
LLM 結合語言學習的技術探討
在語言學習場景利用 LLM 有兩種方式:
1)基於現有基座模型進行 Prompt-engineering 或 fine-tuning,也是目前絕大部分實踐型別;
2)訓練針對特定場景下的垂類教育小模型,例如 Chegg 就表示已經在利用其資料積累,訓練自己的教育大模型。

Prompt 出高質量的 AI Language tutor 需考慮三個要素,語言學習的課程設計經驗及教研積累,使用者資料積累以及對大語言模型的理解、懂得如何訓練大模型讓 LLM 在語言教學場景下表現更好。
在 AI 改造教育這件事上,我們認為 Duolingo 可能是被低估的一家公司,雖然 Duolingo 在今天更多被遊戲化、病毒式的增長討論,但 Duolingo 創始人 Luis Von Ahn 本人就是天才級 ML/AI 實踐者,也因此 Duolingo 從誕生起就帶有 AI 基因,也很早進行了諸多 AI 探索,下面我們結合 Duolingo 的實踐進行討論。
在 2020 年, Duolingo 就釋出了自研的自適應系統 Birdbrain 用來監測學習者行為,基於學習者資料和 Duolingo 的語言材料,生成個性化學習路徑,匹配學習者的能力水平,比如當學習者表現出色時,Birdbrain 會提供更具挑戰性的問題以保持他們的興趣,不過這些內容都是基於已有課程內容,不存在所謂的“生成”。在 GPT-4 之前,Duolingo 團隊也探索過利用 GPT-3 等模型來生成練習題,但在實踐中發現,效果並不理性,仍需要大量人工介入。
GPT-4 相比傳統 NLP 以及 GPT-3 具有更強的上下文理解和文字生成能力,為即時語言交流和練習提供更好的工具,結合使用者資料和機器學習演算法也可以為使用者提供個性化建議,這也是為什麼 GPT-4 推出後 AI Language Tutor 爆發的原因。
根據 Duolingo AI 主管 Clinton Bicknell 的訪談,整合 GPT-4 到 AI Tutor 需要以下工作:
• 人類設計師編寫聊天情境和初始提示,並不斷改進 Prompt:
對話類功能需要 prompt 來設定情景、角色、對話目標等上下文資訊,團隊一般需要上百次試驗來最佳化 prompt 的長度、內容、措辭,使 GPT-4 生成的對話質量符合預期;
 結合 Duolingo 自己的 AI 模型及資料:
在 GPT-4 上層整合 Duolingo 的機器學習模型,如對話監控模型,用於分析對話合理性、控制對話長度、檢測敏感內容等。同時,Duolingo 已經積累了大量的學習者資料,根據使用者學習歷史、偏好和進度,個性化設計對話方式和學習內容;
• 防止對話偏離正軌:
使用 AI tutor 面臨的主要挑戰是對話安全和 GPT-4 “臆造”答案的問題。Duolingo 採取了多層次的防範措施,包括組建“red team”透過多種方式測試對話系統,引入檢測關鍵詞和評分機制,以確保對話保持在學習主題上;透過收集正常和不安全對話樣本,利用分類模型自動過濾潛在的不安全語句;同時還收集真實問答樣本擴充 GPT-4 的知識,加強檢驗步驟,對回答質量進行評分,以過濾低質量的回覆。
但 GPT-4 並不一直是正確的,當工程師們發現 Duolingo 的對話應用中生成某些錯誤時,也會將這些錯誤反饋給 OpenAI,OpenAI 利用這些反饋樣本進一步訓練和最佳化模型。
GPT-4 的應用不僅限於對話生成,還可用於課程內容生成、英語測試、個性化學習等。Speak 和 Duolingo 現在都已經在使用 AI 更快、更好的生成課程、建立練習。之後課程設計師會從 LLM 的輸出中選擇內容,進行編輯修改,因為 LLM 的輸出仍存在生硬或不太自然的部分。如以下的示例:

Write an exercise that uses the word 

VISITARinSPANISH

.

Rules:

1. The exercise must have two answer options.

2. The exercise must be fewer than 75 characters.

3. The exercise must be written 

inA2

 CEFR level 

SPANISH

.

4. The exercise must contain 

THE PRETERITE TENSE

 and 

THE IMPERFECT TENSE

.

Go!

延伸閱讀

相關文章