“爆款頻出的 AIGC,2023 年能否延續熱度?”
本文來源 “數字時氪”(ID:digital36kr),騰訊創業經授權後轉載。
2022 年的熱門詞彙有什麼?AIGC 當之無愧位列其中,甚至將名列前茅。
從 5 月的 Disco Diffusion 和 DALLE2 引起的 AI 作畫潮流,到 11 月的 chatGPT 在一週內完成了百萬使用者註冊,期間海內外出現了無數個 AIGC 的產品和創業公司,共同掀起了 AI 創作的熱潮。
不得不說,在整個 AIGC 浪潮中,美國一直主導著技術,並將其開源;中國的產品和技術更多在跟隨美國的步伐。其實,AIGC 的概念也來自於中國本土——在美國,更常見的說法是Generative AI,即生成式AI。
其實,AIGC 是 Generative AI 的子集。因此在本文中,我們將用 GA 來統稱這一年的生成式 AI 的進展。
AI 領域還有一個名詞叫做 AGI(通用人工智慧),可以被理解為一個強人工智慧的終極目標,其目的是系統性地解決方案,執行人類能夠完成的“任何”任務。而想要實現 AGI,生成式 AI 是不可或缺的一步。或者說,當下人類最有可能接近創造 AGI 的方式,就是將一個個碎片化的生成式 AI 能力,整合在一個智慧平臺上,來模擬 AI 的智力和高度適應性。
AGI 早在幾十年前的科幻作品中就已經有了很多不同的展現形式,其共同的特點是有著強大的自然語言理解(NLU)能力,這就是今天掀起生成式 AI 風浪的主要技術。
其實,AIGC 也好,生成式 AI 也好,雖然是在今2022年獲得關注,但並不是2022年才出現的。
底層技術已經默默突破了幾年,之所以生成式 AI 會在2022年出現在更多普羅大眾面前,歸根結底是背後的技術再上了一步臺階,可以向公眾釋出以供廣泛使用。
以大語言模型(large language models,以下簡稱“LLM”)為基礎的 text-to-X(文字到任意)技術再在2022年有了突破性進展,分別在 text- to-image(文字到圖片)、AI-generated-text(AI 生成文字)、text-to-video(文字到影片)、generative code(生成式程式碼)等領域出現了值得全球關注的應用。
技術在2022年取得突破性進展,並將其開源,將 AI 結果產出的時間大大縮短,產出精度更強。比如 OpenAI 所用的 GPT 技術,其 GPT1 在 2017 年就已經出現,現在 chatGPT 所採用的 GPT3.5 則是在2022年出現。
儘管從 2014 年 AlphaGO 戰勝柯潔開始,人類對於 AI 就抱有最大的希望,此後不停出現“AI 元年”的說法,但過去幾年,AI 的應用和底層技術都沒有實現更大的突破,這又讓大家對於 AI 心灰意冷。
到 2022 年,AI 成為生產工具,帶來了商業化價值,或許才終將迎來“AI 元年”。
在 GPT-3 釋出的兩年內,風投資本對 AIGC 的投資增長了四倍,在 2022 年更是達到了 21 億美元。
正如前文所說,GA 底層技術的突破,創造出了更多細分賽道,比如 Disco Diffuison 和 Stable Diffusion 正在加快藝術創作的速度,copy.ai 和 Jasper 在透過 AI 完成文案寫作,Mutable.ai 和 Github Co-pilot 以 AI Coding 的方式提高程式設計效率。
細分賽道越多,意味著想象空間越大。而一級市場最擅長為想象空間買單。
當然,其中一部分取得融資的公司採用的的確是時下最先鋒的 GA 模型,比如種子輪獲得 1.01 億美元的 StabilityAI,但很多獲得融資的公司,也不過是用以往的 AI 模型蹭上了熱度而已。這加大了投資人和機構的判斷難度,自然會導致一級市場在短期內,比如 2023 年的混亂。
之所以使用最新模型的 GA 創業公司比例不高,除了一部分公司想要“走捷徑”直接偷換概念外,大模型的訓練,原本就是燒錢、砸人還不一定有成效的事情。以2022年先後推出 AI Art 賽道明星專案 DALLE2 和對話式 AI 爆款的 chatGPT 的母公司 openAI 來說,其大模型 GPT1 從 2017 年就開始訓練,直到 GPT3 出現才逐漸變得易用、好用。而 chatGPT 之所以風靡全球,是因為其背後是比 GPT3 更高階的 GPT3.5。
根據公開資料,GPT-3 訓練的僅是硬體和電力成本高達 1200 萬美元(約 7500 萬人民幣),GPT3.5 只高不少。
如此高額的投入、大量的迭代時間,顯然並不是初創公司能夠完成的。
這就決定了,初創公司只能依靠開源的模型,進行在具體應用側的創新。可是這樣一來,壁壘變低,對於客戶和使用者來說,選項也變多了,那麼應用創新的商業價值就會變低。技術價值和商業價值都不夠的情況下,一級市場自然不會買單。
其實在 2022 年,就已經出現了此類現象,在國內在 AI Art 領域出現了不少使用者量大的創業專案,但是融資情況並不容樂觀。
2023 年或許會延續 2022 年的創投趨勢:創業專案層出不窮,但是一級市場只買單有技術壁壘和商業前景的個別專案;當然,總體數量會比前些年更多。
GAmapping,來源 Leonis Capital 風險投資基金
AI Art:從高門檻變成無門檻
2023 年趨勢
AI Art 成為越來越多應用的“標配”,C 端觸達門檻降低,每個使用者都可以在自己熟悉的 App 或平臺內直接使用這項功能,與此同時,越來越普遍的 AI Art 也不會再成為核心競爭力或功能亮點;
從創投視角來看,由於訓練模型的成本更低,加上服務商的湧現與競爭,會導致使用者資料和模型更分散,降低了跑出下一個獨角獸的可能性,並且導致 VC 很難選擇投資標的;
從生態視角來看,將會形成更多社群,開發者、設計師、使用者將共同探索需求和趨勢,從而實現創作端的良性迴圈。
2 月,Disco Diffusion 開始流行,Diffusion 底層技術對 GAN 徹底革新
Disco Diffusion 是在2022年 2 月初開始流行的一個 AI 影像生成程式,可以根據描述場景的關鍵詞渲染出對應的影像,可以在 Google Drive 直接執行,也可以部署到本地執行。
但在那時,人們尚未意識到,Disco Diffusion 的出現,是 2022 年一整年 AI Art 狂熱潮的開始。
圖為國內最大的平面設計師社群 UISDC 上首次出現關於 Disco Diffusion 的科普文章
上圖為國內最大的平面設計師社群 UISDC 上首次出現關於 Disco Diffusion 的科普文章,設計師是對影像創作工具最敏感的群體之一,彼時大多數 C 端使用者還並不知道這一“黑科技”的存在,即使知道,也會因為它複雜的除錯環境失去參與測試的慾望。
但之後,隨著更多 AI Art 模型和工具的成熟,門檻越來越低,越來越多 C 端使用者開始瞭解並使用相關的工具。
AI Art在2022年以來的熱度,是因為一種呈現為文字轉影像(text-to-image)特性的嶄新互動方式,正在向大眾宣告 AI Art 正在進入一個“民主化”的時代。使用文字描述,或者基於畫面意象和故事,或者基於藝術家風格、構圖、色彩、透視方法等專業名詞,就能在數十秒內生成完整的繪畫作品,這讓藝術創作成為了一件像跑步一樣的事:人人都會跑步,只不過是專業的人跑得更快。
還原到底層技術方面,則是一場 Diffusion 對 GAN 的徹底革新。
傳統 AI Art 的的技術原理是生成對抗網路(GAN)或 VAE 等,目前,GAN 作為上一代 AI Art 工具與平臺最主流的影像生成模型,在模型訓練方面已經有了很大的突破,但在實際應用的過程中仍然擁有嚴重的結構性問題。
隨著熱度升溫,可能會取而代之的是 Diffusion。Denoising Diffusion Models(去躁擴散模型)作為一種基於分數的生成模型,是一種非常強大的新型生成模型。其工作原理就是透過反覆地向訓練資料新增高斯噪聲來破壞訓練資料,然後透過反轉新增噪聲的過程來學習如何取回資料。Diffusion 還提供大量樣本多樣性和學習資料分佈的準確模式覆蓋,這意味著 Diffusion 適用於具有大量不同和複雜資料的學習模型,從而解決了 GAN 的問題。Diffusion 緩慢改變輸入資料將資料對映到噪聲的正向變換,透過學習的、引數化的反向過程來完成資料生成。該過程從隨機噪聲開始,一次一步地進行清理。
Diffusion 對影像生成效果的提升十分顯著,數字生成的痕跡也得到了有效削弱,使用者自己可選執行步數,步數越多影像越精細的特點也激起了更多的“硬核”需求。
這也就是為什麼 AI Art 工具其實從很早之前就有了,但此前的影像效果經常會有“太假”或者不夠完整等種種問題,甚至不如直接用 Photoshop 做一些風格化處理,因此這些作品也就失去了如今 Diffusion 時代作為藝術品的收藏與分享價值。
透過指數級爆發的帖子和作品展示,以 Disco Diffusion、Stable Diffusion、DALL-E2、MidJourney 這些演算法和工具為代表的生成器,已經成為了 AI 生成向 C 端落地、以及更廣闊的元宇宙世界的先發力量。
DALLE2 可以從自然語言的描述中建立逼真的影像和藝術,上線於 2022 年 4 月 6 日,由 OpenAI 開發。
OpenAI 在四月份推出了 DALL-E 2,DALLE2 可以從自然語言的描述中建立逼真的影像和藝術,超過 150 萬用戶測試了這個模型,2022年 9 月,公司將它推向了市場。
微軟為 OpenAI 提供資金,以換取其作品的獨家商業版權,並將該模式整合到 Azure AI-as-a-service 平臺中。
8 月,Stability Diffusion 上線
作為解決了 DiscoDifusion 的技術痛點的追隨者,Stability AI 也加大了賭注,於 8 月 22 日上線。並推出了開源的擴散模型(Stable Diffusion)。
StabilityAI 是一家創立於 2019 年的人工智慧初創公司,總部位於倫敦,致力於構建以 AI 為技術載體的解決方案。
Stable Diffusion 是時下最先鋒、也是最流行的 AI 繪畫機器學習模型,由 StabilityAI 開發,Web 演示版本搭載於 AI 開源社群 Huggingface。Stable Diffusion 的預訓練模型是一個文字至影像的 AI 模型。根據文字提示,Stable Diffusion 能夠生成逼真的 512×512 畫素的影像以描述提示中的場景。
在模型權重公開發布之前,它的程式碼已經發布,模型權重也有限釋出給了研究社群。在最新的版本中,任何使用者都可以在消費者級別的硬體中下載並執行 Stable Diffusion。除了文字至影像的生成,該模型還支援影像至影像的風格轉換以及影像質量提升。在釋出該版本的同時,Stable AI 還發布了 beta 版本的 API 以及模型的 Web UI,名為 DreamStudio。
Stable Diffusion 基於名為潛在擴散模型(latent diffusion models,LDMs)的影像生成技術。與其他的流行的影像合成方法不同,如生成對抗網路(generative adversarial networks,GANs)和 DALL-E 使用的自動迴歸技術,LDMs 透過在一個潛在表示空間中迭代“去噪”資料來生成影像,然後將表示結果解碼為完整的影像。
LDM 是由 Ludwig Maximilian University of Munich 的機器視覺與學習(Machine Vision and Learning)研究組開發的,並在最近的 IEEE / CVF 計算機視覺和模式識別會議(Computer Vision and Pattern Recognition Conference)上發表的一篇論文中進行了闡述。在2022年早些時候,InfoQ 曾經報道過 Google 的 Imagen 模型,它是另一個基於擴散的影像生成 AI。
Stable Diffusion 模型支援多種操作。與 DALL-E 類似,它能夠根據所需影像的文字描述,生成符合匹配該描述的高質量影像。它還可以根據一個簡單的草圖再加上所需影像的文字描述,生成一個看起來更逼真的影像。
Meta AI 也釋出了名為 Make-A-Scene 的模型,具有類似的影像至影像的功能。
10 月 18 日,Stability AI 融資成為獨角獸,更掀起熱潮
10 月 18 日,在上線不足兩月的時間裡,StabilityAI 獲得由在 Coatue 和 Lightspeed Venture Partners 領投的 1.01 億美元融資,投後估值超過 10 億美元。
上線兩個月就成為獨角獸,足以見得市場對於 StabilityAI 以及 AI 作畫的認可。這也引發了一級市場對於 AI 作畫的強關注。
同樣在 10 月,微軟開始將由 DALLE2 提供支援的生成人工智慧技術,整合到其 Bing 搜尋引擎、Edge 瀏覽器和新的 MicrosoftDesignerforOffice。
由於 AI Art 在受到越來越多關注的同時,開發門檻越來越低,全球範圍內 AI Art 的創業公司和產品也在 10 月、11 月密集出現。
在 11 月初開啟 Product Hunt(一個發現新產品的平臺,開發者可以提交自己的產品,網站會依據大眾的投票數量產生每日榜單),會發現每天都有新的 AI 作畫產品上線,並且這些 AI 作畫產品,都在每天榜單的前幾名。
2022 年 11 月 3 號,Product Hunt 榜單第一名就是 AI 作畫產品
2022 年 11 月 2 號,Product Hunt 第二名是需要付費的 AI 作畫產品
其中,Avatar AI 推出 10 天以來,銷售額已經突破 10 萬美元(銷量為 2943,平均售價 33 美元)。
不僅美國如此,在中國也是這樣,盜夢師、無界、皮卡智慧、TIAMAT 等也在 10~11 月裡受到了廣泛關注,盜夢師小程式甚至達到了日增 5 萬用戶的規模。
層出不窮的 AI 作畫產品背後,是全球從業者和 C 端群眾對於新技術的好奇和熱捧。從 Google Trends 和百度指數上,在 10 月 AI 作畫搜尋指數的暴漲,就可見一斑。
Google Trends 美國區“AI Art”熱度
AI Art,火燒得太快、來得太突然,法規完善、生態體系、使用者認知等等一個賽道長期發展所要具備的要素,在 AI 作畫賽道都稍顯空白,這或許會帶來商業化短期的混亂。
一類玩家,以 Avatar AI 這類產品為例,30 美元打包一沓頭像,固然能賺到快錢,但是如何在不傷害獵奇心理消費者的情況下保持長期商業價值是 Avatar AI 不得不考慮的問題。
另一類玩家,不以收費為前提,僅是提供工具免費給使用者使用,那麼在早期獲得病毒式增長後,又該如何獲得收入維持後續發展?
還有一類玩家,或許並沒有明確的商業化目標,其出發點或許只是熱愛,但部分 AI Art 產品已經傷害了藝術家的版權,正在全球範圍內引起相關討論。
而目前的混亂,或許是由於這個原本技術突破困難、應該有較高門檻的行業,因為開源,而變得低門檻,投機者幾乎能以零成本去“追逐風口”。作為長期具有 ToC 價值的領域,開源一定程度上“放縱”了 AI Art 在商品層面的混亂。
未來,AI Art 想要獲得更長久的商業發展,需要在 C 端使用者有足夠的認知的同時,玩家探索 toB 的商業價值。
AI-Generated Text:基於真實需求,
最有想象力的商業應用 2023 年趨勢
AI-Generated Text:基於真實需求,最有想象力的商業應用 2023 年趨勢
從當下商業環境來看,對話式 AI 的應用場景比其他生成式 AI 都要基礎和廣泛,比如和 MarTech 進一步結合,應用於各行各業的營銷與服務環節;
相較於“影像無國界”的 AI Art,在 AI 生成文字領域,來自語言和領域的差異化需求,將吸引更多技術服務商各展所長,資本加持也有望在2023年集中爆發;
2023 年,會出現更多市場亂象,比如可能會有一些營銷服務商會套上 AI 技術商的新概念以博眼球、求客戶、騙融資。
LaMDA:當 AI 有了意識,搜尋引擎也可以“說人話”
2022年 6 月,Google 的一名工程師聲稱 LaMDA 可能有自己的感覺,可能“還隱藏著一個感知的心靈”。這讓 LaMDA 一度陷入爭議。
LaMDA 在 2021 年 I/O 大會上首次亮相,是 Google“迄今為止最先進的對話式人工智慧”,即與2022年 12 月紅遍全球的 ChatGPT 有著相同的語言模型技術和原生應用場景。2022 年 5 月 11 日,Google 在 2022 年 I/O 大會上公佈了 LaMDA2。作為 Google 一直在研究的最先進的大資料模型之一,與 GPT-3 不同的是,LaMDA 沒有被配置為執行任何特定任務,LaMDA 是“對話訓練”,本質上是一個以聊天機器人為導向的 LLMs。
在引起了不少社會上的討論後,Google 回應到:LaMDA 和公司近幾年的大型 AI 專案一樣,都經過了多次嚴格的 AI 道德方面的稽核,對其內容、質量、系統安全性等進行了多方面的考量。
2022年早些時候,Google 也專門發表了一篇論文,公開了 LaMDA 開發過程當中的合規細節。其中提到,“在 AI 群體內,對於具備感知的 AI/通用 AI 的長期可能性,確實有一些研究。然而在今天把對話模型來擬人化,這樣做是沒有意義的,因為這些模型是沒有知覺的。不過,這些系統能夠基於數以百萬計的句子來模仿交流的方式,並且在任何有趣的話題上都能夠扯出有意思的內容。”
在 ChatGPT 趕在 2023 年到來之前意料之外地迅速爆發之後,LaMDA 只能以其競爭對手的形式在市場上被動出現。正如在另一個 AI 賽道內,Google 強大的 AI Art 模型 DreamBooth,也是幾乎在 Stability AI 獲得融資成為獨角獸的前夕,才以一個定製化編碼功能更強大的標準曝光在公眾視野之下。同樣,從技術上來說,LaMDA 被認為擁有“對抗 ChatGPT 所需的一切”。
在一些投資人與使用者高呼 ChatGPT 能夠“殺死傳統搜尋引擎”之後,另一群人寄託在 LaMDA 身上的希望,情節變得更加跌宕起伏。
Google 和 OpenAI 都是全球久負盛名的 AI 夢工廠,區別是前者成為科技巨頭已久,且在壟斷使用者搜尋查詢流量的同時,也主導了多個 AI 生成賽道的誕生和迭代。而後者則在2022年連續推出了 DALLE2 和 ChatGPT 兩個現象級生成式 AI 工具,未來幾年內有望做出最龐大的 AI 生成平臺。
因此,LaMDA 和 ChatGPT 的競爭更有可能是生態級別的。拋開前文所討論的人工智慧恐怖谷、科技倫理學等問題,從長期來看,作為“巨頭之子”,LaMDA 的機會很可能集中在以下幾點:
首先,“打敗 Google 的,只可能是 Google”。就像社交帝國騰訊用微信“打敗”了 QQ 一樣,Google 幾十年來在搜尋引擎領域的絕對話語權,使其在對話式 AI 在搜尋領域的應用上,也具有不可撼動的優勢。
目前,Google 在搜尋引擎中使用 Featured Snippets(精選片段)為使用者的問題引用答案,這是其商業化手段之一,也是廣受使用者詬病的一點。
相比來說,ChatGPT 之所以被列入“殺死 Google 搜尋”的候補名單,是因為其擅長為更復雜、更完整的問題生成答案,同時不會像 Google 一樣試圖將使用者引導到其他頁面,提供了更清爽的使用者體驗。但極致的使用者體驗有些時候也會成為商業化的阻礙,由於對話式 AI 中的“競價廣告”可能要比 Google 的 SEO 要隱蔽得多,且不直接顯示資料引用來源的 AI 表面上無需對搜尋結果負責,因此潛在威脅也是可想而知的。
前兩天,全球最大產品發現社群 ProductHunt 上已經出現了導購專案,專門收集 ChatGPT 回答的“某一分類下最好的品牌”。如果對話式 AI 未來更加氾濫地應用於品牌營銷,或者商家發明出一套規則能讓自己的品牌名更多地被 AI 模型抓取,它的內容可信度會不會成為曇花一現呢?如果堅持“真實”和“專業”,又怎樣實現在搜尋領域的變現?
在這個問題上,LaMDA 和 ChatGPT 面對的商業化難題是一樣的,但毫無疑問作為搜尋巨頭的 Google,會有更完善的解決方案。
其二,MUM(Multitask Unified Model,多工統一模型)、PaLM(路徑語言模型)等其他 Google 自研 AI 模型的支援和整合。ChatGPT 之所以現在看起來更像是一個工具或者“寫郵件神器”,是因為技術和模型已經是時下最先進的了,服務和體驗卻仍然是單點維度的,距離生態利器還有很長的路要走。
而在這一點上,Google 已經有所考慮。比如,除了 LaMDA 之外,Google 還強調了 MUM 的重要性。多模式模型允許人們“跨不同型別的資訊進行提問”,也就是說,將圖片、音訊、影片等媒介形式結合文字來提問。
Google 提供的一個搜尋示例:使用者給自己的登山靴拍了張照片,問“我可以穿這個登富士山嗎?”MUM 則能夠透過理解影像等內容和查詢背後的意圖進行判斷,並推薦裝備列表和部落格文章。
目前,Google 已經將 MUM 技術新增到了 Google Lens,後者為 Google 推出的一款支援圖片物件檢索的現實搜尋應用。
總體來說,在 LaMDA 始終位於技術前列的情況下,至少在搜尋和對話式領域,Google 將比一切競爭對手都更接近產品化和商業化。
其實,AI 自然對話的能力基於對人類說話口吻的模仿,本就是為了讓資訊和計算從根本上更易於被人們訪問和使用,這種軟性提效與工業硬體升級等硬性提效的最大區別,就是它與人類的行為和語言體系是一種寄生關係。換句話說,不具備商業能力的 AI 模型代表著長期投入能力差,缺少時效性價值,從而損害“搜尋”的核心價值。
早在2022年 5 月份,Google CEO Sundar Pichai 就重申了對話式自然語言處理的最大價值是“數字民主化”。至少在研發轉產品的目標上,LaMDA 比2022年大多數生成式 AI 工具都要明確,那就是讓 Google 搜尋未來能夠像人類一樣回答問題。
“倉促行事對於搜尋領域來說似乎並不明智,因為世界需要始終如一的正確。”
11 月 30 日,人工智慧實驗室 OpenAI 釋出了自研的聊天機器人——ChatGPT,它比其他任何可供公眾互動的聊天機器人都要先進,在聊天外,可以當成搜尋引擎、論文生成器、程式碼生成器、翻譯等多個實用角色,成為人類的生活工作助手。
其價值被廣泛認可,上線 5 天后,註冊人數突破百萬,而到達這個數字,推特用了兩年。
因為 ChatGPT 的火爆,OpenAI 在大語言訓練模型領域的積累也逐漸被看到——ChatGPT採用最新的GPT3.5模型,模型中首次採用 RLHF(從人類反饋中強化學習)方式。
OpenAI 最初於 2017 年提出的 GPT1,其採取的是生成式預訓練 Transform 模型(一種採用自注意力機制的深度學習模型)。GPT1 的方法包含預訓練和微調兩個階段,預訓練遵循的是語言模型的目標,微調過程遵循的是文字生成任務的目的。2020 年的 GPT3,訓練引數是 GPT-2 的 10 倍以上,給 GPT 訓練讀過文字和句子後可接續問題的能力,同時包含了更為廣泛的主題。
圖源:Medium GPT 系列模型的資料集訓練規模
現在的 ChatGPT 則是由效果比 GPT3 更強大的 GPT-3.5 系列模型提供支援,這些模型使用微軟 Azure AI 超級計算基礎設施上的文字和程式碼資料進行訓練。
具體來說,ChatGPT 在一個開源資料集上進行訓練,訓練引數也是前代 GPT3 的 10 倍以上,還多引入了兩項功能:人工標註資料和強化學習,相當於拿回了被 GPT3 去掉的微調步驟,實現了在與人類互動時從反饋中強化學習。
ChatGPT 自己回答與前代 GPT3 的能力區別
儘管目前 ChatGPT 還存在很多語言模型中常見的侷限性和不準確問題,但毋庸置疑的是,其在語言識別、判斷和互動層面存在巨大優勢。
2022年 11 月,全球獨角獸 Notion 釋出了 Notion AI 的 Alpha 版本,這也是知識管理工具與生成式 AI 工具的進一步結合。
從功能上來說,Notion AI 與 ChatGPT、Jasper 等工具類似,都是根植於 LLM 在2022年的技術爆發,服務於 text-to-text 應用下的重複性或創造性寫作。而從應用環境來看,Notion AI 的創新性在於,它完全融合於 Notion 文件內部,這也就意味著人工智慧協作又少了一步“冷啟動”的時間。
圖片來自 Notion AI 官網,可以看出,Notion 使用者在文件中輸入“/”(也是 Notion 區塊式筆記的基礎基礎邏輯)即可呼叫不同功能的 Notion AI,包括 Continue writing(續寫)、Help me write(text-to-text 生成內容)、Brainstorm ideas(列出 bullet points)等。在功能定位上,Notion 將 AI 列為了寫作助手的角色,比起 ChatGPT 更加接近 Grammarly。
其實,無論是 ChatGPT 還是 Notion AI,目前為止都還沒有辦法直接生成一篇原創且可發表的內容,但它們能夠很好地幫助使用者“跳過初稿階段”,直接進入對文字的改進和完善階段。與此同時,所有 LLM 的應用工具都在迅速改進,使得語義理解能夠從句子到段落,再到邏輯關係更加複雜的語境,從而更好地理解和編寫各種文字。
第一,Notion 的平臺特效能夠與 LLM 的技術特性更好地融合。眾所周知,目前的生成式 AI 最需要的就是更多更詳細的語境。在我們使用 ChatGPT 的時候,得到的文字內容經常會以“由於沒有更詳細的資料支援,我只能嘗試理解需求”之類的宣告作為開頭。
而作為一個綜合了筆記、專案管理等使用者個人知識內容的 Workspace(工作區),Notion 為每位使用者儲存了大量邏輯結構和關聯性更強的文字內容,比 ChatGPT 等聊天式 AI 更容易獲取大量的上下文語境素材,從而實現更精準的需求理解和對於使用者語言風格的模仿等。
第二,Notion AI 符合生成式 AI 目前最重要的兩個競爭條件。儘管 Notion 計劃“緩慢而謹慎”地推出他們的 AI 工具,但由於 AI 並不是一項一勞永逸的技術,其核心競爭壁壘來自於資料質變、使用者需求理解和模型的完善性,因此使用者量和在時間上佔先,對於生成式 AI 來說是非常重要的兩點。
作為數字協作領域的獨角獸,使用者量和 C 埠碑是 Notion 一直以來引以為傲的亮點。從入局時間來看,ChatGPT 在 11 月底引發了 AI 寫作的全球熱潮,Notion AI 與之基本同期,沒有錯過時間紅利。
第三,存在於知識庫內部的 AI 工具有更多呈現形式。從應用場景來看,以聊天機器人形式出現的 ChatGPT 似乎更像是一個用來展現技術能力的 demo,它還在尋找廣泛的領域場景和合作商。與之相比,Notion 在協作領域的巨大影響力,則已經為 Notion AI 註腳好了未來的可能性。在一個巨大的知識管理工作區內部,AI 除了輔助寫作的用途,還能整合搜尋、連線日曆與任務管理、回答使用者的問題並貼上知識庫中的資訊等。
綜上,剛剛被“交到使用者手中”就立刻引發了熱議的 Notion AI,也讓我們重新想起了 AGI 的概念。其實,Notion 本身能夠從一眾產品精度做得越來越“卷”的筆記應用中取得不可忽視的地位,並建立最龐大的第三方模版市場和社群,就是基於其一體化文字協作的理念和高度整合性。
Video AI:創業公司層出不窮
2023 年趨勢
各大影片平臺都將迭代以 AI 能力為主的整合型創作平臺,或將出現影片製作或動畫領域的爆款,在低門檻使用者群中挑戰 After Effects 的權威;
創投領域,videoAI 在2022年獲得非常多一級市場的關注,因為目前並未跑出獨角獸且商業前景明晰,因此,2023 年該領域會延續一級市場的熱度;
2023 年,text-to-video 的 AI 生成技術不一定能成熟到支援低成本的 C 端應用,因此可能會涉及到投資回報期更長的問題。
雖然文字到影像的生成式 AI 是2022年 AI 領域的最大新聞之一,但“文字到影片”無疑將會接班成為 2023 年的新技術焦點。目前,在 AI 影片領域,捕捉遠端依賴關係等決定性的技術仍具有挑戰性,但 AI 影片在2022年年底已經實現了對於部分短影片的覆蓋。2023年,也許“我們將無法區分影片是由人還是 AI 生成的。”
此外,2022年以來,生成式 AI 在影音技術方面的應用,也越來越詳細地描述著元宇宙將如何出現。雖然在 C 端沒有出現像 Stable Diffusion 和 ChatGPT 一樣現象級的工具,且各 AI Art 廠家圍繞 text-to-video 所做的佈局,常常被看作是 text-to-image 的形態拓展,但在各類短影片、長影片佔據使用者大量時間的網際網路環境下,AI 影片工具的商業化路徑也要比前者清晰得多,比如應用在營銷等領域。
雖然製作最好的影片總是需要創造力和人性化的觸覺,但人工智慧軟體可以用來減少處理所佔用的大量時間。
也因此,不少 Video AI 賽道的公司在2022年獲得一級市場的關注。
2 月,以色列 AI 技術研發商 Hour One 宣佈完成 2000 萬美元 A 輪融資,該公司計劃利用這筆資金擴大其自助服務平臺 Reals,允許企業在幾分鐘內從文字中自動建立以人為主導的影片。
10 月,Descript 宣佈完成了由 OpenAI 領投的新一輪融資,估值達到了 5.5 億美金。Descript 是一家音訊轉錄編輯器,會將音訊轉錄下來的文字放到 Word 文件中,然後編輯人員或音訊製作人可以像修文檔一樣剪輯音訊。
12 月,圖片和影片 AI 編輯軟體提供商 runway 完成 5000 萬美元 C 輪融資,投後估值達到 5 億美元。
同樣在 12 月,家影片搜尋和分析雲基礎設施提供商 Twelve Labs 宣佈獲 1200 萬美元種子輪追加融資,該公司推出一套雲原生 API,可與該公司的人工智慧影片搜尋工具整合,使開發人員能夠對海量影片進行搜尋。
不過,拋去對於技術層在2023年能夠實現爆發的樂觀預期,如果基於文字的影片生成模型仍然需要 1-2 年才能達到以假亂真的效果,那麼此類模型也許需要 2-3 年才能在商業應用和企服領域真正發揮作用。在此之前,這些模型可能適用於對保真度和可控性要求較低的場景,如 C 端使用者在娛樂創作平臺上的獵奇式創作。
AI Coding:開始小規模應用
2023 年趨勢
科技網際網路巨頭的 AI 編碼佔比增加,因此巨頭孵化的專案會增多,進而開放給中小公司使用。
創投視角來看,AI 程式設計或許沒有投資前景,但是如 AI 程式碼糾錯、最佳化等細分領域,或許會湧現針對垂直行業的創業公司。
AI coding 的最大競爭對手是無程式碼產品,二者可能會在 2023 年開始搶佔市場。
當今世界,毫無疑問不僅僅由物理世界組成,由程式碼組成的網際網路世界已經成為人類賴以生存的世界之一,這從中美等各個國家網際網路公司位列前沿的市值可見一斑。
AI 對工業的“妄圖染指”,開啟了 AI 在良莠不齊的生產環境中漫長的應用過程,而這也是 AI 回報週期過長的原因之一。由於人類只能從已經存在的歷史中去提煉參照系,在被稱為“資訊革命”、“數字革命”的新世紀洪流中,程式碼一直以來所對應的就是像蒸汽、電力一樣的工業生產力新單位。
不過,與以往不同,開發在科技世界的構建中比以往的工人取得了更高的地位和經濟話語權。隨著數字經濟的發展,程式設計人才逐漸被細化到各行各業、各個技術體系中去,從價值層級來分,他們的工作也可以被拆分為創造和解決需求兩個部分。
近年來,隨著科技門檻一再降級,每當有 CRM、無程式碼等看似“反程式設計師價值”的產品出現,人們就會熱議“程式設計師的工作很快就要被替代了”。2022年跟隨 LLM 掀起水花的 AI Coding 也是同理。
在過去,這種“不再被需要”也許只是一種烏托邦式的幻想或自嘲,大多數人都明白,更多的數字生產力被解放,就會有更多的創造導向型領域出現人才缺口。可直到2022年,飄蕩在全球網際網路上空的裁員危機,似乎是在倒逼著這一口號重新回到了從業者的焦慮範圍內。
AI Coding 則正是在這種情況下開始小規模地應用於業界。
2022年 2 月,DeepMind 推出了 AlphaCode,這是一款用 12 種程式語言對 8600 萬個程式進行預訓練的 Transformer,並針對編碼競賽的內容進行了微調。
透過推理,它產生了一百萬種可能的解決方案,並過濾掉了不佳的解決方案。透過這種方式,它在 10 次程式設計競賽中擊敗了一半以上的參賽者。
6 月,GitHub 開放了 Copilot 的訪問許可權,這是一個能夠即時提供程式碼建議的自動完成系統。雖然學生和經過驗證的開源開發者可以免費訪問,但使用者需要支付訂閱費。
11 月,“萬能助手”chatGPT 出現,不少使用者開始嘗試用 chatGPT 編寫程式碼。像簡單的 shell 指令碼,makefile 等,ChatGPT 確實能處理,但更復雜的程式設計需求,chatGPT 會給出錯誤答案。開發者可以把 AI 生成的程式碼拿來進行修改,以節省時間。
但同時,AI coding 的隱患也在隨著技術門檻降低而攀升。
The Register 的一份報告顯示,斯坦福大學計算機科學家發現,與完全靠自己做事的程式設計師相比,使用 Github Copilot 等人工智慧編碼工具的程式設計師建立的程式碼安全性較低。
除了已經暴露出的版權問題、安全隱患之外,AI 程式設計還有很多已知或未知的痛點,比如提高了人才篩選難度,
比起 AI Art、AI 寫作等領域,AI 程式設計主要有如下三個特點:
1. 其應用環境往往不是 C 端使用者的獵奇心理和“科技民主化”的目的,而是用於實際的工作專案中,準確性要求更高,對版權等商業資訊更敏感;
2. 編寫結果可能會涉及到複雜的函式,無法像 AI Art 一樣讓任何人都能夠以肉眼判斷,有較大的應用和試錯成本;
3. 程式設計本身可以說是一個比較龐大複雜的母領域,而是多個語言領域的泛概念,因此所針對的領域、需求和實現難度也不同。
這些特點決定了 AI Coding 在短期內會更多地用於科技巨頭的內部構建,並且由於程式碼是這些公司的主要商業資產,其內部孵化或投資的專案,可能並不會被競爭對手所接受。雖然目前以 DeepMind 為代表的頭部服務商呼聲很高,但 AI Coding 本質來說也並不是一件具有技術壁壘的事,大公司各築城池的局面不難想象。
此外,由於 AI Coding 和無碼化趨勢的現階段目的,同樣都是為企業的 IT 部門解放生產力,其對於大多數業務型別的公司來說,降本增效的空間也難免會被進行對比。AI Coding 雖然是自動生成程式碼,但其商業邏輯也是主要服務於程式設計師,目前還很難做到離開“人腦”工作。就像 AI Art 在熱潮退去之後,也會逐漸成為藝術家等專業人員的靈感工具一樣。
但其降本矛盾在於,如果是 freelancer 或獨立開發者,AI Coding 工具毫無疑問能夠幫助他們提高效率,但大多數程式設計師作為企業員工,可能自身並不會願意被“人工智慧”間接降薪。但從長期來看,隨著數字經濟下的程式設計基礎教育進一步完善,各類開發工程師的分工也趨於細化,屆時 AI Coding 將大有可為。只不過,這一點希冀很難惠及到即將到來的 2023 年。
相比來說,無碼化工具的出現則是為了解構程式設計師的價值和工作屬性。畢竟在程式設計師普遍“高薪”的情況下,在同一個業務需求下,把程式設計師換成業務運營人員,至少在人力方面就已經做到了降本。
不過,好訊息是,2022 年的最後一個季度,AlphaCode 等 AI 編碼工具似乎遭受了前所未有的業界爭議。在科技和創投界,法律、商業、社會道德對於新生事物的爭議通常代表著希望,雖然 AI 編碼在2023年也不可能直接代替那些“螺絲釘型”碼農,但大面積的智慧最佳化程式碼服務,可能會成為另一個企業服務的熱點。
沒有一家巨頭缺席 LLM,更加說明了 LLM 進入較為成熟的階段。
11 月 15 日,Meta 公司釋出大型語言模型 Galactica,並宣稱它“可以總結學術論文,解決數學問題,生成維基百科文章,編寫科學程式碼,標記分子和蛋白質,以及更多功能。”
但上線僅 3 天,該模型就在巨大爭議中撤回。它雖然能生成一些貌似通順的學術文字,但文字中的資訊是完全錯誤的——貌似合理的化學方程,描述的是實際上並不會發生的化學反應;格式合規的引文參考的是子虛烏有的文獻;甚而種族主義、性別歧視的觀點,也能透過模型生成的文字而被包裝成 " 科學研究 "。
Google 於去年推出“LaMDA”(對話應用程式語言模型)。LaMDA 是 Google 一直在研究的最先進的 LLMs 之一,與 GPT-3 不同的是,它沒有被配置為執行任何特定任務,LaMDA 是“對話訓練”。
它本質上是一個以聊天機器人為導向的 LLMs,2022年 6 月,Google 的一名工程師聲稱 LaMDA 可能有自己的感覺,可能“還隱藏著一個感知的心靈”。這讓 LaMDA 一度陷入爭議。
由於 LaMDA 仍處於封閉測試階段,只有少數使用者可以使用,因此關於它的效能幾乎沒有披露。但是 LaMDA 只有 1370 億個引數,與前面討論的 GPT-3 的 1750 億個引數相差甚遠。雖然用於訓練 LLMs 的資料量並不是其效能和準確性的唯一驅動因素,特別是考慮到 GPT-3 和 LaMDA 是為不同的功能而建立的,但兩者中引數數量的差異確實引起了人們對 LaMDA 是否是 ChatGPT 或廣義上的 GPT-3 的有力競爭者的更大審查。
LaMDA 證明了 Google 在 LLM 競賽中並沒有完全出局。
2021 年 10 月,微軟和英偉達正式推出由 DeepSpeed 和 Megatron 驅動的 Megatron-Turing 自然語言生成模型(MT-NLG),聲稱有 5300 億引數,在當時宣傳這是訓練的最大最強的解碼語言模型。不過在2022年並沒有取得更新的進展。
微軟在生成式 AI 方面始終參與度不低。2022年大火的 chatGPT,其背後模型 GPT3.5 就是在微軟 Azure AI 超算基礎設施(由英偉達 V100GPU 組成的高頻寬叢集)上進行訓練,同時微軟在考慮對 OpenAI 進行新一輪投資。
國內,網際網路大廠也走在大模型訓練的前沿,各大廠在超大規模 AI 模型訓練的爆發主要集中在 2021 年,國內超大模型研發雖然比國外公司晚,但是發展卻異常的迅速。在2022年,也有一些進展。
百度文心大模型已經形成“模型層+工具與平臺層+產品與社群層”的整體佈局,於2022年全新發布 11 個大模型,包括 5 個基礎大模型、1 個任務大模型、5 個行業大模型;全面升級文心大模型開發套件、文心 API;新發布和升級基於文心大模型的 2 大產品,AI 作畫產品“文心一格”和產業級搜尋系統“文心百中”。
去年,阿里達摩院先後釋出多個版本的多模態及語言大模型,在超大模型、低碳訓練技術、平臺化服務、落地應用等方面實現突破。其中使用 512 卡 V100 GPU 實現全球最大規模 10 萬億引數多模態大模型 M6,同等引數規模能耗僅為此前業界標杆的 1%,極大降低大模型訓練門檻。2022年 9 月,阿里巴巴 fault 最新「通義」大模型系列,其打造了國內首個 AI 統一底座,並構建了通用與專業模型協同的層次化人工智慧體系。
近年來,大型語言模型的引數數量保持著指數增長勢頭。據預測,OpenAI 開發中的最新大型語言模型 GPT-4 將包含約 100 萬億的引數,與人腦的突觸在同一數量級。由此,出現了一個新的人工智慧口號:" 規模就是一切 "。
結語:商業化,生成式 AI 在
2023年最大的課題
在生成式 AI 技術取得突破性進展、應用井噴式出現、使用者與其距離越來越近的 2022,我們不得不關心,GA 到底是未來 AI 進入人類生活的開始,還是如此前一樣曇花一現。
目前,不少人對生成式 AI 的質疑主要在以下幾點:
1、現在 AI 的生成內容大多數還達不到直接商用的標準,仍然需要大量的模型微調,以及人的行業經驗的輔助、補充、加工。
2、AI 生成控制方式相對普通人來說,還有一定門檻。
4、行業過熱,會導致不成熟的 AI 激增,良莠不齊的應用和魚龍混雜的市場很可能會讓 C 端使用者和企業客戶失去判斷信心,同時帶來資料安全隱患。
但以上問題只能限制生成式 AI 無法在短期內成為普惠的技術,並不代表生成式 AI 沒有價值。其評判標準應該是,AI 技術能否變現,能否帶來商業價值,使其成為一個成熟的產業。
在技術方面,2023 年,更好的基礎模型值得期待,比如能夠以更高效或更緊湊的方式表示複雜資料的稀疏模型。它可以更快計算且需要更少的記憶體來儲存,從而帶來成本上的進一步普惠化。除此之外,更精準的資料收集能力也意味著在稽核、消除偏見資訊等方面投入更大的努力。
在2022年,技術開源儘管帶來了一些不必要的混亂,但毋庸置疑,這也讓更多原本沒有能力的開發者加入了戰場,加快了生成式 AI 的商業化步伐。
在目前最大的、每天更新的 AI 應用目錄 FUTUREPEDIA 網站裡可以發現,目前最受關注的 AI 應用多是文字生成和圖片生成相關的應用。這和2022年的風口趨勢一致。
但同時我們也注意到,在文字和影像之外,最受關注的 AI 應用,是市場營銷工具。如果說文字、影像應用是普適的、不對 toBtoC 進行區分的應用方向,那麼市場營銷是商業價值更加明確的 toB 方向。
或許我們可以判斷,生成式 AI 接下來一年的商業化進展,將有三條路:
一,成為使用者量足夠大的 C 端工具,如 Google,依靠流量賺錢;
二,成為足夠好用的細分工具,如 Adobe,靠特定人群的固定需求賺錢;
三,成為特定賽道的企業服務軟體,比如服務營銷、開發等需求量極大的賽道。