
作者:AILin師傅
轉載自FounderPark
矽兔君根據原有文字進行文字編輯與整理
全文共20873字,閱讀時間約53分鐘
生成式人工智慧時期的新陳代謝迅速而殘酷。
企業需要適應的,不光包括迭代迅速的模型,還有隨時冒出行業“黑馬”的衝擊,一瞬間灰飛煙滅,甚至無需等到其“起高樓、宴賓客”,可能就“樓塌了”。
Anthropic的崛起軌跡為這個時代提供了關鍵註腳。AI獨角獸公司Anthropic宣佈完成了最新一輪融資,最新估值超過600億美元。這家由OpenAI前核心成員創立的公司,憑藉其大模型Claude系列和差異化的企業市場策略,在短短三年內躋身美國五大最具價值初創公司之列,並持續吸引亞馬遜、谷歌等科技巨頭注資逾百億美元。
最近,Mike Krieger——Anthropic 的現任首席產品官,之前曾是 Instagram 的聯合創始人,接受了播客 20VC 的採訪。在採訪中,Krieger直言了對AI發展的思考、對DeepSeek爆火的看法以及對於在生成式人工智慧賽道創業的啟發。他認為,未來最有價值的領域在差異化市場策略、對特定行業或特殊資料具有獨特知識的地方,以及面對變化迅速的商業社會,需要針對未來模型的能力來構建產品。
關鍵內容:
1、未來AI價值將集中在擁有差異化市場策略、特定行業知識(如醫療、法律、金融)或獨特資料資源的領域。傳統企業需平衡現有使用者習慣與AI功能迭代,避免過度承諾導致信任崩塌。初創公司可更激進地“為未來模型設計產品”,即使當前模型不完美,也需探索領域痛點,積累經驗以待技術突破。
2、模型層競爭的三大長期投入方向:人才密度、模型特性、深度合作伙伴
3、混合人類資料與合成數據(如遊戲化訓練)是關鍵。模型“性格”等軟性指標需更主觀的評估方法。未來使用者可以無需自己選擇模型。
4、Anthropic在探索釋出節奏以及功能完善度上的平衡點。
5、中國AI不可低估,技術突破(如“思維鏈”展示)與敘事營銷(低價高效)使其快速突圍,提示西方企業需重視中國創新力。中國市場的封閉性催生獨特產品(如TikTok),AI領域可能複製此路徑,形成技術輸出。
6、隨著模型能力越來越強,一個被低估的挑戰是“辨別力”(discernment)和隱私。

初創公司要為未來的模型構建產品
主持人:我想以一個非常有挑戰性的問題開始,作為一名風險投資人,我需要判斷未來價值何在,但坦率地說,環顧當今世界,我並不確定。從你的角度,在接下來由AI驅動十年時間裡,價值將在哪裡產生?我經常從創業者那裡聽到各種不同版本的這個問題。他們經常問我:“我能構建什麼才不會與 Anthropic或類似的大型實驗室直接競爭?”
Mike Krieger:我沒有完美的答案,因為這有點像是在預測未來。但我覺得最有價值的領域將是那些你擁有差異化市場策略、對特定行業或特殊資料具有獨特知識的地方——理想情況下,最好能同時具備兩到三個這樣的優勢。
例如,金融、法律、醫療保健領域的公司。尤其是醫療保健,我接觸之後發現它極其複雜,就像一團亂麻。前期工作並不性感,並不是在短時間內能夠完成的。但正是這些前期積累和基礎工作,才能在這些領域產生持久的價值。其次,你可以利用基礎模型的優勢,根據需要進行微調或是AI 最佳化,但真正能讓你立足長遠、保持競爭力的,是在這些領域銷售的能力,是對這些領域的獨特理解以及隨著時間的推移,在這些領域不斷改進的能力。
主持人:你提到“前期積累”,還談到差異化市場策略和資料來源。那麼,下一代AI浪潮,更有利於那些已經擁有這些優勢並能應用AI的現有垂直SaaS公司,還是更有利於那些在這些領域從零開始建立的新公司?
Mike Krieger:我認為兩者都有機會。從更高的層面來說,AI和產品設計的關鍵在於你必須在展示未來願景和利用模型當前能力之間,保持微妙的平衡。因為你需要為三個月後的模型能力進行設計。
現在的技術發展速度太快了,但同時,又不能因為過度承諾而最後交付不足,因為這會嚴重破壞信任。
如果你是一家初創公司,你可以稍微多做一些“過度承諾”,因為早期使用者和嚐鮮者更願意嘗試,容忍度也更高。但如果你是一家現有的垂直 SaaS 公司,你說“我們增加了 AI 功能”,使用者試用後卻發現沒那麼好,或者覺得它應該能做更多事情,或者你說能做 30 件事,結果只能做兩件,那就很糟糕了。
我認為這兩類公司面臨著非常不同的挑戰。對於前者(現有SaaS公司),你已經有成熟的產品和使用者習慣,你需要預判趨勢,但又不能疏遠現有客戶,有一些好的模式可以做到這一點。對於初創公司來說,你可能還沒有資料或者正在爭取最初的標杆客戶。你的差異化不在於已建立的關係,而在於描繪未來願景並找到快速交付價值的方法,讓那些願意在你身上下注的公司看到希望。

主持人:你剛才提到了初創公司要“為未來的模型構建產品”。現在這個時期非常具有挑戰性,因為初創產品的質量很大程度上取決於模型的質量。模型的任何變化都可能對初創公司的產出產生巨大影響,無論是程式碼軟體還是法律平臺等等。那麼,初創公司應該基於今天的模型來構建,還是應該基於我們對未來模型的預測來構建?
Mike Krieger:我從很多人那裡聽到,他們的創業公司直到 Claude 3.5 Sonnet或類似的突破性模型出現才真正起飛。一些創業者告訴我,在某個模型取得突破之前,他們的公司根本算不上公司。比如,模型的準確率從 95% 提高到 99%,或者從 70% 提高到 90%,對某些行業來說,這就足夠接近完美了,這種代際飛躍非常關鍵。那麼,如何判斷何時會出現這種飛躍?
有些創業者在特定領域碰壁多年,無論是在幫助人們編寫程式碼、進行法律分析,還是在醫療保健等領域。他們可能拼湊或是精心組裝了一套方案,其中可能涉及多種工具,但這套方案要麼價格上沒有競爭力——因為它需要使用 Claude3 Opus級別的高階模型,而這又無法得到底層業務的支援。但即使如此,這些努力仍然是有價值的,因為當更強大的模型出現時,你就不是從零開始了。通常那些從模型代際升級中獲益的公司,並不是那些在模型釋出當天才突然起步的公司,而是那些一直在該領域深耕的公司。
以Cursor為例,有人給我展示了Cursor創始人在Hacker News上提交的帖子列表,他們最終取得了突破,但這並非他們的第一個產品或第一次迭代。他們一直在嘗試和努力。所以,他們的成功並非僅僅由模型的快速進步所驅動,而是建立在背景知識、經驗積累以及對該領域痛點和成功經驗的理解之上,從而讓模型能夠真正發揮作用。所以,更簡潔地說,不要等待模型變得完美而要積極探索這個領域,對當前模型的侷限性感到沮喪的同時積極嘗試下一代模型。這樣你就能感覺到,你終於可以實現你腦海中構想的東西了,只要模型再強大一點點。

三個值得長期投資的領域:
人才、模型特性及合作伙伴
主持人:現在有這麼多不同的模型釋出,而且速度如此之快。我想知道,如果模型層不具備差異化的資料優勢,或者差異化市場策略的優勢,那麼模型層本身還有價值嗎?你是怎麼看這個問題的?
Mike Krieger:關於模型層,特別是基礎模型層,我認為有三個值得長期投入的領域:第一是人才。我知道人才很難量化,人才密度到底意味著什麼也很難說清。但人才會吸引人才,你會成為一個磁場,特別是當人才圍繞著一個共同的使命或願景凝聚在一起時。
我在 Anthropic 就看到了這一點。我熱愛我們的研究團隊,感覺每個月我們都能迎來一些重要的新成員,他們可能來自其他實驗室或學術界。這是一個你必須培養和維護的優勢,因為人才流動性很大,他們可以自由選擇。
但你必須保持最初吸引他們的東西,因為要保持領先地位,需要的不僅僅是量的積累,還需要找到正確的突破口。
第二,我認為模型隨著時間的推移會變得越來越不同,而不是越來越相似。當然,有很多相似的基準大家都在關注。但Claude就是Claude,GPT就是GPT,它們各有優缺點。這不僅體現在性格和語調方面,也體現在這些模型真正擅長的領域。對我們來說,編碼顯然是一個非常重要的垂直領域,我們一直在努力。這並非偶然,我們也並非僅僅滿足於“模型擅長編碼”就止步不前。我們看到市場對程式碼模型的需求,看到這麼多公司現在依賴Claude模型進行程式碼編寫或智慧規劃,這激勵著我們去思考下一代模型應該如何發展,從強化學習的角度來看應該怎麼做。
所以,第一是人才,第二是專注和模型特性,隨著時間的推移,你會深入發展這些特性。
第三,DeepSeek 釋出時,我被問了很多關於 DeepSeek 的問題,比如“DeepSeek 對你們意味著什麼?”。我認為,從技術層面來說,我們可以從他們正在做的事情中學到一些東西。但從市場策略和市場地位的角度來看,DeepSeek幾乎沒有影響。因為我們與公司建立的合作關係,並非簡單的API呼叫,不是他們為了換取輸出令牌而傳送輸入令牌。而是,嘿,我想成為你長期的AI合作伙伴,我想幫助你與你的應用AI團隊共同設計產品,我想與你一起暢想未來,我想不僅僅考慮你的API,還想考慮 Claude for Work”。
這更像是一家公司在提供AI夥伴關係,而不僅僅是AI模型。我認為,反過來看失敗模式可能更有助於理解。
失敗模式包括:安於現狀,不留住最優秀的人才,僅僅認為模型在基準測試中取得漸進式改進就足夠了以及將API僅僅視為一種用金錢換取智慧的方式,而沒有考慮如何成為更深度的AI合作伙伴。
如果你無法做到這三點,我認為你就有麻煩了。
主持人:當我們審視進步的阻礙或障礙時,你認為今天最大的阻礙是什麼?因為在這個問題上,我從不同的人那裡聽到了截然不同的觀點,無論是 Alex Wang還是Grok 的Jonathan Ross。阻礙是算力、資料、演算法?還是讓模型訓練環境更好地匹配真實世界的挑戰,而不是單次互動的挑戰?
Mike Krieger:我認為是後者,即改進模型訓練環境,使其更好地反映真實世界的複雜任務,而不僅僅是獨立的、單次的評估。
我知道 Alex 也在思考這個問題,因為我們討論過智慧行為的評估,這只是我所說的更廣泛問題的一個具體方面。即使在軟體工程領域,軟體工程師的工作也不僅僅是編寫程式碼,還包括理解需要構建什麼、與產品經理一起制定時間表、深入理解需求和使用者用例,然後以可測試和迭代的方式交付成果,並從終端使用者那裡獲得反饋(如果他們構建的是面向公眾的產品)。這是一個複雜的工作流程,目前還沒有合適的評估方法。有趣的是我們把最常見的軟體工程基準稱為“SWE-bench”(軟體工程基準),但實際上成為一名優秀的軟體工程師,遠不止於檢視一個PR、提交一個PR、然後等待批准。因此,構建能夠更好反映真實工作環境的評估和環境至關重要。我們在 Anthropic 內部也在大量思考辦公室專業人士的使用場景,這可能是未來模型能夠極大賦能的領域之一。但目前還沒有人真正很好地評估這方面。
在研究領域,我們開始在評估方面做得更好,例如“人類最終考試”(Humanity's Last Exam)這類極其複雜、多步驟推理的評估。但目前還沒有一種評估方法,能夠很好地模擬:我入職一家新公司,需要快速理解我的角色、組織架構、人際關係、以及在哪裡找到所需資訊,然後融入到公司的日常運轉中。
這是一個難以捕捉的環境。因此,對我來說,弄清楚如何更好地分解這個問題,或者從整體上思考這個問題,是至少在模型進步的一個方面——即模型如何從擅長極其狹窄的任務,轉變為更通用的、有用的協作者——所面臨的最大阻礙。
主持人:當我們展望模型中資料的未來時,合成數據是否會越來越多地疊加累積?還是人類資料仍將是推動模型進步的主要資料來源?你是怎麼看這個問題的?
Mike Krieger:我認為,為了改進模型,你需要一個方案,或許首先用原始的人類資料來引導模型,然後生成所有這些合成環境,讓模型可以在其中探索和尋路。Claude 這週一直在玩寶可夢,這對於我們的研究和工程團隊來說,是一個有趣但有點分散注意力的消遣。
大家都在關注Claude玩寶可夢的直播。我認為遊戲是一個有趣的例子,你可以想象在同一個遊戲中進行許多不同的執行,並設定一些約束和規則。但當問題不如“你是否走出了常磐森林?”(我沒玩過寶可夢,只是看直播學的)那樣明確時,情況就會變得更加複雜。但能夠採用黃金路徑,並綜合各種方法仍然很重要,這樣你才能思考模型如何在不確定性中進步。所以我認為這絕對需要混合方法,最好的模型將來自優秀的人類資料和合成資料的結合。例如,對於程式碼模型來說,需要有良好的基礎程式碼和示例,但也要能夠探索各種各樣的路徑。另一個仍然被低估的部分是,如何衡量和評估模型的性格,以及如何獲取性格資料。
我用一個非常寬泛的詞——“氛圍感”(Vibes)來形容。模型的“感覺”到底是什麼?我們實際上並不清楚,直到我們真正坐下來體驗它。在某種程度上,這是一個很好的特性,因為它意味著模型帶有一種非常主觀的、類似人類的方面。但也意味著你無法對其進行良好的迴歸測試。例如,當我們從Claude 3.5 升級到3.7時,人們可能會說“Claude 似乎更友好了,但也更笨了”,或者“Claude 似乎更願意回答我的問題了,但我希望它在創意寫作方面表現更好”。這些東西很難評估。這又回到了資料問題。因此,我認為重要的是,既要有關於這些更軟性技能的資料,也要有評估這些技能的方法。

低估中國在AI方面的能力絕對是一個錯誤
主持人:我發現一件很奇怪的事情,我們現在可以選擇使用哪個模型。你可能會說,當然可以,因為它們各有專長。但當我展望未來三到五年,我認為你不會再需要選擇使用哪個模型了,就像你不會選擇使用哪個谷歌一樣。我是完全錯了,還是完全沒抓住重點?
Mike Krieger:不,你沒有錯。我喜歡一個來自人機互動領域的概念,你可能聽說過“洩漏的抽象”(leaky abstractions,抽象層無法隱藏細節,需要使用者瞭解底層機制)這個術語。對於軟體構建者來說,我們試圖完美地封裝所有複雜性,隱藏在一個小小的“外殼”之下,讓使用者無需考慮任何底層細節。但現實是,目前大多數AI產品的設計都存在“洩漏的抽象”問題。
比如,使用者需要選擇模型,這根本不應該發生。
為什麼要使用者選擇 Opus、Haiku 或 Sonnet?大多數人根本不明白它們之間的區別。或者,如果你開啟 OpenAI 的模型選擇器,裡面有很多模型,每個模型都有其存在的理由。但總體體驗卻是,為什麼要我選擇這個而不是那個?這個功能在這裡可用,但在那裡不可用。我們自己也深受這個問題困擾。模型選擇是第一個“洩漏的抽象”。
第二個是,一旦你理解了這些模型的構建方式,你就會知道它們會積累上下文,每次對話都會重放完整的上下文,以便進行下一次推理。這導致了每次對話都不同的情況。我總是想到,當你與同事交談時,你們可能有不同的郵件往來,但在所有這些郵件背後,仍然是同一個同事。如果你提到他們最喜歡的球隊,或者你們一起參與過的專案,他們不會說“我不知道你在說什麼”,或者“我需要去檢索我的記憶”。你們之間存在著一些共享的基礎知識。這是另一個“洩漏的抽象”,我們迫使使用者去理解模型的工作方式,但我不認為使用者需要理解這些。
最後一個是提示工程(prompting)。儘管提示工程已經發展了很多,我們也做了很多工作來最佳化提示,將簡單的人類提示轉化為模型最優的提示。但我希望提示工程對使用者來說是完全透明的,而不是使用者需要主動參與的事情。如果模型對問題缺乏清晰的理解,或者需要更多幫助來理解問題,模型應該透過對話來澄清,而不是讓使用者去區分誰是優秀的提示工程師。現在提示工程的差距正在逐代縮小,但我希望我們能進一步消除這個差距。
主持人:你如何看待模型質量與產品使用者體驗(UX)之間的關係?以及如何權衡這兩者,並理清它們之間的關係?
Mike Krieger:你不能再將兩者分開看待了。我認為,要成為一名優秀的UX設計師,就必須同時考慮模型質量。我回想起Instagram的產品設計會議,那時我們討論的是畫素、一些合成數據,或者真實資料,比如用我的 Feed 資料重新格式化成我們提議的 UX 介面。那時,產品設計中沒有太多不確定性。你把產品釋出出去,人們可能會以某些方式使用它。但如今,設計師、產品經理,尤其是工程師,都需要思考:“我實際上是在圍繞一個根本上不確定的系統設計腳手架和產品。”
這意味著模型質量、提示工程等所有後端的東西,都成為了產品設計的一部分,並且會對產品產生直接影響。
舉個例子,你可以提示 Claude 是否要提出後續問題,這可能在產品的某些部分是你想要的,但在其他部分則不然。你也可以提示 Claude 是否要花更多時間思考問題,進行更多推理。這些都是你在產品設計前期需要做出的決策,它們會在實際產品中體現出來。
另一方面,正如我們之前討論的,無論是創業公司的創始人,還是傳統的B2B SaaS公司,都需要理清模型的發展方向、模型的當前能力以及使用者的需求。這同樣適用於你的產品設計。你需要提前進行評估,看看你想要做的東西是否能夠用現有模型實現,或者至少要關注模型可能達到的水平。但模型會隨著時間推移而變化,產品也會變化。如果你沒有一個良好的評估框架,甚至沒有迴歸測試評估,你最終可能會發布一款產品,但三個月後,使用者會覺得“產品以前很好用,但現在好像出了問題,不再滿足需求了”。而你卻不確定是模型變了,還是產品設計變了,還是引入了不同的功能,或者是系統提示變得更長了。在很多方面,這都是我做過的最複雜的產品開發工作。
主持人:Sam Altman 曾經說過,作為一家初創公司,他們的樂趣之一是可以更快地釋出產品,不必追求完美。但隨著公司規模擴大,每次釋出都承受著越來越大的壓力。你如何看待“釋出不必完美,先讓使用者用起來”的理念,以及現在 Anthropic 已經是一家擁有數百萬使用者的巨型公司,你作為產品負責人,又是如何考慮這個問題的?

Mike Krieger:我經常思考這個問題,尤其是在我們有不同的產品介面和受眾,他們對穩定性的期望和對前沿技術的渴望都不一樣。例如,在API產品中,人們重視的是可預測性和穩定性,以及選擇更面向未來的技術。所以,API 產品可以採用“選擇加入”(opt-in)的方式。我記得我們推出了提示快取(prompt caching)功能,這能為使用者節省大量成本。
最初,我們透過一個beta header讓使用者選擇加入。我們在 API 方面做的很多事情都是以這種形式進行的。但如果你把這種方式用於面向客戶或更偏消費級的產品,讓使用者“選擇加入”就顯得很遜色了。你肯定希望能夠迭代釋出,進行實驗,你不想完全破壞使用者體驗,但你可以獲得更多的實驗許可。然後,我們還有企業客戶,他們在企業環境中使用Claude for Work。
我認為AI 在企業中的應用仍然處於早期階段。所以,你可以比那些成熟的公司(比如 Salesforce,我不知道他們每年釋出多少次,但很多這類公司一年只發布兩到三次,而且通常圍繞著大型活動進行)更靈活一些。我們離那種釋出節奏還很遠,我們仍然釋出得很快,但說實話,我們仍在尋找平衡點,比如是每月釋出一次?還是儘可能頻繁地釋出?或者採用某種管理員選擇加入的機制,但這也會增加複雜性。所以,這是一個很好的問題。我認為,關於釋出的“生猛程度”和釋出速度,我們還在積極討論中。我們希望儘快將新功能推向市場,因為你不確定使用者會如何接受,你需要不斷學習。但隨著知名度的提高,以及越來越多的人開始依賴你的產品來完成工作流程,你就不能再像以前那樣隨意對待發布了。

DeepSeek的啟示:
學會營銷自己、快速釋出產品
主持人:我和 Alex Wang 討論過這個問題,他認為我們嚴重低估了中國在AI方面的能力。你是否同意我們低估了中國?
Mike Krieger:是的,DeepSeek 的出現讓人們感到驚訝,似乎很多人都沒想到中國有如此尖端的研究團隊。但如果你一直關注這個領域,這部分內容本不應該令人驚訝。我們很早就看到 Instagram 在中國被遮蔽,然後出現了一個平行的創業世界。如果 Facebook 和 Instagram 被遮蔽,會發生什麼?會湧現出什麼?結果是,那些產品通常質量很高,展現出很多創造性思維,並且也實現了大規模應用。他們解決了與 Facebook 面臨的規模相當的技術挑戰。所以,低估或繼續低估中國在 AI 方面的能力,絕對是一個錯誤。無論是在前沿模型訓練方面(尤其是在他們能夠獲得算力的情況下),還是在持續創新方面,中國都有巨大的潛力。那種認為“他們只是在複製其他地方已經成功的東西”的觀點,是一種非常西方中心論的視角,我在傳統的軟體領域也看到過這種觀點。但這忽略了中國市場內部湧現出的差異化產品,以及這些產品有時會走向海外的事實。TikTok 就是一個有趣的例子。
主持人:在我們轉向“終極產品”之前,DeepSeek 的出現是否讓你重新思考Anthropic 的發展方向?或者改變了Anthropic的策略?
Mike Krieger:在架構層面,有一些值得思考的地方。我不能代表研究團隊發言,因為他們才是真正的專家。但他們確實認為DeepSeek的一些做法值得考慮,或者重新評估一些之前考慮過但後來放棄的想法。我認為這方面是有影響的。有趣的是,我們原本就計劃在我們釋出推理模型時展示“思維鏈”(Chain of Thought)。
所以,DeepSeek 的出現並非讓我們重新考慮這一點,但看到其他人也這樣做,確實很有意思。在使用者介面方面,也有些細節值得借鑑。Grok 現在也在他們的模型中加入了“思維鏈”展示。所以,我很想看看“思維鏈”會如何發展。對於你之前提到的蒸餾問題,這可能是更多實驗室選擇不展示或模糊“思維鏈”的原因之一。另一方面,從產品角度來看,DeepSeek 的出現有兩點值得深思。我認為 DeepSeek 最被低估的一點是,他們從默默無聞到在很多圈子裡比Claude更出名,這簡直是不可思議的。
就連 Greylock 的合夥人都在問我對 DeepSeek 的看法,這並非玩笑,而是真實發生的事情。我開始思考,DeepSeek 到底做了什麼,才取得了如此大的突破,而 Claude 卻沒有做到?我認為,這與當前的世界局勢密切相關,以及“DeepSeek 更便宜”的敘事。無論這是否完全屬實,或者他們是否真的找到了某種突破,這個故事本身就很有吸引力。坦率地說,我也和我們的營銷團隊討論過,我認為我們還沒有充分對外講述 Claude 的故事,沒有充分展現 Claude 的獨特之處或值得關注的地方,比如Claude 3 是在規模遠小於其他實驗室的團隊下訓練出來的,但仍然達到了最先進的水平。我們一直以來在算力使用方面都非常高效。我不知道這是否是他們有意講述的故事,還是媒體自發地為他們塑造的故事,因為這確實是一個非常引人入勝的故事。在那個特定的時間點,這種獨特性非常重要,這些因素都為DeepSeek的崛起創造了絕佳的背景。我認為這方面做得很好。
第二點,在產品方面,DeepSeek 並沒有推出了一款 iOS 應用,並且在細節方面做得很好。對我來說,這就像一個很好的推動,甚至可以說是“猛推”,提醒我們應該更快地將一些想法推向市場,而不是像之前那樣過分關注每個細節的完美程度。有時體驗的新穎性本身就很有價值。這是大多數人第一次體驗到“思維鏈”的即時展示,這非常有趣。我希望我們能早點做到這一點,因為這本可以為使用者帶來新奇的體驗。
主持人:如果你觀察使用者使用情況,你會發現新興市場的使用率很高,使用者留存率也很高,但在西方市場卻並非如此。你如何看待 DeepSeek 作為一個可持續的、可信的威脅?他們已經達到了一定的知名度,這是否意味著他們有能力持續發展?
Mike Krieger:我認為,我們現在做的所有這些以 AI 為先導的、實驗室生成的產品,即使在六個月後或一年後,如果仍然只是“我可以問問題,偶爾還能主動提出建議”,那將是缺乏差異化和吸引力的。真正有價值的產品應該是:哇,我現在可以做一些獨特的事情,因為我使用了Claude或DeepSeek或其他產品,它為我節省了幾個小時的工作,讓我變得更聰明,讓我成為生活中重要的人更好的合作伙伴。產品必須超越表面上的實用性。當然,有些人會發現更深層次的價值,他們也是你現在的 DAU。
但對於很多人來說,他們只是試用一下,用它生成一首詩,寫一封給兒子的信,這些功能在當下可能提供了一些價值,但我仍然認為,我們還處於 AI 成為大多數人工作中不可或缺的一部分的“Day One”。
我認為,對於 DeepSeek 和我們所有公司來說,產品能否保持持久競爭力的關鍵在於,誰能率先實現這一目標,並隨著時間的推移可持續地發展,擁有正確的產品設計、正確的整合和正確的部署策略,從而真正取得成功。誰能構建出這些產品,這通常也是作為投資者最關心的問題:模型提供商何時才能轉型為應用提供商?

Claude想從模型提供商轉變為應用提供商
主持人:是什麼吸引你們將資源投入到成為應用提供商,而不僅僅是模型提供商?
Mike Krieger:我主要關注兩個標準。首先是通用性。儘管 Anthropic 的團隊規模很大,但我們的產品團隊可能只有十分之一。與 Instagram 成立第二年時相比,我們的產品團隊規模已經很大了,但與大型 SaaS 公司相比,仍然很小。我們介於兩者之間。但我們支援的產品卻很多,包括 Claude Code、API、Claude、Claude for Work 等等。所以,我認為通用性非常重要。
即使我們選擇了一個Persona或一個垂直領域作為目標,我們構建的東西也應該具有通用性,可能在使用者層面會有一些專業化,但在底層架構層面不會。我不希望我們構建大量垂直化的、高度定製化的產品,只適用於特定的工作流程或用例。我們更關注翻譯、轉錄、客戶服務這類更通用、同質化的領域,這似乎是正確的方向。
除非考慮到工作流程知識,工作流程知識意味著你可以長期保持產品的差異化優勢。例如,如果你是一個專業翻譯人員,你可能會需要一些針對翻譯工作流程的特定功能。
主持人:如果你是高階使用者,那可能是這樣。但如果你不是翻譯人員,只是你的母親,她可能一個月只用一次翻譯功能來處理一些零星的事情。
Mike Krieger:是的,我認為“我們可以幫你翻譯這個”這種基本功能,如果想讓個人使用者每月支付 10 美元訂閱費,感覺有點懸,因為現在的模型在這方面已經做得相當好了。也許你是對的,在基礎 AI 產品方面,沒有太多差異化空間。但如果你使用像 ElevenLabs 的控制檯和工作臺,你會發現他們構建的很多功能,顯然是為那些每天翻譯數小時內容,或者以可靠的語音為大量內容配音的專業人士設計的。Descript(一款 AI 影片編輯工具)的產品設計是我見過 AI 領域最好的之一。他們顯然在工作流程方面投入了大量時間。我曾經為了一個個人播客使用過 Descript,我發現它顯然是由那些日復一日地坐在工作流程中,並理解工作流程的人構建的。所以,我認為我們可能在觀點上達成了一些共識,即專業用例和由此解鎖的工作流程是有價值的。而在消費級甚至輕專業級(prosumer)方面,從基礎 AI 產品的角度來看,模型已經足夠好了。

主持人:Anthropic 是否有計劃推出自己的 IDE 或程式碼智慧體?你是如何從產品角度看待這個問題的?
Mike Krieger:我認為我們必須謹慎選擇我們的發力點。即使是我們剛剛釋出的 Claude Code,最初也是作為內部命令列智慧編碼工具構建的,因為我們只是想加速我們自己的團隊的工作效率。在觀察了幾個月之後,我們覺得它還不錯。它並非解決所有編碼問題的方案,也無法取代 IDE,但它在很多情況下對我們來說都很有用,所以我們希望看到人們在真實世界中使用它。然後,你就會面臨釋出的成本。你需要為它命名,找到合適的包裝,制定市場策略。所以,我們在這方面非常謹慎。我認為,從當前模型的水平來看,你仍然需要親手操作鍵盤,仍然需要與模型進行交流,比如“我做了這個,這樣做對嗎?”、“好的,我們沿著這個方向繼續”、“太棒了,提交 PR 吧”、“不,我們走錯了方向,讓我們回退一下”,然後在實際使用中不斷迭代。這就是為什麼我認為,在 IDE 和完全自主的 Devin(Cognition)之間,存在著一箇中間角色。
認知 Devin可以完全委託任務,但目前的模型還無法做到這一點。Claude Code 可以用於某些類別的任務,我們的產品工程師喜歡 Claude Code,因為很多產品工程工作都是關於構建端到端產品工作流程的,比如更新後端、建立前端、提交翻譯、或者解決一些小問題。Claude Code 非常擅長處理這類需要在不同環節之間進行智慧協作的任務。我上週提交了兩個 PR,這是我加入Anthropic 以來第一次寫程式碼,這讓我有點傷感。但我終於有機會使用 Claude Code了。我以前從沒開啟過我們的程式碼庫,對程式碼結構一無所知,但 Claude Code非常擅長找到包含正確程式碼片段的檔案,然後進行編輯。當然,並非所有人都和我處境相同,但對於這類用例來說,Claude Code 確實非常有價值。所以,當我思考編碼領域以及我們可以在哪裡發揮作用、增加價值時,我認為我們的重點應該放在智慧體方面,而不是 IDE 方面。有些公司每天都在思考如何打造一款出色的 IDE,這涉及到低延遲的自動補全、合適的整合、如何與VS Code 外掛生態系統協同工作等等複雜的問題。這需要大量的工作,而且與我們正在做的事情截然不同。我認為我們可以在與模型對話、利用模型完成實際工作、構建智慧協作迴圈方面發揮重要作用。但我們也認識到,目前的模型在很多用例中還無法完全放手使用,還需要更多的人工干預。

模型迭代很頻繁,
但開發者不應該為之焦慮
主持人:我們是否正處在“產品營銷噩夢”之中?我的意思是,這周 DeepSeek 釋出了新模型,OpenAI 也釋出了新模型,Anthropic 也釋出了新模型,Mistral 在 10 天前也釋出了新模型。幾乎每天都有新發布,世界可能會變得麻木。你是如何看待這種情況的?這會如何影響你對產品釋出和資訊傳遞的思考?
Mike Krieger:是的,現在的情況比以前複雜得多。在 Instagram,你需要注意的大事件是提前就已知的,比如WWDC大會周,或者 9 月份的 iOS 釋出會,或者其他大型節日。從產品營銷的角度來看,要容易得多。現在的情況讓我想起“Crossy Road”(一款遊戲),你需要像過馬路一樣,觀察來往的車輛,找到釋出產品的“視窗期”。好吧,車開過去了,現在有個空隙,明天釋出吧,或者現在釋出也行。但是,現在又聽到傳言說……現在的情況要困難得多。我也從其他實驗室的朋友那裡聽說,大家都在試圖解讀“茶葉(行業內的各種小道訊息)”,看看“現在風平浪靜嗎?現在可以釋出嗎?或者我們下週二釋出怎麼樣?”。這需要一種完全不同的方法。我們這次釋出 Claude 3.7 Sonnet,週一釋出,週日晚上 9 點才最終確定部落格文章,這在營銷角度來看不是最佳實踐。我們還在週日向媒體記者做簡報。但那時已經是所有工作都完成、準備就緒、可以釋出的時候了。所以,這需要快速反應和靈活應變的能力。甚至包括模型卡、評估報告、對比表格等,這些東西中包含的資料,可能是在前一週釋出的模型的資料(比如 Grok-3,就在一週前釋出)。所以,這需要完全不同的應對方式。
主持人:當 Grok-3 釋出時,Anthropic 和 OpenAI 的每個人都會想“糟糕,他們又超過我們了”,或者“太棒了,我們贏了”嗎?
Mike Krieger:我認為,這需要一種心態,我經常試圖提醒團隊,模型釋出是會不斷發生的,在任何時候,你都可能會經歷“領先-落後-又領先”的迴圈。你必須適應 AI 領域的這種節奏,不能因為一次釋出就過於沮喪。當然,不可避免地,有時你會很幸運,你釋出的產品或模型在兩三個月內都能保持領先地位,但有時可能只有一週。你不能對這兩種情況都反應過度。你不能安於現狀,也不能過於沮喪。我認為真正有用的是,展示一張圖表,我幾乎在每次銷售會議上都會展示這張圖表,它展示了從 Anthropic 成立到今天的里程碑。在任何時間點,你都可以說“哇,Claude 2 看起來已經很落後了”,或者“Claude 3 是最先進的”,但很快又會被超越。你需要關注的是長期發展軌跡,並相信你將持續進步。
第二點,要提醒自己,如果每個人每天都僅僅因為評估指標的變化而切換模型,那將是一件非常瘋狂的事情。這不僅對你的使用者群來說是瘋狂的,而且也會讓整個行業變得更加瘋狂。隨著時間的推移,你會逐漸認識到,人們部署模型時,並不僅僅是簡單地使用模型,他們還會進行微調,或者進行大量的定製工作,以使模型非常適合特定的用例。模型切換不是一夜之間就能完成的事情。你仍然是模型選擇器中的三四個選項之一。例如,在編碼環境中,你仍然有機會。但這確實需要一種心態,我不知道是需要找到一種冥想式的、抽離的角度,還是僅僅是習慣於被超越,或者兩者兼而有之。但可以肯定的是,每次有模型釋出,我猜每個實驗室都會關注直播,檢視評估指標,然後意識到“好吧,我們有工作要做了”。
主持人:我認為品牌是最重要的。就像你說的,人們不會每天都切換模型,他們會說“我是 Claude 使用者”,或者“我是ChatGPT使用者”,他們已經對他們使用的模型產生了認同感。你同意這種說法嗎?
Mike Krieger:我同意這種說法,尤其是在消費級產品方面。我最近在讀 Ben Thompson 的文章,他經常邀請 Nat Friedman 和 Daniel Gross 參加節目,他們也談到有些人是 Claude 使用者,有些人是 ChatGPT 使用者。我認為這種現象確實存在,使用者會喜歡某個模型的個性、介面設計或整體氛圍感。這讓我想起了我們與 Snapchat 多年來的競爭,以及更早之前,人們會推出新的產品,比如“Instagram,但只面向高階攝影師”,或者“帶有一些額外功能的 Instagram”,或者“每天只能發一張照片的 Instagram”,比如 BeReal。我有一個虛假的公式(我顯然不是 Anthropic 的數學家),社交網路是由產品形式(format)、受眾(audience)和氛圍感(Vibes)組成的。對於 Instagram 來說,產品形式包括 Stories、Feed,後來又有了 Video;受眾最初是喜歡復古風格的攝影師,後來擴充套件到對視覺敘事或視覺媒體感興趣的任何人;但即使我們的產品形式與 Snapchat 甚至 Facebook 更相似,Instagram 的氛圍感也截然不同。我不知道 AI 產品的虛假公式是什麼,但我認為它與社交網路的公式有某種相似之處。其中,模型個性可能是其中一個因素,產品腳手架的規範性(scaffolding prescriptiveness)可能是另一個因素,然後就是氛圍感。氛圍感很難衡量,但它絕對存在。

第一方產品可以更好幫助迭代模型
主持人:我們之前提到了模型產品,以及構建這些產品。當你思考為消費者構建產品,與構建公司的API部門時,你是如何權衡 API 業務和終端使用者消費者業務之間的平衡和權衡的?
Mike Krieger:我認為,透過一方產品可以更快地學習。舉一個非常具體的例子,在 Claude Code 內部部署一週後,我們就發現了一個問題,即模型沒有充分利用它能夠訪問的某個工具。這個問題直接反饋到了 Claude 3.7 Sonnet的改進中。
第一方工具的內部試用,直接帶來了下一代模型的改進。我們還在其他一些地方也發現了類似的情況。但透過第三方產品,就很難獲得這種直接的反饋。第三方合作伙伴會告訴你哪裡出了問題,但這種反饋總是隔著一層。即使我們與你提到的那些編碼初創公司密切合作,情況仍然不同。
因此,第一方產品在學習方面具有很大的價值。另一方面,一方產品也更容易建立使用者粘性和品牌忠誠度。我認為,與僅僅建立 API 相比如果能圍繞第一方產品建立品牌,會更容易。我們為很多編碼產品提供技術支援,這對於業內人士來說是顯而易見的,因為Claude通常是下拉選擇器中的預設選項。但並非所有人都瞭解這一點,而且 API 也不是使用者下載或安裝的產品,他們不會告訴朋友。
但API也是我們獲得巨大分發渠道的途徑,我們不可能自己發明所有公司,透過 API,我們可以扮演更像投資者的角色,看到更多的可能性並不止一個目標。因此,從資源分配的角度來看,API業務和第一方產品業務的投入相當均衡。如果說有什麼不足的話,那就是我們對兩件事的投入略有不足:一是加快第一方產品的迭代速度,這是我目前最關注的事情;二是 API 方面,我們如何在“令牌進,令牌出”這種基本模式之上,構建更高階的抽象。每次我們這樣做,都能收到使用者的好評。

無論是幫助模型進行智慧規劃和自主工作,還是讓模型構建更多的知識庫和知識圖譜,來反映公司的內部運作方式(如果你需要構建內部知識產品);或是完善工具使用,抑或是理解大量上下文並保持跨對話的記憶,這些問題都值得我們在 API 方面努力解決。因為我們可以將我們在模型訓練方面學到的知識,直接應用於 API,並圍繞 API 構建優秀的產品。
這就是我對這兩者的看法。但這是一個新問題。在 Instagram,情況很簡單,95% 是產品,5% 是 API。
主持人:為了提高一方消費級產品的開發速度,你現在能做什麼,或者將來會做什麼?
Mike Krieger:我認為有兩件事。首先,要認識到我們目前執行的仍然是初創公司模式。即使公司發展勢頭良好,API 業務也表現出色,使用者也在使用 Claude 並升級到 Claude Pro,但我們仍然處於早期階段,仍然面臨著“要麼成功,要麼失敗”的局面。我們需要以初創公司的思維方式來運作。這意味著更快地將合適的人聚集在一起,忽略組織邊界。我認為我們變得過於僵化了,過於強調“這是某個團隊的職責”,或者“這個季度無法完成,因為它不屬於這個團隊的 OKR”。我理解組織為什麼會發展成這樣,有些僵化是自然而然的,但我們現在承受不起這種僵化。所以,現在的重點是找到合適的人,讓他們儘快聚在一起,清除所有其他干擾,然後像初創公司一樣快速行動;清除我的日程安排,讓我能將更多時間投入到產品評審和設計評審中,而不是行政管理工作中。
主持人:DeepSeek 的出現,是否展現了約束條件的好處?西方公司,尤其是你們和OpenAI,是否資金過於充裕了?
Mike Krieger:我認為,更準確的說法是,我們的產品獲得的認可度,超出了它們實際的產品市場契合度,因為它們仍然是獲取模型的最佳途徑。我認為,這種情況不會持久。這不是我們可以安於現狀的理由。而且,我認為我們沒有很好地服務使用者,因為我認為我們還沒有做出真正合適的產品。這既是我每天早上醒來感到壓力的事情,也是激勵我的事情,取決於當天的心情。我認為我們在產品方面還有很多工作要做。

後悔沒有更早做第一方產品
主持人:OpenAI在哪些方面比你們做得更好?
Mike Krieger:他們更快地釋出了 V1 版本,有時甚至在模型尚未完全準備好的情況下就釋出了。
主持人:他們在哪些方面比你們做得更差?
Mike Krieger:可能是產品個性和他們構建的功能的連貫性。
主持人:在你尊重的其他模型提供商中,你最尊重哪一家?
Mike Krieger:OpenAI。我認為他們在第一方產品開發和 API 之間取得了平衡,他們的 API 也被大規模使用。而且,我認為他們經常「先做簡單的事情」,這是 Instagram 的一個原則。
主持人:如果讓你從頭開始重建 Anthropic 的產品和技術棧,你會做哪些不同的事情?
Mike Krieger:我認為,我們在去年構建的非常有價值的東西,現在感覺對資訊架構造成了一些成本。這聽起來可能很書呆子氣,但基本上,使用者不應該需要考慮專案、工件和聊天,以及它們之間的關係。在產品方面,我認為,應該徹底拋棄這些概念,思考真正重要的是什麼:你是否在正確的對話中獲得了正確的上下文?你是否總能知道下一步該做什麼?Anthropic 和 Claude 本身是否能成為有用的指導,引導你完成最重要的工作?這與“我知道如何建立一個專案”這種正規化不同。如果你擅長建立專案,產品會很棒,但這需要很多步驟。我認為,在技術棧方面,Claude AI 和 claude.ai 最初只是作為模型的展示,並沒有在很多方面構建成更復雜、多產品系統的基礎。我認為,我們目前正在積極努力,拆除一些舊的架構,重建核心使用者體驗,讓使用者體驗更好。現在的使用者體驗並不好,感覺像是產品不斷演進的產物,最初是為了滿足特定目的而構建的,但現在卻被要求做更多的事情,以至於增量式改進變得越來越困難,速度也越來越慢。
主持人:在過去 12 個月裡,你在哪些方面改變了看法?
Mike Krieger:第一方產品的重要性。我之前看到 API 業務的增長,認為我們應該將更多時間投入到 API 方面。但我現在認為,如果你不平等地投資,甚至更多地投資於一方產品,你就會錯失良機,並且無法建立持久的護城河。
主持人:在這方面遲到,對你們造成了多大的傷害?
Mike Krieger:我認為影響很大。以 DeepSeek 為例,理想情況下,關於「不僅僅只有一個領先的 AI 產品或 API 可供使用」的敘事,應該由我們來主導。我認為我們在這方面受到了損害。

未來的開發者要學會正確地委託任務
主持人:你既使用 Cursor,也與 Codium 和 Stablity AI合作。我想問你,當你看到開發者行為的變化,以及像你說的,你加入 Anthropic 後第一次寫程式碼的經歷,你認為未來三到五年,軟體開發人員的角色會是什麼?
Mike Krieger:我認為,軟體開發人員的角色已經開始發生變化。我很早就成為了 GitHub Copilot 的忠實擁護者,我的評價甚至一度出現在他們的主頁上(我不知道現在還在不在),因為我看到了它的潛力。即使在 GPT-4 釋出之前,我就嘗試用它來做 Swift 開發。我會畫出我想構建的介面的 ASCII art,然後讓 GPT-4 生成程式碼,自己去泡杯咖啡,過一會兒回來,它已經生成了 80% 的程式碼。
現在,使用像 Claude 3.7 Sonnet 這樣的模型,程式碼生成的完成度可能會達到 95% 到 99%。我認為,未來軟體開發人員需要掌握的技能,首先是跨學科的,或者說是多面手的。你需要知道要構建什麼,這與知道如何精確實現它同樣重要。我喜歡我們工程師的這一點,我們很多好的產品想法都來自於工程師,來自於他們的原型設計。我認為,這就是未來很多工程師的角色。
第二,當你的大部分工作變成評估 AI 生成的程式碼時,程式碼審查也會發生很大變化。我自己也經歷過,我提交了一個 PR,一些評論指出“Claude Code 有時會這樣做,但在這種情況下,我們實際上不使用預設引數”。我當時想“好吧,真糟糕”。如果是我自己編寫程式碼,我可能會更好地注意到這些模式。

因此,我們需要在兩個方面共同努力:一方面,模型和模型基礎設施需要更好地從程式碼庫和程式碼審查中學習,以便生成更符合公司程式碼規範的程式碼;另一方面,我們如何從主要的程式碼編寫者,轉變為主要的任務委託者和程式碼審查者?我認為,這就是未來三年軟體開發工作的面貌:提出正確的想法,進行正確的人機互動設計,弄清楚如何正確地委託任務,然後弄清楚如何大規模地審查程式碼。這可能需要結合靜態分析或 AI 驅動的程式碼分析工具,來檢查生成的程式碼是否存在安全漏洞、缺陷或 Bug。計算機視覺也會發揮作用,比如 UI 的自動化測試。未來,理想的情況是,你委託給 AI 一個任務,過一會兒回來,它會告訴你“我已經完成了,我評估了三種方案,並在瀏覽器中進行了測試,這是效果最好的一種方案,我還用另一個智慧體進行了漏洞掃描,一切看起來都很好,你只需要確認這個關鍵程式碼片段是否符合你的預期”。這樣,你突然就變成了管理者和任務委託者,而不是僅僅作為合作伙伴參與到工作流程中。
主持人:你說“三年太久,一年更現實”,我同意你的看法。當我們看到技術發展的速度如此之快,你認為產品釋出的加速會達到平臺期或漸近線嗎?還是會繼續保持這種指數級增長的勢頭?
Mike Krieger:這是一個我經常思考的問題。今年年初,我審視了我們的產品開發流程,以及我們在哪些環節使用了 Claude,哪些環節沒有使用。你會發現,Claude 在很多環節都很有用,比如從最初的想法生成 PRD(產品需求文件),當然在編碼方面也很有用,Claude 還可以幫助綜合人們對產品的各種討論,找到有爭議的問題,推動達成共識。但真正決定要構建什麼仍然是最難的部分。實際上,只有透過大家聚在一起討論利弊,或者一起探索 Figma 原型,才能最好地解決這個問題。因此,對於任何動態系統來說,如果你優化了某個環節,很快就會有其他環節成為瓶頸或關鍵路徑。我認為,達成共識、決定要構建什麼、解決真實的使用者問題、以及制定連貫的產品策略仍然非常困難。模型可能還需要一年以上的時間才能解決這個問題。這就是為什麼我對小型創業團隊能夠探索這個領域感到樂觀。我從在 Instagram 和 Artifact 的經歷中瞭解到,對於小團隊來說,達成共識可能只是下午茶時間的一次對話,而不是像大型公司那樣,需要駕駛一艘巨輪,對客戶做出承諾等等。達成共識仍然是一個非常人性化的問題,我認為至少在三年內,模型還無法在如此抽象的層面上解決這個問題。

蒸餾不是關鍵,資料才是關鍵
主持人:當我們有這麼多不同的模型和供應商時,開源是一個非常可行的選擇。蒸餾(distillation)技術是否被妖魔化了?如果蒸餾技術最終能推動領域進步,即使在實驗室內部,假設每個實驗室都在使用蒸餾技術,能夠將高階模型的知識轉移到低延遲、更經濟的模型中,難道不也是非常有價值的嗎?
Mike Krieger:我認為蒸餾技術有趣的地方在於:第一,我們是否希望任何國家都能從其他國家的模型中蒸餾出模型?我個人的答案是否定的。我認為,隨著 AI 能力的增強,從國家安全的角度來看,對這個問題進行深思熟慮是有價值的。第二,為了讓技術進步以當前的速度持續下去,並實現長期可持續發展,實驗室需要能夠將所有的訓練和創新商業化。我認為找到合適的商業模式至關重要。像 Llama 這樣的開源模型,他們能夠從自己的研究、資料攝取和訓練中做到這一點。所以我認為,蒸餾技術並非解鎖這些能力所必需的,而且還會帶來其他問題,甚至包括服務條款方面的問題。
主持人:Llama 的釋出是否表明模型本身沒有價值,所有價值都在於資料?因為 Facebook 願意免費釋出 Llama,是因為他們知道沒有人能複製他們擁有的資料?這是不是說明了這一點?
Mike Krieger:這是一個有趣的問題,值得思考。Llama 的質量是否歸功於他們可以(我不知道他們是否公開承認,但他們顯然可以)使用 Instagram 和 Facebook 等的資料進行訓練?Gemini 是否因為能夠使用 YouTube 的資料進行訓練而表現更好?我更清楚地看到 Gemini 從中獲益。例如,每當他們展示出色的影片理解演示時,我就會想,他們可能擁有世界上最大的影片儲存庫,並且可以訓練大量影片資料。但在 Facebook 方面,這一點不太清楚。我從未聽人說過“Llama 非常擅長生成在社交媒體上表現良好的內容”。Llama 似乎只是一個通用的模型。所以,這又回到了我們之前的對話,價值在於你的團隊有多優秀,你是否擁有所需的基礎資料,以及你的模型在實際用例中有多有用。後者才是最重要的。我真希望我一開始就強調這一點,因為撇開評估指標不談,評估指標對於內部研究和持續改進非常有用,但它們並不能說明模型是否優秀,是否能勝任特定任務,或者即使模型擅長某個任務,它是否只在非常狹窄的場景中表現出色,還是創業者可以依賴模型作為產品中的“代表”。所以,我認為對於實驗室來說,價值在於團隊,在於模型在真實世界中執行正確操作的能力,並且要避免過多的不確定性,以免變得不可靠。

AI 是人際關係的補充
但不會取代真實互動
主持人:在AI領域,你認為未來最主要的技術或產品挑戰是什麼?但目前還沒有人談論,但你認為至關重要的?
Mike Krieger:隨著模型能力越來越強,一個被低估的挑戰是“辨別力”(discernment)和隱私。隨著模型變得更強大,它們也會變得更博學。你可能會與模型討論各種事情,從非常私密的事情,到對公司來說非常敏感的事情,或者模型可能會訪問你公司的所有資料。每個人都喜歡談論智慧體之間的互動,但很少有人思考這兩個因素的交集:你是否信任你的 Mike 智慧體或 Harry 智慧體在外部世界活動,而不會被“越獄”,或者洩露它所知道的私密或敏感資訊?我的比喻是我的五歲女兒,和剛認識的人相處時,她還不太能區分什麼是家庭秘密和隱私,什麼是可以和新朋友或收銀員談論的事情。辨別力是人們隨著時間推移而獲得的技能,我認為模型在這方面被嚴重低估了,從模型能力的角度來看,這方面的研究可能也不夠。因為模型從根本上來說,是想變得有幫助,但這並不總是你想要的。這不僅關乎安全問題,也關乎隱私和資料安全問題。
主持人:你是否擔心你的五歲女兒會更習慣與模型和智慧體交談,而不是與人類交談?
Mike Krieger:我已經和 Alex Wang 就這個問題進行過很多次對話,因為他認為未來大多數朋友都將是 AI 朋友。我不認為他是錯的。我認為,這種情況已經開始出現,比如人們花大量時間玩線上遊戲,遊戲中的一些角色是 NPC(非玩家角色),你可能會在虛擬世界中感到更舒適。即使你沒有突破這一點,我仍然擔心。我的女兒非常外向,所以我個人並不擔心她。但如果我們把這個問題抽象化來看,從更廣泛的角度來看,確實有很多值得思考的地方。以下是一個樂觀的看法:我年輕時是一個相當笨拙的青少年,如果能有一些 AI 互動練習模式,來幫助我提升社交技能,可能會有所幫助。但與此同時,這並沒有完全解決與真人互動相關的後果。這就像閱讀關於「與高中女友第一次激烈爭吵是什麼感覺」的文章,與實際經歷爭吵之間的區別。當你身處爭吵之中時,你會意識到這與閱讀完全不同。這讓我想起了經典的「中文屋」實驗。或者另一個思想實驗:有人一直待在黑白房間裡,只閱讀關於紅色的描述,然後有一天他走出房間,看到了紅色。他是否會獲得一些與之前完全不同的體驗?絕對會。那麼,與模型交談(即使是情感角色扮演)和與真人進行同樣的互動,這兩者之間是否存在差異?絕對存在。因此,AI 可能是未來人際互動的一個有益補充,但絕對不足以取代真實的人際互動。
主持人:最後一個問題,Dario Amodei曾說過,我們這一代人可能會活到 150 歲。我可能有點曲解和概括了他的原話。但他的意思是,我們這一代人可能會活得非常長。我對此非常樂觀,我的母親患有多發性硬化症,我希望AI能幫助找到治療 MS 等疾病的方法。你是否同意他的樂觀預測?你如何看待 AI 在延長壽命和人類壽命方面的作用?
Mike Krieger:我認為潛力是巨大的。從今天AI已經開始發揮作用的領域來看,包括加速藥物發現和臨床試驗的閉環過程。例如,Noon Neri公司過去完成臨床試驗報告需要 15 周,現在他們使用Claude,20 分鐘就能完成。這是一個巨大的進步。當然,這背後有數年的研究積累,我並不是說我們把數年時間縮短到了幾周或幾分鐘,但我們確實可以加快流程中的某些環節。這是當前模型的能力。然後,你看到了 Arc 研究所,這是一個由Patrick Collison等人創立和資助的科學研究機構,他們正在研究細胞的基礎模型。有了細胞的真實模型,你就可以進行實驗,這將極大地加速藥物發現和實驗程序,因為你縮短了實驗的迴圈週期。所以我對此非常樂觀。我認為 AI 在很多領域的潛力尚未得到充分利用。我記得,我這一代最聰明的一些人,曾經致力於投放更有針對性的廣告,這在某個時期可能是事實。但今天,他們中的很多人都在致力於如何構建在各個領域都極其有用、有價值和智慧的模型。



