OpenAI與Anthropic首席產品官對談:AI時代產品經理的核心技能是寫評估|ZTalk

Z Talk 是真格分享認知的欄目。
這可能是最懂 AI 產品的兩位產品經理之間的對談。
Kevin Weil 與 Mike Krieger 目前分別在頂級大模型公司 OpenAI 與 Anthropic 擔任 CPO(Chief Products Officer, 首席產品官)。在此之前 Kevin 是 Instagram 與 Twitter 的產品副總裁,而 Mike Krieger 則是 Instagram 的聯合創始人兼 CTO。
兩位頂級產品經理過去均擁有豐富的億級消費產品構建經歷,熟悉網際網路產品的開發邏輯。他們現在的工作則同時面向消費者、企業和開發者,各自所在企業的大模型又都是當下能力最強的大模型之一。
在兩人最近一次與 Conviction 創始合夥人 Sarah Guo 的公開對談中Kevin 與 Mike 從 AI 產品經理的專業視角出發,談及當前模型潛力受限的關鍵點、構建 AI 驅動功能的產品對當今產品經理的核心能力要求,並闡述了對大模型未來發展樣態的展望
本文轉載自 Founder Park,以下是全文:
01
在大模型公司做產品,
ToC、ToB、ToD 都要做
Sarah Guo:你們倆都曾管理過 Instagram,然後你們倆進入了一個相對較新的角色,很期待聽聽你們倆的各種想法。Kevin,從你開始吧。你做過很多不同又有趣的事情,你接這份新工作(OpenAI 的 CPO)時,朋友和團隊的反應是什麼樣的?
Kevin Weil:非常興奮。我覺得這是最有趣、最有影響力的崗位之一,有太多東西要去探索。我從沒經歷過這樣具有挑戰性、有趣(也讓我徹夜難眠)的產品崗位。它包含了產品崗位的所有常規挑戰——弄清楚目標使用者是誰、解決哪些問題之類的。
通常做產品時,是基於已有的技術基礎去開發,我們知道手上有什麼資源,然後盡力打造出最好的產品。而在這裡,情況完全不同,每隔兩個月,計算機就能做一些它們以前從未做到的事情,我們要去思考這些進展會如何影響產品,變化相當大。因此,能夠從內部見證 AI 的發展,真的非常有意思,也令人著迷。而且,我在這裡真的很享受這個過程。
Sarah Guo:Mike,你呢?前不久一起吃飯的時候,你那種純粹的好奇心讓我印象特別深。你就像個孩子一樣興奮地說,「對啊,我現在在學各種企業相關的東西。」那麼,跟我們聊聊吧——這種服務 Instagram 以外的客戶、在一個以研究為驅動的組織中工作,給你帶來什麼樣的驚喜?
Mike Krieger:這個崗位對我來說是全新的體驗,我 18 歲時做了一個很「18 歲」的誓言,就是每一年都要過得不一樣。所以,這也是為什麼有時候我會覺得,「哦,又是做一個社交產品嗎?我又在做同樣的事了。」我不想重複之前做過的東西。
企業市場真的很特別。比如反饋週期,我覺得在企業裡這更像是投資,週期比在外面要長得多。可能剛和別人有了初步接觸,覺得對方挺喜歡你的產品。但突然發現專案進入了採購審批流程,可能要等上六個月才能真正部署,才能知道結果如何。
在企業裡要適應這種等待的過程,當你著急問「為什麼還沒有落地」的時候,他們會說「嘿,你才來兩個月而已,這還在各個副總裁那裡審批呢,總會透過的。」所以你必須要適應這種不同的時間節奏。
但有趣的是,一旦專案部署完成,你就能獲得真正的反饋和互動。你可以直接打電話給客戶,問問他們:「系統用得怎麼樣?效果好嗎?」
相比之下,面向普通使用者時,你只能做資料分析,雖然也可以找一兩個使用者聊聊,但他們沒有足夠的動機來詳細告訴你哪裡做得好,哪裡做得不好。這種企業市場的反饋方式雖然不同,但確實也很有收穫。
Sarah Guo:Kevin,你之前參與了那麼多種類的產品開發,感覺你的直覺在這裡有多少用得上?
Kevin Weil:是的,我也想補充一下企業客戶的特點,然後再回答這個問題。企業客戶有個很有意思的點,它不一定只看產品本身,因為還有買方的其他因素存在。他們有自己的目標,就算你做了一個頂尖的產品,企業內部的人都很滿意,但這也不一定就代表著什麼。
比如我在跟某個大客戶開會時,他們表示非常滿意,覺得產品很棒,但是他們說,「有件事我們需要,就是希望你們任何更新都提前 60 天通知我們。」當時我心裡想,我也希望能提前 60 天知道呢!
很有意思的是,因為在 OpenAI,我們既有面向消費者的產品,也有面向企業的產品,還有開發者產品。所以我們幾乎是在同時做所有這些型別。至於直覺方面,我覺得大概有一半的工作能用得上吧。當你清楚自己要做什麼產品時,比如快要釋出高階語音模式或者 Canvas 時,直覺就派得上用場。你知道目標使用者是誰,也清楚要解決哪些問題,這部分更像是傳統的產品釋出流程。
但這些專案的開始階段就完全不同了。比如有些功能,是在新模型訓練過程中才逐漸浮現的能力。你可能覺得某種功能有可能會實現,但其實研究團隊甚至所有人都還不確定,就像在霧中看見一個模糊的輪廓,你不知道它能否真正實現,也不知道它的成功率會是 60%、90% 還是 99%。而如果某個功能的成功率只有 60% ,與 99% 相比,整個產品的設計思路會完全不同。
所以,這時你只能等待,還得時不時和研究團隊溝通一下,「嘿,最近怎麼樣?模型訓練進展如何?有什麼新發現嗎?」他們會說,「我們也在研究中,還在摸索。」這個過程確實很有意思,因為你是在和大家一起探索,相當隨機。
Mike Krieger:這種情況最讓我想起 Instagram 時期每次 Apple 釋出 WWDC 訊息的感覺——就好像這更新可能讓我們受益,也可能讓我們陷入混亂。不過,現在是自己的公司在內部給自己帶來這些變數,這種感覺很酷,但同時也可能會徹底打亂產品計劃。
02
模型的準確率到 60% 時,
就可以開發產品了
Sarah Guo:如果你們不知道未來會有什麼功能,怎麼可能做出計劃呢?探索那些應該加入產品的新功能的迭代過程是怎樣的?
Mike Krieger:其實你可以大致看到一些方向,雖然它不可預測,但至少是朝某個方向在前進。這樣,你就能開始圍繞這些方向去構建產品。
首先是從產品側出發,去決定你要投資哪些功能,然後與研究團隊一起做微調。像「artifacts」這種功能,我們和研究團隊花了很多時間一起做調整,我覺得 Canvas 也是一樣。就是進行「共同設計、共同研究、共同微調」。這也是在這家公司工作的一個特權,能參與設計這個過程。
第二,是關於功能的前沿突破。比如 OpenAI 的語音模式。我們這周釋出的版本(Anthropic 的 Computer Use 功能)就是一個典型的例子,到了 60% 的完成度,我們就覺得「好吧,差不多夠用了」。我們嘗試做的是在過程的早期就把設計師嵌入進來,但要知道你不是在押注某個產品。
正如之前講的實驗過程一樣,你的實驗輸出應該是學習,而不一定是每次都能推出完美的產品。結果應該是展示性或資訊性的東西,這些東西可能會激發產品創意,而不是一種可預測的產品開發過程。這樣降低預期,你就在心裡已經做過風險規避了。
Sarah Guo:我們在做投資時,常常會思考一個問題,那就是,如果一個模型的成功率只有 60%,而不是 99%,那它還能做什麼?很多工可能最終接近 60% 的成功率,尤其是那些非常重要且有價值的任務。那麼,你們在內部是怎麼評估的?當你們面對這些任務時,產品設計上應該怎樣去處理,以確保即使是「失敗」的情況也能優雅地展示給使用者,還是說,我們只需要等模型變得更強大?
Kevin Weil:實際上當模型的準確率只有 60% 時,還是可以做的。關鍵是你得為此做好設計。你必須預期,模型背後會有更多的人工參與其中,而不是完全自動化。
就拿 Github Copilot 來說吧,這個產品實際上是第一個真正讓大家意識到,AI 不僅能用於 Q&A,它也能為真正有經濟價值的工作提供幫助。當時釋出的模型,我不太確定具體是哪一代,但至少它已經是好幾代之前的版本了。可以肯定的是,這個模型在與程式設計相關的任務上並不完美。不過,雖然它的準確率並不完美,但它依然能為你提供價值——如果它能把程式碼完成一部分,那就能省下你大量的時間。
現在我們也會看到類似的情況,特別是隨著我們向智慧 Agent 和長任務轉變,雖然結果可能不完美,但如果模型能幫你節省五到十分鐘時間,這依然是很有價值的。
更重要的是,如果模型能夠意識到自己對某些地方沒有信心,並且能主動回過頭來問你:「我不確定這個,能幫我確認一下嗎?」那麼人類與模型的合作效果就能遠遠超過 60% 的準確率。
Mike Krieger:我也發現,那個 60% 這個「神奇的 60%」數字其實挺有意思的,它就像一個界限。
Kevin Weil:我隨便說的,五分鐘前才想出來的。
Mike Krieger:60% 是我們新的標準,像是 AI 的「門多薩線」。我覺得這準確率往往是非常不穩定的,有些測試能表現得很好,而有些測試就完全不行。這也很有趣,有時候甚至會同一天收到來自兩家不同公司的反饋。一個說可以了、一個說還不行。
門多薩線:Mendoza Line,棒球術語,用來指代打擊率低於 0.200 的球員。來源於前職業棒球大聯盟球員 Mario Mendoza,他職業生涯的平均打擊率僅有 0.215。Mendoza Line 象徵著在棒球中球員的打擊表現的最低可接受標準。此外,這個術語也被用在其他美國體育、政治和流行文化中,表示平庸和糟糕之間的分界線。
並不是說結果完全偏離預期,只是比其他模型表現差一些。雖然我們有自己的內部評估標準,但當模型真正應用到實際場景中時,就會發現問題。這就像產品設計一樣,你做了很多設計工作,但放到一個使用者面前時,突然發現:「哦,原來我想錯了。」模型也是這樣。
我們盡最大努力去預判,但使用者們有他們自己的資料集、自己的使用方式,他們會用自己的方式去跟模型互動。所以當模型真正落地時,會出現各種問題。
03
AI 時代的產品經理,
寫評估標準是核心技能
Kevin Weil:我很好奇你是否也有這種感覺。我覺得現在的模型並不是受限於智慧,而是受限於評估它們實際上可以做得更多,在更廣泛的領域中表現得更準確。關鍵是要教會它們一些特定領域的知識,這些可能不在它們最初的訓練集中,但只要正確引導,它們是可以學會的。
Mike Krieger:我們一直都看到這種情況,大約三年前發生過很多令人興奮的 AI 部署。現在他們說:「我們認為新模型更好,但我們從未進行過評估,因為三年前我們所做的只是釋出酷炫的 AI 功能。」
最難讓人們克服的障礙是:「讓我們退一步,成功對你來說究竟意味著什麼?你正在解決什麼問題?」而且產品經理經常會換人,所以接手的人需要重新定義這些問題。
我們發現 Claude 其實很擅長寫評估標準,也擅長打分。所以我們可以幫你自動完成很多工作,但你得先告訴我們什麼是「成功」。然後我們才能逐步改進,這往往就是任務完成度從 60% 提升到 85% 的關鍵。
如果你來 Anthropic 面試,你會發現我們面試過程中會讓你把一個糟糕的提示改進成好的提示。我們發現這方面的人才在其他地方比較缺乏,所以如果要教人們一件事,這可能是最重要的。
Kevin Weil:是的,寫評估標準。我覺得這將成為產品經理的一項核心技能。
Mike Krieger:我們內部有個有趣的情況。我們有研究類產品經理,主要負責模型能力和開發;還有負責產品介面和 API 的產品經理。我們發現到了 2024、2025 年,開發 AI 功能的產品經理的工作越來越像前者而不是後者。
比如我們推出了程式碼分析功能,Claude 現在可以分析、編寫程式碼。產品經理把功能做到 80% 的程度,還需要交給會寫評估標準的產品經理來做微調和提示詞最佳化。這其實是同一個角色,你的功能質量現在取決於你的評估和提示詞做得有多好,所以這兩種產品經理的定義現在正在融合。
Kevin Weil:完全同意。我們專門設立了訓練營,教所有產品經理寫評估標準,讓他們理解好壞評估的區別。當然我們還沒完全做好,需要繼續改進。但這確實是用 AI 做好產品的關鍵。
Sarah Guo:對於那些想成為優秀的 AI 產品或研究產品開發者的人來說,該怎麼培養在評估和迭代方面的直覺呢?
Kevin Weil:其實你可以用模型本身來學習,就像你說的,你可以問模型什麼是好的評估標準。你可以說「我想做這個,能給我寫個評估樣例嗎」,它給出的答案通常都不錯。
Mike Krieger:是的,這確實很有用。另外還有一點,如果你聽過 Andrej Karpathy 等在這個領域深耕多年的人的觀點,他們會說沒有什麼比研究資料更重要。人們經常糾結於已有的評估結果,比如新模型達到了 80% 而不是 78%,覺得不能釋出,或者覺得更糟。但如果我們仔細看失敗的案例,可能會發現:「哦,其實這個更好,只是我們的評分標準不夠好。」
有趣的是,每個模型釋出時都會有模型卡片(model card),在看這些評估時,有時連標準答案我都覺得不太對,比如覺得人類可能不會這麼說,或者覺得數學計算可能有點問題。要拿到 100% 的分數真的很難,因為評分本身就很有挑戰性。所以我建議,培養直覺的方法就是去看實際的答案,哪怕是抽樣看,然後想:「好吧,也許我們應該改進評估標準」,或者「雖然評估分數不高,但整體感覺還不錯」。深入研究資料很重要。
Kevin Weil:我覺得隨著我們向更長的上下文或 Agent 發展,這個問題會變得更有趣。比如說,讓模型做數學題並得到正確答案,這種情況下很容易判斷好壞。但當模型開始處理更長篇幅、更模糊的任務時,比如「幫我在紐約訂酒店」,什麼是正確答案?很多時候要考慮個性化。如果你讓兩個完全勝任的人去做,他們會做出不同的選擇。所以評分標準會變得更靈活。我們可能需要再次改變評估方式。
Mike Krieger:是的,評估可能會更像績效考核。比如說,模型是否達到了一個稱職的人類能做到的水平?是否超出預期?因為它完成得更快,或者發現了你不知道的餐廳?評估變得不再是簡單的對錯判斷,而是更微妙和複雜的東西。
Kevin Weil:更不用說這些評估標準是人寫的,而模型在某些任務上已經能超過人類了,人們有時候更喜歡模型的答案而不是人的答案。所以如果是人來寫評估標準,這到底意味著什麼呢?
Sarah Guo:評估標準是關鍵。我們要花時間和這些模型打交道,學習寫評估標準。那麼除此之外各位產品人還需要學習哪些技能?
Mike Krieger:我覺得用這些模型做原型設計是一個被低估的技能。我們內部最優秀的產品經理就是這麼做的。比如我們在討論 UI 應該是這樣還是那樣時,在設計師開啟 Figma 之前,產品經理或工程師就會說:「我已經讓 Claude 做了個對比,看看這兩種 UI 會是什麼樣子。」我覺得這很酷。我們現在能以比以前快得多的速度製作和評估更多的原型。學會使用模型工具進行原型設計是很有用的技能。
Kevin Weil:我覺得這也會推動產品經理更深入地瞭解技術棧。這可能會隨時間改變,就像如果你在 2005 年做資料庫技術,可能需要以不同的方式深入理解底層原理。但現在有了更多抽象層,可能不需要知道所有基礎知識。
當然不是說每個產品經理都需要成為研究員,但要對研究有所認識,花時間學習相關術語,對這些東西如何運作建立直覺,這會很有幫助。
Mike Krieger:另一個方面是,你在處理一個隨機的、非確定性的系統。評估標準是我們的最佳嘗試,但在一個你無法完全控制模型輸出的世界裡做產品設計,你需要考慮如何建立反饋機制來閉環。比如當模型偏離軌道時如何判斷?如何快速收集反饋?需要設定什麼樣的護欄?如何瞭解它在整體上的表現?你需要理解這個智慧系統在很多人使用過程中產生的大量輸出。這和傳統的「點選按鈕沒反應」這種明確的 bug 反饋完全不同。
Kevin Weil:也許人們習慣了這種情況之後會有所改變。但現在我們都還在適應這種非確定性的使用者介面,更不用說那些不懂技術的使用者了。這違背了我們過去 25 年使用電腦建立的所有直覺——相同的輸入往往會得到相同的輸出,但現在不是這樣了。
我們不僅要適應這一點,在開發產品時還要站在使用者的角度思考這意味著什麼。這既有缺點也有很酷的優點,所以思考如何利用這一特性很有趣。
Mike Krieger:我記得在 Instagram 時我們做了很多持續性的使用者研究,每週都會有研究員帶來不同的使用者測試原型。我們在 Anthropic 也這樣做。
有趣的是,在這些測試環節中,使用者的 Instagram 使用方式常常讓我感到意外。他們的用例或對新功能的反應總有一些有趣之處。而現在,一半取決於使用者的行為,一半取決於模型在那種情況下的反應。
當模型表現得很好時,你會有一種自豪感。但當它誤解了使用者意圖,給出了長篇大論的錯誤回答時,又會感到沮喪。這可能也需要一種「禪」的心態,學會放下控制,接受在這些環境中可能發生的任何事情。
04
ToC 產品可以試著讓 AI 去「教育」使用者
Sarah Guo:你們都曾參與開發面向消費者的產品,快速教會了數億使用者新的使用習慣。AI 產品的發展甚至比這更快。如果連產品經理和技術人員對如何使用它們都沒有太多直覺,你們是如何考慮在如此大規模上教育終端使用者使用這種反直覺的產品的?
Kevin Weil:

人類適應新事物的速度確實很驚人。我前幾天和人聊到他們第一次乘坐 Waymo 的經歷。這是個神奇的體驗。人們最初 30 秒可能會說「天啊,小心那個騎腳踏車的」,5 分鐘後就會覺得「哇,我在體驗未來」,10 分鐘後就開始無聊地刷手機了。

我們多快就習慣了這種完全魔法般的東西啊。ChatGPT 還不到兩歲,它剛出來時確實令人震驚。現在如果讓我們回去用最初的 GPT-3.5,大家可能會覺得 3.5 很差勁。
今天我們在做的這些東西,現在還感覺很神奇,但 12 個月後我們可能會說「你能相信我們曾經用那種垃圾嗎?」發展太快了。但令我驚訝的是人們適應得多快。儘管我們努力帶著大家一起前進,人們明白世界正朝這個方向發展,這個變化正在發生,而且發生得很快。
Mike Krieger:們正在努力改進的一件事是讓產品本身以一種非常直白的方式進行教育。
我們早期沒有做到,現在正在改變的是讓 Claude 多談談它自己,比如它的訓練集是什麼,它是 Anthropic 建立的人工智慧等等。現在我們會直接跟使用者說「這個功能該怎麼用」。

這來自於使用者研究,因為我們發現使用者會問「我該怎麼用這個?」然後 Claude 會說「我不知道,你試過上網查查嗎?」這顯然不夠好。所以我們現在真的在努力讓它更貼地氣。這是個過程,我們在不斷改進。
現在看到它能提供確切的文件連結,告訴使用者怎麼做,「哦,你卡住了,我來幫你」這樣的回應很棒。這些模型實際上很擅長解決 UI 問題和使用者困惑,我們應該在這方面多加利用它們。
Sarah Guo:在企業中推動變革管理一定很不一樣吧?因為有既定的工作方式和組織流程,你們如何考慮教育整個組織關於生產力提升或其他可能的改變?
Mike Krieger:企業這塊很有意思,因為雖然這些產品有數百萬使用者,但重度使用者還是主要集中在早期採用者和技術愛好者中。而在企業中,你要面對的是整個組織,其中很多人都不太懂技術。看到非技術使用者第一次接觸基於 LLM 的聊天系統很有意思。你可以開展培訓會議,準備教育材料。我們需要從這些經驗中學習,思考如何教育下一個億級使用者使用這些介面。
Kevin Weil:企業內部通常都有一些重度使用者,他們很樂意教其他人。比如在 OpenAI,我們有可以定製的 GPT,這讓重度使用者能夠建立一些工具,讓其他可能不太會用的人來說更容易上手 AI。找到這些重度使用者很重要,他們會成為傳播者。
Sarah Guo:我必須問問你們,因為你們的組織都是重度使用者,生活在未來。Computer Use 體驗如何?你們都在用它做什麼?
Mike Krieger:對,內部使用方面,就像 Kevin 之前說的,我們很晚才確信這個產品已經足夠好了。雖然還很早期,還會犯錯,但我們覺得值得嘗試。最有趣的用例是在 beta 測試時,有人想試試能不能讓它幫我們訂披薩,結果真的成功了。當 Dominos 送到辦公室,而且完全是 AI 訂的,那是個很酷的里程碑時刻。雖然是 Dominos(笑),但畢竟是 AI 訂的,所以還是很棒的。而且它訂了很多披薩。
我們看到一些有趣的早期應用。一個是 UI 測試,在 Instagram 時我們幾乎沒有 UI 測試,因為它們很難寫,而且很脆弱 – 比如移動一個按鈕,測試就會失敗,需要重新截圖。但 Computer Use 在測試「它是否按預期工作」這方面表現得很好,這很有趣。
我們還在探索一些涉及大量資料處理的 Agent 任務。比如在支援團隊和財務團隊中,有很多表格需要填寫,資料需要從一個系統轉移到另一個系統,這些都需要人工時間。我經常用「枯燥工作」這個詞來形容 Computer Use 的使用。我們能否透過自動化這些枯燥工作,讓人們專注於創造性的工作,而不是重複點選 30 次只為完成一件事。
05
複雜任務應該是多模型協同
Sarah Guo:Kevin,很多團隊都在嘗試 o1,你們現在的模型可以做更復雜的事情。但如果已經在應用中使用了 GPT-4 之類的模型,也不能簡單替換。能給我們一些指導,說說你們內部是怎麼使用 o1 和這些新模型的嗎?
Kevin Weil:人們可能沒意識到,我們的很多高階客戶和我們內部其實不是用單一模型解決特定問題。你最終會把不同模型組合起來,形成工作流程和編排。我們根據每個模型的優勢來使用它們。o1 在推理方面很強,但需要一些思考時間,而且不是多模態的,還有其他限制。
Sarah Guo:解釋下什麼是推理?我知道這是個基礎問題。
Kevin Weil:人們已經很熟悉預訓練、Scaling Law 的概念了,從 GPT-2、3、4,預訓練規模越來越大,模型變得越來越「聰明」,或者說知識越來越多。但這些都是類似系統 1 思維——你問一個問題,立即得到答案,就像文字補全一樣。
有趣的是,對人類行為的直覺感知往往能幫助你理解模型的工作方式。就像你問我問題,我說偏了就很難回到正題,模型也是這樣。但除了這種越來越大的預訓練,o1 實際上是在查詢時透過不同方式擴充套件智慧。不是系統 1 思維那樣立即給出答案,而是會暫停思考,就像人類一樣。
比如讓你解數獨或《紐約時報》的連線謎題,你會開始思考:「這些詞怎麼分組?這四個可能是一組?不,我不確定…」你在形成假設,用已知資訊來驗證或否定這些假設,然後繼續推理。這就是科學突破的方式,也是我們解答難題的方式。現在我們在教模型這樣做。目前它們會思考 30 到 60 秒才回答。想象一下如果它們能思考 5 小時或 5 天會怎樣。這基本上是擴充套件智慧的新方式,我們覺得才剛剛開始,就像是這種新型推理方式的「GPT-1 階段」。
但同樣,你不會在所有場合都用它。有時候問題需要立即回答,不能等 60 秒。所以我們最終會以不同方式組合使用模型。
比如在網路安全領域,你可能覺得模型不適合因為它們會產生幻覺。但你可以微調模型來完成特定任務,讓它們對輸入輸出非常精確,讓多個模型協同工作。有的模型負責檢查其他模型的輸出,發現問題時要求重試。這就是我們內部如何從模型中獲得大量價值——針對特定用例,讓多個模型協同工作。這又回到了人類工作方式的類比:我們完成複雜任務時,不同專長的人會一起合作。
06
未來的 AI 產品:
主動性、非同步性
Sarah Guo:告訴我們一些關於未來的事情,接下來會發生什麼。我知道你們不一定知道具體的釋出時間,所以不必給我們確切的日期。但如果你們展望未來,你們覺得 6 到 12 個月之後哪些體驗會變得可能?或變得普遍呢?
Mike Krieger:我關注的一個問題,就是如何讓 AI 變得更主動。
我想到的兩個關鍵點,第一個是「主動性」。當模型瞭解了你,並且在適當的情況下,比如你授權它讀取你的郵件,它可能會開始識別一些趨勢,也許你每天能收到一份總結,比如它提醒你今天有幾個重要的會議,或者提前為你做了一些研究,提醒你:「嘿,你下個會議要開始了,或許你可以聊這些話題。」比如,如果你有個即將到來的演講,它甚至會提前幫你準備好第一稿,這樣的「主動」功能我認為會非常強大。
另外一個方面是「非同步性」。想象一下,從 0 到 1 的早期 UI 探索,它會告訴你它正在做什麼,也許你就坐在那裡等著,也許你可以說:「它可能需要一點時間,我先去做點別的,等它完成後再回來看看。」
這就是在時間維度上的擴充套件,它可能不會立即給你答案,而是先去思考、去研究,甚至可能需要向其他人求助,然後它再給你第一份答案,經過驗證後在一小時後回饋你。
打破那種「必須立刻得到答案」的期待,可能會讓你做更多的事情。比如,不僅僅是讓 AI 幫你改個介面上的小細節,而是讓它處理更復雜的任務,比如:「幫我改進一下我的 PRD,適應這些新的市場條件」,或者「根據這三個新的市場趨勢,調整我的戰略計劃」。能推動這種多維度的進展,是我最期待的產品功能。
Kevin Weil:我完全同意。而且,我認為模型會以加速的速度變得越來越智慧,這也是一切得以實現的一部分。
另一個讓我很興奮的事情是,看到這些模型能夠像我們人類一樣進行互動。現在,大多數時候我們與 AI 的互動是透過打字來進行的,像我在 WhatsApp 和朋友們聊天時也是一樣,雖然我也會說話,也能看見。
最近我們釋出了高階語音模式,我在韓國和日本和別人交談時,尤其是與那些我們完全沒有共同語言的人交流時,真的是一種魔法般的體驗。以前我們可能根本無法說一句話,但現在我對著 AI 說:「嘿,ChatGPT,當我說英文時,請翻譯成韓文;當你聽到韓文時,請把它翻譯成英文。」突然之間,我就有了一個「萬能翻譯器」,可以和對方進行商務對話,真的是太神奇了。你可以想象一下,這不僅僅是商務場景,想象一下人們如果不再擔心語言不通,是否會更加願意去新的地方旅行。而且你口袋裡隨時都有一個像《星際迷航》中的「萬能翻譯器」。
我相信像這樣的體驗將很快成為常態,但它仍然很神奇,我對這種技術的未來充滿期待,尤其是和 Mike 剛才說的這些結合起來,更加令人興奮。
Sarah Guo:自從語音模式釋出以來,我現在很喜歡看 TikTok 上的一種型別的影片,其實就是年輕人和語音模式互動,向它傾訴心事。我自己可能完全不會想到這樣去互動,但這些 14 歲的年輕人卻認為理所當然:「我希望 AI 能做到這個。」這種互動方式對我來說是全新的體驗。而我很強烈地相信,AI 將會成為我們生活的一部分,我真的非常喜歡看到這種現象。
Kevin Weil:你有沒有給你的孩子們用過它?
Sarah Guo:我還沒有。兩個孩子一個 5 歲一個 7 歲。
Kevin Weil:我的孩子們差不多也是 8 歲和 10 歲左右,但每次坐車時,他們都會問:「我可以和 ChatGPT 聊聊嗎?」然後他們就開始問一些非常奇怪的問題,和 AI 聊一些稀奇古怪的話題,但他們完全不覺得奇怪,反而很開心和 AI 互動。
Sarah Guo:說個我最近很喜歡的事情吧,作為今天的結束話題。想當年我父母給我讀書的時候,我很少能自己選書。通常都是我爸說「今天就讀這本」。現在我的孩子們,可能是因為在矽谷長大,他們會和我說:「媽媽,我要聽個關於龍和獨角獸的故事。」我心想,「這要求可真高啊」。不過我很高興他們相信這是可能的,雖然這種自己創造娛樂內容的方式確實挺瘋狂的。說說看,你們最近在產品中看到什麼讓人驚訝的使用方式?
Mike Krieger:我覺得這是一種行為和關係的變化。人們開始真正理解像 Claude 這樣的模型的細微差別,他們知道它到底是什麼,它是不是一個新的收入來源。人們會開始理解這種微妙的感覺,幾乎是在和模型建立一種朋友關係,或者說,發展出很多雙向的同理心。
然後我會聽到有人說,「這個新模型感覺更聰明瞭,但似乎有點疏遠。」這種微妙的變化讓我作為產品經理,感受到更多的同理心。你不是在釋出一個產品,而是在釋出一種智慧和同理心——這正是人際關係中的關鍵。
如果某個人突然告訴你,「我升級了,數學成績提高了 2%,但我變得不一樣了。」你可能會說,「哦,我得適應一下,可能會有點擔心。」所以,對我來說,這一過程是非常有趣的,理解人們在使用我們產品時的心態。
Kevin Weil:模型的行為絕對是一個產品問題。模型的個性非常重要,也有一些有趣的問題,比如它應該有多少個性化,或者說 OpenAI 的模型和 Claude 的模型是不是應該有不同的個性?人們會因為喜歡某個模型的個性而選擇使用它嗎?
這其實是非常人性化的事情,我們之所以和不同的人交朋友,也是因為我們更喜歡某些人,而不是其他人。這也是一個值得思考的問題。
我們最近做了一些實驗,結果在推特上引起了轟動。人們開始問模型:「根據你瞭解我的所有資訊、我們之前的互動,你會怎麼描述我?」然後模型會給出一個回答,描述它基於你過去的互動對你的一些看法。這種互動幾乎就像是在和某個實體或者人物進行對話。看到人們對這種互動的反應,真的非常有趣。
推薦閱讀


相關文章