

這一期五源小酒館,兩位AI領域的新銳創始人——Dify.AI的張路宇和ChatTTS的李大勇分享了他們的創業經歷和關於行業的一些心得。他們探討了新一代AI創業者如何在開源和全球化中尋找機遇,以及他們如何應對創業過程中的挑戰的,希望他們的經歷也可以對你有所啟發:)


【主持人】
邢曜鵬 五源副總裁
【本期嘉賓】
李大勇 ChatTTS創始人
張路宇 Dify.AI創始人
邢曜鵬:非常榮幸邀請兩位AI Infra領域的新銳創始人,Dify.AI的張路宇和ChatTTS的李大勇,兩位可以簡單介紹一下。
張路宇:大家好,我是Dify.AI的路宇。Dify.AI是一個開源的、面向企業的全球化AI應用開發和運營平臺,我們簡稱其為LLMOps。我們可能是全球範圍比較早提出這個詞的團隊。
當2022年11月,OpenAI開始大規模提供GPT系列模型的API時,我們意識到一個新的變數。這一變數預示著AI應用開發和運營將迎來新的正規化,同時也帶來了新的技術挑戰。這些挑戰不僅面向傳統開發者,也包括那些原本沒有技術能力的人,如使用RAG、Agent、Tools等一系列技術。此外,我們看到新的應用定義過程,以及從現實世界收集資料和改進應用的過程都是新的機會,所以我們來做這件事。
我們是去年3月份成立的一家公司,在短短一年多,作為一個開源專案,我們在GitHub上已經有了51,000個的 Star,在中國應該是Top5的開源專案,我們的Dify社群的開源版本在全球已經有了100多萬的安裝量。另外,作為一個非常初創早期的公司,我們已成功服務超過30家財富500強企業,並且目前已經實現盈利。所以說其實在整個過去一年多,甚至是AI的這波公司中,我們是一個非常幸運的企業。
李大勇:我們是ChatTTS,主要是提供語音合成和音訊生成的業務。我們釋出的第一款開源社群的庫就是ChatTTS,在很短的一個月內時間內就得到了3萬多的Star,我們繼續會提供更高保證力、更高擬人性、表現力的語音合成技術。在我們釋出ChatTTS的時候,也是發現同期的TTS並沒有提供很好的像人一樣互動的能力,所以我們也是提供了一些更模擬、更自然的一些語氣詞、一些情感的表現,這是我們主要的工作方向。
邢曜鵬:大家如果關注很多AI的應用產品,其實很多時候背後都有Dify和ChatTTS的身影,今天他們在構建整個AI應用的創新引擎,來加速很多開發者在各個領域的創新,但是我知道在公司最初成立和發展的過程中,肯定也會遇到許多爭議,能否分別介紹一下你們所面臨的最大質疑是什麼?被投資人問得最多的是什麼?
張路宇:第一個問題顯然還是關於新興公司與大公司之間的競爭,尤其是面對OpenAI這樣的人才密集和資金雄厚的公司,一個新興公司的開源的中介軟體公司怎麼不會被吃掉,這是大家普遍關注和質疑的問題。
當然今天這個時間點上我們可以說克服了這個問題,但在當時並不是。我覺得要取決兩點,第一是Founder團隊和我們的投資人有沒有看到那些非對稱和非共識的資訊。在與大量企業和開發者的接觸過程中,我們發現他們仍然有許多未被滿足的需求,例如多模態的模型、中立性、RAG的資料管線的編排等。第二點就是說是在於你相不相信歷史,在軟體設計中,其實很多歷史規律在重複發生,尤其是當一種技術革命和互動革命發生的時候,那麼歷史上曾經發生過的事情,比如桌面作業系統和移動作業系統的演變,可能會在這個時刻重新出現,關鍵在於這一點有沒有被看到。
第二個挑戰與增長有關。Dify的增長和商業模式,我們稱之為PLG 3.0,或者說PLG加開源的模式。在這個模式下,我們的產品從PMF時刻到實現大規模增長和市場覆蓋,形成某種技術壟斷,最終實現收益,這實際上是一個二階或三階的過程。也就是說在最早的時刻看,它並不是線性增長的,這可能需要具有耐心和系統性思考能力的機構才能理解。另外一個挑戰是當前存在的地緣政治因素,但我認為這只是一個小挑戰,並不是我們停下腳步的理由。
李大勇:對於我們來說的話,可能一開始的問題是ChatTTS作為一種基礎能力,是否會被其他大公司取代,比如大廠去做他們的互動時候肯定需要有TTS能力。當時有很多投資人問我們,如果遇到大公司將你們的TTS業務一塊做掉,你們該怎麼辦?我們最初覺得是在我們在技術上會有一定的領先優勢,但這種優勢很快會在大廠投入大量資源後被縮小。
但現在我們會有一個比較好的答案,就是大公司會更關注一些自然互動和與文字相關的資訊提供,而情感互動和更強表現力的需求往往被忽視。一些要求較高的創作者的需求,大廠可能不會第一時間關注到和解決。如果你沒有真正從事音訊工作,或者沒有一個專業團隊,之前從事配音或音效特效工作的經驗,他們可能無法發現這些需求。大廠直接貿然的進入,其實是需要投入更多的時間和精力去了解使用者的真實需求。因此我們花了大量精力去尋找合適的人才,並與遊戲行業的從業者交流,瞭解他們當前最迫切的需求。我們希望在這些方面投入更多的精力,花更多時間來對接他們的需求。
邢曜鵬:剛才路宇提到的內容給我很多啟發,我想跟進問一下路宇一個問題,當AI技術出現重大突破時,你提到了資訊的不對稱。你是如何發現和識別這些顛覆性的訊號,以及這些訊號如何促使你進行這次創業的?
張路宇:我一直堅信創業機會來自於非對稱的資訊。非對稱資訊在公開領域,尤其是自上而下的宏觀視角中是很難被獲得的,但在微觀領域卻無處不在。這些資訊可能存在於你的心智中、在你身邊的人以及你服務的物件中。我個人覺得創業第一個問題是要想清楚,你要服務哪一群人,哪個是你的目標使用者,然後鑽到他們中間,和他們不斷的去交流,這是獲取非對稱資訊的最佳方式。
邢曜鵬:談到兩位的商業模式,都是基於開源相關的基礎模型。大家也知道,開源在矽谷過去幾十年形成了非常強大的生態網路。在中國公司進行開源與美國開源公司相比,各位覺得有哪些機遇和挑戰?
李大勇:現在很多模型的驗證本質上是一箇中心化的任務,這意味著需要收集大量資料,在某個特定的平臺上進行驗證和分析,而不像之前一些在傳統的開源社群裡在每一個小的部分去做驗證。
所以說我個人理解的一些開源,例如像LLaMA,他們會將自己的基礎模型開源,吸引許多獨立開發者的反饋。這些開發者可能會用少量資料或來自小公司的資料進行實驗,這實際上是一個很好的機會來發現市場需求。
同時,從之前的實驗中我們可以觀察到,模型具有一定的湧現能力。當許多工集中在一個模型中時,這個模型會變得更強大,而不是簡單的線性疊加。所以我個人認為之後在訓練模型層面的開源,大家會先發佈一個基礎模型,讓使用者進行小規模的使用。隨後作為擁有模型的公司,可以觀察大家在哪些方面花了最多的精力,然後再去整合類似的資料,重新訓練出一個更強大的模型。這樣形成了一個良性的迴圈,也能更好地滿足使用者需求。
張路宇:開源是Dify在產品戰略中非常重要的一個決策。開源可以幫助我們解決幾個方面的問題。第一是它有助於順利的全球化擴張,並快速增長市場份額。其次,開源讓使用者覺得我們是安全的。在面向許多企業時,我們無需複雜的證明過程,就能建立我們的信譽。這一點在Dify今天在日本市場以及其他幾個市場的快速傳播中奠定了良好的基礎。大家可能知道,日本市場非常傳統,信譽社會的運作相對複雜。
我們認為,在Infra領域絕大多數世界上重要的開源產品是沒有國界的,它們是一個國際化的網路。我相信,如果大家檢視全球前十的開發者工具或開源專案,很多情況下,你可能不知道它們是哪個國家生產的。當然,中國的團隊相對有一點特殊,我們在公司架構上也做了妥善的安排。
另外關於中國和美國的開源,我認為在中國進行開源有幾個好處。首先,我們的使用者基數非常大。如果大家就不去看Dify,如果你去看LangChain的話,LangChain是一家美國公司,它的中國使用者佔比也達到了40%。這個比例非常高,這反映出中國在生成AI應用開發方面走在了全球前列,這是中國的基數優勢。
第二,從我接觸到的來看,中國的企業在AI研發預算和投產方面相對務實,願意投入資金和人才。同時,中國本身也擁有一些模型及其上下游的生態系統。在應用投產方面,中國團隊整體上表現得更為迅速。
我們當然有一些劣勢,比如在與北美以及當地一些傳統開源公司建立上下游合作的過程中,我們面臨的資訊摩擦和阻力可能會稍微大一些。但是我覺得隨著我們自己團隊的變強,這個應該不是一個非常難克服的點。
邢曜鵬:路宇講了很多關於他在全球各個市場的實踐,所以我再追問大勇一個問題:今天你的開源社群給你帶來了哪些積極的商業和產品反饋?
李大勇:從商業角度來看,我們在開源之後,確實有很多企業主動與我們聯絡,這算是一種宣傳的方式,同時也幫助我們發現了一些之前未關注到的商業機會。舉個簡單的例子,客服企業可能需要我們的TTS具有非常高的準確率,但在某些情況下,他們可能需要放棄一定的表現能力,這個時候我們可以針對他們的需求對模型進行額外的訓練和調整,從而更好地服務這些B端企業。
張路宇:我認為開源可以加速我們成為某種全球標準,這是我們追求的最高目標。那麼現實中的好處是,我們獲得了大量使用者反饋。我們在全球擁有600多的Contributors,每天都有二三十條來自各個國家不同企業的商務線索,比如我們在迪拜幾乎沒有獲客成本,這在傳統的to B和to C業務中都是很難以置信的。沒有獲客成本意味著你的毛利可以非常高,你的團隊不需要大量的Sales,只需清晰地向客戶介紹我們產品的價值主張即可。
邢曜鵬:路宇因為很多人也知道你是年輕的連續創業者,對你新的公司和新的旅程也很好奇,你自己在整個創業經歷中有哪些重要的成長和轉變?
張路宇:對,我確實參與過很多創業公司,Dify是我第二次自己主匯出來創業。我覺得最重要的一點是勇敢地邁出第一步。走出去不僅意味著我開始創業,還意味著我從一開始就設定了一個高標準,即要建立一家全球化的企業。勇敢邁出第一步是最困難的。其次我認為一個重要的轉變是,我必須將自身的能力下放給團隊,讓每個人都成為超級個體。只有一個超級個體是沒用的,我們需要構建一個相對去中心化的組織。我最近在讀一本書,叫《重塑組織》,書中提出了一個概念叫“青色組織”,大致是這個意思。我非常關注這樣的組織在實現規模化和全球化後,是否還能夠保持當前的創新力。
邢曜鵬:大勇這是第一次創業,能不能講一下你的創業的成長體會?
李大勇:對,因為我之前是演算法工程師,這是我的首次創業。在這次創業的過程當中,至少有幾個經歷是給我印象比較深的,第一個是建立團隊,我們發現在建立團隊的時候,尋找對音訊有熱情的人比尋找那些頭銜很高的人更為重要。這些有熱情的人能夠發現大廠在某些方面的不足,或者意識到大廠沒有給他們提供做這些東西的機會。大廠可能更加需要你的模型會更加穩定,不能有任何的錯誤,而在小公司創業時,我們並不會面臨這種限制。
其次,我認為合作非常重要。目前在語音模型領域,還沒有看到一個已經開源的、具有廣泛應用的大模型。我們一方面在開發自己的模型,另一方面也在為企業進行部署。在缺乏參考案例的情況下,我們與一些影像處理公司以及之前從事自然語言處理的企業展開合作,他們會有更好的資料,會把一些已經解析好的資料去共同分享,同時我們也將我們的技術能力賦予他們。透過這樣的合作,我們都能夠走得更快一些。
互動送禮
你對AI產品有哪些看法?歡迎在評論區分享你對這一期內容的觀點,我們會選取2位精選留言,送出五源咖啡一份。





五源尋找、支援、激勵孤獨的創業者,為其提供從精神到所有經營運作的支援。我們相信,如果別人眼中瘋狂的你,開始被相信,世界將會別開生面。
BEIJING·SHANGHAI·SHENZHEN·HONGKONG
WWW.5YCAP.COM
