編輯 | Sia
「這裡是 AI 嬰兒說播客,我今天想聊聊……尿布的質感。」(憋笑 ing)。
這是 TikTok、Instagram 上正在爆火的一種影片形式:AI 嬰兒開播客,主角是一張能說會動的虛擬嬰兒臉,和你談人生、聊八卦,甚至討論國家債務——還是用埃隆·馬斯克的臉。對,你沒聽錯,嬰兒馬斯克講財政政策的影片已經刷了數百萬播放。
而在另一個爆款影片裡,AI 嬰兒和自家寵物狗展開了一場靈魂對談:
👶:你和我為何如此不同?🐶:你沒錯,咱就是不一樣,比如我不能在室內拉臭臭,但你可以……
還有一期更「穿越」:AI 嬰兒專訪莎士比亞本人,老莎全程玩梗線上!
除了播客,這些 AI 嬰兒還佔領了 meme、MV、電影臺詞混剪等各種賽道——網友創作的片段已經多到刷不過來,流量還挺可觀。

而這波現象級 AI 影片的幕後推手,是一家叫 Hedra 的 AI 影片生成公司。
工具連結:
https://www.hedra.com/app/video
我們其實很早就關注過 Hedra,最近在吉卜力風《甄嬛傳》續集裡,就是靠它,才讓安陵容完美對上了口型。最近,Hedra 核心模型又升級到了最新一代:Character-3。你可以把它理解為一個全棧 AI 角色生成器(類似 HeyGen ),只需要一張圖片,它就能幫你「造出一個能演、能說、能表達的虛擬角色」。具體有多強?
隨便上傳一張圖,角色立刻「活」起來,說話流暢自然;嘴型對得死死的;情緒、表情、手勢有細節,表演感直接拉滿。
而且,從影像、聲音,到最終影片成片,你都可以在一個平臺上搞定,不需要跳來跳去。
從影像、聲音,到最終影片成片,你都可以在一個平臺上搞定,不需要跳來跳去。
Hedra 提供多個圖片生成器。
Hedra 提供的音訊生成工具。
還可呼叫競品的影片大模型說到這,我們也忍不住親自上手整活兒——這次,玩了把穿越 「Baby 宮崎駿專訪老年宮崎駿」。兩代「宮崎駿」同框對談,討論那部幫他拿下第二座奧斯卡獎盃的《蒼鷺與少年》。




節目約 4 分鐘,從指令碼到影片,全程 AI 生成。0 人工,0 攝影棚。
整活工具包括:谷歌NotebookLM、可靈、ChatGPT、MiniMax Audio、 Hedra 以及剪映。
看到這,你可能要問了:
「不是說 Hedra 一站式生成嗎?為啥還用這麼多工具?」別急,這裡正好說明了一下:首先,指令碼這事 Hedra 不管,它是個生成影片的工具,不是寫段子的——所以,得靠其他內容工具。其次,Hedra 更偏英文內容生態,尤其是音訊部分,甚至連一個像樣的中文聲音選項都沒有,咱得另覓他法。
至於為什麼一個是真人、一個是漫畫風,往下看就知道了。
-1-
生成指令碼
你可以讓 ChatGPT 、豆包、元寶、通義千問等工具寫一篇約 4 分鐘的播客指令碼,討論老爺子的這部電影。但我們發現, 谷歌 NotebookLM 也很好用——
只要將優質的新聞素材扔給它,就能自動生成幾分鐘的 AI 播客,內容比較深刻,指令碼質量上乘,直接複製即可。

接下來,我們又做了兩件事。刪掉一些內容,控制播客時間長度;根據自己的喜好,編輯文字。
比如,播客是主持人討論第三方作品,換成宮崎駿採訪宮崎駿,一些人稱(如「他」)就要修改;去掉一些外語,避免後續中文音訊中出現怪異的讀音。
– 2 –
AI 生圖
Hedra 雖然也提供了不少影像生成器,比如 Flux、Imagen 3、Sana、Ideogram V2,但幾乎都得付費。於是我們乾脆換了路線——直接上可靈,免費高效,效果也不賴。這張 AI 生成的 Baby 照片,就是接下來影片的「起始幀」。那宮崎駿小時候到底長啥樣呢?不太知道。我們找了張老爺子的照片做參考,結果一出來,同事們第一反應居然是:「這不就是軟銀老闆孫正義嘛!」「啊?我怎麼覺得像大鵬……」

宮崎駿爺爺的照片隨處可見,但要稍作修改,比如戴個耳機,做出播客節目的感覺。我用 Grok 3 編輯了圖片。

對於這類大 IP,不少 AI 模型會拒絕生成基於真人照片的影片。Hedra 也不例外,拒了我兩次。
我們決定用 ChatGPT 將人像轉繪成吉卜力風,也算是一種呼應。

– 3 –
中文人聲
還得是 MiniMax Audio
要說最棘手的部分,其實是人聲。Hedra 雖然支援文字轉語音,但用在中文上……只能說,效果堪比外國人念繞口令:
字正腔圓是不可能了,基本就是鬼畜,聽兩句就受不了。針對 Baby 宮崎駿和老年宮崎駿,我們採用了不同的方案,畢竟——兒童聲音容易找,老人聲音真不好配。
Hedra 雖然支援文字轉語音,但用在中文上效果很差。這時候,就輪到最近屠榜的語音生成神器——MiniMax Audio登場了。一番對比後發現,它家的聲音質量真是嘎嘎線上。比如 Baby 宮崎駿這段,我們直接把指令碼扔進去,選擇「涵涵萌獸」的童聲模型,幾秒鐘就生成一段自然又靈動的童音。


聽感比 Hedra 原生音強太多了。
老爺爺版的聲音稍微麻煩些,就連 MiniMax Audio 也沒太多合適的選擇。我們想到了克隆。
先從一段採訪影片中截取出原聲音訊。
扔給 MiniMax Audio 克隆之前,先清除背景噪音。

用相對乾淨的音訊克隆出老爺子的聲音。

將老爺子的指令碼貼好,用克隆好的聲音,生成音訊。
雖然遠稱不上「神還原」,但和現成 AI 工具自帶的那些聲音一比,還是強不少的。不過嘛,也有明顯短板:語氣聽起來像在唸稿子,總感覺有點播音腔,不太像真·對話。但你懂的,在目前這個階段,能讓「老年宮崎駿」說中文、還聽得過去,已經挺不容易了。

– 4 –
Hedra
AI 影片,一氣呵成
圖片、音訊都準備好後,接下來就是見證奇蹟的時刻——直接把素材丟進 Hedra,生成完整影片!除了 Hedra 自家的 Character-3,你還能呼叫別家的模型,比如 Veo 2、Kling 等。你可以寫一些提示詞(prompt),控制主持人手勢、眼神、語氣變化,讓影片表現力更上一層樓。

但 Hedra 真正強的地方在於它的「對齊力」:我們輸入的角色音訊,老爺子那段將近 3 分鐘,配圖也只有一張。結果輸出影片中,嘴型對得嚴絲合縫、節奏精準還原,還有眼神變化。幾乎看不到那種「說話嘴沒跟上」的尷尬情況,一氣呵成。
– 5 –
剪輯
最後一步,就是剪輯環節啦!開啟剪映,把剛剛生成好的影片匯入——比如,按照指令碼,把 Baby 宮崎駿影片拆成小片段,儲存好;繼續切分老人宮崎駿的影片。
根據指令碼,依次匯入這些切片,按順序一來一回地拼接起來。

調個轉場、再配上一點溫柔又治癒的背景音樂,一部 AI 製作的「嬰兒宮崎駿對談宮崎駿」播客,就此大功告成!
以後我們會帶來更多好玩有用的 AI 評測。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]