這個AI太能整！嬰兒影片爆刷百萬流量！讓Baby宮崎駿穿越開口，手拿把掐

編輯 | Sia

「這裡是 AI 嬰兒說播客，我今天想聊聊……尿布的質感。」（憋笑 ing）。

這是 TikTok、Instagram 上正在爆火的一種影片形式：AI 嬰兒開播客，主角是一張能說會動的虛擬嬰兒臉，和你談人生、聊八卦，甚至討論國家債務——還是用埃隆·馬斯克的臉。對，你沒聽錯，嬰兒馬斯克講財政政策的影片已經刷了數百萬播放。

而在另一個爆款影片裡，AI 嬰兒和自家寵物狗展開了一場靈魂對談：

👶：你和我為何如此不同？🐶：你沒錯，咱就是不一樣，比如我不能在室內拉臭臭，但你可以……

還有一期更「穿越」：AI 嬰兒專訪莎士比亞本人，老莎全程玩梗線上！

除了播客，這些 AI 嬰兒還佔領了 meme、MV、電影臺詞混剪等各種賽道——網友創作的片段已經多到刷不過來，流量還挺可觀。

TikTok、Instagram等平臺帶火了一系列AI嬰兒爆款影片。

而這波現象級 AI 影片的幕後推手，是一家叫 Hedra 的 AI 影片生成公司。

工具連結：

https://www.hedra.com/app/video

我們其實很早就關注過 Hedra，最近在吉卜力風《甄嬛傳》續集裡，就是靠它，才讓安陵容完美對上了口型。最近，Hedra 核心模型又升級到了最新一代：Character-3。你可以把它理解為一個全棧 AI 角色生成器（類似 HeyGen ），只需要一張圖片，它就能幫你「造出一個能演、能說、能表達的虛擬角色」。具體有多強？

隨便上傳一張圖，角色立刻「活」起來，說話流暢自然；嘴型對得死死的；情緒、表情、手勢有細節，表演感直接拉滿。

而且，從影像、聲音，到最終影片成片，你都可以在一個平臺上搞定，不需要跳來跳去。

從影像、聲音，到最終影片成片，你都可以在一個平臺上搞定，不需要跳來跳去。

Hedra 提供多個圖片生成器。

Hedra 提供的音訊生成工具。

還可呼叫競品的影片大模型說到這，我們也忍不住親自上手整活兒——這次，玩了把穿越「Baby 宮崎駿專訪老年宮崎駿」。兩代「宮崎駿」同框對談，討論那部幫他拿下第二座奧斯卡獎盃的《蒼鷺與少年》。

節目約 4 分鐘，從指令碼到影片，全程 AI 生成。0 人工，0 攝影棚。

整活工具包括：谷歌NotebookLM、可靈、ChatGPT、MiniMax Audio、 Hedra 以及剪映。

看到這，你可能要問了：

「不是說 Hedra 一站式生成嗎？為啥還用這麼多工具？」別急，這裡正好說明了一下：首先，指令碼這事 Hedra 不管，它是個生成影片的工具，不是寫段子的——所以，得靠其他內容工具。其次，Hedra 更偏英文內容生態，尤其是音訊部分，甚至連一個像樣的中文聲音選項都沒有，咱得另覓他法。

至於為什麼一個是真人、一個是漫畫風，往下看就知道了。

-1-

生成指令碼

你可以讓 ChatGPT 、豆包、元寶、通義千問等工具寫一篇約 4 分鐘的播客指令碼，討論老爺子的這部電影。但我們發現，谷歌 NotebookLM 也很好用——

只要將優質的新聞素材扔給它，就能自動生成幾分鐘的 AI 播客，內容比較深刻，指令碼質量上乘，直接複製即可。

接下來，我們又做了兩件事。刪掉一些內容，控制播客時間長度；根據自己的喜好，編輯文字。

比如，播客是主持人討論第三方作品，換成宮崎駿採訪宮崎駿，一些人稱（如「他」）就要修改；去掉一些外語，避免後續中文音訊中出現怪異的讀音。

– 2 –

AI 生圖

Hedra 雖然也提供了不少影像生成器，比如 Flux、Imagen 3、Sana、Ideogram V2，但幾乎都得付費。於是我們乾脆換了路線——直接上可靈，免費高效，效果也不賴。這張 AI 生成的 Baby 照片，就是接下來影片的「起始幀」。那宮崎駿小時候到底長啥樣呢？不太知道。我們找了張老爺子的照片做參考，結果一出來，同事們第一反應居然是：「這不就是軟銀老闆孫正義嘛！」「啊？我怎麼覺得像大鵬……」

宮崎駿爺爺的照片隨處可見，但要稍作修改，比如戴個耳機，做出播客節目的感覺。我用 Grok 3 編輯了圖片。

對於這類大 IP，不少 AI 模型會拒絕生成基於真人照片的影片。Hedra 也不例外，拒了我兩次。

我們決定用 ChatGPT 將人像轉繪成吉卜力風，也算是一種呼應。

– 3 –

中文人聲

還得是 MiniMax Audio

要說最棘手的部分，其實是人聲。Hedra 雖然支援文字轉語音，但用在中文上……只能說，效果堪比外國人念繞口令：

字正腔圓是不可能了，基本就是鬼畜，聽兩句就受不了。針對 Baby 宮崎駿和老年宮崎駿，我們採用了不同的方案，畢竟——兒童聲音容易找，老人聲音真不好配。

Hedra 雖然支援文字轉語音，但用在中文上效果很差。這時候，就輪到最近屠榜的語音生成神器——MiniMax Audio登場了。一番對比後發現，它家的聲音質量真是嘎嘎線上。比如 Baby 宮崎駿這段，我們直接把指令碼扔進去，選擇「涵涵萌獸」的童聲模型，幾秒鐘就生成一段自然又靈動的童音。

聽感比 Hedra 原生音強太多了。

老爺爺版的聲音稍微麻煩些，就連 MiniMax Audio 也沒太多合適的選擇。我們想到了克隆。

先從一段採訪影片中截取出原聲音訊。

扔給 MiniMax Audio 克隆之前，先清除背景噪音。

用相對乾淨的音訊克隆出老爺子的聲音。

將老爺子的指令碼貼好，用克隆好的聲音，生成音訊。

雖然遠稱不上「神還原」，但和現成 AI 工具自帶的那些聲音一比，還是強不少的。不過嘛，也有明顯短板：語氣聽起來像在唸稿子，總感覺有點播音腔，不太像真·對話。但你懂的，在目前這個階段，能讓「老年宮崎駿」說中文、還聽得過去，已經挺不容易了。

– 4 –

Hedra

AI 影片，一氣呵成

圖片、音訊都準備好後，接下來就是見證奇蹟的時刻——直接把素材丟進 Hedra，生成完整影片！除了 Hedra 自家的 Character-3，你還能呼叫別家的模型，比如 Veo 2、Kling 等。你可以寫一些提示詞（prompt），控制主持人手勢、眼神、語氣變化，讓影片表現力更上一層樓。