一文讀懂AIGC:從大模型到應用落地的全鏈路實踐與未來趨勢

一、AIGC概述

(一)什麼是AIGC

AIGC的全稱為“Artificial Intelligence Generated Content”,中文翻譯為“人工智慧生成內容”。這是一種新的創作方式,利用人工智慧技術來生成各種形式的內容,包括文字、音樂、影像、影片等。
  • AIGC是人工智慧進入全新發展時期的重要標誌,其核心技術包括生成對抗網路(GAN,Generative Adversarial Networks)、大型預訓練模型、多模態技術等。
  • AIGC的核心思想是利用人工智慧演算法生成具有一定創意和質量的內容。透過訓練模型和大量資料的學習,AIGC可以根據輸入的條件或指導,生成與之相關的內容。例如,透過輸入關鍵詞、描述或樣本,AIGC可以生成與之相匹配的文章、影像、音訊等。
  • AIGC技術不僅可以提高內容生產的效率和質量,還可以為創作者提供更多的靈感和支援。在文學創作、藝術設計、遊戲開發等領域,AIGC可以自動創作出高質量的文字、影像和音訊等內容。同時,AIGC也可以應用於媒體、教育、娛樂、營銷、科研等領域,為使用者提供高質量、高效率、高個性化的內容服務。

(二)AIGC與大模型的關係

大模型與AIGC之間的關係可以說是相輔相成、相互促進的。大模型為AIGC提供了強大的技術基礎和支撐,而AIGC則進一步推動了大模型的發展和應用,具體如下:
  1. 大模型為AIGC提供了豐富的資料資源和強大的計算能力
  2. AIGC的需求也推動了大模型的發展
  3. 大模型和AIGC的結合,也帶來了廣泛的應用前景

(三)常見的AIGC應用場景

AIGC可以應用於各行各業,主要包括但不限於生成文字、影像、音訊、影片等,具體如下:
表1 常見的AIGC應用場景
應用場景 描述
電商 生成商品標題、描述、廣告文案和廣告圖。
辦公 寫週報日報,寫方案,寫運營活動,製作PPT,寫讀後感,寫程式碼。
遊戲 生成場景原畫,生成角色形象,生成世界觀,生成數值,生成3D模型,生成NPC對話,音效生成。
娛樂 頭像生成,照片修復,影像生成,音樂生成。
影視 生成分鏡頭指令碼,生成劇本指令碼,臺詞潤色,生成推廣宣傳物料,音樂生成。
動漫 原畫繪製,動畫生成,分鏡生成,音樂生成。
藝術 寫詩,寫小說,生成藝術創作品,草圖生成,藝術風格轉換,音樂創作。
教育 批改試卷,試卷建立,搜題答題,課程設計,課程總結,虛擬講師。
設計 UI設計,美術設計,插畫設計,建築設計。
媒體 軟文撰寫,大綱提煉,熱點撰寫。
生活 制定學習計劃,做旅遊規劃。

(四)AIGC技術對行業發展的影響

AIGC技術對行業發展的影響深遠且廣泛,主要體現在以下幾個方面:
  • 內容創作領域的革新:AIGC技術能夠自動生成高質量的文字、影像、音訊和影片等內容,極大地提高了內容創作的效率。在新聞、廣告、自媒體等領域,AIGC已經實現了廣泛應用,幫助創作者快速生成多樣化、個性化的內容,滿足市場需求。這種技術革新不僅降低了內容創作的成本,還激發了創作者的創新靈感,推動了內容產業的繁榮發展。
  • 生產力提升與成本降低:AIGC技術在多個行業中展現了其提升生產力和降低成本的潛力。例如,在遊戲開發領域,AIGC技術可以用於場景構建、角色互動等,減少人工製作的工作量,提高開發效率。在製造業中,AIGC技術可以輔助設計、最佳化生產流程,降低生產成本。這些應用使得企業能夠更快地響應市場變化,提升競爭力。
  • 使用者體驗的升級:AIGC技術透過提供個性化、定製化的內容和服務,顯著提升了使用者體驗。在智慧客服、線上教育等領域,AIGC技術可以根據使用者的需求和偏好提供精準的服務,滿足使用者的個性化需求。這種以使用者為中心的服務模式不僅增強了使用者的滿意度和忠誠度,還為企業帶來了更多的商業機會。
  • 推動行業創新與轉型:AIGC技術的快速發展為傳統行業帶來了轉型升級的契機。透過與AIGC技術的深度融合,傳統行業可以探索新的商業模式和服務模式,實現創新發展。例如,在零售業中,AIGC技術可以用於智慧推薦、虛擬試衣等場景,提升購物體驗並促進銷售增長。在金融領域,AIGC技術可以應用於投資策略最佳化、風險管理等方面,提高金融機構的決策效率和準確性。

(五)AIGC技術對職業發展的影響

AIGC技術對職業發展產生了深遠的影響,主要體現在以下幾個方面:
  • 新興職業的出現:隨著AIGC技術的快速發展,一系列與該技術相關的新興職業應運而生。例如,AI訓練師、機器學習工程師、資料標註員等職業需求激增。這些新興職業不僅要求從業者具備紮實的技術基礎,還需要不斷學習和掌握最新的AIGC技術動態。
  • 傳統職業的轉型升級:AIGC技術也為傳統職業的轉型升級提供了契機。許多傳統職業如編輯、設計師、教師等,在AIGC技術的輔助下,工作效率和創作質量得到了顯著提升。同時,這些職業也需要從業者不斷適應技術變革,掌握新的技能和工具,以適應市場需求的變化。
  • 工作方式的變革:AIGC技術改變了傳統的工作方式,使得遠端工作、靈活辦公成為可能。許多企業開始採用AIGC技術來最佳化工作流程,減少人力成本,提高工作效率。這種變革不僅為員工提供了更加靈活的工作方式,也為企業帶來了更大的經濟效益。
  • 職業發展路徑的多樣化:AIGC技術的發展為職業發展路徑提供了更多的可能性。從業者可以根據自己的興趣和特長,選擇適合自己的職業發展方向。例如,一些對AI技術感興趣的從業者可以選擇成為AI訓練師或機器學習工程師,而一些具有創意和設計才能的從業者則可以利用AIGC技術來提升自己的創作能力。
  • 持續學習與技能提升:面對AIGC技術的快速發展,從業者需要不斷學習和提升自己的技能水平。透過參加培訓課程、閱讀專業書籍、參與技術論壇等方式,從業者可以緊跟技術前沿,保持自己的競爭力。

(六)常見的AIGC大模型工具

常見的AIGC大模型工具包括:OpenAI的ChatGPT、DeepSeek、科大訊飛的訊飛星火、阿里的通義千問、百度文心一言、字節跳動豆包和Kimi等等。
這些工具基於大規模語言模型技術,具備文字生成、語言理解、知識問答、邏輯推理等多種能力,可廣泛應用於寫作輔助、內容創作、智慧客服等多個領域。透過不斷迭代和最佳化,為使用者提供更加智慧、高效的內容生成解決方案。

(七)AIGC大模型的提示詞

AIGC大模型的提示詞(Prompt)是指使用者向大模型輸入的文字內容,用於觸發大模型的響應並指導其如何生成或回應。這些提示詞可以是一個問題、一段描述、一個指令,甚至是一個帶有詳細引數的文字描述。它們為大模型提供了生成對應文字、圖片、音訊、影片等內容的基礎資訊和指導方向。
提示詞的重要作用如下:引導生成、提高準確性、增強互動性。
使用提示詞需要注意一些技巧,這樣可以從大模型獲得更加符合我們預期要求的結果,主要技巧如下:簡潔明確、考慮受眾、分解複雜任務、使用肯定性指令、示例驅動、明確角色、遵守規則、自然語言回答。

二、文字類AIGC應用實踐

(一)案例1:與DeepSeek進行對話

1. 快速體驗DeepSeek
訪問DeepSeek官網(https://chat.deepseek.com/),會出現如圖1所示對話介面,在提示詞輸入框的底部,有兩個按鈕,即“深度思考(R1)”和“聯網搜尋”,可以用滑鼠點選來選中或取消,預設情況下,“深度思考(R1)”按鈕是處於選中狀態,“聯網搜尋”則處於未選中狀態。兩個按鈕的功能如下:
  • 深度思考(R1):表示觸發更復雜的多步推理能力,適合需要邏輯鏈分析的場景,典型使用場景包括數學題/物理題推導、文學作品的隱喻分析、程式設計問題的架構設計、需要分步驟解釋的操作指南等。
  • 聯網搜尋:表示即時獲取最新網路資訊,適合時效性強的查詢,典型使用場景包括查詢即時股價/匯率、驗證最新科研成果、獲取突發事件進展、檢索特定網頁內容等。
在這裡插入圖片描述
圖1 DeepSeek對話介面
在提示詞輸入框中輸入“請模仿李白的《望廬山瀑布》做一首詩,題目是《望連雲港花果山》”,然後回車,或者用滑鼠點選提示詞輸入框右側的箭頭按鈕,向DeepSeek發起提問。DeepSeek給出的回答如圖2所示,需要注意的是,大模型屬於機率模型,每次生成的回答內容可能不完全相同。
在這裡插入圖片描述
圖2 DeepSeek生成《望連雲港花果山》
2. DeepSeek的基本用法
(1)基本原則:簡單直接,自然表達。


① 無需複雜結構。直接描述需求即可,無需新增“角色扮演”(如“假設你是專家”)或複雜指令(如“用學術語言分三點回答”)。比如,你可以直接向DeepSeek提問“什麼是光合作用?”、“如何用Python寫一個計算器程式?”,而不建議使用提示詞“請以生物學教授的身份,用三個段落解釋光合作用,每段不超過100字”。


② 多輪對話最佳化結果。如果首次回答不完整,可透過追問補充細節,無需一次性給出完美提示。比如,第一輪提問“寫一首關於秋天的詩”,第二輪提問“加入一些悲傷的情緒”,第三輪提問“把‘落葉’換成比喻句”。
(2)不同場景的提問技巧(非必需,但可提升效率)。雖然簡單提問即可滿足大多數需求,但在複雜任務中,適當提供背景資訊或明確需求會讓結果更精準,具體技巧包括:


① 知識類問題。比如,基礎提問是“量子力學的基本原理是什麼?”,最佳化後的提問是“用通俗易懂的語言解釋量子糾纏,適合高中生理解”。


② 創作類任務(寫作、程式設計等)。比如,基礎提問是“寫一個關於人工智慧的科幻短篇故事”,最佳化後的提問是“寫一個反烏托邦主題的科幻故事,主角是女性工程師,結局有反轉”。


③ 實用建議(學習、工作等)。比如,基礎提問是“如何提高英語聽力?”,最佳化後的提問是“我每天只有30分鐘學習時間,有哪些高效的英語聽力練習方法?”。


④ 複雜任務(資料分析、程式碼除錯)。比如,基礎提問是“這段Python程式碼報錯了,幫我看看問題”,最佳化後的提問是“我的程式碼目標是爬取網頁資料,但遇到SSL證書錯誤。報錯資訊如下:[貼上程式碼]”。
作為初學者,DeepSeek的一些“魔法”指令也很有用,比如,你可以輸入“/步驟 如何用手機拍攝旅遊照片”,DeepSeek返回的回答結果就會按照步驟詳細給出拍攝旅遊照片的說明,再比如,你可以輸入“請解釋量子計算,然後/簡化”,它就會返回比較簡明扼要的回答。
表2 DeepSeek的"魔法"指令
指令 功能
/續寫 當回答中斷時⾃動繼續⽣成
/簡化 將複雜內容轉換成⼤⽩話
/⽰例 要求展⽰實際案例(特別是寫程式碼時)
/步驟 讓AI分步驟指導操作流程
/檢查 幫你發現⽂檔中的錯誤
3. 使用DeepSeek處理文件
點選DeepSeek介面中的「回形針」圖示上傳⽂件,支援的檔案型別包括文字類(PDF、DOCX、TXT、Markdown)、資料類(CSV、XLSX)和影像類(JPG、PNG)。然後,就可以在對話方塊中輸入提示詞,比如,可以輸入“總結這份年報的三個核⼼要點”、“提取合同中的責任條款製成表格”、“對⽐⽂檔A和⽂檔B的市場策略差異”、“從實驗報告中整理所有溫度資料”、“請識別圖片中的文字”等。也可以使用一些指令來處理文件,如表3所示。
表3 用於文件處理的DeepSeek指令
功能 指令模板 應用場景
內容摘要 /總結 [檔名] 生成500字摘要 快速把握長篇文件核心內容
問答提取 /問答 [檔名] 第三章提到的技術引數是? 精準定位特定資訊
資料視覺化 /視覺化 [檔名] 將銷售資料生成折線圖 轉化表格資料為圖形分析
跨文件對比 /對比 檔案A vs 檔案B 的政策差異 合同/論文查重對比
還可以要求DeepSeek對回答結果進行結構化輸出,比如,可以輸入如下提示詞:
/

解析檔案 年度報告

.

docx

輸出要求:

(1)按

"營收/利潤/成本"

分類

(2)用Markdown表格對比近三年資料

(3)關鍵增長點用✅標註

(二)案例2:與百度文心一言進行對話

1. 告訴文心一言你要的風格
訪問文心一言官網(https://yiyan.baidu.com/),在輸入提示詞時,明確指定你希望生成的文字內容的風格。這樣,文心一言在理解並處理你的請求時,會更有針對性地調整其生成內容的風格,以滿足你的具體需求。比如,可以使用提示詞:

請按照要求寫一篇200字左右關於雲計算的介紹。注意事項:文章的受眾是中學生,需要通俗易懂,語言風格需要幽默、風趣一些

想要生成不同語氣風格的文字,可以在問題描述中加入你想要的語氣風格作為限定條件,提示文心一言按照你的要求去輸出。比如,如果你需要正式語氣,可以在提示詞中加入“請採用正式的詞彙和語法結構,使內容顯得莊重、嚴肅和專業”;如果你需要抒情語氣,請在提示詞中加入“請使用富有感情和表達感情的詞彙,使內容產生共鳴和情緒共振”;如果你需要口語化語氣,請在提示詞中加入“請運用口語化的表達方式,例如俚語、俗語和口頭禪,使內容更加輕鬆和親切”。
2. 告訴文心一言你要的結構
在構建提示詞時,應明確指定期望的輸出結構。比如,如果是要求生成一篇文章,可以在提示詞中明確指出“請按照引言-正文-結論的結構來撰寫”。這樣,文心一言在生成內容時,會遵循這一結構框架,使得輸出更加條理清晰、邏輯嚴密。再比如,如果要撰寫給上級領導的方案、報告、總結時,可以使用提示詞:

請按照【現狀

/

問題

/

解決方案,資料洞察

/

問題概覽

/

調研方向,資料

/

亮點

/

問題

/

經驗】這個結構撰寫一份關於我國晶片行業的總結報告

3. 告訴文心一言你要的角色
在提示詞中可以設定具體的角色或視角。例如,在要求創作故事時,可以明確指定“以一位勇敢探險家的視角講述這段經歷”。這樣的提示能引導文心一言在生成內容時,從特定角色的角度出發,賦予文字獨特的情感色彩和敘事風格。此技巧有助於增強生成內容的代入感和故事性,使內容更加豐富和引人入勝。下面是一段提示詞例項:

請你作為一個小紅書文案撰寫高手,為我生成一篇爆款小紅書文案,要求:突出酒店的特色,包括海景房、豪華單間、最新裝修、免費早餐、無線上網等

下面是另一段提示詞例項:

我希望你能扮演記者的角色,按照我的要求撰寫一份新聞調查,要求:調查油罐車不清洗直接運送食用油的事情,不要出現具體企業名稱,要給出政府部門的處理態度

4. 告訴文心一言你的內容要求
可以透過詳細具體的提示詞明確表達內容要求。無論是希望生成的文章主題、關鍵詞彙,還是期望涵蓋的資訊點、情感傾向,都應在提示詞中清晰呈現。這樣做能讓文心一言更準確地理解使用者需求,生成更符合期望的內容。比如,可以透過如下提示詞表達自己的內容要求:

在6G專利申請方面,中國已經遙遙領先。2021年的資料顯示,中國的6G專利申請量佔比高達40.3

%

,穩坐世界第一的寶座。

請把上面的資料更新到目前最新的資料

如果對輸出的內容有比較多的要求或限制,不妨在輸入框中將這些內容要求一條一條明確告訴文心一言,比如,可以採用類似如下的提示詞:

請以小紅書的風格,按照以下要求幫我為“海景美食餐廳”寫一篇小紅書種草文案;

內容要求:

(1)要有標題、正文

(2)標題字數:不超過20個字;儘量簡短精煉,要足夠吸引眼球,用詞浮誇

(3)正文分段,層次分明,每段最少100字

(4)要用“首先、其次、最後”這種模式

(5)整篇文案不要超過1000個字

5. 告訴文心一言你想寫的文體
明確指定文體,如散文、小說、詩歌、科技文等,讓大模型理解並模擬該文體的語言特點、結構安排和表達習慣,從而輸出更具針對性的文字。比如,可以採用提示詞“請寫一段[中秋賞月]的朋友圈文案,需要採用藏頭詩的形式”。
在這裡插入圖片描述
圖3 文心一言生成[中秋賞月]藏頭詩
6. 指導文心一言分步解決問題
將複雜問題拆解成多個簡單、具體的步驟,作為提示詞輸入給文心一言。這樣不僅能降低問題的處理難度,使文心一言更容易理解和響應,還能確保解決問題的過程更加系統、有條理。透過逐步引導,可以逐步逼近問題的解決方案,提高答案的準確性和實用性。比如,如果想讓文心一言幫你制定一份旅行規劃,可以使用類似如下的提示詞:

請為我規劃一次為期一週的連雲港自由行;

(1)第1步:列出必去的景點,如江蘇海洋大學、花果山、連島景區、雲臺山、桃花澗風景區、海州古城;

(2)第2步:根據景點位置安排每日行程,確保交通便利;

(3)第3步:推薦幾家當地的特色餐廳,包括早餐、午餐和晚餐;

(4)第4步:提供一家價效比高的酒店住宿建議,並考慮其位置是否便於遊覽。

7. 告訴文心一言你要的示例
明確溝通意圖,透過具體示例引導大模型理解你的需求。這有助於文心一言更準確地捕捉你的思維框架和期望結果,減少誤解。比如,可以使用類似如下的提示詞:

我是一位高校學生,請幫我寫一份實習週報,內容儘量簡潔精煉,下面是我本週的實習內容:

(1)完成了3個專案書的修改

(2)撰寫了一篇部落格“AIGC應用與實踐”

輸出要求示例:

【本週實習週報】

【本週實習進展】本週做了哪些事,產生了哪些結果

【下週實習安排】基於本週的結果下週要推進哪些事

【思考總結】簡要說說本週的收穫和反思

8. 告訴文心一言你要的場景
在輸入提示詞時,應明確描述所需的上下文或環境背景,如“在科幻電影中描述一個未來城市的景象”或“請撰寫一封給朋友的生日祝福信,場景設定在海邊日落時”。這樣做有助於文心一言更好地理解你的需求,生成更符合場景氛圍和情境的內容,從而提升輸出內容的貼切性和情感共鳴。
在這裡插入圖片描述
圖4 文心一言描述未來城市

(三)案例3:使用訊飛智文生成PPT

訊飛智文是科大訊飛公司旗下的AI一鍵生成PPT/WORD的網站平臺,是基於科大訊飛星火認知大模型技術基礎上開發的一個具體應用,主要功能有文件一鍵生成、AI 撰寫助手、多語種文件生成、AI自動配圖、模板圖示切換功能。這裡介紹如何使用訊飛智文快速生成PPT。
請首先準備一個包含文字內容的PDF檔案,比如,可以從網路新聞報道中複製一段關於2024年7月19日微軟藍色畫面事件的內容儲存到一個WORD文件中,命名為“微軟藍色畫面.docx”,然後,使用WPS軟體開啟“微軟藍色畫面.docx”,把該WORD文件儲存成PDF格式,生成“微軟藍色畫面.pdf”。
訪問訊飛智文官網(https://zhiwen.xfyun.cn/),在首頁(如圖5所示)中點選“免費使用”,然後按照網頁提示完成註冊(推薦使用手機號註冊)。
在這裡插入圖片描述
圖5 訊飛智文官網
在頁面中(如圖6所示)選擇AI PPT的“文件建立”。然後,在出現的頁面中(如圖7所示),點選“點選上傳”,把本地檔案“微軟藍色畫面.pdf”檔案上傳上去(當然,也可以上傳“微軟藍色畫面.docx”)。
然後,在出現的頁面中(如圖8所示),點選“開始解析文件”。之後,頁面會顯示提示文字“好的,已收到您的要求,讓我先為您生成PPT標題和大綱”。過一會兒,就會顯示自動生成的PPT標題和大綱,如果你不滿意,可以點選頁面底部的“重新生成”,如果滿意,可以直接點選“下一步”。
在這裡插入圖片描述
圖6 選擇AI PPT中的“文件建立”
在這裡插入圖片描述
圖7 上傳檔案
在這裡插入圖片描述
圖8 開始解析文件
在出現的頁面中(如圖9所示),選擇你想要的模板配色,然後點選頁面頂部的“開始生成”。經過一段時間以後,頁面就會顯示自動生成的PPT(如圖10所示),點選頁面右上角的“下載”,就可以把PPT儲存到本地電腦中,然後,可以根據自己的需求,自己對PPT繼續進行修改和完善。在本地電腦中開啟自動生成的PPT,可以看出,AI製作PPT的水平非常專業,邏輯清晰,配圖精美,超過了很多PPT初級者的製作水平,可以大大提高普通使用者製作PPT的效率和水平。
在這裡插入圖片描述
圖9 選擇模板配色
在這裡插入圖片描述
圖10 下載生成的PPT

三、圖片類AIGC應用實踐

(一)圖片類AIGC應用場景

圖片類AIGC是一種基於人工智慧技術生成圖片的方法,它利用深度學習、生成對抗網路(GAN)等先進演算法,透過學習和模仿大量影像資料,能夠自動創作出高度真實和藝術化的圖片。AIGC在影像生成、修復、風格轉換、藝術創作等領域展現出強大能力,為數字藝術、設計、遊戲、電影等多個行業帶來創新解決方案。其優勢包括高效性、多樣性和自動化,能夠快速生成大量高質量的影像內容,滿足各種複雜需求。
在這裡插入圖片描述
圖11 AIGC作品圖
圖片類AIGC的應用場景非常廣泛,‌主要包括影像生成、‌影像修復、‌影像增強和影像識別等方面:
  • 影像生成:AIGC‌能夠生成高度逼真的影像,‌如人臉、‌動物、‌建築物等。‌例如,‌OpenAI釋出的DALL-E可以根據文字提示詞創作出全新的、‌原創的影像,‌展示了AI在影像創作方面的強大能力。‌
  • 影像修復:AIGC還可以修復損壞的影像,‌如去除噪聲、‌填充缺失的部分等。‌這項技術對於保護和恢復古老的藝術作品、‌修復損壞的照片等具有重要意義。
  • 影像增強:透過對影像進行增強處理,‌AIGC可以增加影像的飽滿感和增強細節,‌使影像質量得到提升。‌這在提升照片的視覺效果、‌改善影像的清晰度和細節方面非常有用。
  • 影像識別:AIGC在影像識別方面也有廣泛應用,‌可以識別影像中的物件、‌場景和特徵,‌如人臉識別、‌車牌識別等。‌這項技術對於安防監控、‌智慧搜尋、‌自動駕駛等領域的發展至關重要。

(二)圖片類AIGC案例實踐

圖片類AIGC大模型主要包括Midjourney、Stable Diffusion SDXL、百度文心一格等。這裡以百度文心一格為例介紹圖片類AIGC的使用方法。文心一格是一款由百度公司研發的AI繪畫工具,‌為使用者提供了豐富的創意空間。‌使用文心一格進行AI繪畫的步驟包括註冊賬戶、‌選擇創作模式、輸入提示詞、設定畫面型別、設定比例、設定數量以及生成圖片等,具體如下:
  1. 註冊賬戶:‌訪問文心一格官網(https://yige.baidu.com/),‌點選“註冊”按鈕,‌完成註冊過程。
  2. 選擇創作模式:進入文心一格首頁以後,‌點選“立即創作”。在出現的介面中,在介面左上角位置選擇“AI創作”,可供選擇的模式包括推薦、自定義、商品圖、藝術字、海報,可以滿足不同的創作需求。這裡可以選擇預設的模式“推薦”。
  3. 輸入提示詞:在提示詞輸入框中輸入提示詞,比如輸入“請繪製一張圖片,一個9歲的女孩子在海邊沙灘上挖沙子”。
  4. 設定畫面型別:可以選擇智慧推薦、唯美二次元、中國風等各種型別。
  5. 設定比例:可以選擇豎圖、方圖、橫圖。
  6. 設定數量:設定想要生成的圖片的數量,比如設定為1。
  7. 生成圖片:點選“立即生成”,就可以生成相應的圖片(如圖所示)。圖片生成以後,可以點選圖片底部的“編輯本圖片”,對圖片進行編輯。
在這裡插入圖片描述
圖12 文心一格操作介面
文心一格提供了豐富的AI編輯功能,可以對圖片進行各種智慧化處理,包括圖片擴充套件、圖片變高畫質、塗抹消除、智慧摳圖、塗抹編輯、圖片疊加等。
在這裡插入圖片描述
圖13 文心一格生成圖片結果

四、語音類AIGC應用實踐

語音類AIGC是一種利用人工智慧技術(特別是語音識別、自然語言處理和語音合成技術),自動生成和處理語音內容的技術。它能夠模擬人類語音,實現語音到文字的轉換、文字到語音的合成,以及語音情感分析等功能,廣泛應用於智慧語音助手、智慧客服、語音翻譯等多個領域。

(一)語音類AIGC應用場景

語音類AIGC的應用場景非常豐富,涵蓋了多個領域,從日常生活到專業應用,都展現出了其獨特的價值和潛力,以下是一些主要的語音類AIGC應用場景:智慧語音助手,智慧客服,語音合成與轉換,虛擬人物與數字人,語音翻譯,語音分析與情感識別,智慧駕駛艙與車載語音助手。

(二)語音類AIGC案例實踐

豆包大模型的語音類功能用法
一般情況下,普通使用者在手機上使用語音類AIGC大模型的場景比較多,因此,這裡介紹手機版豆包的使用方法。
在智慧手機上下載並安裝“豆包APP”。啟動進入豆包APP,會出現如圖所示的對話介面,按住“語音按鈕”(圖中箭頭指向的位置)不要鬆開,然後就可以對著手機說話,把自己的需求說出來,比如,可以說“請介紹一下蘇州大學”,然後鬆開“語音按鈕”,豆包就可以立即開始回答你提出的問題。豆包可以支援即時翻譯,你可以語音輸入“蘇州大學的英文名稱是什麼”,豆包會馬上給出翻譯結果。
在這裡插入圖片描述
圖14 豆包的對話介面
豆包不僅支援語音輸入,也可以支援文字輸入,只要在文字輸入框內輸入提示詞,豆包就會給出回答。豆包也支援AI繪圖功能,你可以用手指點選介面上的“圖片生成”按鈕,然後輸入提示詞,比如透過文字或者語音輸入“請幫我繪製一張圖片,一個9歲的小女孩在海邊沙灘上玩沙子”,然後,豆包就會自動繪製生成滿足你要求的圖片。
在這裡插入圖片描述
圖15 小女孩在海邊沙灘上玩沙子
豆包還有一個很實用的功能,就是可以幫助你進行英語口語對話練習。在豆包的操作介面的底部,用手指點選“對話”,在出現的功能選擇介面中,選擇“英語口語聊天搭子”就可以進入英語口語聊天介面(如圖16所示),按住介面右下角的“語音按鈕”,就可以開始用英語語音聊天了,你說完一句英語,鬆開語音按鈕,豆包就會自動用英語語音回答你,然後你可以繼續輸入語音進行後續對話。
在這裡插入圖片描述
圖16 豆包的功能選擇介面和英語口語聊天介面

五、影片類AIGC應用實踐

影片類AIGC是指利用人工智慧技術,特別是深度學習、機器學習等演算法,自動建立或處理影片內容的技術。它能根據給定的文字、影像或其他資料,自動生成符合描述的影片內容,涵蓋文生影片、圖生影片、影片風格化、人物動態化等多個方向。這一技術在創意設計、影視製作等領域潛力巨大,極大地提升了影片內容的生產效率和質量。

(一)影片類AIGC應用場景

影片類AIGC在多個領域擁有廣泛的應用場景,以下是一些主要的應用方向:
在這裡插入圖片描述
圖17 影片類AIGC的應用場景

(二)代表性影片類AIGC大模型

影片類AIGC大模型發端於Sora。2024年2月,美國的Open AI釋出了全球第一款文生影片大模型Sora(這裡的“文生影片”是指由輸入的文字內容生成相應的影片),迅速引起了業界的廣泛關注和討論,因其能夠快速生成高質量的廣告宣傳影片及商品演示影片,從而大幅降低廣告相關內容的製作成本及時間。我國的影片類AIGC大模型主要包括:
  • 可靈:由快手推出,被譽為中國版Sora,影片生成時長可達120秒,支援文生影片、圖生影片、影片續寫、鏡頭控制等功能,表現出色。
  • Vidu:生數科技聯合清華大學釋出,是中國首個長時長、高一致性、高動態性影片大模型,支援一鍵生成16秒高畫質影片,效能對標國際頂尖水平。
  • 書生·築夢:由上海人工智慧實驗室研發,可生成分鐘級影片,已用於央視AI動畫片《千秋詩頌》的製作,具備中國元素和高畫質畫質。
由於影片類AIGC大模型在使用時,會消耗大量的算力資源,使用成本很高,所以,目前國內的影片類AIGC大模型大多數沒有免費開放給大眾使用,即使是免費使用,也只能生成很短時間長度的影片。

(三)影片類AIGC案例實踐

案例:使用騰訊智影生成數字人播報影片
步驟1:登入騰訊智影平臺。在瀏覽器位址列中輸入網址“https://zenvideo.qq.com/”,進入“騰訊智影”平臺,點選“登入”(如圖18所示),可以使用微信掃碼登入、也可以手機號登入或者QQ掃碼登入,任選一種方式登入即可。登入成功後,點選平臺首頁“智慧小工具”欄目中的“數字人播報”按鈕(如圖19所示)或者“智慧小工具”上方的“數字人播報”按鈕,進入“數字人播報”功能介面。
在這裡插入圖片描述
圖18 騰訊智影登入介面
在這裡插入圖片描述
圖19 "數字人播報"功能入口
步驟2:上傳PPT。進入“數字人播報”功能介面後(如圖20所示),在左側工具欄,點選“PPT模式”,平臺會出現“上傳PPT或PDF”的介面,點選“上傳”按鈕,上傳需要播報的PPT,這裡上傳“數字人播報PPT.ppt”檔案。
在這裡插入圖片描述
圖20 "PPT模式"上傳PPT入口
步驟3:選擇數字人。PPT上傳結束後,點選左側工具欄“數字人”按鈕,會出現“數字人”設定介面,包括“預置形象”和“照片播報”兩大板塊(如圖21左所示)。“預置形象”分為“2D數字人”和“3D數字人”;“照片播報”分為“照片主播”和“AI繪製主播”兩種(如圖21右所示)。這裡選擇“預置形象”裡面的“2D數字人”——卓妤數字人,作為PPT播報的數字人。
在這裡插入圖片描述
圖21 "預置形象"的數字人(左)和"照片播報"的數字人(右)
步驟4:調整數字人的位置、大小和服裝型別。選用的數字人確認後,可以點選PPT上的“數字人”,進入“數字人”設定介面,點選“數字人編輯”按鈕(如圖22所示),對“數字人”進行編輯,可以重新換服裝以及選擇數字人出現的“形狀”;點選“畫面”按鈕,可以透過座標設定來調整數字人的位置和大小(如圖23所示),也可以點選數字人的邊框,透過拖動滑鼠來調整數字人的位置和大小。這裡可以根據PPT畫面的佈局來調整“數字人”的位置和大小,儘量避免數字人遮擋文字。
在這裡插入圖片描述
圖22 "數字人編輯"功能介面確認服裝和形狀
在這裡插入圖片描述
圖23 進入"畫面"功能介面調整數字人的位置和大小
步驟5:輸入播報內容和設定字幕樣式。數字人調整完成後,點選右側工具欄的“播報內容”按鈕,輸入播報內容,播報內容可以AI自動生成,也可以手動輸入或匯入檔案(字數不超過5000字),這裡選擇“手動輸入”每頁PPT的播報內容。點選右側工具欄的“字幕樣式”按鈕(如圖24所示),設定影片字幕的樣式並開啟字幕顯示按鈕,透過滑鼠拖動把字幕放置畫面的合適位置。
在這裡插入圖片描述
圖24 設定字幕樣式並開啟字幕按鈕
步驟6:根據需要新增“背景”、“貼紙”、“音樂”並選擇播報音色。輸入完播報內容後,可以點選左側工具欄的“背景”、“貼紙”和“音樂”等功能(如圖25所示),根據需要新增,這裡選擇不新增背景、貼紙和音樂。確認後,點選“播報內容”輸入框下方的“音色”按鈕,選擇合適的音色。這裡選擇“如雲”音色作為PPT的數字人播報音色(如圖26所示)。
在這裡插入圖片描述
圖25 根據需要新增"背景"“貼紙"和"音樂”
在這裡插入圖片描述
圖26 選擇播報音色
步驟7:儲存並生成播報。選擇完音色後,點選“音色”下方的“儲存並生成播報”按鈕(如圖27所示),選中每一頁PPT,逐一點選儲存並生成播報,注意,平臺此時生成的數字人播報效果預覽,暫不支援口型對齊預覽,合成後可檢視完整動態效果。
在這裡插入圖片描述
圖27 儲存並生成播報
步驟8:合成並下載影片。儲存並生成每頁的PPT的播報後,點選頁面右上方的“合成影片”按鈕,然後設定合成影片輸出的引數(如圖28所示),設定完成後點選“確認”按鈕,系統後臺會自動合成數字人播報影片,等待合成結束後,點選“下載”按鈕(如圖29所示),下載合成的數字人播報影片。最後,播放合成的影片檔案,檢查影片畫面是否符合預期。如有需要,可以根據反饋調整引數,重新生成。
在這裡插入圖片描述
圖28 合成影片引數設定
在這裡插入圖片描述
圖29 下載數字人播報影片

六、AIGC在輔助程式設計中的應用

AIGC技術在輔助程式設計中的應用日益廣泛,它能夠自動生成高質量的程式碼,從而顯著提高開發效率,主要包括以下幾種應用場景:程式碼自動生成,程式碼最佳化與重構,程式碼補全與提示,程式碼風格統一。
能夠提供輔助程式設計服務的AIGC大模型包括Codex、GitHub Copilot、CodeGeeX、aiXcoder、豆包、通義靈碼等。這裡以我國的字節跳動公司研發的豆包大模型為例介紹使用方法。
程式設計工作一般是在電腦上進行,所以這裡使用電腦端的豆包大模型(手機端的豆包APP也提供了程式設計輔助功能)。
訪問豆包大模型官網(https://www.doubao.com/),註冊使用者以後,進入大模型操作首頁,點選“我的智慧體”,再點選“程式設計助理”,然後,在頁面中輸入提示詞,比如輸入“請編寫一段Python程式碼,使用turtle庫,繪製一個五角星”,然後,豆包就會自動生成一段Python程式碼(如圖所示)。在Python中執行這段程式碼,就可以成功繪製一個五角星。
在這裡插入圖片描述
圖30 豆包自動生成的Python程式碼

七、AI搜尋

AI搜尋,即人工智慧搜尋引擎,是一種利用先進的人工智慧技術,特別是深度學習和自然語言處理(NLP),來理解和響應使用者的查詢需求的新型搜尋工具。它不僅僅是傳統搜尋引擎(比如百度)的簡單升級,而是透過模擬人類的思維方式和行為模式,為使用者提供更加精準、個性化且高效的資訊檢索服務。AI搜尋透過收集和分析使用者的歷史搜尋資料和行為模式,構建使用者畫像,從而實現更加精準的個性化搜尋服務。這種資料驅動的智慧決策機制,使得AI搜尋能夠不斷自我最佳化,提升使用者體驗。
奈米AI搜尋(

https://so.n.cn/)是360公司在2024年12月推出的全新AI搜尋應用,結合了自然語言處理、機器學習以及專家協同技術,致力於打破傳統搜尋引擎的侷限,提供智慧化、多樣化的搜尋體驗。其核心特點包括:

(1)多模態搜尋:支援文字、語音、拍照、影片等多種輸入方式,滿足不同場景下的需求,實現“一切皆可搜尋”。


(2)智慧工具整合:內建16款頂尖大模型,如豆包、文心一言等,為使用者提供一站式AI智慧體驗。


(3)慢思考模式:透過專家協同和多模型協作,深入分析複雜問題,提供更專業、更全面的答案。
在這裡插入圖片描述
圖31 奈米AI搜尋入口

八、AI智慧辦公

在人工智慧時代,AI智慧辦公正以前所未有的態勢重塑我們的工作模式與體驗,成為推動辦公效率提升和辦公方式變革的核心力量。AI智慧辦公將人工智慧技術深度融入辦公場景的各個環節,例如文件處理、資料分析、演示製作等。
在文件處理領域,AI智慧辦公帶來了前所未有的變革。以往需要人工手動輸入文字、排版以及校對糾錯等工作需要耗費大量時間和精力,如今AI文件處理技術極大地提升了這些任務的效率與質量。具體如下:


(1)生成式文字。透過對大量文字資料的學習,AI能夠根據使用者提供的提示詞、主題或簡單描述,快速生成內容完整、邏輯連貫的文件初稿。無論是新聞稿件、公告通知還是學術論文,都能借助這一功能節省撰寫時間。例如,市場調研公司在需要撰寫季度報告時,AI可以迅速整合資料和市場趨勢資訊,生成報告框架與初步內容,供使用者進一步完善。


(2)文件智慧排版。AI能夠自動識別文件內容的結構,如標題、段落、列表等,並根據使用者預設的格式模板進行快速排版。這不僅提高了排版效率,還確保了文件格式的一致性和規範性。對於需要處理大量文件的辦公人員來說,這一功能大大減輕了工作負擔。
資料分析是辦公場景中的重要環節。傳統的資料分析需要人工進行資料收集、清洗、分析和視覺化,過程煩瑣且容易出錯。而藉助人工智慧技術,這些工作可以更加高效、精準地完成。透過大模型演算法,AI能夠從海量資料中發現潛在的模式、趨勢和關聯關係。例如,電商企業可以利用AI分析使用者的購買行為、瀏覽記錄和搜尋關鍵詞,挖掘出使用者的潛在需求和消費偏好,從而制定精準的營銷策略。自動資料視覺化功能讓資料分析結果的呈現更加直觀、清晰。AI能夠根據資料分析結果自動生成各種型別的表格圖表和圖形,如柱狀圖、折線圖、餅圖等,並進行合理的佈局和配色。辦公人員無需花費大量時間手動製作圖表,就能快速將資料轉化為易於理解的視覺化資訊,為決策提供有力支援。
WPS提供以下AI助手功能:
  • AI寫作助手(幫我寫、幫我改、AI伴寫)
  • AI設計助手(AI排版、AI格式)
  • AI閱讀助手(全文總結、文件問答、劃詞解釋和翻譯)
  • AI資料助手(AI寫公式、AI資料分析)
在這裡插入圖片描述
圖32 WPS AI功能

小結

本文系統梳理了人工智慧生成內容(AIGC)的技術框架與實踐路徑,構建了"理論認知-場景應用-行業影響"的三維知識體系。在理論層面,開篇明確定義了AIGC作為新型內容生產正規化的技術內涵,揭示其依託大模型突破傳統AI任務邊界的技術特徵,透過列舉文字生成、影像創作等六大典型應用場景,展現技術落地的廣度與深度。更從產業變革角度,深入剖析AIGC對傳統行業運作模式的重構邏輯,以及由此催生的新型職業機遇與技能轉型需求。
實踐維度則以"模態融合"為軸線,分設文字、影像、語音、影片四大應用板塊,構建從基礎對話到複雜創作的階梯式案例矩陣。透過DeepSeek對話系統、訊飛智文PPT自動生成等具體案例,演示不同技術工具在辦公場景中的協同應用。特別在跨模態創作領域,系統解構了Stable Diffusion等代表性模型的運作機理,呈現從文字描述到視覺表達的轉化邏輯。
最後篇章聚焦AI搜尋與智慧辦公的前沿融合,預示下一代人機協作的新圖景。全文貫穿"工具理性與人文思考"的雙重視角,既提供Prompt工程等實用技巧,也辯證分析技術應用中的倫理邊界。透過構建"認知-操作-反思"的完整學習路徑,為不同層次的讀者搭建理解AIGC技術生態的認知框架,為數字化轉型中的組織與個人提供可操作的實踐指南。這種結構化知識體系,既可作為AIGC應用的入門導航,也可作為深度開發的技術圖譜,展現人工智慧時代內容生產革命的完整圖景。
連結:https://blog.csdn.net/Morse_Chen/article/details/145869385?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog_category.none-task-blog-classify_tag-4-145869385-null-null.nonecase&depth_1-utm_source=distribute.pc_feed_blog_category.none-task-blog-classify_tag-4-145869385-null-null.nonecase
(版權歸原作者所有,侵刪)


相關文章