AI練習場|如何從多模態檔案中自動提取有效資訊?

一、引言
隨著資訊科技的快速發展,資料的獲取與處理變得尤為重要。多模態檔案資訊抽取能力是指從包含多種型別資料(如文字、影像、音訊、影片等)的檔案中自動提取有用資訊的技術。這種技術在多個領域都有廣泛的應用,能夠顯著提高資訊處理的效率和準確性。
透過傳統人工方式來處理資料並提取資訊,難免有失偏頗。因此透過先進的人工智慧技術,識別和解析各種格式的檔案,從而提取出有價值的資訊,大幅提升資料處理效率成為大勢所趨。
本文是一篇使用AI技術進行多模態檔案資訊抽取的實戰教程。無論是需要從大量文件和資料中提取關鍵資訊從而提高資料處理效率和準確性、要對大量圖片進行分類、標註、搜尋最佳化還是對音影片資訊進一步提取和處理,都可以透過該教程學有所獲。
在阿里雲開發者社群參與該教程體驗,還有驚喜禮物贈送(文末點選閱讀原文參與)。
二、實操教程
該教程以提取文件檔案資訊為例,準備好要進行資訊提取的檔案和提示詞,就可以開始我們的資訊提取之旅啦。
資源部署
在文件資訊提取的流程中,需要使用計算資源構建的 Web 服務來接收請求,再將文件和提示詞傳送至百鍊模型服務,由百鍊呼叫qwen-long文字模型處理後,最終返回處理結果。
  1. 建立阿里雲百鍊應用前往百鍊控制檯,開通百鍊的模型服務,開通服務可以使用免費額度
  2. 建立並部署預設環境:部署函式計算應用模板,引數配置可參考下表
專案
說明
示例值
部署型別
選擇部署型別。
直接部署
應用名稱
自動生成。
預設
角色名稱
模板所需的角色(如果需要授權,請按照控制檯提示進行授權)。
預設
地域
FC部署地域。
預設 華東1(杭州)
百鍊 API-KEY
百鍊 API-KEY。
部署資源中獲取的百鍊 API-KEY
訪問示例應用
  1. 上述應用部署完成後,就可以在環境詳情的環境資訊中找到示例網站的訪問域名,如下圖所示:
  2. 點選訪問域名,即可開啟示例應用。參考下圖:
使用官方示例,進行資訊提取
1. 資訊提取時,使用預設填寫的關鍵詞,模型會根據給出的關鍵詞提取出對應的資訊。
   a.滑鼠移動到示例1,然後單擊使用該示例。
   b.單擊提取資訊,等待片刻檢視結果。
2.在資訊提取時,不使用關鍵詞,模型會自動分析理解,可能會出現每次返回的差異性。
   a.滑鼠移動到示例1,然後單擊使用該示例。
   b.刪除關鍵詞描述內容。
   c.單擊提取資訊,等待片刻檢視結果。
若想用於生產環境,還可以點選連結:
https://atomgit.com/aliyun_solution/document-information-extraction.git
下載原始碼,再進行二次開發。
點選閱讀原文,即可體驗多模態檔案資訊提取啦~

相關文章