多模態基礎模型的應用與挑戰

當全球科技強權競相探索AI人工智慧(Artificial Intelligence)極限,已經正式進入「深層學習」階段,衍生大規模視覺基礎模型、巨大語言模型發展,在巨大模型裡,實現更深化的AI泛化(Generalization)通用學習。

撰文/賴郁薇 圖片提供/Shutterstock

歷經兩階段式「預訓練模型」,電腦科技預備迎來第三階段變革,此刻,鴻海集團處於F3.0轉型升級的關鍵之際,相關AI人工智慧、半導體、新世代通訊、資通安全、量子計算潛力,全建構在巨大模型基礎上。

加拿大魁北克人工智慧研究中心CERC(Mila – Quebec AI Institute)人工智慧領域博士Irina Rish開啟未來通用人工智能(Artificial General Intelligence)的想像:總有一天,系統突破對抗性攻擊(Adversarial attacks)具備高度的泛化能力(Generalization ability)和強健性(Robustness),人工智慧就能夠比照人類大腦,導入多種任務系統。

而這前提是,擁有巨大數據模型基礎,透過大量演算解決應用落地的盲點。

多模態基礎模型擴張  邁向「資源共享」趨勢

Irina強調利用模擬數據,提升模型性能。試參考GPT-3運用大量文本數據訓練模型,大型語言模型成熟度又再升級,另外,同樣由OpenAI創建的CLIP、DALL-E模型,從自然語言學文本的參數描述,進一步理解生成圖像,多模態任務成果展現在跨領域的泛化應用,表現大幅提升。

根據上述OpenAI大型語言模型(LLM)的擴充和優化,Irina觀察到,模型的擴展行為具備非線性和非單調特性。現在有學術研究專門針對大規模語言模型,導入海量運算訓練,引導模型性能遵循著Chinchilla擴展法則演進;目前開發的互動式AI系統,已能接受圖像、文本輸入,並導出回應。Irina提示,多模態模型的不同擴展行為,對於預測AI未來發展,有一定的重要意義。而下一個階段性的里程碑,期待發生大規模計算資源共享,特別是以開放原始碼(Open Source)為工具加速AI模型的分享和應用,以接軌開發更多通用的多模態AI系統。

語音、語言、視覺整合  大型模型時代命題

臺大資訊工程學系暨研究所鄭文皇教授帶入跳躍性思考,認為巨大語言模型(LLM)、巨大視覺模型(LVM)皆不夠精準詮釋這波變革浪潮,應該引述鴻海研究院人工智慧研究所栗永徽所長觀點,將技術名詞定義為「基礎模型」(Foundation Model)革新,才能夠真正涵蓋所有框架。

要想真正實現通用人工智能(Artificial General Intelligence),視覺(Vision)語言(Language)多模態是必然發展。至少站在被ChatGPT掀起的趨勢浪尖,看見大型語言模型、語音模型正在大量應用。

主軸1》語音基石模型

現階段語音基石模型發展到能夠理解人類語音,經過自監督式學習(Self-super vised Learning),可以在不依賴大量標注資料的情況下,執行語音學習相關任務。有了這項語音模型基礎,臺大電機工程學系李宏毅副教授大膽推論,就算在全球七千多種語言背景,也有機會解決各語言系統背後,大量標註資料的判讀工作。

主軸2》大型語言模型

而關於大型語言模型,除了鎖定人工智慧與知識圖譜、不實資訊免疫工作,更深化視覺語言融合技術,發揮看圖說故事、機器人視覺認知、吸眼球視覺問題生成能力,衍生互動式監督學習推特資料、謊言偵測、細微情感分析等進階應用。

技術面期待從大型語言模型,開展出視覺與語言多模態融合,提供多模態資料互補完整資訊,參與大型協作過程。重要的視覺語言模型(Vision- Language Foundation models)工作項目將涵蓋圖像問答(Visual question answering)、圖像描述(Image captioning)、圖像檢索技術(Image- text retrieval)、影片描述定位(Video grounding)、視覺常識推理(Visual commonsense reasoning)等等,可應用在自駕車光達攝影機、醫學超音波、核磁共振等訊號觀察。

中央研究院資訊科學研究所古倫維研究員判斷,優化語言模型的推理,個性化,是下個階段重要議題。

主軸3》大規模視覺基礎模型

鄭文皇教授從目前智慧製造、自駕車情境,產生通用物件偵測(Object detection)、AOI自動光學檢測模型種種需求,可見未來會有更多模態應用任務。

以技術面探討策略,簡單來說就是2個階段:收集大量多模態資料,包括文字、語音、影像、影片甚至3D立體資訊,訓練出一個多模態基礎模型,再由基礎模型(Foundation model)依據下游任務進行微調訓練(Finetuning)。最後進入市場,運用提示工程(Prompt Engineering)特化模型解決各種問題。

隨著多模態基礎愈來愈完整,清華大學電機資訊學院賴尚宏副院長試圖展示,大量模型進入「電腦視覺深度多模態學習」,透過文字和圖像共同預訓練的視覺語言模型,可以精準理解圖像和文本,作為「零樣本學習」(Zero Shot Learning)的基礎,利用既有數據資料,建構未知場景概念。

這類多模態基礎模型研究,特別廣泛應用在對話AI系統中。國立陽明交通大學電機學院終身講座教授簡仁宗以更長遠藍圖預設,一旦語音對話系統成熟,將來可能進入客服、娛樂、健康領域用途;屆時,實務上直接接觸自然語言,基礎模型會面臨更直接的挑戰。

巨大模型的應用樣貌  整合協作

簡仁宗教授表示,大規模預訓練模型的對話AI系統,倚賴自動語音識別、自然語言理解、對話管理器,以及自然語言生成、文本、語音多元組件,參與精密的多模態機器學習,需要在既有基礎模型,重建編程、重塑功能化的系統架構。

華碩電腦(ASUS)算是早期參與的先鋒,集團旗下「台灣智慧雲端」(TWSC)技術長陳忠誠協理,分享「台灣杉二號」超級電腦成功微調的大型語言模型BLOOM經驗談,其參數量達到1,760億個,可使用840張GPU進行訓練,與Chat GPT實力相當。

下一個世代的AI潮流,即是AI 2.0大語言模型及多模態AI,運用大模型來解決語言、影像、視訊問題,需要超級電腦和大量平行運算,結合一路走來的大語言模型技術以文生文,以文生圖,甚至以文生成影片。

論壇多角化視野  勾勒AI 2.0未來藍圖

見證「台灣智慧雲端」(TWSC)開發的「台灣杉二號」可以成功微調BLOOM大型語言模型,可以肯定的是,「多模態基礎模型」正在一步步成形,想見AI未來發展前景。Irina期待公部門大規模投入演算資源,建立開源AI的基礎模型,落地學術研究、社會公眾等應用領域。

Irina一再鼓勵開放原始碼共享,面對未來全新的AI新時代,實際上不只有技術屏障,更大的挑戰在於,人類社會與科技倫理的認知,亟需跨域合作解決資安疑慮。

返回頂端