Page 57 - 鴻海研究院2023年年鑑
P. 57
諮詢委員序 精彩活動 亮點技術 趨勢焦點
而這前提是,擁有巨大數據模型基 術名詞定義為「基礎模型」(Foundation
礎,透過大量演算解決應用落地的盲點。 Model)革新,才能夠真正涵蓋所有框架。
要想真正實現通用人工智能(Artificial
多模態基礎模型擴張 General Intelligence),視覺(Vision)語
邁向「資源共享」趨勢 言(Language)多模態是必然發展。至少
Irina強調利用模擬數據,提升模型性 站在被ChatGPT掀起的趨勢浪尖,看見大
能。試參考GPT-3運用大量文本數據訓練 型語言模型、語音模型正在大量應用。
模型,大型語言模型成熟度又再升級,另 主軸1》語音基石模型
外,同樣由OpenAI創建的CLIP、DALL-E模 現階段語音基石模 型發展到能 夠理
型,從自然語言學文本的參數描述,進一 解人 類語音,經 過自監 督式 學習(S elf-
步理解生成圖像,多模態任務成果展現在 supervised Learning),可以在不依賴大
跨領域的泛化應用,表現大幅提升。 量標注資料的情況下,執行語音學習相關
根據上述OpenAI大型語言模型(LLM) 任務。有了這項語音模型基礎,臺大電機工
的擴充和優化,Irina觀察到,模型的擴展行 程學系李宏毅副教授大膽推論,就算在全
為具備非線性和非單調特性。現在有學術 球七千多種語言背景,也有機會解決各語言
研究專門針對大規模語言模型,導入海量運 系統背後,大量標註資料的判讀工作。
算訓練,引導模型性能遵循著Chinchilla擴 主軸2》大型語言模型
展法則演進;目前開發的互動式AI系統,已 而關於大型語言模型,除了鎖定人工
能接受圖像、文本輸入,並導出回應。Irina 智慧與知識圖譜、不實資訊免疫工作,更
提示,多模態模型的不同擴展行為,對於 深化視覺語言融合技術,發揮看圖說故
預測AI未來發展,有一定的重要意義。而下 事、機器人視覺認知、吸眼球視覺問題生
一個階段性的里程碑,期待發生大規模計 成能力,衍生互動式監督學習推特資料、
算資源共享,特別是以開放原始碼(Open 謊言偵測、細微情感分析等進階應用。
Source)為工具加速AI模型的分享和應用, 技術面期待從大型語言模型,開展出
以接軌開發更多通用的多模態AI系統。 視覺與語言多模態融合,提供多模態資
料互補完整資訊,參與大型協作過程。
語音、語言、視覺整合 重要的視覺語言模型(Vision- Language
大型模型時代命題 Foundation models)工作項目將涵蓋圖
臺大資訊工程學系暨研究所鄭文皇教 像問答(Visual question answering)、
授帶入跳躍性思考,認為巨大語言模型 圖像描述(Image captioning)、圖像檢
(LLM)、巨大視覺模型(LVM)皆不夠精 索技術(Image- text retrieval)、影片描
準詮釋這波變革浪潮,應該引述鴻海研究 述定位(Video grounding)、視覺常識推
院人工智慧研究所栗永徽所長觀點,將技 理(Visual commonsense reasoning)等
57
ɨʹ
ᒿऎӺ৫ ʫ˖ ᒈැೊᓃ JOEE
ᒿऎӺ৫ ʫ˖ ᒈැೊᓃ JOEE ɨʹ

